Сейчас переводил несколько DOCX-файлов. Там всего страниц по 12–15 в файле, текста не больше 2,5 тыс. слов, на каждой странице есть картинки, но размеры каждого файла по 70–90 МБ.
Задумался. Полез искать, кто же там сидит и занимает 4 стула вместо одного.
Обнаружил внутри DOCX огромные BIN-файлы. Это исходники внедренных объектов (чаще всего в форматах более старых версий Офиса, например, перетянутые из 2003), рабочие копии которых в файлах Офиса 2007–2010, как правило, лежат в папке media. И именно файлы из папки media используются для экрана и печати. Чаще всего это картинки в не самом удобном формате BMP дичайшего размера, которым в папке media соответствуют файлы с теми же именами в форматах JPG и PNG (нумерация объектов последовательная от начала файла или в порядке добавления в файл, если файл изменялся непоследовательно).


Если DOCX имеет размер 50–80 МБ, хотя там всего 15 страниц, но есть картинки, то скорее всего такой размер обусловлен наличием этих же картинок в формате BIN (размером по 5-15 МБ каждая) в папке embeddings. Удалил. Все файлы стали примерно по 10–12 МБ. Работоспособность не изменилась.
С другими форматами в этой папке надо быть осторожнее.
Еще почитать: тыц и дрыц.
Задумался. Полез искать, кто же там сидит и занимает 4 стула вместо одного.
Обнаружил внутри DOCX огромные BIN-файлы. Это исходники внедренных объектов (чаще всего в форматах более старых версий Офиса, например, перетянутые из 2003), рабочие копии которых в файлах Офиса 2007–2010, как правило, лежат в папке media. И именно файлы из папки media используются для экрана и печати. Чаще всего это картинки в не самом удобном формате BMP дичайшего размера, которым в папке media соответствуют файлы с теми же именами в форматах JPG и PNG (нумерация объектов последовательная от начала файла или в порядке добавления в файл, если файл изменялся непоследовательно).


Если DOCX имеет размер 50–80 МБ, хотя там всего 15 страниц, но есть картинки, то скорее всего такой размер обусловлен наличием этих же картинок в формате BIN (размером по 5-15 МБ каждая) в папке embeddings. Удалил. Все файлы стали примерно по 10–12 МБ. Работоспособность не изменилась.
С другими форматами в этой папке надо быть осторожнее.
Еще почитать: тыц и дрыц.
no subject
Date: 2015-03-26 04:11 pm (UTC)no subject
Date: 2015-03-26 04:16 pm (UTC)no subject
Date: 2015-03-27 02:19 pm (UTC)no subject
Date: 2015-03-27 03:46 pm (UTC)no subject
Date: 2015-03-28 12:33 am (UTC)no subject
Date: 2015-03-28 09:18 am (UTC)no subject
Date: 2015-03-28 09:27 am (UTC)no subject
Date: 2015-03-28 09:34 am (UTC)no subject
Date: 2015-03-28 09:43 am (UTC)no subject
Date: 2015-03-28 10:02 am (UTC)Танцевать надо от параметров печати. Если нам нужна фотография 9х13 см, то это будет 3,5"х5". Дальше смотрим возможности принтера. Допустим, 300 dpi, и готовим ему файл 1050х1500 пкс. Меньше — потеря четкости. Больше — избыточные данные, которые все равно усекаются, и опять потеря четкости. Так что твое 600х800 будет не пришей кобыле хвост.
А когда ресайзит Ворд, то он уже знает абсолютный размер, поэтому адекватно вычисляет необходимое количество пикселей.
no subject
Date: 2015-03-28 10:14 am (UTC)... для ПЕЧАТИ. Многое ли из зафайленного для нее предназначено? (а еше меньше - заслуживает)
no subject
Date: 2015-03-28 10:24 am (UTC)Этого хватает с головой.
no subject
Date: 2015-03-28 10:44 am (UTC)no subject
Date: 2015-03-28 11:26 am (UTC)no subject
Date: 2015-03-28 11:41 am (UTC)no subject
Date: 2015-03-28 11:46 am (UTC)no subject
Date: 2015-03-28 11:50 am (UTC)no subject
Date: 2015-03-28 11:52 am (UTC)no subject
Date: 2015-03-28 11:52 am (UTC)no subject
Date: 2015-03-28 11:57 am (UTC)no subject
Date: 2015-03-28 11:59 am (UTC)