dr_trans: (Default)
[personal profile] dr_trans
Сейчас переводил несколько DOCX-файлов. Там всего страниц по 12–15 в файле, текста не больше 2,5 тыс. слов, на каждой странице есть картинки, но размеры каждого файла по 70–90 МБ.

Задумался. Полез искать, кто же там сидит и занимает 4 стула вместо одного.

Обнаружил внутри DOCX огромные BIN-файлы. Это исходники внедренных объектов (чаще всего в форматах более старых версий Офиса, например, перетянутые из 2003), рабочие копии которых в файлах Офиса 2007–2010, как правило, лежат в папке media. И именно файлы из папки media используются для экрана и печати. Чаще всего это картинки в не самом удобном формате BMP дичайшего размера, которым в папке media соответствуют файлы с теми же именами в форматах JPG и PNG (нумерация объектов последовательная от начала файла или в порядке добавления в файл, если файл изменялся непоследовательно).





Если DOCX имеет размер 50–80 МБ, хотя там всего 15 страниц, но есть картинки, то скорее всего такой размер обусловлен наличием этих же картинок в формате BIN (размером по 5-15 МБ каждая) в папке embeddings. Удалил. Все файлы стали примерно по 10–12 МБ. Работоспособность не изменилась.

С другими форматами в этой папке надо быть осторожнее.

Еще почитать: тыц и дрыц.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

dr_trans: (Default)
dr_trans

December 2021

S M T W T F S
   1234
567891011
12131415161718
1920212223 2425
262728293031 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 29th, 2026 10:19 pm
Powered by Dreamwidth Studios