Теги и нубы
Sep. 6th, 2018 10:46 pm
Налицо кривая разметка в DOCX-файле. При просмотре в Word это не видно, это видно в "кошке". Чаще всего возникает при обратной конвертации из PDF в DOCX. 99% этих тегов взаимно отменяющие, т.е. на внешний вид текста не влияют. Всё предложение в оригинале набрано единым шрифтом.Причин болячки много:
• кривая конвертация из PDF, который в принципе не предназначен для reverse engineering, т.к. многое хеширует, а хеш не восстанавливается, как мы знаем;
• иногда сам Word помнит и хранит последовательность изменений форматирования, при этом отображается последний примененный формат, а внутри файла может быть вся история изменений с тегами форматирования и соответствующими тегами отмены этого форматирования (например, человек мог выделить текст жирным, потом передумать, потом выделить курсивом, а потом в конце концов отменить и курсив, и просто подчеркнуть, но все эти попытки и их отмены сохранятся в файле в виде тегов; самое страшное, когда в файле еще включено сохранение версий, тогда могут быть и другие спецэффекты).
Вот исходник, как он отображается в Word:

Представляю, как с хрустом ломались глаза у исполнителя, чтобы нидайбох не пропустить какой-то тег, бгг. Хотя оно никому не надо — достаточно, чтобы все теги просто были и в том же порядке.
В таких случаях надо оставить тег (1) впереди, а все остальные, (2)...(147) собрать в кучу после всего текста, чтобы формальная проверка на "наличие" и "последовательность" не ругалась. И то только в том случае, если таки есть первый тег перед всем текстом — он может задавать формат абзаца. А в нашем случае ВСЕ теги идут в конец сегмента после точки. Так и конкорданс будет лучше работать, чем с рваными словами, которые в принципе не поддаются поиску.
Не забываем перед работой чистить исходники с помощью TransTools.
Чего и вам желаю!