+7 (3952) 983037

Сравнение Infix и Word для подготовки файла PDF к переводу

20.09.2016

Перевод файлов PDF с использованием переводческих баз – одна из наиболее интереснейших задач в нашей отрасли. Несмотря на то, что последние версии переводческого ПО предлагают возможность перевода как редактируемых, так и нередактируемых PDF файлов непосредственно в своей среде, на выходе зачастую получается результат, не соответствующий ожиданиям (переведенный таким образом текст бывает сложно отредактировать, программа произвольно сегментирует текст, в результате чего одинаковые сегменты не находятся в схожих файлах). В связи с этим приходится искать другие способы работы с такими файлами.

Чтобы добиться поставленной цели, необходимо преобразовывать файл в редактируемый формат, с которым САТ-программы нормально работают. Для нас это хорошо известные программы из пакета MS Office – Word, Excel, PowerPoint и т.д. Подготовка файла до перевода в САТ программе позволяет обеспечить правильную сегментацию, а это очень важно для работы с базами. Однако трудозатратность метода заставляет искать новые способы решения задачи.

Недавно в качестве альтернативы была опробована программа Infix, которая позволяет, как напрямую редактировать файл PDF, так и извлекать из него информацию для перевода в программах типа SDL Studio, MemoQ и т.д. Вторая функция представляется более привлекательной, поскольку позволяет решить задачу использования переводческих баз, минуя фазу конвертации в Word. В ходе работы, однако, были отмечены некоторые трудности при работе с разными видами файлов, что не позволяет назвать эту программу универсальным решением для подготовки файлов PDF. В данной статье хотелось бы сравнить возможности подготовки и перевода различных файлов в формате PDF с помощью программы Infix и Word.

В ходе своей работы мне приходилось иметь дело с чертежами, каталогами оборудования и обычными текстовыми документами, оформленными в виде PDF файлов. Такие документы поступали на перевод либо в редактируемом, либо в нередактируемом формате. Все они подготавливались для перевода в программе САТ либо с помощью Word, либо Infix.

I. Логика работы при подготовке файлов в Infix.

1. Распознавание в FineReader

Требуется только, если файл в нередактируемом формате.

2. Шрифты

Шрифты, которые использовались при составлении файла, могут отсутствовать на вашем компьютере, поэтому после начала работы в Infix начнут вылезать предупреждения об отсутствии необходимого шрифта. Нужно либо заменять такие шрифты на системные, либо загружать нужный шрифт из интернета.

3. Разметка текстовых блоков

Infix не всегда верно сегментирует предложения. Нужно вручную просматривать и проверять, чтобы текст не выходил за рамки выделенных блоков.

Насчет перевода чертежей в формате PDF хотелось бы отметить, ранее для их перевода приходилось копировать чертеж в Word и выполнять перевод методом наложения надписей, либо переводить его в программе Photoshop или аналогичной ей. И тот и другой методы очень трудоемки, поскольку в первом случае приходится обрабатывать каждую надпись, а второй подразумевает знание программ для работы с графикой. Вышеуказанные методы не позволяют использовать базы переводов.

4. Экспорт в формат xml или txt

Нужно для перевода в CAT-программе. При экспорте файлов большого объема в формат xml возникала незнакомая ошибка, которая не позволяла открыть файл в САТ-программе. В результате приходилось экспортировать в txt, после чего нужно было еще потратить время на дополнительную разметку файла для правильного отображения в Studio.

5. Перевод в САТ-программе (Studio, MemoQ и др)

6. Импорт обратно в файл PDF

7. Выравнивание/проверка текстовых блоков после импорта

В целом конечный результат работы выглядит очень красиво и эффектно. Однако не всегда есть возможность потратить такое количество времени и сил на то, чтобы наслаждаться таким результатом. Были отмечены, тем не менее и положительные стороны работы.

Ошибка с xml возникала в случае с очень большим файлом (более 100 страниц). Чертежи (объемом до 10 страниц) удавалось сделать с минимальными затратами времен и сил. По-видимому, небольшое количество информации, позволяло удачно экспортировать текст в формат xml, который без труда был воспринят SDL Studio.

Учитывая то, что затраты на перевод чертежей объективно несколько выше, чем затраты на перевод обычных текстовых файлов, и при отсутствии достойной альтернативы способа перевода чертежей в формате PDF (перевод оригиналов чертежей в формате dwg мы не рассматриваем), я считаю, что использование Infix при работе с чертежами вполне оправдано и заслуживает внимания. При этом есть возможность выгрузить текст и отправить его переводчику, который не имеет навыка работы с чертежами или PDF файлами, а также есть возможность использовать предыдущие наработки.

Плюсы и минусы Infix

Плюсы:

1)      Практически полное сохранение формата исходного документа

2)      Возможность перевода в САТ-программе

Минусы:

1)      После перевода в САТ-программе и импорта обратно в документ, необходимо просматривать документ еще раз, чтобы подправить текстовые блоки. При работе с объемным документом несмотря на возможность поиска и замены это занимает достаточно много времени.

2)      Infix работает с таблицами как графическими объектами, в результате весь текст приходится вписывать в существующие ячейки. Кроме того, иногда текст, идущий вплотную к границе таблице, распознается как подчеркнутый, что может привести к исчезновению границы таблицы, если текст смещается. Форматирование нарушается.

3)      При экспорте больших документов в xml и после загрузки такого документа для перевода в SDL Studio может возникать ошибка, которая, при отсутствии опыта работы с xml, выглядит непреодолимым препятствием. Приходилось импортировать файл в формат txt. Это требует дополнительных затрат времени, поскольку необходимо вручную прятать теги и сегментировать текст. При отсутствии навыков автоматизации работы в Word это очень трудоемко.

II. Логика работы при подготовке файла в Word

1. Распознавание в ABBYY Finereader

В отличие от логики подготовки в Infix здесь это обязательный шаг. Он подразумевает разметку текстовых блоков, проверку орфографии, чтобы избежать неправильно распознанные символы и потерю значимых кусков текста, и после этого – экспорт текста в документ Word. Разметку лучше делать вручную, потому что в автоматическом режиме блоки распознаются неточно. Из всех вариантов экспорта лучше всего «Простой текст», потому что FineReader не всегда удается воспроизвести форматирование так, как надо.

2. Работа в Word

Основная задача здесь – воссоздание форматирования. Лучше вручную с использованием стилей. Создание шаблона Word при этом позволяет значительно экономить время на подготовке файла к переводу. Это оправдано при наличии нескольких однотипных файлов с одинаковым форматированием. Но и для одиночных файлов тоже подходит, потому что нумерация, заголовки, отступы, как правило есть во всех документах. Нужно будет только немного менять их форматирование, а горячие клавиши заметно ускоряют процесс.

В результате получается документ полностью готовый к переводу в САТ-программе, форматирование которого не нарушается после выгрузки из программы перевода.

Плюсы и минусы подготовки в Word

Плюсы:

1. Простота форматирования.

Минусы:

1. Время на распознавание в FineReader и разметку текста в Word.

2. Форматирование может отличаться от оригинала

Вывод

Учитывая временные затраты и трудности, которые возникли у меня при подготовке текстовых файлов и буклетов в Infix по сравнению с затратами на подготовку файла в Word, мне кажется целесообразным использовать для этой цели Word.

В то же время из-за отсутствия достойной альтернативы способу подготовки чертежей в формате PDF для перевода в САТ-программе, я считаю, что такие файлы лучше подготавливать в программе Infix.

P.S. Пол Филкин в своей статье недавно анонсировал возможность последней версии Infix экспортировать текст в формат xliff. Это значительное достижение компании, тем не менее, шаги по разметке текста и проверке его после импорта обратно в файл остаются. Думаю, что если представится такая возможность, то эту новую функцию программы я испытаю и как только будет результат, я о нем сообщу.

Возможно вам также понравиться:

One Response to Сравнение Infix и Word для подготовки файла PDF к переводу

  1. Очень полезно! Применила в своей работе