+7 (3952) 983037

Как найти и удалить китайские символы в тексте

09.07.2019

Как в двуязычном документе (китайский и английский) быстро убрать китайский.




Иногда мне присылают на перевод документы, которые написаны на двух языках – китайском и английском. При этом мы знаем, что английский просто дублирует китайский. Естественно, что с родного английского гораздо проще переводить, поэтому надо убрать китайский, чтобы можно было документ в «кошку» загрузить и работать только с английским.

Когда работаешь с языками, в основе которых лежит алфавит, то основная задачу – задать поиск всех букв одного языка, например ([A-Z][a-z]{1;}). При такой формуле будут искаться знаки латинского алфавита в указанном диапазоне. В примере выше Word будет искать слова, начинающиеся с заглавной буквы. Если убрать {1;}, то находиться будут отдельные символы.

Чтобы ввести данную формулу, необходимо в Word выбрать «Найти и заменить» (Ctrl+H), установить галочку на «Подстановочные знаки» и в поле «Найти» ввести искомую формулу.

А, как найти китайские иероглифы?

На помощь пришел сайт http://pinyin.info/news/2016/how-to-find-chinese-characters-in-an-ms-word-document/.

Диапазон азиатских символов задается следующим образом [⺀-■]{1;}

Такая формула дает возможность найти серию китайских иероглифов.

Однако сложность заключается в том, что между иероглифами могут стоять знаки препинания и цифры.

Например, 根据附件4额外收费

Диапазон цифр задается формулой [0-9].

Чтобы найти сочетание выше, в поле «Найти» нужно ввести следующее ([⺀-■]{1;})([0-9])([⺀-■]{1;})

Если вместо цифр между иероглифами стоит другой знак препинания, то его нужно поставить между ([⺀-■]{1;}) вместо ([0-9]).

Поле «Заменить» оставляем пустым, потому что нам в данном случае этот текст не нужен, и мы пытаемся его удалить.

После этого подчищаем оставшиеся артефакты и у нас готовый документ на английском языке, который можно использовать для работы с SDL Studio, например.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

*


× 1 = четыре