Как найти и удалить китайские символы в тексте
09.07.2019
Как в двуязычном документе (китайский и английский) быстро убрать китайский.
Иногда мне присылают на перевод документы, которые написаны на двух языках – китайском и английском. При этом мы знаем, что английский просто дублирует китайский. Естественно, что с родного английского гораздо проще переводить, поэтому надо убрать китайский, чтобы можно было документ в «кошку» загрузить и работать только с английским.
Когда работаешь с языками, в основе которых лежит алфавит, то основная задачу – задать поиск всех букв одного языка, например ([A-Z][a-z]{1;}). При такой формуле будут искаться знаки латинского алфавита в указанном диапазоне. В примере выше Word будет искать слова, начинающиеся с заглавной буквы. Если убрать {1;}, то находиться будут отдельные символы.
Чтобы ввести данную формулу, необходимо в Word выбрать «Найти и заменить» (Ctrl+H), установить галочку на «Подстановочные знаки» и в поле «Найти» ввести искомую формулу.
А, как найти китайские иероглифы?
На помощь пришел сайт http://pinyin.info/news/2016/how-to-find-chinese-characters-in-an-ms-word-document/.
Диапазон азиатских символов задается следующим образом [⺀-■]{1;}
Такая формула дает возможность найти серию китайских иероглифов.
Однако сложность заключается в том, что между иероглифами могут стоять знаки препинания и цифры.
Например, 根据附件4额外收费
Диапазон цифр задается формулой [0-9].
Чтобы найти сочетание выше, в поле «Найти» нужно ввести следующее ([⺀-■]{1;})([0-9])([⺀-■]{1;})
Если вместо цифр между иероглифами стоит другой знак препинания, то его нужно поставить между ([⺀-■]{1;}) вместо ([0-9]).
Поле «Заменить» оставляем пустым, потому что нам в данном случае этот текст не нужен, и мы пытаемся его удалить.
После этого подчищаем оставшиеся артефакты и у нас готовый документ на английском языке, который можно использовать для работы с SDL Studio, например.