Оптимизация процесса документооборота на иностранных языках с помощью технологий компании ПРОМТ

Александр Андреев, Александр Прохоров

Основы технологии перевода PROMT

Работа с мультиязычными документами в системе PROMT

Технологии автоматизации процесса перевода

   Выбор шаблона тематики документа

   Подключение макросов к системе PROMT

Интеграция функций перевода в офисные приложения

   Перевод в MS Word

   Перевод электронной почты в MS Outlook

   Перевод презентаций в MS PowerPoint

   Перевод PDF

Совместное использование системы перевода PROMT и систем класса Translation Memory (TRADOS)

   Что такое ТМ

   Автоматизированная технологическая цепочка на основе технологий МТ и ТМ

 

Процесс обработки документов в современном офисе можно образно сравнить с конвейером. Только в офисе, в отличие от производственного конвейера, обрабатываются документы: деловые контракты, технические спецификации и описания, корреспонденция и пр. Для компаний, работающих с зарубежными партнерами или клиентами, документооборот сопряжен с проблемой перевода на другие языки. Использование штатных переводчиков или обращение в переводческие бюро не является оптимальным решением проблемы мультиязычного документооборота — в данном случае необходимо использование систем автоматизированного перевода. Безусловным лидером в области разработки систем перевода для русского языка является компания ПРОМТ, которая предлагает 17 направлений перевода для шести европейских языков: английского, немецкого, французского, испанского, итальянского и русского. Поэтому в этой статье мы подробно рассмотрим работу с системами PROMT.

Основы технологии перевода PROMT

Чтобы эффективно использовать систему перевода, полезно хотя бы в общих чертах разобраться в принципах ее работы. Главным компонентом любой системы перевода является ядро, которое содержит модули анализа входного текста (оригинала) и синтеза выходного текста — результата перевода. Именно в ядре закладываются грамматические правила для получения связного текста на выходе.

При разработке систем PROMT был применен совершенно новый подход, суть которого заключалась в построении архитектуры, характерной для кибернетических систем. Оказалось, что очень продуктивно рассматривать систему перевода как некоторую сложную систему, задачей которой является получение результата при произвольных входных данных, то есть для текстов, написанных без соблюдения или с частичным соблюдением грамматических правил, известных системе перевода. Таким образом, вместо общепринятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения (этот подход используется в продуктах американской компании Systran), в основу архитектуры систем PROMT было положено представление процесса перевода как процесса с объектно-ориентированной организацией, основанной на иерархии обрабатываемых компонентов. Это позволило сделать системы PROMT устойчивыми и открытыми, а также обеспечить серьезное конкурентное преимущество по сравнению с другими системами перевода.

Другим базовым компонентом системы перевода является словарная база. Словари должны содержать достаточное количество специальной информации, на основе которой и работает система. Разумеется, данная информация тесно связана с моделями и алгоритмами, заложенными в ядре системы переводов. Качество словаря для системы перевода определяется не только количеством содержащихся в нем словарных статей, но и возможностью словаря распознать максимальное количество слов из текста. Для этого в системах семейства PROMT используется уникальная по полноте морфологическая модель, которая обеспечивает распознавание максимального количества типов словоизменений для всех поддерживаемых языков. Множество окончаний для каждого языка хранится в виде древовидных структур, что предоставляет не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

В начало В начало

Работа с мультиязычными документами в системе PROMT

Процесс обработки мультиязычных документов в современном офисе рассмотрим на примере работы с системой PROMT XT Office, выпущенной в апреле этого года. Базовой программой пакета является лингвистический редактор PROMT, который не только позволяет переводить документы, проводить настройку на тематику документа, но и предоставляет обширные возможности редактирования текста, практически не уступая в этом популярному редактору Word (рис. 1).

Программа поддерживает практически все текстовые форматы: документы Word 6.0/97/2000/XP, RTF, HTML и, конечно, TXT. Таким образом, программа позволяет выполнить перевод любого текстового файла. Размер файла не ограничен — PROMT переведет документ любого размера, а ограничением в данном случае являются только ресурсы самого компьютера. Скорость перевода составляет 1-2 страницы в секунду, поэтому перевод даже весьма объемного документа займет считанные секунды.

Программу-переводчик можно использовать в двух режимах: без настроек (для быстрого перевода, что позволяет оперативно понять смысл текста) или с использованием обширных возможностей настройки (для получения более качественного и корректного перевода). В первом случае вполне достаточно словарного запаса общего словаря, поставляемого вместе с программой. К тому же для большинства неспециализированных текстов, то есть содержащих минимальное количество специальной лексики, PROMT обеспечивает весьма достойное качество перевода с минимальной настройкой.

Проведение настройки необходимо при работе со специализированными текстами, содержащими специальную лексику. PROMT XT Office предлагает следующие возможности настройки:

  1. Подключение специализированных словарей. ПРОМТ предлагает большое количество специализированных словарей — как по отдельности, так и объединенных в тематические коллекции (в списке предлагаемых специализированных словарей уже более 100 позиций). Результат подключения специализированного словаря (использовался словарь «Финансы») показан в таблице.
  2. Создание собственных словарей и установка приоритетов словарей. Несмотря на колоссальное количество предлагаемых специализированных словарей, охватить все сферы человеческой деятельности невозможно. Поэтому пользователям предоставляется возможность создавать и пополнять собственные словари. Для этой цели в PROMT XT Office используется программа «Редактор словарей», с помощью которой пользователь может просматривать содержание пользовательских словарей, редактировать созданные словари, а также осуществлять поиск терминов. При работе с большим списком специализированных и собственных словарей важно обращать внимание на выбор приоритетов словарей, поскольку система в первую очередь обращается к словарям, занимающим более высокое положение, то есть имеющим более высокий приоритет.
  3. Использование механизма ассоциированной памяти (АП). Многие деловые документы содержат часто встречающиеся одинаковые обороты и даже фрагменты текста. Во избежание пустой траты времени и ресурсов логично сохранять грамотные переводы часто употребляемых фрагментов текста, чтобы в дальнейшем система подставляла уже готовый перевод. В системе PROMT XT Office это можно сделать с помощью механизма ассоциированной памяти (АП). В базе переводов АП параллельно сохраняются сегменты оригинального и переведенного текстов, поэтому при переводе текста PROMT первым делом проверяет наличие совпадающих сегментов в базе АП и подставляет найденные переводы в результирующий текст. Таким образом обеспечиваются возможности обучения системы и сохранения результатов труда пользователя для последующего применения. Работать с базой переводов АП можно непосредственно из окна PROMT с помощью меню АП либо используя программу «Менеджер Ассоциированной Памяти».
  4. Резервирование слов. PROMT позволяет резервировать (то есть выключать из процесса перевода) слова. Это полезно делать для собственных имен, географических названий, адресов электронной почты и адресов в Интернете. Команда «Перевод|Зарезервировать» открывает окно, в котором следует указать резервируемое слово и выбрать его класс. Резервируемое слово можно также транслитерировать. Кроме того, можно указать форматные признаки, например шрифт и размер, и тогда система будет резервировать указанное слово только в том случае, если в тексте оно встречается с указанными форматными признаками.

    Для некоторых случаев будет полезна функция «Расширенное резервирование», позволяющая зарезервировать сразу все слова в тексте, обладающие определенными форматными признаками. Например, можно зарезервировать все слова в тексте, выделенные курсивом.

  5. Выбор алгоритмов перевода. PROMT позволяет настраивать некоторые лингвистические алгоритмы, которые использует программа-переводчик. Для каждого направления перевода существует свой список лингвистических алгоритмов, которые могут настроить пользователи. Команда «Тематика|Алгоритмы перевода документа» открывает окно со списком алгоритмов перевода для текущего направления перевода. Например, для англо-русского направления перевода можно выбрать, как будет переводиться местоимение «you» — как «Вы», «вы» или «ты».

Все выполненные настройки системы перевода можно сохранить в шаблоне тематики, чтобы в дальнейшем использовать его для перевода других документов (для этого служит команда «Тематика|Сохранить как шаблон тематики»). Сохраненные настройки также можно перенести на другой компьютер или предоставить в распоряжение других пользователей (например, сделать корпоративным шаблоном для перевода контрактов).

В начало В начало

Технологии автоматизации процесса перевода

Для повышения эффективности работы с системой PROMT можно автоматизировать ряд рутинных операций.

В начало В начало

Выбор шаблона тематики документа

Для этого в системе PROMT XT Office имеются два механизма: автоматическое и полуавтоматическое определение шаблона тематики. По умолчанию включен режим автоматического выбора шаблона тематики, который можно вызвать командой «Тематика|Автоматическое определение шаблона тематики». PROMT автоматически подбирает шаблон для перевода документа (технология SmarTopic). При этом производится сравнение текста документа со специальными выборками из словарной базы специализированных словарей. В результате система подберет наиболее подходящий шаблон для перевода данного документа. Основное преимущество этого режима заключается в отсутствии необходимости предварительной настройки системы.

Режим полуавтоматического выбора обеспечивает более гибкий режим подбора тематики. Как и в автоматическом режиме, критерием выбора являются ключевые слова, но в данном случае пользователь может самостоятельно создавать и редактировать список ключевых слов (технология KeyWords). Для добавления ключевых слов воспользуйтесь командой «Сервис|Шаблоны тематики», а затем выберите нужное направление перевода. В открывшемся окне щелкните по кнопке «Команды» и выберите «Ключевые слова». В этом окне можно ввести слова вручную или загрузить их из текстового файла. Для активизации режима полуавтоматического определения тематики откройте «Сервис|Параметры» и поставьте переключатель «Полуавтоматическое (по ключевым словам)» на вкладке «Разное».

В начало В начало

Подключение макросов к системе PROMT

  • Средство встраивания сценариев в программу PROMT предоставляет пользователям возможность подключать к процессу перевода макросы для анализа и модификации исходного текста до перевода, а также переведенного текста. Макросы могут быть написаны на любом из скриптовых языков, поддерживаемых операционной системой, например с помощью VBScript, Javascript, Perl и др. В тексте макроса можно использовать объектную модель лингвистического редактора PROMT для доступа к исходному тексту, тексту перевода, а также к специальной информации о связанных фрагментах исходного текста и текста перевода. Вместе с системой PROMT XT Office устанавливаются несколько примеров макросов, с помощью которых можно автоматизировать следующие операции:
  • выделение искомого слова по всему тексту;
  • резервирование произвольных конструкций (например, фрагментов программного кода, комментариев);
  • обработку разреженного текста перед переводом;
  • специальное резервирование слов, начинающихся с большой буквы;
  • замену перевода на текст, подставленный макросом.

На основе этих примеров и специального файла справки с описанием объектной модели лингвистического редактора пользователь может создавать собственные макросы для выполнения специфических задач.

Для подключения макроса используйте команду «Тематика|Макрос документа».

В начало В начало

Интеграция функций перевода в офисные приложения

Перевод в MS Word

Приложения MS Office настолько прочно обосновались на компьютерах в большинстве офисов, что де-факто превратились в стандартные средства работы с документами. Для облегчения доступа к функциям перевода PROMT XT Office встраивает эти функции во все приложения MS Office 2000/XP (рис. 2). Выбор приложений, в которые будут интегрированы функции перевода, осуществляется с помощью утилиты «Настройка SmarTool».

После инсталляции PROMT XT Office в текстовом редакторе MS Word появляются дополнительная панель инструментов и пункт в верхнем меню, позволяющие обращаться к функциям перевода и настраивать систему перевода, не покидая окна редактора. Благодаря этому пользователь получает возможность работать с текстами и сразу же их переводить. Перевод можно поместить в новый документ или заменить исходный текст.

В окне «Настройка перевода» (меню «PROMT|Параметры перевода») можно настроить параметры процесса перевода (вкладка «Перевод»), выбрать режим определения тематики (автоматическое, полуавтоматическое или отключено) и папки, файлы из которых система будет переводить с заранее заданными параметрами (SmartFolders).

В начало В начало

Перевод электронной почты в MS Outlook

Электронная почта давно уже превратилась в мощное коммуникационное средство, позволяющее оперативно обмениваться информацией и решать деловые вопросы практически независимо от местонахождения адресатов. При общении с зарубежными партнерами требуется такой же оперативный перевод электронных сообщений, поэтому PROMT XT Office интегрирует функции перевода в MS Outlook, что позволяет переводить письма, не покидая почтовой программы. При этом перевод также сохраняется в виде электронного письма, которое можно поместить в папки программы (рис. 3).

Для автоматизации обработки входящей корреспонденции система позволяет задать правила перевода новой почты (команда «PROMT|Параметры перевода», вкладка «Новая почта»). Поступающие письма будут автоматически переводиться в соответствии с заданными параметрами и маршрутизироваться в указанную папку.

В начало В начало

Перевод презентаций в MS PowerPoint

Если вам нужно перевести иностранную презентацию на русский язык, то эта проблема решается элементарно благодаря интеграции переводчика в MS PowerPoint. В PowerPoint, как и в остальные приложения MS Office, интегрируются меню PROMT и панель инструментов. Это позволяет переводить как отдельные текстовые блоки презентации, так и презентации целиком.

В начало В начало

Перевод PDF

Формат PDF настолько широко распространен, что его вполне можно считать офисным. В частности, данный формат используется для распространения технических описаний и финансовой документации. Однако если поддержка других текстовых форматов в системах перевода появилась давно, то системы PROMT научились переводить PDF только в этом году. Это объясняется тем, что PDF является не текстовым, а графическим форматом. Поэтому программа-переводчик при обработке такого файла вынуждена как бы разбирать его на составляющие, отдельно выделяя текстовую часть.

Чтобы подключить функции перевода к Adobe Acrobat или к Acrobat Reader, запустите утилиту «Настройка PROMT Plug-in for Acrobat» (для подключения функций перевода в системах Windows NT/2000/XP вам необходимо иметь права администратора), в которой следует указать программы, куда будут встроены функции перевода. После выполнения настроек в окне программы Adobe Acrobat или Acrobat Reader в меню Plug-ins добавится подменю «Перевод текста», содержащее команды управления переводом, а на панели инструментов появится кнопка для перевода текста.

При работе с Adobe Acrobat переведенный текст можно вставить в PDF-документ в виде аннотации (note), для чего следует выбрать команду «Plug-ins|Перевод текста|Перевести и вставить в виде заметки».

В начало В начало

Совместное использование системы перевода PROMT и систем класса Translation Memory (TRADOS)

Что такое ТМ

Наряду с использованием технологии автоматизированного перевода для автоматизации процессов обработки документов на различных языках используется технология Translation Memory (TM). Система ТМ, в отличие от систем перевода, ничего не переводит, а работает по принципу накопления: в процессе перевода сохраняются исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система разбивает текст на сегменты и сравнивает их с сохраненными в базе. Если идентичный или подобный исходному сегмент найден, он отображается вместе с переводом и с указанием совпадений в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Переводчик принимает решение: редактировать, отклонить или принять перевод. Каждое изменение или новый перевод сохраняются в ТМ. В результате нет необходимости дважды переводить одно и то же предложение.

Наиболее известными системами ТМ являются системы TRADOS (компания TRADOS, Inc.) и Transit (компания Star AG), причем TRADOS уверенно занимает лидирующие позиции на рынке систем ТМ. В нашей стране эксклюзивным поставщиком (VAR, value added reseller) продукции компании TRADOS является компания ПРОМТ. Стоит отметить, что системы Translation Memory представляют собой весьма сложное программное обеспечение, поэтому для их эффективного использования рекомендуется пройти специальное обучение на курсах, которые проводит компания ПРОМТ для пользователей TRADOS.

В начало В начало

Автоматизированная технологическая цепочка на основе технологий МТ и ТМ

Для повышения эффективности процесса обработки больших объемов документации компания ПРОМТ создала интегрированную технологию, которая объединяет преимущества системы ТМ TRADOS и системы автоматизированного перевода (МТ) PROMT.

Весь технологический процесс представлен на рис. 4. На первом этапе с помощью продукта PROMT Terminology Manager (PROMT TerM) выполняются следующие процессы: извлечение терминологии из исходного текста, подсчет частотности слов и словосочетаний в анализируемых документах и составление терминологических списков. На базе созданных терминологических списков создаются (или пополняются) пользовательские словари для системы PROMT. Затем программа TM анализирует текст и подставляет переведенные фрагменты из базы переводов. После этого непереведенные фрагменты переводятся системой PROMT XT Office и пополняется база TRADOS. На заключительном этапе производится постредактирование текста.

Взаимодействие систем TRADOS и PROMT осуществляется посредством программы PROMT for TRADOS (P4T), которая отправляет в PROMT фрагменты текста, перевод которых отсутствует в базе TRADOS, и затем записывает переведенные фрагменты в базу TM.

Ключевой особенностью данной технологии является интеграция современных лингвистических решений, что позволяет организовать автоматизированную технологическую цепочку. Использование такой технологии дает возможность оптимизировать труд редакторов и переводчиков, повысить качество и скорость перевода, обеспечить единообразие стиля при переводе документации.

КомпьютерПресс 9'2002