Настройка — залог качественного перевода
Что нам стоит PROMT настроить?
Дополнительные возможности настройки
Всем известно, что компьютерный переводчик не способен конкурировать с профессиональным переводчиком-человеком по качеству перевода. И это не удивительно, ведь машина руководствуется ограниченным набором придуманных алгоритмов и правил, а ее функциональные возможности никогда не сравнятся с человеческим интеллектом. Кроме того, в любом языке, будто в живом организме, постоянно происходят изменения, которые затрагивают не только лексический состав, но стилистику — социальную, возрастную, профессиональную. Однако настройка программы-переводчика позволяет существенно улучшить так называемый черновой перевод. В настоящей статье мы хотим на конкретном примере доказать читателям, что грамотно настроенный машинный переводчик позволяет получать хорошие результаты.
Машинный перевод сегодня
В настоящее время на мировом рынке систем машинного перевода (МП) представлено несколько производителей международного масштаба, а на локальных рынках существуют компании помельче. Более подробно о разработчиках систем машинного перевода рассказывается в статье «Соревнование электронных переводчиков: кто сильнее?» (см. № 12’2005 ), в которой приводятся результаты сравнительного тестирования разных продуктов. Первое место в тесте занял переводчик российской компании ПРОМТ (www.promt.ru), предлагающей уже седьмое поколение компьютерных переводчиков, возможности которых охватывают спектр от перевода простых текстов или электронных писем до специализированных текстов в форматах Microsoft Office 2003 или XML. Системы PROMT с легкостью справляются с переводом простых текстов, а перевод сложных технических документов вообще является их коньком. Программа осуществляет перевод для семи европейских языков: английского, немецкого, французского, испанского, итальянского, португальского и русского.
В сравнительном тестировании также были отмечены переводчик французской компании Systran (www.systransoft.com) и программный продукт Pragma украинского производителя Trident (www.trident.com.ua).
Пакет Systran может либо функционировать как отдельное приложение, либо встраиваться в Microsoft Word, Excel, Outlook, Internet Explorer или PowerPoint. Он содержит дополнительные настройки для улучшения качества перевода, осуществляет автоматическую проверку орфографии оригинала текста, пакетный перевод файлов. Явным преимуществом системы является наличие большого числа языковых пар, в том числе восточноазиатских языков (корейского, китайского, японского).
Программа Pragma обеспечивает гораздо меньше языковых направлений перевода по сравнению с PROMT и Systran — с aнглийского, русского, немецкого, украинского и латышского языков. Эта вспомогательная программа встраивается в большинство приложений (Microsoft Word, Outlook, Internet Explorer, WorDpad и др). Переводчик имеет около 100 специализированных словарей, а также возможность создания пользователем собственных словарей. В комплект Pragma также входит приложение для быстрого перевода.
Если в публикации «Соревнование электронных переводчиков: кто сильнее?» мы пытались определить лидера, то в настоящей статье поговорим о том, как настроить программу для получения оптимального результата.
Что нам стоит PROMT настроить?
Рассмотрим приемы эффективной настройки машинного перевода на примере российской системы перевода PROMT Professional 7.0. Возьмем произвольный текст с западного новостного сайта и попробуем на практике проверить заявления разработчиков о том, что настройка позволяет существенно улучшить качество перевода.
Для примера нами был выбран текст с сайта зарубежного информационного агентства из раздела деловых новостей (см. таблицу). Чтобы сравнить качество перевода, сначала сделаем перевод без каких-либо настроек. Затем поэтапно выполним рекомендуемые разработчиками настройки и в финале сравним два перевода: машинный перевод без настроек и машинный перевод с подключенными настройками.
Основные этапы настройки
Итак, сначала переведем текст без каких-либо дополнительных настроек: загрузим текст в окно программы-переводчика и нажмем кнопку Перевести. Посмотрим на результат перевода. Как видим, некоторые выражения получились довольно корявыми, например «он сломал правила фондовой биржи» или «доли фирмы кувыркались на 65%». Тем не менее сделанный перевод в целом понятен и передает смысл исходного текста. Если бы ставилась задача понять смысл текста, такое качество было бы вполне приемлемым. Однако, по заявлениям разработчиков, помимо чернового перевода машинный переводчик способен выдавать качественный перевод, если приложить ряд усилий по его настройке. Такие заявления, как правило, вызывают сомнения, тем более что пользователи наверняка помнят различные перлы машинного перевода, многие из которых уже стали притчей во языцех.
Посмотрим, насколько настройка может улучшить качество перевода.
Сначала необходимо зарезервировать слова, не требующие перевода, например имена и фамилии, географические названия или наименования фирм. После перевода система оставит их без изменения, а в случае необходимости транслитерирует (отобразит символами выходного языка). В нашем случае необходимо зарезервировать название компании Livedoor.
Для этого щелкните по слову и выберите в контекстном меню команду Резервировать или нажмите комбинацию клавиш Ctrl+F8 (рис. 1). В результате после перевода название Livedoor останется без изменений, а в случае транскрипции превратится в Ливдор.
Рис. 1. Резервируем название фирмы Livedoor
Следующий этап настройки системы — работа со словарями. Для данного текста подойдет готовый специализированный словарь «Коммерция» компании ПРОМТ, содержащий необходимый набор терминов по бизнес-тематике. Если такого словаря у вас нет, можно использовать собственный пользовательский словарь. Отметим, что пустой пользовательский словарь поставляется вместе с системой. При желании пользователь может самостоятельно создать неограниченное количество пользовательских словарей, например специальный словарь по каждой переводимой тематике. В случае необходимости словарь может быть защищен паролем. Кроме того, можно загрузить пользовательские словари из архива словаря, созданного в любом другом приложении семейства PROMT 7.0 или в более ранних версиях программы.
В нашем примере система не знает, что словосочетание «celebrated personality» может переводиться как «известная личность» (без подключения пользовательского словаря система перевела это выражение как «знаменитая индивидуальность»). Поэтому данное словосочетание необходимо занести в словарь. Для создания нового пользовательского словаря в меню Тематика лингвистического редактора PROMT выберем пункт Словари документа либо нажмем соответствующую кнопку на панели инструментов. В открывшемся окне появится список словарей заданного направления перевода. Нажмем кнопку Создать новый и, заполнив необходимые поля (название, права копирования, комментарий), кнопку ОК.
Для занесения в словарь новых слов/словосочетаний в редакторе PROMT достаточно выделить слово и выбрать команду Перевод -> Словарная статья или нажать клавишу F8, открыть меню Статья, выбрать команду Добавить и в появившемся диалоговом окне указать исходное слово или словосочетание (в нашем случае — celebrated personality). При работе со словарем рекомендуется выбирать уровень доступа «Профессионал» в нижней части диалогового окна — в этом случае пользователь имеет больше прав для занесения всей необходимой информации по словарной статье. Для добавления слова или словосочетания система предлагает пошаговую процедуру ввода всей необходимой информации о нем (род, часть речи, число и т.д.).
Для выполнения более сложных операций над словарями, например для работы с алфавитным списком словаря, операций поиска в словаре, ввода в словарь статей из файла глоссария и т.д., рекомендуется использовать специальное приложение «Редактор словарей».
Следующий этап настройки системы — выбор корректных вариантов перевода многозначных слов (слов, имеющих несколько вариантов перевода для одной части речи). Слова с вариантами перевода из генерального словаря подчеркиваются линией синего цвета, а слова с вариантами перевода из пользовательского словаря — фиолетовой (рис. 2).
Рис. 2. Окно редактора PROMT с исходным текстом и переводом
Для выбора индивидуального цвета подчеркивания воспользуйтесь командой Сервис -> Параметры в окне Настройка параметров программы на вкладке Редактор.
Для выбора варианта перевода щелкнем по слову с подчеркиванием, и в контекстном меню выберем команду Варианты перевода и установим контекстно-корректные переводы. Например, глагол «broke» в данном случае правильнее перевести как «нарушил» (а не «сломал» правила биржи), слово «share» в данном контексте означает «акции», а не «доли» и т.д. При выборе необходимого варианта перевода в пользовательский словарь будет автоматически добавлена соответствующая словарная статья, в которой этот перевод будет на первом месте. Таким образом, при повторном переводе нужный вариант будет взят из пользовательского словаря.
После выполнения этой настройки можно отключить режим отображения вариантов перевода (меню Вид –> Показывать варианты перевода), так как дополнительные варианты перевода слов нам больше не нужны.
Выбор семантики (значения) для существительных также является необходимым шагом настройки переводчика. Например, система предлагает семантические классы «Имя», «Деятельность», «География» и т.д. Выбор необходимого класса существительного обеспечивает корректный выбор системой варианта перевода. В нашем случае необходимо выбрать семантический класс «Одушевленное» для слова «head», которое в нашем тексте должно переводиться как «глава», подразумевая человека — руководителя японской Интернет-компании. Для изменения семантического класса достаточно открыть словарную статью и выбрать в окне Семантика раздел Одушевленное из выпадающего списка (щелкнув предварительно по кнопке с треугольником), после чего нажать ОК для сохранения измененных настроек.
Еще один важный этап — работа с активными и неактивными вариантами перевода. Архитектура словарей системы PROMT позволяет разделить все варианты перевода слов на две части: активные, то есть реально используемые программой в процессе перевода, и неактивные (дополнительные), которые присутствуют в словаре, но не применяются для формирования перевода. Такое разделение не является статическим: любой активный вариант перевода можно перенести в список неактивных (и наоборот) путем изменения его статуса. В нашем тексте существительное «allegations» должно переводиться как «обвинения» (рис. 3). Однако изначально эта словарная статья имеет только один активный перевод — «утверждения» (слово не подчеркнуто, значит других вариантов перевода у него нет). О наличии неактивных вариантов перевода можно узнать по команде Справка по словарной статье из контекстного меню. Содержание словарной статьи будет выведено в одноименном окне (Справка по словарной статье) на информационной панели. Выбрав команду Неактивные переводы в окне словарной статьи, снова щелкните правой клавишей мыши по варианту перевода «обвинения» и выберите опцию Сделать активным. Аналогичным образом активный перевод можно сделать неактивным. В результате система выберет более корректный вариант перевода, который должен использоваться в этом контексте (вполне вероятно, что данный вариант перевода редко встречается в текстах и именно по этой причине находится в закладке Неактивные переводы). Эту же операцию нужно проделать для слова «head» — активировать неактивный перевод «глава».
Рис. 3. Выбираем правильный активный перевод для слова «allegations»
Важность корректного выбора можно проиллюстрировать забавным примером. При переводе фразы «Our cat gave birth to three kitten — two whites and one black» с английского языка на русский получается такой результат: «Наш кот родил трех котят — двух белых и одного афроамериканца». Чтобы помочь кошке (а не коту) родить черного котенка (а не афроамериканца), добавим вариант перевода «кошка» для слова «cat» (окно словарной статьи вызывается по клавише F8), а для прилагательного black добавим активный перевод «черный», а перевод «афроамериканец» сделаем неактивным. В результате система выдаст вполне нормальный перевод: «Наша кошка родила трех котят — двух белых и одного черного».
После выполнения вышеописанных настроек мы получили второй вариант перевода текста о компании «Ливдор», который по качеству значительно отличался от первого. Наш скепсис улетучился — работа по настройке действительно принесла свои плоды! Можно констатировать, что алгоритм действий по настройке системы несложен и что запомнить порядок их выполнения особого труда не составит, а при регулярном использовании программы эти действия будут производиться автоматически. Таким образом, считаные минуты, потраченные на улучшение качества перевода, окупятся с лихвой.
Дополнительные возможности настройки
Вышеперечисленные настройки — это далеко не полный список опций, которые помогают системе правильно переводить тексты. К дополнительным возможностям улучшения качества перевода относятся также:
- использование правил перевода;
- занесение в словарь пользователя разрывных оборотов;
- создание или выбор шаблона тематики.
Правила перевода — это опции, позволяющие выбирать режим перевода для определенных языковых конструкций. Выбор правила перевода зависит от направления перевода (например, для англо-русского направления можно установить правила перевода местоимения «you» как «Вы», «вы» или «ты»; выбрать род (мужской или женский) для местоимения «I») (рис. 4).
Рис. 4. Выбор правил перевода для текста
Посмотрим, как работают правила перевода на конкретном примере. Допустим, в тексте есть предложение: «I wanted a chance at a life where I could shape my own future, she says». В нем используется прямая речь, которая произносится от имени женщины (после прямой речи употребляется местоимение «she» («она»)). Следовательно, глаголы прошедшего времени «wanted» и «could shape» также должны быть в форме женского рода. Для настройки системы откройте в меню Тематика команду Правила перевода документа (соответствующая кнопка есть также на панели инструментов), выберите род (в данном случае женский) для местоимения «I» и нажмите ОК. Теперь система без труда справится с переводом глаголов в этом предложении: «Я хотела шанс в жизни, где я могла сформировать мое собственное будущее, — говорит она».
Кроме того, в правилах перевода можно выбрать тип переводимого текста (официальный документ, личная переписка, статья и др.) и указать необходимость транслитерации имен собственных.
Работа с разрывными оборотами — еще одна важная составляющая процесса настройки. Разрывной оборот представляет собой тип глагольного словосочетания, допускающий вставку одного или нескольких слов между частями этого словосочетания. Для занесения разрывного оборота в пользовательский словарь нужно запустить уже известный нам «Редактор словарей» (PROMT Dictionary Editor) и открыть (или создать) пользовательский словарь. Воспользуемся уже созданным нами словарем. Через меню Статья выберем команду Добавить, наберем наше словосочетание (например, выражение «administer punishment» — «применить наказание») и нажмем ОК. Сразу после того, как в открывшемся окне мы определим часть речи Глагол (по главному слову в этом словосочетании), в нижней части окна появится надпись Разрывной оборот, напротив которой обязательно надо поставить флажок. Необходимо также указать тип разрывного оборота, нажав соответствующую кнопку (в нашем случае это оборот Глагол (administer) + Существительное (punishment)). Затем нужно определить спряжение для глагола и ввести перевод с помощью команды Добавить в окошке Активные переводы. Обратите внимание, что необходимо вводить перевод каждого слова отдельно — сначала для глагола «administer», затем для существительного «punishment». В противном случае программа выдаст некорректный вариант перевода, например «применить наказание […] наказание».
Во время заполнения перевода словосочетания программа предложит варианты словоизменения для глагола и существительного. Выберите или впишите нужный вариант, а затем сохраните перевод. После сохранения этого оборота система сможет распознать его даже в том случае, если между глаголом «administer» и существительным «punishment» будет несколько слов (например, предложение «He administered such severe punishment» будет переведено так: «Он применил такое серьезное наказание»). Не забудьте, что для этого надо подключить пользовательский словарь, в котором сохранен этот оборот.
Итак, по итогам проделанных экспериментов можно смело утверждать, что система перевода PROMT 7.0 имеет достаточное количество настроек, позволяющих существенно улучшить качество переводимого текста. Однако каждый раз задавать определенные параметры перевода, особенно при переводе схожих по тематике текстов, неудобно и весьма утомительно. В этом случае есть простой выход: воспользоваться одной из самых удобных настроек системы перевода — сохранения шаблона тематики. Можно сохранить заданные настройки и использовать их при переводе похожих текстов. Для этого достаточно выбрать в меню Тематика команду Сохранить как шаблон тематики.
С помощью меню Сервис -> Шаблоны тематик также можно создать новый шаблон (кнопка Новый шаблон в открывшемся диалоговом окне). Работа с настройками вновь созданного шаблона осуществляется посредством кнопки Команды в этом же окне.
Следует обратить внимание на то, что в системе уже есть сохраненные шаблоны тематик для перевода текстов из разных областей. Чтобы выбрать уже существующий шаблон тематики для переводимого документа, необходимо нажать кнопку Общий на панели инструментов и выбрать шаблон из выпадающего списка (например, шаблон Юридический для перевода контракта).
Заключение
При подготовке этой статьи мы на практике оценили мощные возможности современных машинных переводчиков. На примере системы PROMT с помощью настроек мы добились заметного улучшения качества перевода. В результате можно констатировать, что для улучшения качества перевода не требуется проходить дополнительное обучение — алгоритм всех действий весьма прост. К сожалению, у нас не было готового специализированного словаря, но мы решили эту проблему, создав собственный пользовательский словарь. Кстати, по мере перевода текстов можно постепенно накапливать словарную базу в пользовательском словаре, не забывая постоянно пополнять его новыми словами и словосочетаниями. В итоге словарь станет незаменимым помощником при переводе схожих по тематике текстов.
Очень полезная настройка системы — резервирование слов. Внеся название компании или электронный адрес в список слов, не требующих перевода, можно легко избежать нелепостей при их переводе.
Важно также помнить, что можно сохранить заданные настройки в шаблоне тематики для последующего их использования при переводе похожих текстов, что экономит время и позволяет улучшить качество перевода.