Успехи толмача
«Постмодернистская» архитектура
Пользователи уже, возможно, заметили, что многие популярные программные пакеты, совершив однажды прорыв в мире софта, с каждой следующей версией обладали все меньшей функциональной новизной, довольствуясь метаморфозами, так сказать, косметического характера. Сие удручающее обстоятельство создает почву для разговоров о кризисе в индустрии программного обеспечения, о недостатке свежих технологий и идей, о том, что продажами новых продуктов разработчики теперь обязаны только ухищрениям своих маркетологов и т.п. Тем более яркими кажутся звездные исключения, время от времени вспыхивающие на сером софтверном небосводе. К таковым можно отнести последний, седьмой выпуск линейки программ для переводов текста от компании ПРОМТ, который увидел свет в сентябре нынешнего года.
«Постмодернистская» архитектура
тарый добрый ПРОМТ, который ругали все кому не лень, но при этом пользовались за неимением лучшего, разработчики компании разобрали до основания, то есть до ядра. Седьмой релиз был создан с качественно новой многоразмерной архитектурой словарей, не имеющей аналогов в существующих системах машинного перевода. Пока еще не представляется возможным делать выводы о продажах, да и о признании пользователей говорить рано, но функциональные возможности, которые были реализованы в программе на базе нового технологического подхода, действительно впечатляют. И уж никак нельзя назвать их поверхностными. Впрочем, читатель может оценить новый релиз, ознакомившись с нововведениями подробнее.
Прежде всего нужно сказать о том, что дает пользователю наличие в программе многоразмерных режимов. В прежних версиях все подключенные словари на равных участвовали в рабочем процессе, то есть каждый вариант перевода был активным. Теперь же многоразмерность словарей обеспечивает для каждого слова два уровня вариантов перевода: активный и неактивный. Активные участвуют в переводе непосредственно, а работа с неактивными происходит по аналогии с электронным словарем, то есть пользователь просматривает и ищет подходящий перевод на основе всей необходимой для машинного перевода информации. К тому же любой неактивный перевод можно сделать активным.
Абстрагируясь от технических тонкостей, суть этих режимов можно объяснить следующим образом. Чаще всего слово (например, глагол «to provide») имеет одно или несколько основных значений («обеспечивать» «предусматривать»), а также множество дополнительных («запасать», «принимать меры против чего-либо», «снабжать», «предоставлять»), которые применяются в зависимости от контекста. Так вот: основные переводы слова являются активными, а все прочие нет. Возможность конвертации из одного типа в другой позволяет при сходной тематике основного потока рабочих текстов найти нужный перевод по основному значению слова, подставляемому по умолчанию. Операция совершается по клику правой кнопки мыши.
Работа с активными/неактивными переводами
Понятно, что при этом облегчается настройка пользовательского словаря: ручное добавление теперь можно не делать, так как соответствующие изменения автоматически сохраняются при выборе активного перевода. Плюсом новой архитектуры стало также снятие ограничений на объем словарных статей. А в качестве приятной мелочи стоит назвать возможность добавлять комментарии лексического и грамматического характера как для активного, так и для неактивного варианта перевода. Разработчики считают, что комментарии оценят по достоинству те пользователи, которые поочередно работают с одним словарем, или те, кому нужно оставить важную информацию на будущее. В лингвистический редактор был добавлен функционал справки по словарной статье. Информацию можно посмотреть как из доступных редактированию пользовательских словарей, так и из генерального словаря.
Следующим принципиальным обновлением архитектуры стало появление морфологической модели, позволяющей хранить формы для любого слова. Например, если раньше в словаре присутствовала вся гамма «go»: «goes», «going», «went», «gone», то теперь там содержится только основной глагол «go», так как поддерживается распознавание всех производных форм. По тому же принципу программа работает с исключениями вроде «child» и «children», которые больше не разнесены по разным статьям, так как модель позволяет задавать различные переводы для единственного и множественного числа. Благодаря этому стало возможно увеличить точность кодировки лингвистической информации, уменьшить объемы словарей за счет исчезновения дублирующих участков, а также повысить скорость перевода и точность распознавания самих форм. Параллельно решена еще одна проблема предыдущих версий: теперь распознаются только непосредственно закодированные формы, то есть «radio beacon» во множественном числе воспринимается программой исключительно как «radio beacons», хотя прежде были возможны такие перлы, как «radio beacones», «radios beacon», «radioes beacon», «radios beacons», «radioes beacones», «radioes beacons», «radios beacone».
Примеры морфологической модели
Всем на процедуры!
блегчит жизнь пользователям и ряд других функций настройки, которые разработчики назвали «процедурными улучшениями». Первое из них относится к изменению дизайна, но имеет практическую пользу интерфейс алфавитного списка словарей стал более дружественным. Вид списков теперь напоминает электронные словари, пользоваться которыми несравненно удобнее. Есть, правда, и своя капля дегтя: если пользователь не обладает «экспертной» версией системы, то таким образом он сможет просматривать только статьи пользовательских словарей, а с генеральным словарем работа пойдет по старинке.
«Словарный» интерфейс
Разработчиками также создана процедура для корректной работы с омонимиями, которая контролирует ввод в словарь слов, обычно использующихся в качестве одной части речи, но иногда принимающих значение другой. Реализуется подобная процедура через простановку приоритетов. Например, если таковой имеется у омонимов «глагол/существительное», то слово будет рассматриваться как глагол только в том случае, если оно имеет соответствующие контекстные признаки, выявляемые в ходе структурного анализа предложения. В противном случае слово будет идентифицировано как существительное. Понятно, что для англо-русского перевода эта возможность особенно полезна, так как английский отличается высокой степенью омонимичности, а перевод может существенно различаться в зависимости от того, какой частью речи является слово; в частности «butter» это и «масло», и «льстить», «article» можно перевести и как «статья», и как «предъявлять обвинение».
С помощью приоритетов решается и такая насущная проблема машинного англо-русского перевода, как формирование видовых форм русского глагола. Недостаточность возможностей автоматического анализа для решения данной задачи заставила разработчиков создать дополнительные пункты в интерактивном режиме «Свойства», где пользователь может выбрать один из двух вариантов: назначить приоритет на синтез совершенного вида в Past Indefinite или же на синтез несовершенного вида в Passive. Так, предложение «The annoyance because of dust was quickly abated», без использования данной возможности переводимое как «Раздражение из-за пыли было быстро уменьшено», после установки опции будет выглядеть куда приличнее: «Раздражение из-за пыли быстро уменьшилось». Аналогичным образом решаются и некоторые другие проблемы, в том числе управление инфинитивом («You ask me leave» «Ты просишь, чтобы я переехал»), различные переводы для существительных в единственном и множественном числе («abnormality» = «ненормальность», «отклонения»).
В заключение хотелось бы назвать еще несколько исправленных неточностей, которые раньше могли сильно испортить настроение при переводе. Во-первых, в систему были добавлены дополнительные типы семантики, выбор которых позволяет правильно переводить предлоги и другие части речи при существительных, а значит, и в целом оптимизировать анализ предложения. Благодаря этому, например, адекватно стало восприниматься многозначное слово «some» (и «некоторый», и «немного»). Во-вторых, структура переводчика пополнилась интерфейсом введения в словарь сложных синтаксических выражений, состоящих из нескольких частей. Ранее присутствие между этими частями посторонних слов или предложений существенно затрудняло анализ текста, а начиная с седьмой версии пользователь может самостоятельно дополнять словарь выражениями типа «make (a) bet», «keep (a) promise», «pay (a) bill» и т.д. В-третьих, существительному, используемому в качестве определения, стало возможно задавать специальный вариант перевода («city park» «городской парк»).
Выбор семантического типа
Классификация
ся продукция ПРОМТ делится на три основные группы, рассчитанные на определенные категории пользователей. Первая группа программ представляет собой классический вариант SOHO (Small Office Home Office), то есть предлагает переводческие решения для дома и малого офиса. Представлена эта часть линейки пятью программами, а лидером и новинкой является PROMT Standard 7.0. Основной акцент здесь сделан на простоту и удобство, что выражается в однокликовом запуске перевода текста, электронной почты, PDF и графических файлов. Поддерживаются текстовые форматы TXT, RTF и DOC, причем при переводе сохраняется форматирование. Программа может быть интегрирована с Microsoft Outlook 2000/XP/2003, что позволяет не только работать с уже полученными письмами, но и автоматически переводить корреспонденцию при поступлении. Система имеет возможность выделять текст из графического файла (JPG, TIFF и др.) для его последующего перевода на выбранный язык. Аналогично программа работает с PDF-файлами. Основные настроечные возможности системы ограничиваются подключением специализированных словарей, созданием и редактированием собственных пользовательских словарей, а также заданием списков слов, не требующих перевода. Версия продукта, предназначенная исключительно для работы с английским языком, стоит 99 долл. Если нужен весь лингвистический спектр «Гиганта»: английский, немецкий, французский, испанский, итальянский (поддерживается только односторонний перевод с итальянского на русский), то придется раскошелиться на 189 долл. Как приложение в программу входит большой электронный словарь с переводом более 1 млн. слов и словосочетаний из различных областей человеческого знания (коммерция, техника, наука и др.). Благодаря наличию словаря можно мгновенно получить перевод выделенного слова, а также всю грамматическую и морфологическую информацию по нему. На основе словаря можно создавать собственные словарные базы. С системой поставляется набор специализированных словарей.
Остальные SOHO-продукты служат узкоспециализированным целям. PROMT Express XT упрощенная программа перевода текстов, работающая только с английским языком. PROMT Internet XT переводит Web-сайты только с английского на русский и обратно. Premium-вариант данного продукта добавляет еще четыре языка, а также одиннадцать специализированных словарей. Программа Друзья Goo-Ru, предназначенная для детей дошкольного и младшего школьного возраста, помогает делать домашние задания по иностранному языку, проверять знание языка в викторине и т.д. Возрастная адресация угадывается в анимации, в советах и анекдотах, которыми наполнена эта программа.
Системы перевода для бизнеса представлены тремя продуктами, два из которых являются основными. PROMT Professional 7.0 ориентирован на деловую документацию, технические описания, электронную почту, отчеты и презентации. Разновидности продукта оцениваются в 300 и 500 долл. для обычной и «гигантской» версии соответственно. PROMT Translation Suite 7.0 нацелен на сходные по тематике и структуре документы (инструкции, законы, контракты и т.д.), и в данном продукте использованы последние достижения двух технологий TM (Translation Memory базы переводов) и MT (Machine Translate машинный перевод). Результат перевода любого текста можно сохранить в базе и использовать его в дальнейшем. По мере заполнения базы эффективность работы повышается, так как основная часть переводов подставляется из базы, а пользователь занимается только корректировкой фрагментов текста, переведенных с помощью МТ. Цена программы с only English 400 долл., «Гигант» обойдется в 699 долл. Для корпоративных клиентов ПРОМТ предлагает сетевую версию системы перевода PROMT NET XT, предназначенную для перевода сетевых информационных потоков масштаба небольшой компании или отдела крупной корпорации. А в состав решения для переводческих бюро и отделов локализации PROMT Expert 7.0 входит инструментарий для извлечения терминологии, профессиональной работы с пользовательскими и специализированными словарями, и программа для интеграции системы перевода с системой TM TRADOS.