Весной этого года компания PROMT представила полностью обновленную
линейку машинных переводчиков: профессиональную систему перевода PROMT Translation
Office 2000, переводчик для Интернета PROMT Internet 2000 и домашний переводчик
Magic Gooddy 2000. Все эти продукты любезно предоставлены издательству
«КомпьютерПресс» на тестирование.
Подробное знакомство с новыми разработками PROMT дало нам повод еще раз обратиться
к теме машинного перевода, рассказать о новых достижениях компании PROMT и на
примере ее продуктов осветить некоторые теоретические аспекты создания систем
машинного перевода — наукоемкой отрасли программирования, в которой имеются
существенные отечественные достижения.
PROMT представляет новое поколение переводчиков
Кто глупее — машина или человек?
Как формировалась школа машинного перевода
Какие задачи решает система машинного перевода
Как формализуются правила перевода
Краткий обзор усовершенствований в новых версиях продуктов PROMT
Профессиональная система перевода PROMT Translation Office 2000
Профессиональная среда перевода PROMT
Встраивание перевода в приложения MS Office (SmarTool)
Средство просмотра Web-сайтов (WebView)
Настройщик словарей (Dictionary Editor)
Электронный словарь (Electronic Dictionary)
Оперативный переводчик корреспонденции (Mail Translator)
Перевод буфера обмена (Clipboard Translator)
Прежде чем перейти к обсуждению конкретных качеств системы переводчиков от компании PROMT, хотелось бы поговорить о том, как можно и как следует подходить к оценке работы машинных переводчиков, которые «берутся» за одну из сложнейших задач — за перевод текстов, придуманных ЧЕЛОВЕКОМ.
Кто глупее — машина или человек?
В литературе описано достаточно много примеров «глупости» машинных переводов, которые трактуют фразы типа «bring her back to me» как «принеси мне ее спину». И популярность подобных примеров можно понять. Вспомните, как много появилось областей деятельности, где компьютер обогнал человека — считает быстрее, в шахматы играет лучше. Не обидно ли нам, разумным?
Поэтому нередко встречаются представители Homo Sapience, которые с восторгом восклицают: «А машина-то глупее!»
Представители этой части «разумного человечества» считают, что, мол, машинные переводы далеки от тех, которые выполняются человеком, а потому абсолютно бесполезны.
Эти люди скорее всего забывают, что машинные переводы существуют для того, чтобы помогать человеку, а вовсе не затем, чтобы тешить самолюбие переводчиков, которые бы говорили: «мы-то пока переводим лучше, чем компьютеры».
Впрочем, история знает факты и не самых удачных переводов, выполненных человеком, таких, например, как этот: «Голый проводник бежит по автобусу» (в оригинале: «naked conductor runs along the bus»). Пример говорит о том, что человеку мало знать английский, надо еще и физику учить, чтобы представлять себе предмет перевода.
Говоря о сложности перевода художественного произведения, можно напомнить, что и среди людей далеко не каждый может переводить, как Маршак или Пастернак.
Необходимо признать (да этого не отрицают и ведущие разработчики систем машинного перевода), что сегодня, как, впрочем в обозримом будущем, художественный текст всегда выигрывает в переводе, выполненном человеком. С другой стороны, это отнюдь не отрицает полезности систем машинного перевода, уже давно являющихся незаменимым подспорьем не только для тех, кто совсем не знает языка, но и для профессионалов.
Во-первых, перед переводом стоят далеко не одни высокохудожественные задачи. Машинный перевод многих деловых документов приближается к переводам, сделанным человеком, в чем, кстати, мы могли убедиться, тестируя программы PROMT на переводах ряда трудовых соглашений.
Во-вторых, никакой переводчик (даже самый знающий) не напечатает перевод с такой скоростью, как переводчик машинный.
В-третьих, программа-переводчик всегда под рукой, ей можно доверить любую конфиденциальную информацию, и, наконец, очевидно, что машинный перевод существенно дешевле по сравнению с тем, что выполнен в бюро переводов.
Машинные переводчики в значительной мере облегчают беглый просмотр сайтов Интернета на неизвестных вам языках. При этом, по-видимому, задача выбора информации из Интернета не может быть решена никакими другими способами.
Кроме того, для каждой системы существует своя область применения, и машинные переводчики не претендуют на перевод художественной литературы.
Кстати, результаты нашего тестирования показали, что система машинного перевода может быть полезна даже для перевода тех текстов, для которых она в принципе не предназначена. Я имею в виду перевод художественных произведений. Правда, такую помощь можно порекомендовать лишь как средство автоматизации процесса перевода для тех, кто хорошо знает язык.
Если нам удалось убедить вас в целесообразности использования машинных переводчиков, читайте дальше.
Немного теории
Для того чтобы понять, насколько совершенны или несовершенны современные переводчики, следует сказать несколько слов об истории формирования подобного рода программ и коротко ознакомить читателя с самыми общими подходами построения алгоритмов, применяемых для их создания.
Как формировалась школа машинного перевода
Датой рождения машинного перевода обычно считают конец 40-х годов. Одним из первых о машинном переводе заговорил Уоррен Вивер, директор отделения естественных наук Рокфеллеровского фонда, который, обращаясь в письме к Норберту Винеру, сравнивал задачу перевода с задачей дешифровки текстов: «Глядя на статью на русском языке, я говорю себе: в действительности статья написана по-английски, но зашифрована какими-то непонятными знаками», и после этого начинаю ее расшифровывать». В 1949 году он опубликовал документ, который имел весьма громкое название: «Решение мировой проблемы перевода». В 1952 году состоялась первая конференция, на которой обсуждались подходы к созданию систем машинного перевода, а уже в 1954 году компания IBM разработала первую систему, содержавшую словарь из 250 слов и 6 синтаксических правил и обеспечивавшую перевод заранее отобранных предложений. Этот эксперимент дал старт интенсивным десятилетним исследованиям, на которые правительство США истратило почти 40 млн. долл.
Однако в начале 60-х пришлось констатировать, что поставленная задача оказалась слишком сложной и что системы автоматического перевода не смогут в обозримом будущем обеспечить приемлемое качество перевода. Большинство программ машинного перевода увязали в многозначности слов и обилии идиоматических выражений. Начатые работы не привели к практическим результатам, однако выявили многие проблемы перевода текстов, такие как многозначность слов и синтаксических конструкций, практическая невозможность глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствие эффективных формальных методов описания лингвистических закономерностей и др.
Интерес к системам машинного перевода вновь был проявлен только к 70-м годам, в период интенсивного развития теории искусственного интеллекта и теории «обучения компьютеров пониманию языка», но только в 90-е — благодаря развитию систем искусственного интеллекта, а также персональных компьютеров и появлению реального спроса на машинный перевод — наступило реальное, а главное подкрепленное рыночными интересами возрождение интереса к системам машинного перевода.
После того как машинный перевод превратился в коммерческий продукт, большие усилия стали прилагаться к развитию функциональности системы, которая в программном продукте играет роль, не меньшую, чем наличие хорошо разработанной лингвистической базы.
На развитие машинного перевода стали выделяться крупные суммы. Так, за последние 15 лет только японские государственные организации потратили на решение этой проблемы несколько сотен миллионов долларов.
В России подобных инвестиций в развитие систем машинного перевода не было, однако отечественным компаниям, прежде всего компаниям PROMT и «Арсеналъ», удалось добиться заметных успехов не только на российском, но и на мировом уровне. О деятельности компании PROMT и ее последних продуктах мы и расскажем в данной статье более подробно.
Какие задачи решает система машинного перевода
Работа над программой, которая переводит с одного языка на другой, разбивается на три очевидные подзадачи:
- создать достаточно полный словарь или набор тематических словарей;
- научить систему распознавать не только слова, но и устойчивые обороты;
- формализовать правила перевода с учетом грамматики языков.
Какой словарь нужен машине?
Когда мы переводим текст, например с английского языка на русский, и находим в словаре незнакомое нам слово, например «computer», то, узнав, что по-русски это значит «компьютер», мы уже безошибочно напишем в зависимости от контекста: «на компьютере», «с компьютером» и т.д. То есть поставим в соответствие не ту совокупность символов, которые прочитали в словаре, а другую!
Это связано с тем, что существительные в русском языке изменяются по падежам и по числам, у одного существительного может существовать до 12 разных форм, а у глаголов и прилагательных количество различных форм, как правило, еще больше. Это означает, что в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря. И соответственно, чем больше словоформ распознает система при меньшем объеме записей в словаре, тем она совершеннее. Чтобы оценить, насколько это сложная задача, скажем, что в системе PROMT морфологическое описание, разработанное только для русского языка, содержит более 800 типов словоизменений.
Известно, что в различных тематиках одно и то же слово переводится совершенно по-разному. Например, английское слово «ram» может переводиться и как «козел», и как «паровой молот» — в зависимости от того, о чем идет речь. Поэтому, видимо, для перевода текстов, имеющих отношение к разным сферам, отраслям и т.д., нужны разные электронные словари.
Однако разбиение по тематикам не решает полностью задачи, например в английском языке отличить в предложении глагол от существительного можно только по смыслу.
Так слово «like» может означать «любить», «нравиться» или «похожий», «подобный», и то, что мы безошибочно выбираем в контексте по смыслу, для машины должно быть формализовано.
Как формализуются правила перевода
Одним из понятий, лежащих в основе построения систем перевода, является понятие фрейма, которое было введено еще в 1974 году одним из основоположников исследования методов описания естественных языков Марвином Минским, высказавшим предположение о том, что человек интерпретирует каждый объект посредством фреймов. Фрейм — это некий набор данных, которым описывается объект. Каждый фрейм содержит отделения или слоты, в которых собраны определенные атрибуты данного объекта. Например, фрейм понятия «кошка» может содержать атрибуты «хозяин», «цвет», «пол», «возраст» и т.д., фрейм понятия «существительное» — атрибуты «род», «падеж» и т.д.
Еще один термин, который необходимо ввести для дальнейших рассуждений, — понятие системы перевода типа TRANSFER, которое подразумевает, что алгоритм перевода основывается на анализе входного предложения в терминах структур входного языка, преобразовании этой структуры в аналогичную структуру выходного языка (TRANSFER) и последующем синтезе выходного предложения по полученной структуре.
Прогрессивным подходом с точки зрения машинного перевода (именно он реализован в системах PROMT) является тот, при котором вместо последовательного процесса анализа и синтеза предложения используется представление процесса перевода как процесса с «объектно-ориентированной» структурой, основанной на иерархии обрабатываемых компонентов предложения.
Система PROMT вместо последовательного «TRANSFER-подхода» использует иерархический подход, разделяющий процесс перевода на взаимосвязанные TRANSFER’ы для разного уровня.
При таком подходе выделяются уровни: лексических единиц; групп; простых и сложных предложений.
Первый уровень — лексическая единица — это слово или словосочетание. Слово описывается как совокупность основы и окончания, что дает возможность осуществлять распознавание входных слов и синтез выходных по их морфологической информации, то есть производить TRANSFER на морфологическом уровне.
Следующий уровень — уровень групп — рассматривает более сложные структуры (группы существительных, прилагательных, наречий и сложные глагольные формы) и соответственно осуществляет TRANSFER на уровне групп.
Третий уровень предусматривает анализ простых предложений как конструкций, состоящих из синтаксических единиц, и выполняется на основе фреймовых структур. На основе так называемой валентности глагола (или способности глагола присоединять соответствующие грамматические формы) определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования входного фрейма в выходной. Таким образом, осуществляется TRANSFER на уровне простых предложений. Анализ сложных предложений представляет собой еще более неординарную задачу.
Именно эти подходы положены в основу разработки первых программ машинного перевода PROMT, которые появились в 1991 году. Выбранные подходы построения алгоритмов оправдали себя в последующих, более сложных разработках. За последние десять лет компания добилась успехов не только на российском, но и на мировом уровне. Последние достижения PROMT выразились в появлении линейки продуктов PROMT 2000, в которых без изменений принципиальных подходов многое было сделано по развитию технологии перевода и организации более дружественных интерфейсов, различных для работы профессионала, домашнего пользователя и исследователя Интернета. Подробнее о новой линейке продуктов PROMT читайте ниже.
Краткий обзор усовершенствований в новых версиях продуктов PROMT
В новой линейке продуктов PROMT усовершенствована архитектура ядра перевода, которая лежит в основе всех новых версий продуктов. Новое ядро перевода обеспечивает более корректный перевод с учетом морфологических, семантических и синтаксических связей. Различные функциональные возможности предлагаемых программ позволяют оптимально решить проблемы перевода в офисе и в Интернете. Расширились словари (в частности, в новой версии пакета появился англо-русско-английский словарь объемом более 1 000 000 словарных статей!).
Стало удобнее производить перевод, пользуясь инструментами Microsoft Office. Перевод стал доступен во всех приложениях Word, Excel, Outlook, PowerPoint и FrontPage.
Добавилось количество пар языков перевода. Повысилась эффективность перевода благодаря использованию тематик документа, которые можно сохранить в шаблоне тематики и использовать в дальнейшем при переводе текстов по данной теме.
По ключевым словам система может автоматически подключать тематические словари, а при работе в Интернете — подобрать тематику и направление перевода для определенной Web-страницы.
Новая версия PROMT Internet 2000 имеет функции перевода, которые встраиваются в Microsoft Internet Explorer 5.x; перевод Web-страниц может осуществляться в браузере-переводчике WebView.
В новой версии домашнего переводчика Magic Gooddy 2000 появился ряд новых возможностей, связанных с обучением языку и тестированием.
Профессиональная система перевода PROMT Translation Office 2000
PROMT Translation Office 2000 — это набор профессиональных инструментов, который в зависимости от вида поставки включает различные пары перевода:
- английский-русский-английский;
- немецкий-русский-немецкий;
- французский-русский-французский;
- итальянский-русский;
- «Гигант» (включает все вышеперечисленные языковые направления).
В комплектацию дополнительно входят следующие словари:
- ER: Информатика (мини);
- ER,RE,GR,RG,FR,RF: Интернет1.
Основные функции
PROMT обеспечивает связный перевод текстов с учетом морфологических, синтаксических и семантических связей.
Система имеет дружественный интерфейс и легка в освоении. В рамках одной системы доступен не только перевод, но и полный спектр сервиса по работе с документами. Система настраивается на перевод конкретных текстов, предоставляет возможность подключения специализированных предметных словарей.
PROMT — модульная система с возможностью выборочной установки необходимых компонентов из восьми доступных, которые предоставляют следующие возможности:
- SmarTool — реализует функции перевода в приложениях Microsoft Office;
- Mail Translator — встраивается в Outlook 2000;
- PROMT — профессиональная среда перевода;
- Dictionary Editor — средство создания и коррекции словарей;
- Electronic Dictionary (входит только в комплектации «Гигант» и ERRE);
- WebView — браузер-переводчик;
- QTrans — упрощенный редактор-переводчик;
- Clipboard Translator — переводчик текстов буфера обмена;
- Интегратор — средство доступа к приложениям семейства.
Отдельные модули системы организованы в семейство PROMT Family (рис. 1).
Профессиональная среда перевода PROMT
Профессиональная среда перевода PROMT предоставляет собой мощный текстовый редактор с настраиваемым интерфейсом в стиле Microsoft Word 2000. Вся работа с исходным текстом и переводом осуществляется в окне документа (рис. 2).
Система позволяет не только осуществлять перевод текстов, но и производить весь комплекс офисной работы с документами (рис. 3). Возможен итерационный перевод текста с коррекцией словаря. Каждый цикл повышает качество перевода. Система поддерживает также использование препроцессоров2, влияющих на качество перевода.
Встраивание перевода в приложения MS Office (SmarTool)
Данный компонент реализует функции перевода в приложениях Microsoft Office 2000 и позволяет добавлять полнофункциональное меню перевода в различные приложения Microsoft Office. На рис. 4 показан процесс перевода абзаца текста с замещением русского текста на английский непосредственно из приложения MS Word.
Соответственно, аналогичным образом можно подготовить различные типы документов, используя функции перевода в других приложениях Microsoft Office. Подобная организация перевода приложений особенно удобна, когда вам постоянно требуется перевод. Однако если потребности перевода являются эпизодическими, то, на наш взгляд, встроенная система не очень удобна, так как достаточно сильно увеличивает время на запуск приложений MS Office и инициализацию модуля перевода.
В ряде случаев полезной является функция Text-To-Speech (TTS), которая позволяет озвучить переведенный документ.
Средство просмотра Web-сайтов (WebView)
WebView представляет собой средство просмотра Web-страниц на иностранных языках с автоматическим переводом.
Система обеспечивает сравнительно быстрый онлайновый перевод текста и гиперссылок, позволяет осуществить одновременный просмотр исходной Web-страницы и страницы перевода, сохраняет форматирование при переводе.
Пользователь имеет возможность выбора тематики и направления перевода. Естественно, при наличии графических элементов на странице объем переводимых единиц снижается (рис. 5).
WebView использует новую технологию запоминания тематики для перевода — SmartURL, которая заключается в том, что приложение запоминает тематику и направление перевода той или иной переводимой Web-страницы и при повторном обращении использует запоминаемые параметры автоматически.
Настройщик словарей (Dictionary Editor)
В процессе перевода ряд слов часто бывает переведен неудачно, а некоторые вовсе не переведены. Эффективность перевода повышается при помещении подобных слов в пользовательские словари или за счет изменений в текущем словаре. Настройка словарей осуществляется с помощью Dictionary Editor, имеющего интеллектуальные алгоритмы пополнения словарей.
Электронный словарь (Electronic Dictionary)
Интегрированный электронный словарь входит только в комплектации Гигант и в русско-английскую — англо-русскую версии.
Словарь содержит большое количество слов и словосочетаний (около 1 000 0000) из 50 предметных областей, а также дополнительную грамматическую информацию о том, как склоняется данное слово и в каких словосочетаниях оно используется.
Словарь принципиально отличается от традиционной формы представления информации в бумажных словарях, принятой, например, в таком словаре, как Lingvo 6.0.
Основным отличием словаря PROMT является его подход к отбору переводных эквивалентов, при котором многообразие вариантов перевода сведено к двум-трем наиболее употребимым и подходящим в 90% случаев, а многообразие значений слова компенсируется огромным количеством словосочетаний, включающих это слово. Для нас подобная форма организации словаря как справочного средства показалась несколько непривычной. Хотя, вероятно, использование словарей с разной структурой в профессиональной работе может быть весьма полезно.
Понять разницу в подходах организации словаря легко, сравнив перевод слова water, которые дают словари PROMT и ABBYY Lingvo 6.0 (рис. 6, рис. 7).
Оперативный переводчик корреспонденции (Mail Translator)
Это средство для перевода корреспонденции, которое встраивается в Outlook 2000. Указав параметры входящей корреспонденции, пользователь имеет возможность организовать автоматический перевод с сохранением переводов в указанную папку.
Вспомогательные приложения
QTrans — перевод без возможностей форматирования. С помощью данной программы удобно быстро перевести набранный текст или текстовый файл (рис. 8).
Перевод буфера обмена (Clipboard Translator)
В целом, несмотря на неизбежные ошибки переводчика, хотелось бы отметить высокий уровень перевода, удобство работы, продуманность интерфейса и хорошую документированность программы.
О двух других продуктах новой линейки машинных переводчиков — переводчике для Интернета PROMT Internet 2000 и домашнем переводчике Magic Gooddy 2000 мы расскажем в продолжении данной статьи, которое будет опубликовано в следующем номере.
КомпьютерПресс 9'2000