Машинный перевод покоряет новые высоты
Интервью со Светланой Соколовой, генеральным директором компании ПРОМТ
КомпьютерПресс: Какова история машинного перевода? Какие личности и компании сыграли важную роль в развитии этой технологии?
Светлана Соколова: История машинного перевода восходит к марту 1947 года. Все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру, где Уивер сравнил перевод с дешифровкой текстов, которая к тому времени уже начала механизироваться. Письмо вызвало многочисленные дискуссии, был разработан меморандум о целях исследований и выделены средства на них. Уже в 1952 году состоялась первая конференция, организованная знаменитым математиком Бар-Хиллелом, на которой исследователи обменялись идеями относительно выработки многих синтаксических правил языка, морфологических структур, способов описания семантики и структуры словарей для систем перевода. Академические исследования стимулировали коммерческий интерес к проблеме, и к 1954 году фирма IBM совместно с Джорджтаунским университетом сумела создать первую систему, содержавшую словарь из 250 слов и шесть синтаксических правил и обеспечивавшую перевод 49 заранее отобранных предложений. Этот эксперимент стал началом исследовательского бума в следующие десять лет правительство и военные ведомства США потратили на исследования в области машинного перевода около 40 млн. долл.
Эйфорию от первых результатов и полное отрицание осуществимости этой идеи разделяет период всего в восемь лет. Столь категорический вывод был сделан на основании обзора Специального комитета по прикладной лингвистике (ALPAC) Национальной академии наук США, который в 1963 году констатировал, что системы автоматического перевода не смогут обеспечить приемлемое качество перевода в обозримом будущем. Этот отчет самым негативным образом повлиял на развитие машинного перевода: было полностью прекращено финансирование исследований и, как следствие, остановлены все работы, по крайней мере в США и Европе. Только в начале 80-х годов машинный перевод был реабилитирован, и вместе с ростом интереса к лингвистическим проблемам искусственного интеллекта и к системам информационного поиска началось постепенное восстановление ранее начатых разработок.
Зато 90-е годы можно считать периодом возрождения машинного перевода: развитие персональных компьютеров, появление сканеров и программ OCR, а также распространение Интернета и внедрение интранета обусловили существенное повышение спроса на машинный перевод. Программы-переводчики снова стали привлекательной сферой для вложения капиталов как для частных инвесторов, так и для государственных структур.
КП: В чем суть технологии машинного перевода?
С.С.: Машинный перевод предполагает наличие в программной системе модуля, «вычисляющего» перевод текста. В этом определении самое важное слово «вычисляющий», так как имеются фундаментальные различия между операциями извлечения и подстановки существующего перевода из базы данных (эти операции характерны для систем Translation memory и автоматических словарей) и операциями «вычисления» перевода с помощью набора правил. Существуют различные методы «вычисления» перевода, и в зависимости от типа правил системы машинного перевода условно делятся на rule-based и statistical-based, то есть на системы, основанные на правилах, которые описывают языковые структуры и их преобразования, и на системы, базирующиеся на статистических правилах. Системы типа rule-based делятся еще и на системы, основанные на промежуточном языке описания смысла (Interlingua), и на системы Transfer, ориентированные на пару языков (входной, выходной), которые преобразуют структуры входного языка в структуры выходного языка.
Правда, пока коммерческое распространение получили только программы типа Transfer, к которым относятся Systran, PROMT и Personal Translator.
КП: В чем специфика русского перевода? Какие языковые пары переводить легче и почему?
С.С.: Никакой специфики в переводе на русский язык или с русского языка нет. В системе PROMT используется универсальная технология для описания синтаксических, семантических, морфологических структур для всех языков, входящих в систему, а это русский, английский, немецкий, французский, испанский, португальский и итальянский языки. Данный список может быть расширен и пополняется каждый год. Наши технологии применимы также для создания систем с восточными языковыми парами.
Что касается второй части вопроса, могу только сказать, что легких для формального описания языков не бывает. Понятно, что чем ближе языки друг к другу, тем меньше в результатах работы системы заметны недостатки формальных методов «вычисления» перевода, которые заложены в систему. Например, пара французско-испанская, или португальско-итальянская, или русско-украинская всегда будет субъективно лучше, чем, например, французско-немецкая или русско-итальянская, при одинаковом уровне сложности алгоритмов анализа, трансфера и синтеза.
КП: Какие специалисты должны входить в коллектив, занимающийся разработкой систем машинного перевода? Какие задачи стоят перед каждым из специалистов?
С.С.: Коллектив требуется абсолютно уникальный. С одной стороны, коммерческая система машинного перевода это полноценный софт, который включает и серверные решения, и desktop-версии, обладающие мощной функциональностью для настройки системы, сравнимой по объему с текстовыми редакторами. Разработку такого софта выполняет профессиональный программистский коллектив, включающий руководителей проектов, тестеров, кодеров и пр.
С другой стороны, в состав системы входят модули, выполняющие перевод, и приложения для поддержки лингвистической базы. Проектирование этих модулей уже не такой стандартизированный процесс, и здесь вместе работают и архитекторы-аналитики, и лингвисты, и программисты. Самая сложная роль в этих процессах отведена аналитикам, которые в рамках созданной технологии занимаются развитием систем. В нашей компании применяются собственные программные средства разработки, которые позволяют осуществлять эффективный мониторинг этого процесса.
КП: Системы машинного перевода называют также системами искусственного интеллекта. Что собой представляет эта интеллектуальная часть?
С.С.: Системы машинного перевода являются системами искусственного интеллекта по определению, так как принадлежат к классу систем, выполняющих отдельные функции интеллекта человека: они конструируют текст на выходном языке на основе входного текста, пользуясь заданными правилами, существующими в системе в виде структур данных и алгоритмов.
КП: Чем различаются системы машинного перевода для домашних и для корпоративных пользователей?
С.С.: Модули перевода одинаковы во всех системах, основное различие состоит в разной пользовательской функциональности. Тем не менее в наших системах перевода есть возможность передавать модулям перевода экстралингвистические параметры, существенно влияющие на процесс перевода, например информацию о типе текстов, о предпочтениях при анализе тех или иных конструкций. Это позволяет настроить систему для каждого конкретного типа пользователей. Есть, конечно, такая замечательная вещь, как специализированные словари, содержащие терминологию и специальные выражения. Другие глоссарии также могут быть подключены к системе. Кроме того, в программе существуют специальные компоненты для администрирования в случае корпоративного использования и модули для интеграции с другими приложениями.
КП: В чем отличие онлайнового сервиса перевода от настольного? Вытеснит ли онлайновый перевод автономные программы?
С.С.: Сначала давайте разберемся, что такое онлайновый сервис. Сегодня ПРОМТ один из крупнейших провайдеров онлайновых сервисов для перевода. Мы предлагаем бесплатный сервис www.translate.ru, который демонстрирует возможности нашей технологии, а также платные онлайновые сервисы для наших клиентов по модели ASP (например, проект перевода SMS-сообщений для оператора сотовой связи «Билайн»). Мы также предлагаем бесплатный сервис для пользователей Microsoft Office 2003. Подключив web-сервисы перевода к приложениям Office 2003, пользователи смогут оценить удобство машинного переводчика, который всегда будет под рукой.
По мере увеличения скорости доступа в Интернет для многих пользователей услуги платного онлайнового перевода становятся все более привлекательными, например если нужен разовый перевод документа и нет необходимости покупать систему перевода целиком. Однако если существует постоянная потребность в переводе большого количества документов, то лучше установить настольную или интранет-версию системы перевода. В таком случае важна скорость доступа к сервису, а если система установлена у вас в офисе, доступ к услуге оказывается практически мгновенным. При обращении к онлайновому переводу нужно будет позаботиться также об оплате услуги.
Кроме того, немаловажным фактором является конфиденциальность перевода: при работе с собственным переводчиком гарантирована полная секретность переводимых текстов, тогда как передача информации по Интернету далеко не всегда защищена от перехвата.
Вместе с тем важным преимуществом web-сервиса является его глобальная доступность. Например, нам рассказали о том, как наш онлайновый переводчик помог одной американской семье общаться с мексиканским мальчиком, который не знал английского. Благодаря нашему англо-испанско-английскому переводчику проблема языкового барьера была решена и мальчику помогли добраться домой в Северную Каролину.
КП: Какие компании лидируют на рынке систем машинного перевода?
С.С.: На мировом рынке есть два ведущих разработчика: Systran (Франция) и ПРОМТ (Россия). Безусловно, Systran лидирует по количеству направлений перевода, однако мы признаны первыми по критерию качества. В частности, качественный уровень систем перевода PROMT подтверждается нашим проектом для NASA. Мы поставили 51 лицензию на наши настольные системы перевода и такое же количество на системы перевода для Pocket PC для американских астронавтов. В NASA остались очень довольны качеством продукта и планируют установить электронные переводчики PROMT для всего инженерно-технического персонала. При этом стоит отметить, что всем государственным учреждениям США предписано покупать системы Systran, поскольку эта компания получала средства на разработку систем перевода от правительства США.
КП: Как поделен мировой рынок систем машинного перевода? Каков его объем?
С.С.: По прогнозам исследовательского агентства IDC, объем мирового рынка систем перевода составляет 183 млн. долл. Из них около 70% приходится на системы Translation Memory, остальное на системы машинного перевода.
Безусловно, самый крупный мировой игрок на рынке машинного перевода компания Systran. Наша компания занимает второе место. Есть также локальные поставщики: например, компания Linguatec предлагает систему Personal Translator для немецкого рынка.
КП: А как обстоит дело на российском рынке?
С.С.: У российского рынка систем автоматического перевода интересная история. Десять лет назад, кроме компании ПРОМТ, существовали еще два поставщика, «Арсенал» с системой «Сократ» и «Лингвистика» с системой ПАРС. Однако сейчас ПРОМТ является единственной компанией, которая предлагает системы машинного перевода. Мы выпускаем продукты практически для всех целевых сегментов: для домашних пользователей, для малого офиса, для среднего и крупного бизнеса, для Интернет-компаний. Мы стараемся максимально гибко подходить к формированию продуктовой линейки, чтобы полностью удовлетворять потребности наших клиентов.
Последние несколько лет мы видим устойчивый рост этого рынка порядка 30% в год. А объем его подсчитать довольно сложно. Думаю, что на данный момент он составляет не менее 10-15 млн. долл.
КП: Предпринимались ли попытки перевода художественных текстов? В чем специфика этой задачи?
С.С.: Конечно, машинный переводчик не предназначен для перевода художественной литературы. Программа спроектирована так, чтобы генерировать усредненные конструкции, тем самым обеспечивая определенную устойчивость перевода. Однако практически каждый пользователь хотя бы раз пробовал перевести что-нибудь из художественной литературы. Как ни странно, у некоторых результат оказывался довольно интересным. Например, Александр Остапенко, театральный режиссер из Киева, предлагает перевести шекспировскую трагедию «Король Лир» на русский язык с помощью системы перевода PROMT. Как известно, художественные переводы творческого наследия Шекспира, выполненные, например, Б.Л.Пастернаком, это самостоятельные художественные произведения. В них голос переводчика звучит, возможно, громче, чем голос самого автора, в то время как перевод, сделанный с помощью системы PROMT, по мнению Александра Остапенко, сохраняет аутентичность шекспировского текста, что позволяет по-новому взглянуть на классическое произведение.
КП: Каковы перспективы развития машинного перевода?
С.С.: Я считаю, что, несмотря на почти
60-летнюю историю, машинный перевод только сейчас по-настоящему становится востребованным, а это означает, что существующие решения неизбежно будут развиваться и совершенствоваться. Будет улучшена интерактивная часть системы (возможности взаимодействия с ней и дополнительные настройки), а также повысится качество получаемого перевода.
Беседу провел Александр Прохоров