Разговор с компьютером

Егор Поваляев

Введение

Средства речевого управления

Средства диктовки

Средства идентификации по образцу речи

Синтез речи

Dragon NaturallySpeaking Preferred

IBM ViaVoice Gold

L&H Voice Xpress Professional

Philips FreeSpeech 2000

А что у нас? «Горыныч Проф 1.0»

Заключение

Многое в ПК изменилось с тех пор, как первая модель PC была выпущена в свет в 1981 году фирмой IBM. Компьютеры стали гораздо мощнее, появилось множество периферийных устройств. Однако способ взаимодействия пользователя с компьютером не изменился. Как и 15 лет назад, мы общаемся с ним с помощью клавиатуры и устройств позиционирования курсора.

Вы спросите: а как еще можно вводить информацию в компьютер? Пока клавиатура и мышь остаются наиболее распространенными устройствами. Однако с точки зрения пользователей они не идеальны. Людям гораздо привычнее передавать информацию с помощью речи, жестов, мимики. Поэтому для нас желательно общаться с компьютером привычными способами.

Работы в этом направлении (распознавание речи и генерация ответов, распознавание видео- и аудиосигналов) ведутся уже много лет. В последние годы в этой области был достигнут значительный прогресс, поэтому в ближайшее время стандартные устройства — клавиатура и мышь — станут необязательными (один из нескольких способов ввода), а в дальнейшем, может быть, и вовсе ненужными.

Когда-то считавшаяся непосильной для ПК задача распознавания речи сегодня стала решаемой. А распознавание рукописного текста, широко используемое в карманных персональных электронных секретарях (например, MessagePad фирмы Apple), за последние несколько лет шагнуло далеко вперед.

В данной статье мы подробнее остановимся на распознавании речи и расскажем о коммерческих продуктах, существующих в этой области.

Обучить компьютер понимать человеческую речь и «озвучивать» различные синтезируемые «на лету» сообщения — до сих пор остается чрезвычайно заманчивой задачей. Решить ее означало бы существенно продвинуться на пути к реализации естественного интерфейса пользователя. Кроме того, полномасштабное голосовое взаимодействие человека и компьютера позволит совершенно по-новому подойти к проблеме удаленного доступа к базам данных. Человек сможет получать голосовую информацию, синтезированную по результатам поиска по базе, при помощи своего телефона.

На пути к созданию надежных систем распознавания речи приходится сталкиваться со многими трудностями. Взять, к примеру, хотя бы тот факт, что нет двух людей, которые бы говорили одинаково. Средства распознавания речи должны анализировать поток входных данных, сравнивать его с некоторой моделью и принимать решение, что же именно введено. Если учесть все многообразие языка и различия в произношении, то остается только удивляться, что эти системы вообще работают.

Введение

С начала 70-х годов вопросами распознавания голоса заинтересовались советские ученые. Их достижения легли в основу многих современных продуктов, однако большинство существующих систем создано западными производителями.

За последние 5-10 лет речевые системы стали гораздо более совершенны и значительно упали в цене. Например, система речевого управления производства фирмы Dragon Systems 5 лет назад стоила 5000 долл., а сегодня ее можно купить за 320 долл.

Для того чтобы разобраться в разнообразии речевых продуктов, следует запомнить, что все системы делятся на два класса: распознавание речи и синтез речи. Благодаря системам распознавания речи вы можете вводить речевую информацию в компьютер, и он будет ее интерпретировать. Системы синтеза речи обеспечивают вывод информации (генерация голоса). Продукты, основанные на технологии распознавания речи, можно разделить на три большие группы:

средства речевого управления;
средства диктовки;
средства идентификации по образцу речи.

Алгоритм распознавания содержит четыре основных блока: препроцессор, экстрактор, компаратор и интерпретатор.

Средства речевого управления

Продукты этой группы появились на рынке достаточно давно. Основная идея подобных систем заключается в следующем: человек может обратиться к компьютеру с некоторыми словами или командами, а тот его понимает и выполняет необходимые действия. Сегодня системы распознавания дискретной речи существуют и работают достаточно хорошо. Однако они воспринимают только отдельные слова или фразы. Системы для слитной речи, которые могут принципиально изменить наш способ работы и существенно расширить число пользователей ПК, в настоящее время внедряются на рынки с вертикальной интеграцией, например в области радиологического оборудования и программных средств. Это программное обеспечение может обрабатывать сложные термины, специфичные для конкретной отрасли (которые, по-видимому, трудно спутать с другими словами), значительно лучше, чем простые, повседневно употребляемые нами слова.

Одними из первых подобные системы стали применять телефонные и справочные службы. Эти системы решают наиболее простые задачи, а более сложные по-прежнему обрабатываются с помощью операторов. Такое разделение труда позволяет экономить значительные суммы и существенно увеличивает скорость обслуживания абонентов.

Распознавание чисел можно считать на сегодняшний день уже зрелой технологией. Компьютерные системы могут с высокой надежностью распознать слова, обозначающие числа, на 30 различных языках, однако пользователь должен произносить их раздельно, одну за другой, четко и по определенным правилам. Например, пользователь может произнести «один» или «единица», а в компьютерном представлении это одно и то же число 1.

Гораздо более сложной проблемой является неоднозначность толкования. Например, во Франции способ образования числительных с 80 по 99 вообще оставляет возможность для неоднозначного толкования. Например, 92 звучит так же, как 4-20-12 (quatre-vingt-douze).

Примером коммерческого использования подобных технологий стало внедрение технологии распознавания отдельных слов, соответствующих числам и командам, компании Conversa в «наручные» сотовые телефоны от Samsung Electronics. Эти сотовые телефоны-часы не имеют клавиатуры и предоставляют пользователю возможность принимать звонки и звонить при помощи естественных голосовых команд.

Следующим шагом развития систем речевого управления стало распознавание имен. Некоторые компании выпускают телефонные коммутаторы, срабатывающие на имя абонента. Для того чтобы воспользоваться данной услугой, пользователь снимает трубку и набирает определенную цифру, после чего произносит имя вызываемого абонента. Система производит поиск подобного имени в базе данных и осуществляет соединение с вызываемым абонентом.

Примером сотрудничества телекоммуникационной компании и компании — разработчика систем распознавания речи стало лицензионное соглашение между фирмой Lernout & Hauspie Speech Products, специализирующейся в области распознавания речи, и телекоммуникационной компанией Intellivoice Communications. По условиям соглашения L&H предоставит свои технологии распознавания и синтеза речи на семи языках (американском и британском вариантах английского, испанском, голландском, французском, немецком и итальянском) для использования в коммуникационных продуктах Intellivoice.

В число этих продуктов входят:

система набора номера и управления EasyDial, позволяющая водителю автомобиля пользоваться телефоном, не снимая рук с руля;
система Persona E-mail Reader, с помощью которой можно осуществлять доступ к электронной корреспонденции с любого телефона, вести в ней поиск, отдавать команды о чтении или пропуске тех или иных сообщений, подстраивать скорость чтения и отвечать на письма — и все это с использованием естественной речи;
система InfoDial, автоматически устанавливающая соединения по номерам из телефонных справочников, извлекаемым по именам или адресам. Кроме того, номера могут извлекаться из собственной БД пользователя или из телефонных счетов.

Однако на практике возникают некоторые сложности, связанные с особенностями речевого поведения человека. Например, в России системе придется искать в своем каталоге Владимира, когда попросят Володю, или Ивана вместо Вани.

«Пользоваться уменьшительными именами совершенно естественно для человека, но машину это может сбить с толку, — сетует старший менеджер Nortel по технологии Open Speech Раймонд Кенуорси. — Из-за этого нам приходится вводить в базу данных синонимы. Так, на 750 человек, работающих в нашем монреальском офисе, пришлось завести 190 лишних записей».

Вслед за телефонными компаниями к подобной технологии прибегли и некоторые брокерские конторы. Они установили системы автоматического ответа, которые позволяют получить информацию о цене акций и некоторые «горячие» новости фондового рынка. Подобные системы основаны на на применении ключевых слов, которые необходимо выделять из речи абонента и правильно интерпретировать.

Для этого диалог с пользователем строят как систему меню. Пользователю предлагают несколько возможных вариантов ответа, анализируют ключевые слова ответа и детализируют, в чем заключается его вопрос. За несколько шагов система способна уточнить, в чем заключается вопрос, и подобрать ответ из базы данных.

В системах последнего поколения реализована идея обучения. В течение некоторого предварительного периода система проходит обучение на большом количестве диалогов, в ходе которого строится рабочий словарь и БД отношений между отдельными словами.

Средства диктовки

Продукты этой группы появились на рынке несколько лет назад. Основная идея подобных систем заключается в том, что произносимые человеком слова (аудиоинформацию) компьютер переводит в текст.

Первыми подобными системами были системы раздельной диктовки. Они проще в разработке и менее требовательны к вычислительной мощности ПК, однако вынуждают пользователя произносить слова с короткими промежутками. Это неестественно для человека, поэтому он часто сбивается, что приводит к ошибкам ввода. Однако со временем пользователь может значительно улучшить надежность распознавания, усвоив правила диктовки.

Одним из первопроходцев в этой области является IBM. Пакет ПО VoiceType корпорации IBM хорошо зарекомендовал себя в качестве средства для раздельной диктовки.

Следующим шагом развития систем диктовки стали системы распознавания слитной речи. Средства распознавания слитной речи требуют более быстрых процессоров и больших объемов памяти, зато исключают необходимость прерывать речь коротким остановками после каждого слова.

В этой области отличилась компания Dragon Systems, которая создала систему распознавания слитной речи DragonDictate. Она позволяет надиктовывать текст в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и многие другие популярные приложения. Пользователь может управлять ПК голосом, в частности позиционировать курсор мыши с абсолютной точностью. А последовательная система меню и команд для единообразного управления любыми приложениями существенно упрощает работу.

Словарь системы DragonDictate насчитывает более 30 тыс. слов. К тому же пользователь может дополнить словарь необходимыми ему словами. Кроме того, для специалистов выпускаются тематические словари.

В комплект каждого из этих продуктов входит высококачественная микрофонная гарнитура. Ошибки распознавания можно исправлять прямо по ходу диктовки или позднее — с помощью клавиатуры либо в режиме речевого ввода. Предусмотрена возможность запуска речевыми командами макроопределений, автоматизирующих ввод таких элементов, как стандартные приветствия или адреса.

Для того чтобы повысить точность распознавания, многие сотни людей надиктовали различные слова и выражения. Спектральные характеристики каждой буквы во всех словах были проанализированы, поделены на отдельные элементы (фонемы), и по ним для каждой буквы была создана модель. В результате удалось повысить уровень точности распознавания до 85-90%.

К сожалению, подобный метод не обеспечивает полного устойчивого распознавания. Поэтому впоследствии был добавлен метод проверки «по словам», заключающийся в сравнении принятого из микрофона набора звуков с эталонным звучанием слова, записанного в базе данных. В случае если последовательность букв не складывалась в слово, пользователю предлагалось выбрать из нескольких наиболее похожих по звучанию слов.

В ответ на разработки Dragon Systems систем распознавания слитной речи компания IBM выпустила собственную систему — ViaVoice. Эта система ориентирована на индивидуальных пользователей и предназначена для работы дома или в офисе. С ее помощью можно надиктовывать текст в Windows, приложении, а также выполнять множество команд (открывать и закрывать, печатать и сохранять файлы, листать документы вверх и вниз).

Скорость ввода текста достигает 140 слов в минуту, что значительно превышает среднюю скорость набора на клавиатуре.

В настоящее время существуют американская, английская, британская, французская и немецкая версии ViaVoice. К сожалению, русской версии пока нет.

Прежде чем начать работать с системой, необходимо произнести ряд фраз, для того чтобы она настроилась на индивидуальные особенности вашего голоса. Однако если затратить на процесс обучения около получаса и произнести порядка 100 предложений, то качество распознавания будет более высоким.

Остальные производители ПО тоже встраивают системы распознавания речи в свои продукты. Так, компания Corel поставляет свой продукт WordPerfect Office Suite вместе со встроенной системой распознавания речи компании Dragon Systems.

В этом же направлении работает и Microsoft. В последнюю версию Microsoft Office XP, уже появившуюся на рынке, встроена система распознавания голоса, которая доступна во всех приложениях продукта. С ее помощью пользователь может выполнять различные команды, а также надиктовывать и редактировать текст, лишь минимально используя клавиатуру и мышь.

В пакете предусмотрены два режима: режим диктовки (пользователь произносит слова, а система распознает их и печатает в выбранном приложении) и режим команд, когда пользователь желает выполнить одну из опций меню. Пользователь может легко переключаться из одного режима в другой, а узнать, в каком режиме он сейчас находится, он сможет с помощью индикатора. По мнению экспертов, тестировавших этот продукт, скорость ввода текста для среднего пользователя (непрофессиональной машинистки) увеличивается в два раза.

Microsoft Office XP позволяет распознавать английскую, японскую и китайскую речь.

Для использования системы распознавания необходимо установить на свой компьютер звуковую плату и микрофон (желательно гарнитуру, в которой микрофон размещен в непосредственной близости ото рта). Помимо этого потребуется Pentium II с частотой не менее 400 МГц и 128 или более Мбайт ОЗУ.

Средства идентификации по образцу речи

Цель распознавания речи состоит в том, чтобы понять, что человек говорит, тогда как цель идентификации по образцу речи — убедиться, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека.

Идентификация по образцу речи тесно связана с биометрическими технологиями, позволяющими идентифицировать людей по их уникальным физическим признакам, например по отпечаткам пальцев или по рисунку радужной оболочки глаза. Речь, как и подпись, определяется множеством постоянных физических параметров и, кроме того, зависит от состояния и поведения человека.

Специалисты утверждают, что речь человека столь же индивидуальна, как отпечатки пальцев. Это наводит на мысль использовать рисунок речи человека для построения различных охранных систем. Система настраивается на голос человека (или на голоса некоторого числа людей — задав соответствующий персональный код, можно заставить систему загрузить нужный словарь распознавания), и для входа в нее человек должен произнести заранее условленное слово или комбинацию слов. При этом гарантируется, что компьютер среагирует только на голос своего хозяина — все остальные голоса просто не будут «поняты».

Идентификация по образу речи имеет особое значение для обеспечения безопасности еще и потому, что это единственная биометрическая проверка, которую можно осуществить по телефону. Для конечного же пользователя все это происходит предельно просто и естественно. Нужно лишь назвать свои имя и фамилию, а также ключевую фразу.

Проблема заключается в том, что человеческий голос может быть записан и впоследствии воспроизведен. Однако при машинном воспроизведении часть особенностей голоса теряется. Именно над этой проблемой в настоящее время и работают многие исследовательские лаборатории идентификации голоса.

Процесс взаимодействия конечного пользователя с системой идентификации состоит из трех фаз: регистрации, тестирования и допуска. В процессе регистрации запоминаются особенности голоса пользователя и формируется так называемая речевая модель. При тестировании выполняется сравнение предложенного образца речи с «запомненной» речевой моделью пользователя, а также с моделью «самозванца», составленной на базе голосов множества других людей. Если результат сравнения окажется положительным для первого случая и отрицательным для второго, считается, что тестирование прошло успешно. Идентификацию по голосу можно использовать и в сочетании с другими средствами обеспечения безопасности.

Существуют различные подходы к организации регистрации и тестирования. Проще всего использовать для идентификации одно ключевое слово. Оно должно быть повторено в процессе регистрации два или три раза. Такая схема отличается простотой и оперативностью, хотя пользователю приходится запоминать пароль. Однако есть некоторая доля риска, что систему удастся обмануть посредством использования записи.

Для регистрации пользователь должен произнести несколько десятков слов и выражений, предложенных системой. Для каждого выбирается персональный набор слов, соответствующий присущим ему голосовым особенностям. Это позволяет добиться высокого уровня защиты от мошенничества с записью. Тестирование в этом варианте также заключается в сравнении с моделями пользователя и «самозванца».

Наивысший уровень безопасности обеспечивает фоновая схема регистрации. При создании своей речевой модели пользователь зачитывает предложенный ему текст или последовательность фраз. Тестирование выполняется непрерывно, в течение всей «беседы» с системой, в которую вкрапляются некоторые записанные элементы. В остальном тестирование выполняется по обычной схеме. Эта процедура остается для пользователя «невидимой».

Синтез речи

Обратная операция по отношению к распознаванию речи — преобразование «текст-речь». Так называется технология, позволяющая генерировать речь по тексту. Основная область применения — различные автоматические системы, предусматривающие голосовую передачу информации: справочные системы или программы автоматического чтения по телефону.

Речевой вывод уже какое-то время используется на компьютерах. Однако «репертуар» первых систем был сильно ограничен. Часто в них использовалось меню, с помощью которого пользователь выбирал, какие из предварительно записанных высказываний он хотел бы слышать. Предложенный машине для воспроизведения текст сравнивался с имеющимися в БД записями, а если находились подходящие образцы, то они озвучивались. Этот подход широко применяется в устанавливаемых в гостиницах телефонных «будильниках», а также в автомобильных навигационных системах.

Простейшая разновидность преобразования «текст-речь» — «сборка» сообщений из отдельных речевых фрагментов. Пример — информатор железнодорожной справочной, где в заранее заготовленное сообщение надо подставить наименование станции назначения, время отправления и (или) стоимость билета. Для этого необходимо заготовить речевые фрагменты с числительными и некоторыми дополнительными словами, чтобы сообщение звучало более естественно (например, надо учесть, что по-русски говорят «двадцать один рубль», но «двадцать два рубля» и «двадцать пять рублей»). Кроме того, необходимо, чтобы вставляемые речевые фрагменты правильно вписывались в общий интонационный рисунок фразы. Добиться этого непросто, но вполне возможно. Аналогичные системы, озвучивающие суммы остатка средств на счете и другую информацию (banking by phone), уже используются целым рядом российских банков.

Развитие синтезаторов речи привело к появлению более универсальных средств. Некоторые специальные продукты были созданы для людей с физическими недостатками.

Французская компания Elan Informatique разработала программу синтеза речи ProVerbe, которая позволяет осуществлять удаленный доступ к электронной почтовой корреспонденции по телефону. Английская фирма First Byte предлагает систему Monologue, предназначенную для вычитки текста и избавляющую корректора от необходимости прочитывать текст глазами. Шведский продукт Infovox синтезирует речь на 12 различных языках и диалектах: американском и британском английском, датском, голландском, финском, французском, немецком, исландском, итальянском, норвежском и, естественно, шведском.

Сегодня рынок предоставляет широкий выбор синтезаторов речи, большинство из которых укомплектованы собственным текстовым процессором. В основном синтезаторы говорят на американском английском, но некоторые владеют и другими языками. Иногда можно выбирать и голос: нормальный мужской, нормальный женский, басовитый мужской, хриплый женский и т.д. Цены — от 150 до 1500 долл.

Обзор популярных программ распознавания речи

В обзоре представлены такие программы, как IBM ViaVoice Gold, Philips FreeSpeech 2000, L&H Voice Xpress Pro, Dragon NaturallySpeaking Preferred и «Горыныч Проф 1.0».

Все пять пакетов рассчитаны в первую очередь на то, чтобы обеспечить ввод в документ текста. Первые четыре позволяют вводить английскую речь, и только последний — русскую.

С задачей ввода текстов лучше всех справляется ViaVoice. Он достиг заявленной безошибочности распознавания в 95%, при этом качество распознавания команд осталось высоким. У Dragon NaturallySpeaking Preferred, Philips FreeSpeech 2000 и L&H Voice Xpress Pro точность распознавания — около 90%. Невысокую точность распознавания показал «Горыныч Проф 1.0» — около 60-70%.

Диктовать сплошной текст во всех системах было достаточно просто. Однако вносить исправления в текст с помощью голосовых команд оказалось гораздо сложнее. Более удобные команды редактирования у IBM ViaVoice. Кроме того, неплохими возможностями форматирования может похвастаться и Dragon. Однако пользоваться для данных целей клавиатурой и мышью все же удобнее, да и быстрее.

Все пакеты обеспечивают диктовку непосредственно в окне любой программы, работающей с текстами, в частности Microsoft Word, Excel, и таких популярных почтовых клиентах, как Outlook Express и Netscape Messenger. Правда, на компьютерах относительно старых моделей обработка произносимых человеком слов может происходить с задержкой.

Вы можете не только диктовать программам, но и давать им указания, например: открыть такой-то файл, напечатать такую-то страницу, а также управлять перемещениями по рабочему столу. Соответствующие функции работали во всех пяти программах, но, к сожалению, не всегда. Некоторые команды, например «click File» (щелкнуть по пункту File) или «click Save» (щелкнуть по пункту Save) в Word, приходилось повторять по нескольку раз, прежде чем компьютер распознавал команду.

Таблица характеристик

Dragon NaturallySpeaking Preferred

Достоинства: высокая безошибочность распознавания, простота использования.

Недостатки: неудобный ввод чисел, посредственное управление экраном.

Перед началом эксплуатации «мастер установки» просит выполнить ряд тестов, которые могут занять до 30 минут. Вам придется выбрать наиболее подходящую вам модель речи. После этого система определит качество и уровень звука вашего голоса. Затем вам предстоит читать текст около 5-10 минут — для настройки на особенности вашего голоса. После этого вам предложат внести в базу данных слова и выражения, которые вы часто используете (пользовательский словарь) и которых нет в словаре. Для каждого пользователя Dragon создает голосовую модель, что существенно влияет на качество распознавания.

Dragon NaturallySpeaking Preferred хорошо вводит текст и позволяет легко переключаться между диктовкой, правкой и форматированием.

С Dragon можно работать двумя способами: во-первых, пакет позволяет диктовать в своем текстовом окне (получившийся документ затем вставляется в нужную программу), во-вторых, он содержит встроенные утилиты, обеспечивающие ввод непосредственно в окне текстового процессора, почтовой программы, электронной таблицы. Выбор зависит от личных предпочтений пользователя и от используемой им программы. Например, совсем не трудно перенести надиктованный текст в окно почтовой программы из текстового окна Dragon, а вот в электронной таблице удобнее диктовать числа прямо в ячейки.

Пакет компании Dragon намного превзошел своих соперников в распознавании текста делового письма, удивительно точно записав такие сложные имена собственные, как O’Keeffe, Bernardo и Peterborough. В целом он очень близко подошел к достижению заявленного уровня безошибочности распознавания — 95%.

Модуль NaturalWord для диктовки в окне Microsoft Word 97 (с более ранними версиями он не работает) очень похож на основной экран речевого ввода Dragon. Помимо этого он предоставляет доступ к командам меню Word, однако пришлось сделать несколько попыток, прежде чем Word стал повиноваться, да и после этого быстрее дело шло при помощи клавиатуры и мыши. Компания предупреждает, что на компьютерах с относительно медленным процессором распознавание может происходить с паузами, но на моем Pentium II-333 такого ни разу не случилось.

Утилита NaturalText обеспечивает диктовку в среде практически любой программы для Windows 95/98. После ее установки в системном лотке на панели задач появляются значки текста и микрофона. Чтобы начать работать с NaturalText, достаточно щелкнуть по значку микрофона — и можно говорить.

Для перемещения по экрану Dragon разделяет его на пронумерованные сектора; чтобы переместить курсор в нужный сектор, нужно назвать его номер. Раз за разом программа предлагает все более мелкое дробление, и в конце концов курсор оказывается в точности там, где требуется. А вот работать с меню, наоборот, просто. Словесным эквивалентом щелчка кнопкой мыши служит ключевое слово «click» (щелкнуть). Оно и действует точно так же.

Хотя пакет Dragon и уступает некоторым конкурентам в том, что касается перемещения по экрану, правки и форматирования, он превосходит всех в главном — в способности с первого раза правильно записывать произнесенные слова. К моменту выхода данной статьи должна появиться новая версия NaturallySpeaking, в которой, как сообщили нам в компании, будут усовершенствованы перемещение по экрану и ввод чисел.

IBM ViaVoice Gold

Достоинства: хорошее распознавание речи, усовершенствованное перемещение по экрану и улучшенный дизайн.

Недостатки: низкое качество распознавания имен собственных и сокращенных слов, медленная работа в среде некоторых программ.

По качеству распознавания текста данный пакет конкурирует с продуктом фирмы Dragon, но по уровню распознавания команд и удобству интерфейса превосходит его.

Перед началом работы «мастер установки» проводит тестирование, занимающее около 25 минут. За это время он проверит вашу аудиосистему, а затем в течение 10 минут вы будете читать текст. После этого вам предложат оценить качество распознавания начитанного текста, а нераспознанные слова внести в словарь пользователя.

Пакет хорошо справился с текстовыми секциями тестового письма, но споткнулся на некоторых именах собственных и сокращениях. Это снизило итоговый процент ошибок распознавания до 94%.

ViaVoice обеспечивает простое переключение между режимами диктовки, правки и ввода команд. Достаточно сказать, что вы собираетесь сейчас делать, — и пакет, как правило, безошибочно понимает говорящего. Некоторые проблемы возникли при выполнении команд перемещения курсора.

Использовать ViaVoice можно непосредственно внутри таких программ, как Word, Excel и Internet Explorer Mail. Диктовка в Word происходит почти без задержек, но в остальных программах приходится немного подождать, пока продиктованный текст будет обработан. Зато в ViaVoice Gold более естественная, чем в Dragon, работа с числами: чтобы записать в ячейку Excel сумму 23 432 долл., нужно сказать «twenty-three thousand four hundred thirty-two dollars» (двадцать три тысячи четыреста тридцать два доллара).

Еще одним достоинством ViaVoice Gold является замечательно организованное управление рабочим столом Windows. Чтобы запустить Excel, достаточно сказать «Open Excel», а чтобы развернуть пункт меню, достаточно его назвать. Можно выбирать кнопки, произнося написанные на них слова (такие, как OK или Cancel). На случай, если программа не будет распознавать команды, в ней предусмотрено обучение, прибегать к которому приходится редко.

Так что, если вам нужно минимизировать объем ежедневной работы на клавиатуре, пакет ViaVoice Gold — хороший выбор.

L&H Voice Xpress Professional

Достоинства: простое и быстрое исправление неправильно воспринятых слов, великолепное распознавание чисел.

Недостатки: «придирчивость» к произношению команд, неравномерное качество распознавания.

Этот пакет содержит словарь с 230 тыс. слов и выражений. С его помощью пользователь может как надиктовывать текст и выполнять различные команды, так и заставлять компьютер производить некоторые действия по ключевому слову (команде).

После инсталляции Voice Xpress Professional создает пользовательский профайл, в котором сохраняет все настройки и индивидуальные характеристики пользователя. Процесс настройки занимает около 50 минут.

Voice Xpress Professional компании Lernout & Hauspie очень похож на NaturallySpeaking Preferred. Но у этого пакета есть как свои преимущества (хорошее распознавание чисел, тесная интеграция с компонентами Office 97), так и свои недостатки (он уступает программе Dragon и ViaVoice в качестве распознавания слов и команд).

Процедура обучения в Voice Xpress Pro по сравнению с другими пакетами — самая продолжительная. У меня она заняла 50 мин, за которые необходимо было прочитать 230 экранов с текстом — списки команд, упражнения в диктовке по буквам и отрывки из книг.

С распознаванием делового письма программа в основном справилась, правда время от времени допуская ошибки. Реальной проблемой были также артикли и короткие служебные слова (такие как a, the, that).

С распознаванием некоторых команд перемещения и управления, например «go to the end of the document» (перейти в конец документа), в Voice Xpress Pro также возникли сложности. Уменьшить число ошибок удается в том случае, если вы говорите медленно и неестественно отчетливо. Еще лучший результат дает слияние слов: нужно произнести нечто вроде «downtwoparagraphs» (надваабзацавниз), сделав паузу перед командой и после нее.

Что касается положительных сторон Voice Xpress Pro, то этот пакет обладает лучшей из всех рассмотренных системой исправления ошибок. Вы говорите «correct that» (исправить), и на экране появляется список вариантов. Если подходящий вариант есть в списке, нужно произнести «take» (принять) и номер правильного слова, после чего оно вставляется в документ. Еще одно достоинство пакета — хорошая интеграция с компонентами Microsoft Office 97: работа с ними происходит без всяких задержек. Кроме того, Voice Xpress Pro блистательно вводит числа. И все же он уступает Dragon IBM ViaVoice по качеству распознавания и по простоте управления.

Philips FreeSpeech 2000

Достоинства: низкая стоимость.

Недостатки: посредственное качество распознавания при диктовке, некоторые команды не распознаются, отсутствие микрофона.

Пакет FreeSpeech функционально полон. Он поддерживает и стандартное окно диктовки типа WordPad, и возможность диктовать в любой программе для Windows, где есть ввод текста, и управление перемещениями по меню и окнам на рабочем столе. В отличие от других пакетов FreeSpeech требует ручного переключения между диктовкой, управлением, диктовкой по буквам и режимом сна. Предполагается, что соответствующие команды можно подавать голосом, но они срабатывали так редко, что пользоваться мышью оказалось гораздо быстрее и удобнее.

Стартовое качество распознавания FreeSpeech оставляло не слишком благоприятное впечатление. В тестовом деловом письме пакет прекрасно распознавал базовую лексику, но любое необычное слово выбивало его из колеи. Числа распознаются только в случае, если диктовать их по одной цифре.

Команды перемещения и форматирования FreeSpeech очень похожи на имеющиеся в других пакетах, а ряд команд просто совпадает. При этом FreeSpeech часто отказывается выполнять те или иные команды, например выделить текст или переместить курсор.

А что у нас? «Горыныч Проф 1.0»

Достоинства: низкая стоимость.

Недостатки: посредственное качество распознавания, сильная зависимость от звукового оборудования и достаточно продолжительная настройка системы для распознавания голоса пользователя.

Что же может «Горыныч»? С его помощью пользователь может надиктовывать тексты в любые текстовые редакторы, а также в другие программы — независимо от фирмы-производителя. Кроме того, имеется возможность голосового управления отдельными функциями операционных систем Microsoft Windows 95/98.

Для того чтобы начать работать с программой, необходимо предварительно настроить микрофон. При первом запуске «Горыныча» система автоматически запустит модуль настройки. Первый тест предназначен для определения уровня фонового шума в вашем помещении и фоновых шумов микрофона и звуковой карты. Продолжительность теста — 10 секунд. Во время проведения теста желательно соблюдать тишину.

Второй тест предназначен для определения стандартного уровня записи данных (тех слов, которые вы говорите в микрофон). Под уровнем здесь также понимается и громкость сигнала. При проведении этого теста требуется произнести несколько фраз обычным голосом — так, как в дальнейшем будете диктовать текст. После этого можно приступать к работе с «Горынычем».

Для пользователя доступны два режима: режим команд и режим диктовки. При запуске «Горыныча» на экране появится несколько окон. Одно из них — «Команды» — будет содержать список активных команд, которые система может распознать в данный момент. Также любую из команд (кроме относящихся к пунктам меню других приложений) можно выполнить принудительно. Для этого надо дважды щелкнуть левой кнопкой мыши на нужной команде.

Для перехода в режим диктовки необходимо сначала произнести «открыть», а затем «WordPad». В случае правильного распознавания пакет запустит WordPad, после чего следует произнести «буду диктовать».

Теперь те слова, которые вы произнесете и которые будут найдены в словарях диктовки, программа напечатает в окне WordPad. Если вы случайно вышли из режима диктовки, то произнесите «главный режим», а затем «буду диктовать».

Для обратного перехода в режим команд достаточно произнести «главный режим».

Качество распознавания системы «Горыныч Проф 1.0» невысоко. Для того чтобы добиться приемлемого качества распознавания команд, пришлось отказаться от использования гарнитуры и воспользоваться хорошим микрофоном. Для увеличения надежности распознавания было необходимо надиктовать и сохранить большинство команд. После этого система стала понимать команды с надежностью 70-80%.

С распознаванием текста система также справилась не очень хорошо. Для ввода отдельного слова приходилось повторять его несколько раз. Иногда ввести отдельное слово без помощи клавиатуры просто не удавалось. Значительно улучшить качество распознавания помогла надиктовка некоторых часто употребляемых слов. После этого надиктованные слова стали распознаваться с вероятностью 50-70%.

Для того чтобы пользоваться «Горынычем» для диктовки текста, придется переозвучить большинство слов и выражений из базы данных, причем на это может уйти несколько месяцев — срок для обычного пользователя неприемлемый.

Заключение

Автоматическое распознавание речи удобно для диктовки коротких записок и электронных писем, причем здесь лучше всех оказалась программа IBM ViaVoice. Эта программа показала высокую надежность распознавания (до 94%) текста, хорошее качество распознавания команд и наиболее удобный интерфейс.

Технология распознавания речи плохо подходит для редактирования и форматирования надиктованного текста. Кроме того, только американцы, англичане, а также представители развитых стран Европы и Азии смогут воспользоваться возможностями систем распознавания голоса для надиктовки текста. С сожалением вынужден констатировать, что надежной русской системы пока не существует.

Первые попытки научить компьютеры говорить и слушать были предприняты более тридцати лет назад. До настоящего времени результаты были более чем скромными. В основном это были простые решения, которые позволяли генерировать компьютеру несколько слов или команд.

Однако в последнее время синтезаторы речи и системы распознавания шагнули далеко вперед. Их модули уже встроены в стандартные офисные пакеты и позволяют выполнять команды и диктовать текст. Подобные системы созданы для английского, ряда европейских, китайского и японского языков. Русского языка в их числе нет.

И сегодня уже не остается сомнений, что в ближайшие годы естественная речь станет одним из способов общения человека с компьютером.

Обзор англоязычных систем распознавания речи взят со страниц сайта http://www.Zdnet.com/.

Обзор выполнен Susan Glinert, Computer Shopper, октябрь 15, 2000.

КомпьютерПресс 6'2001

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12