Речевой ввод как альтернатива клавиатурному

Андрей Жданов, Александр Прохоров

Dragon NaturallySpeaking 7 Essentials

ViaVoice Standard Edition V10

Горыныч ПРОФ 3.0

Разработчик новой операционной системы выходит на трибуну и, потрясая ноутбуком, говорит:
«Перед вами первая ОС, которая полностью управляется с голоса!»
Пораженная аудитория выдерживает длинную паузу, и вдруг с галерки доносятся слова:
«Format C, двоеточие, Enter».
Современный анекдот

появлением компьютеров перед человеком встал целый ряд новых проблем, связанных с передачей и хранением информации. Ввод данных всегда требовал значительных затрат времени и сил, а стремление свести эти затраты к минимуму заставляет постоянно работать над способами перевода знаковой системы, которой пользуется человек, на тот язык, который понятен машине. Перфокарты, а потом клавиатура не до конца решили эту проблему, так как эти способы передачи информации не являются естественными для человека, а потому они неэффективны, неэкономичны и, кроме того, требуют длительного освоения.

При современных масштабах распространения ПК работать с ними приходится не только специалистам, владеющим быстрым набором с клавиатуры, но и малоподготовленным пользователям, для которых ввод информации выливается в отдельную проблему. Любой поработавший с современным графическим пакетом согласится, что около десятка движений мышью при создании какого-либо эффекта порой можно заменить одним словом. Таким образом, задача состоит в том, чтобы научить компьютер понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового образа.

На уровне письменного текста указанная проблема уже частично решена: такие программы, как FineReader или CuneiForm, позволяют вводить через сканер любой напечатанный текст. Однако в данном случае мы имеем дело с уже готовым текстом, а ввод информации в процессе его создания представляет определенную сложность. Пока человек не научится телепатически передавать свои мысли, единственным инструментом, служащим ему для этого, является речь, и потому каждому пользователю ПК очень хотелось бы, чтобы его помощник слышал, а главное, понимал своего хозяина.

На первый взгляд все очень просто: если печатный текст распознается, то и речь тоже можно распознать, ведь компьютеру все равно, что обрабатывать — звук или рисунок. Казалось бы, нужно только разделить полученное изображение или звуковой поток на повторяющиеся стандартные образы, сопоставить их с используемыми нами знаками и дать им определенные числовые значения, по которым их будет узнавать машина. Все бы так и было, если бы печатный текст и речь были действительно аналогичными методами передачи информации, но в действительности они очень непохожи, и дело здесь вовсе не в типе носителя информации. Человеческую речь скорее можно сравнить с рукописным текстом, который, как и человеческая речь, очень зависит от индивидуальных характеристик каждого человека. Почерк и тембр голоса уникальны и практически неповторимы, и эти непредсказуемые в каждом случае параметры серьезно затрудняют вычленение и систематизацию знаковых образов.

Несмотря на перечисленные трудности, системы распознавания речи совершенствуются довольно быстро и постепенно начинают конкурировать с клавиатурным вводом. При этом необходимо подчеркнуть, что пока компьютер еще весьма далек от человека, улавливающего интонации и настроение собеседника.

Обычно человек, впервые услышав о технологии распознавании речи, полагает, что для надиктовывания текста системе, распознающей речь, не требуется особых навыков, однако это не так. В отличие от клавиатурного, речевой ввод помимо основной информации несет и данные о поле говорящего, о его возрасте, состоянии здоровья, настроении, отношении к передаваемой информации, а также много других дополнительных сведений. Для распознавания речи абсолютное большинство этих данных — не помощь, а помеха, то есть как для разговора по телефону, так и для надиктовывания текста системе распознавания от человека требуется так или иначе приспосабливать речь к этим устройствам.

Сегодня нам кажется, что для того, чтобы эффективно пользоваться телефоном, не нужны никакие навыки. Это связано с тем, что обучение происходит исподволь: с раннего возраста дети наблюдают, как взрослые разговаривают по телефону, и незаметно для себя приобретают определенные умения. В подтверждение этому приведем небольшую цитату из «Почтово-телеграфного журнала» за 1902 год:

«Человек, редко прибегающий к посредству телефона, будет говорить или слишком громко, или слишком тихо, и лишь после некоторого навыка можно научиться приспособить свою речь таким образом, чтобы она внятно передавалась телефоном. При этом, однако, не безразлично, на каком языке происходит разговор, так как некоторые языки к этому более пригодны, чем другие. Такое различие особенно ясно сказалось со времени открытия телефонного сообщения между Германией и Францией. Самым неудобным из европейских языков для телефонной передачи оказывается английский язык, изобилующий шипящими звуками и представляющий при телефонировании большие затруднения, так как их очень легко смешать с обычным мешающим шумом в аппаратах».

Итак, речевой ввод информации предъявляет следующие требования:

• говорить следует не слишком громко и не слишком тихо. Лучше всего — обычным спокойным голосом. Повышенные интонации несут много побочных данных, вследствие чего процент распознавания падает;

• произносить слова нужно монотонно, но четко. Не должны проглатываться окончания, так как в отличие от человека компьютер пока не может следить за контекстом и додумывать окончания;

• чем меньше посторонних шумов, тем лучше;

• надо стараться поддерживать постоянное расстояние до микрофона;

• в микрофон не должно попадать придыхание, поэтому микрофон нужно держать не прямо напротив рта, а приблизительно на сантиметр вправо и на сантиметр ниже.

Плохое аппаратное обеспечение тоже является источником проблем для распознавания речи, поэтому качественный микрофон и хорошая звуковая плата со встроенным фильтром шумов могут значительно улучшить работу системы распознавания речи. Но когда все трудности решены, перед пользователем программы распознавания звучащей речи открываются совершенно новые возможности. Во-первых, скорость ввода любого текста увеличивается в несколько раз по сравнению с вводом с клавиатуры; при этом затраты необходимых усилий уменьшаются, а обучение вообще не нужно, так как говорить мы все умеем. Во-вторых, такая программа позволяет управлять другими приложениями и операционной системой в целом с помощью голосовых команд, что очень облегчает и ускоряет работу за компьютером.

Возможности голосового управления открывают перед пользователями огромные перспективы. Если учесть, что сегодня во многих офисах компьютер управляет принтером, модемом, факсом, а с появлением DVD стало возможно подключать к домашнему компьютеру аудиоцентры и домашние кинотеатры, то можно себе представить следующую картину из нашего недалекого будущего. Вы сидите на мягком диване и говорите: «Телевизор», потом — «МузТВ» — включается цепочка «микрофон — звуковая карта — компьютер — телевизор», и вы видите на экране телевизора свой любимый клип. Или вы произносите: «Отправить факс», «номер...», диктуете текст сообщения, потом — «Готово», и через несколько секунд услышите в ответ: «Факс отправлен». И все это вполне реально и осуществимо. Теперь добавьте к этому возможность голосовой навигации по Интернету, распознавание голоса, записанного на любой аудионоситель или в звуковой файл. В общем, пора уже наконец задуматься о приобретении системы распознавания звучащей речи, ведь не за горами тот день, когда вам надо будет только произнести слово!

Первые программы, обеспечивающие голосовой ввод данных, были разработаны за рубежом раньше отечественных. Самыми популярными сегодня из англоязычных являются Scansoft Dragon Naturally Speaking и IBM ViaVoice, а из отечественных разработок наибольшее распространение получила программа «Горыныч».

Dragon NaturallySpeaking 7 Essentials

Разработчик: Scansoft

Цена: 59,99 долл.

Dragon NaturallySpeaking 7 Essentials — наиболее точная система распознавания речевого ввода, получившая более 160 наград за точность распознавания речи и простоту использования. Программа позволяет диктовать текст непрерывно со скоростью примерно 160 слов в минуту. Dragon NaturallySpeaking полностью интегрирована в Microsoft Internet Explorer и AOL, а также позволяет диктовать текст в большинство Windows-приложений.

Dragon NaturallySpeaking 7 Essentials

Кроме того, программа позволяет автоматически добавлять термины и имена контактных персон за счет сканирования документов пользователя ПК и его электронной почты, так что пользователю не придется вводить спеллинг незнакомых имен. Программа позволяет ускорить рутинные задачи по вводу данных, запускать приложения голосом, посылать e-mail, заполнять формы и осуществлять навигацию в Web. Все это уже сегодня приносит значительную экономию времени и средств, необходимых для подготовки документов для медицинских, юридических и иных госучреждений.

ViaVoice Standard Edition V10

Разработчик: IBM

Цена: 44,99 долл.

Система распознавания речи IBM ViaVoice Standard Edition включает режим надиктовывания и режим подачи голосовых команд. В версии Standard Edition поддерживаются Windows XP Home/98 SE/Me.

ViaVoice Standard Edition V10

Пользователи ViaVoice могут надиктовывать текст, редактировать, корректировать и форматировать текст в текстовом процессоре с голосовым вводом SpeakPad. Текст, надиктовываемый в SpeakPad, можно экспортировать в другие текстовые редакторы. Пользователи могут также диктовать непосредственно в Microsoft Word 2002/2000/97.

Кроме того, можно добавить новые слова, адреса, акронимы и иную персональную информацию. Пользователи Standard Edition могут инициировать базовые команды управления Internet Explorer.

Горыныч ПРОФ 3.0

Самой продвинутой отечественной программой является программа «Горыныч» от российского разработчика VoiceLock. Следует отметить, что разработка распознавания русской речи является весьма специфической задачей. При распознавании речи, произносимой на нашем родном языке, возникает целый ряд трудностей. Те параметры звука, которые легче всего описать машине, наименее важны в русском языке: в частности, долгота звука, критичная в английском языке, в русском не играет практически никакой роли. Весьма остро стоит проблема омофонов (слов, которые пишутся по-разному, а звучат одинаково). Конечно, и в английском языке есть такие слова, но их гораздо меньше, чем в русском, из-за редуцирования гласных, присущего русской фонетике, и вследствие развитой системы склонений и спряжения. Скажите собеседнику слово «красивая» вне контекста — неизвестно, что он услышит: «красивая», «красивое» или «красивые»? То же самое со словом «смотрит» — может быть, «смотрят»? А в английском языке гласные произносятся отчетливо, согласные не оглушаются, да и окончаний там немного.

Но на этом проблемы вовсе не кончаются. Наша страна преподносит разработчикам систем распознавания русской речи еще один сюрприз — диалекты и говоры: необходимо также учитывать различия в произношении в разных регионах России. Как правило, подобные проблемы решаются с помощью предварительной настройки. А технологии, разработанные специалистами фирмы VoiceLock, позволяют настраивать программу всего за несколько минут.

На момент написания статьи в продаже имелась версия программы «Горыныч» 2.0, но готовилась к изданию новая версия — «Горыныч ПРОФ» 3.0, описание которой мы приводим ниже.

Следует обратить внимание читателей на то, что дальнейшее описание подготовлено по бета-версии продукта и в коммерческой версии картинки и функционал могут несколько измениться.

По информации издателя — компании «Новый Диск» — эта версия должна появиться в продаже уже в сентябре этого года.

В новой версии программы значительно улучшено качество распознавания, переработан интерфейс, добавлен модуль автоматической настройки микрофона, облегчена работа со словарями. Программа использует оригинальное ядро, полностью основанное на российских разработках. Вывод текста может производиться в любые текстовые редакторы. Кроме того, имеется возможность управлять голосом отдельными функциями операционных систем Microsoft Windows 98 SE/Mе/2000/XP.

Системные требования

Установка «Горыныч ПРОФ» 3.0 возможна на компьютеры под управлением русских версий Microsoft Windows 98 SE/Mе/2000/XP. Программа не предназначена для работы с Microsoft Windows 95 и NT. Пользователям Microsoft Windows 2000 и XP в зависимости от настроек операционной системы для работы с программой могут потребоваться полномочия администратора.

Чтобы установить саму программу, достаточно 50 Мбайт свободного дискового пространства. Рекомендуется же более 250 Мбайт, так как при меньшем объеме свободного места на жестком диске работа компьютера будет серьезно замедлена. Для работы программы необходим процессор с тактовой частотой не ниже 500 МГц. Оперативной памяти должно быть не менее 64 Мбайт. При увеличении мощности компьютера соответственно возрастает и производительность программы. На компьютере должна быть установлена как минимум 16-разрядная звуковая карта, имеющая микрофонный вход. Для более устойчивой работы подходят звуковые карты среднего и высшего уровня: Sound Blaster, Gravis Ultrasound и т.д., однако при должной настройке возможна работа и на более дешевых моделях звуковых карт.

Микрофон рекомендуется использовать в виде гарнитуры типа Voice Direct (наушники + микрофон) (рис. 1). Такая гарнитура обеспечивает достаточное качество передачи речи и позволяет минимизировать влияние сторонних фоновых шумов.

Рис. 1. При работе с программой желательно использовать гарнитуру типа Voice Direct

Не следует использовать встроенные (например, в монитор) и профессиональные микрофоны, ибо они конструктивно не предназначены для распознавания речи.

Работа с программой

В средней части главного окна программы (рис. 2) расположена панель с основными кнопками управления: включения и выключения звукозаписи, выхода из программы, помощи, настроек, прослушивания предыдущего произнесенного слова и кнопка включения/выключения режима диктовки.

Рис. 2. Главное окно программы

Программа запускается в режиме команд. Если нужно диктовать текст, необходимо нажать на кнопку включения/выключения режима диктовки и включить звукозапись. Чтобы вернуться в режим команд из режима диктовки, следует повторно нажать на эту кнопку.

В верхней и нижней частях главного окна расположены два вспомогательных окна мониторинга, предназначенные для наблюдения за сигналом с микрофона во время произнесения слов. В верхнем окне сигнал отображается по мере поступления со звуковой карты, а в нижнее окно выводится графическое отображение произнесенного слова.

Настройка микрофона

Корректная настройка микрофона является обязательным условием для нормальной работы программы

С помощью «Настройки микрофона» настраивается уровень записи данных. Можно выбрать один из двух вариантов настройки микрофона — вручную или автоматически.

При настройке вручную необходимо настроить нормальный уровень записи, ориентируясь на визуальное отображение сигнала: если в микрофон ничего не говорится, то монитор записи должен отображать ровную полосу в середине окна. Когда вы что-нибудь говорите в микрофон, отображение сигнала при произнесении ударных гласных должно немного не доходить до верхних краев окна мониторинга (рис. 3). Если же наблюдается слишком низкий уровень для ударной гласной (рис. 4), то следует говорить громче или повысить уровень записи с микрофона.

Рис. 3. Оптимальный уровень для ударной гласной

Рис. 4. Слишком низкий уровень

Рис. 4. Слишком низкий уровень для ударной гласной

Необходимо также настроить уровень записи, чтобы уровень шума был приемлемым (рис. 5), а при высоком уровне шума (рис. 6) следует уменьшить уровень записи с микрофона и убедиться, что в микрофон не попадает придыхание и отсутствуют посторонние шумы.

Рис. 5. Приемлемый уровень для шума

Рис. 6. Неприемлемый уровень для шума

Иногда трудно уловить ситуацию: или сигнал только близок к краям, или уже пересекает их, но для таких случаев предусмотрена автоматическая настройка. Один цикл автоматической настройки состоит из двух последовательно проводящихся тестов — шума и сигнала с данными. При тесте шума программа предлагает соблюдать тишину (то есть ничего не говорить в микрофон) для определения уровня фонового шума. В тесте сигнала с данными пользователю предлагается произнести любую фразу из двух-трех слов. При успешном завершении автоматической настройки выдается соответствующее сообщение.

Режим команд

В окно доступных команд (рис. 7) выводится список слов, которые пользователь может произнести в данный момент.

Рис. 7. Окно доступных команд

Вследствие запуска или активации других программ список доступных команд изменяется. Например, для «Блокнота» имеется доступное действие «Меню» (рис. 8). При произнесении слова «меню» активируется встроенное меню «Блокнота». В результате список доступных команд снова изменится: туда добавятся действия, возможные для встроенного меню «Блокнота», — «Файл», «Правка», «Поиск», «Справка» (рис. 9). Если теперь сказать «Файл», то это будет эквивалентно щелчку мышью на пункте меню «Файл». Соответственно результату изменится и список доступных действий. Таким же образом список работает и для других запущенных приложений.

Рис. 8. Изменение списка команд при вызове нового приложения

Рис. 9. Изменение списка команд при вызове меню приложения

Режим диктовки

Программа может распознавать те слова, которые внесены в ее словарь. Если диктовать слова, отсутствующие в словаре, то программа подберет ближайшее по характеристикам слово из словаря. Посмотреть список слов, которые внесены в словарь, а также изменить его содержимое можно с помощью модуля «Настройка словарей»: слово, наиболее похожее на сказанное пользователем, будет выведено в активированное для диктовки окно, а другие похожие на сказанное слова, будут выведены в очередь в окне справа.

Для лучшего распознавания в словаре можно заменить (протренировать) уже находящиеся в нем слова либо настроить слово под свое произношение. Если не превышен размер словаря, можно также добавить любое слово по своему выбору. Например, на рис. 10 показано, как может быть протренировано слово «сохранить» из командного словаря. Сначала необходимо указать в списке нужный словарь, а потом нажать кнопку «Загрузить словарь» — в итоге в левую часть окна программы в столбец будут выведены все слова из выбранного и загруженного словаря.

Рис. 10. Настройка словарей

Теперь двойным щелчком мыши укажите в списке слов нужное, затем нажмите кнопку «Записать слово» и произнесите нужное слово так, как вы собираетесь произносить его при дальнейшей работе с программой. Успешно записанное слово будет выведено на экран (рис. 11).

Рис. 11. Пример записи нового произношения слова

Для контроля записанное слово можно прослушать, и если результат вас не устраивает (например, слышен сильный хлопок дверью поблизости), то слово можно записать снова.

КомпьютерПресс 9'2004

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12