Системы автоматического распознавания речи

Александр Прохоров

САРР — что это такое?

Голосовые ключи

Немного истории

Прогнозы аналитиков

Основные сложности

Предложения современного рынка САРР

Aculab

Babear SDK Version 3.0

Как хорошо было раньше! Позвонив в справочную, можно было побеседовать с девушкой-оператором и даже назначить ей свидание. Теперь же на том конце провода слышится приятный, но неживой женский голос, предлагающий набрать 1 для получения такой-то информации, 2 — для связи с тем-то, 3 — для выхода в меню и т.д. Все чаще доступ к информации контролируется системой, а не человеком. В этом есть своя логика: однообразная, неинтересная работа выполняется не человеком, а машиной. И для пользователя процедура получения информации упрощается: назвал определенный набор цифр — получил нужную информацию.

ак же работает такая система? Давайте попробуем разобраться.

Двумя основными типами программ для распознавания речи являются:

• голосовые, или речевые, навигаторы (voice navigator) для управления программным и аппаратным обеспечением; их еще называют «программами распознавания команд»;

• программы для диктовки — ввод текста и цифровых данных.

Голосовые навигаторы управляют программами, в какой-то мере заменяя клавиатуру и мышь. Они имеют небольшой словарь (100-300 слов). Некоторые могут работать со слитной речью и не требуют обучения.

Сразу оговоримся, что системы Text-to-speech и speech-to-text, то есть переводящие текст в устную речь и наоборот, мы рассматривать не будем. Ограничимся только системами автоматического распознавания команд, или голосовыми навигаторами.

САРР — что это такое?

истемы автоматического распознавания речи (САРР) — это элемент процесса обработки речи, назначение которого — обеспечить удобный диалог между пользователем и машиной. В широком понимании речь идет о системах, которые осуществляют фонемное¹ декодирование речевого акустического сигнала при произношении речевых сообщений свободным стилем, произвольным диктором, без учета проблемной ориентации и ограничений на объем словаря. В узком смысле САРР облегчают решение частных задач, накладывая некоторые ограничения на требования к распознаванию естественно звучащей речи в классическом его понимании. Таким образом, диапазон разновидностей САРР простирается от простых автономных устройств и детских игрушек, которые способны распознавать или синтезировать раздельно произносимые слова, цифры, города, имена и т.п., до суперсложных систем распознавания естественно звучащей речи и ее синтеза для использования, например, в качестве секретаря-референта (IBM VoiceType Simply Speaking Gold).

Являясь основной составляющей любого дружественного интерфейса между машиной и человеком, САРР может быть встроена в различные приложения, например в системы голосового контроля, голосового доступа к информационным ресурсам, обучения языку с помощью компьютера, помощи недееспособным, доступа к чему-либо через системы голосовой верификации/идентификации.

САРР весьма полезна как средство поиска и сортировки записанных аудио- и видеоданных. Распознавание речи также используется при вводе информации, что особенно удобно, когда глаза или руки человека заняты. САРР позволяет людям, работающим в напряженной обстановке (врачи в больницах, рабочие на производстве, водители), применять компьютер для получения или ввода необходимой информации.

Обычно САРР используется в таких системах, как телефонные приложения, встроенные системы (системы набора номера, работа с карманным компьютером, управление автомобилем и т.д.), мультимедийные приложения (системы обучения языку).

Голосовые ключи

олосовыми ключами иногда называют системы автоматического распознавания личности по речи. Обычно это биометрические системы либо санкционированного доступа к информации, либо физического доступа к объектам. Следует различать две разновидности таких систем: системы верификации и системы идентификации. При верификации пользователь предварительно предъявляет свой код, то есть заявляет о себе тем или иным способом, а затем вслух произносит пароль или какую-нибудь произвольную фразу. Система проверяет, соответствует ли данный голос тем эталонам, которые были вызваны из памяти компьютера по предъявленному коду.

При идентификации предварительного заявления о пользователе не делается. В этом случае выполняется сравнение данного голоса со всеми эталонами и затем конкретно определяется, кем является опознаваемый по голосу человек. Сегодня известно множество подходов и методов для реализации таких систем, и все они, как правило, отличаются друг от друга — сколько разработчиков, столько и их разновидностей. То же самое можно сказать и о системах распознавания речи. Поэтому судить о характеристиках конкретных систем распознавания речи и распознавания личности по речи допустимо только с помощью специальных тестовых баз данных.

Немного истории

оединенные Штаты Америки, конец 60-х годов XX века: «Три», — сказал Валтер Кронкит (Walter Cronkite), ведущий научно-популярной программы «XXI век», во время демонстрации новейших разработок в области распознавания речи. Компьютер распознал это слово как «четыре». «Идиот», — пробормотал Валтер. «Этого слова нет в словаре», — ответил компьютер.

Хотя первые разработки в области распознавания речи относятся еще к 1920-м годам, первая система была создана только в 1952 году компанией Bell Laboratories (сегодня она входит в состав Lucent Technologies). А первая коммерческая система была создана еще позже: в 1960 году IBM объявила о разработке такой системы, но на рынок программа так и не вышла.

Затем, в 1970-х годах, авиакомпания Eastern Airlines в США установила дикторозависимую систему отправки багажа: оператор называл пункт назначения — и багаж отправлялся в путь. Однако из-за количества допущенных ошибок система так и не прошла испытательный срок.

После этого разработки в данной области если и велись, то достаточно вяло. Даже в 1980-х годах реальных коммерческих приложений с использованием систем распознавания речи было довольно мало.

Сегодня в этом направлении работают уже не десятки, а сотни исследовательских коллективов в научных и учебных заведениях, а также в крупных корпорациях. Об этом можно судить по таким международным форумам ученых и специалистов в области речевых технологий, как ICASSP, EuroSpeech, ICPHS и др. Результаты работы, на которую, как у нас образно говорят, «навалились всем миром», трудно переоценить.

Уже в течение нескольких лет голосовые навигаторы, или системы распознавания команд, успешно применяются в различных областях деятельности. Например, call-центр OmniTouch, поставленный Ватикану компанией Alcatel, использовался для обслуживания мероприятий, проходивших в рамках празднования 2000-летия Христа. Паломник, звонивший в call-центр, излагал свой вопрос, и система автоматического распознавания речи «выслушивала» его. Если система определяла, что вопрос задан по часто встречающейся теме, например о расписании мероприятий или адресах гостиниц, то включалась предварительно сделанная запись. При необходимости уточнить вопрос предлагалось речевое меню, в котором голосом надо было указать один из пунктов. Если же система распознавания определяла, что предварительно записанного ответа на заданный вопрос нет, то происходило соединение паломника с оператором-человеком.

В Швеции не так давно была открыта автоматическая телефонная справочная служба, использующая программу распознавания речи компании Philips. За первый месяц работы службы Autosvar, которая начала действовать без официального объявления, ее услугами воспользовались 200 тыс. клиентов. Человек должен набрать определенный номер и после ответа автоматического секретаря назвать интересующий его раздел информационного справочника.

Новая услуга предназначена в основном для частных клиентов, которые предпочтут ее из-за значительно меньшей стоимости услуг. Служба Autosvar является первой системой такого рода в Европе (в США испытания аналогичной службы в компании AT&T были начаты в декабре прошлого года).

Вот несколько примеров использования этой технологии в США.

Риэлтеры часто обращаются к услугам компании Newport Wireless. Когда риэлтер проезжает на машине по улице и видит возле какого-нибудь дома табличку «Продается», он звонит в Newport Wireless и запрашивает сведения о доме с таким-то номером, находящемся на такой-то улице. Автоответчик приятным женским голосом рассказывает ему о метраже дома, дате постройки и владельцах. Вся эта информация находится в базе данных Newport Wireless. Риэлтерам остается только выдать сообщение клиенту. Абонентская плата — около 30 долл. в месяц.

Джули, виртуальный агент компании Amtrak, обслуживает железнодорожных пассажиров с октября 2001 года. Она по телефону сообщает о расписании поездов, об их прибытии и отправлении, а также производит бронирование билетов. Джули — это продукт компании SpeechWorks Software и Intervoice Hardware. Она уже увеличила показатель удовлетворенности пассажиров на 45%; 13 из 50 клиентов получают всю нужную информацию из «уст» Джули. Раньше компания Amtrak использовала тоновую систему справки, однако показатель удовлетворенности тогда был меньше: всего 9 клиентов из 50.

В Amtrak признаются, что свою цену (4 млн. долл.) Джули окупила за 12-18 месяцев. Она позволила не нанимать на работу целую команду служащих. А British Airways экономит 1,5 млн. долл. в год, используя технологию от Nuance Communications, которая тоже автоматизирует справочную службу.

Недавно Sony Computer Entertainment America представила Socom — первую видеоигру, в которой игроки могут отдавать устные приказы бойцам из «Deploy grenades». В игре стоимостью 60 долл. применена технология ScanSoft. В прошлом году было продано 450 тыс. таких игр, что сделало Socom безусловным лидером продаж компании.

В дорогих автомобилях типа Infinity и Jaguar уже несколько лет используется устный контроль за панелью управления: радио, температурный режим и навигационная система понимают голос владельца машины и беспрекословно слушаются хозяина. Но сейчас технология распознавания голоса начинает применяться и в машинах среднего класса. Так, с 2003 года Honda Accord имеет встроенный голосовой определитель от IBM. Он называется ViaVoice и является частью навигационной системы за 2000 долл. По сообщению компании-поставщика, одна пятая часть покупателей Honda Accord сделала выбор в пользу модели с голосовой системой навигации.

Даже в медицине технология распознавания голоса нашла свое место. Уже разработаны аппараты осмотра желудка, послушные голосу врача. Правда, эти аппараты, по словам специалистов, пока еще несовершенны: у них замедленная реакция на приказы врача. Но все еще впереди. В Мемфисе VA Medical Center вложил 277 тыс. долл. в программу Dragon, позволяющую врачам и медсестрам надиктовывать информацию в базу данных компьютера. Вероятно, скоро не нужно будет мучиться, чтобы разобрать в медицинской карте почерк врача.

Уже сотни крупных компаний используют технологию распознавания голоса в своей продукции или в услугах; в их числе — AOL, FedEx, Honda, Sony, Sprint, T. Rowe Price, United Airlines и Verizo. По оценкам экспертов, рынок голосовой технологии достиг в 2002 году порядка 695 млн. долл., что на 10% выше, чем в 2001 году.

Авиакомпания United Airways внедрила автоматическую справочную службу еще в 1999 году. Автоматические системы обработки телефонных звонков эксплуатируются такими компаниями, как инвестиционный банк Charles Schwab & Co, розничная сеть Sears, сеть супермаркетов Roebuck. Американские операторы беспроводной связи (AT&T Wireless и Sprint PCS) уже больше года используют подобные программы и предоставляют услуги голосового набора. И хотя сейчас лидером по количеству call-центров такого типа является Америка, в последнее время выгоду от систем распознавания речи начали осознавать и в Европе. Например, швейцарская служба железных дорог уже предоставляет своим немецкоязычным пассажирам услуги, аналогичные тем, что предлагает United Airways.

Прогнозы аналитиков

егодня технологии распознавания речи считаются одними из наиболее перспективных в мире. Так, по прогнозам американской исследовательской компании Cahners In-Stat, мировой рынок ПО распознавания речи к 2005 году увеличится с 200 млн. до 2,7 млрд. долл. По мнению же фирмы Datamonitor, объем рынка голосовых технологий будет расти в среднем на 43% в год: с 650 млн. долл. в 2000 году до 5,6 млрд. долл. в 2006-м (рис. 1). Эксперты, сотрудничающие с медиакорпорацией CNN, отнесли распознавание речи к одной из восьми наиболее перспективных технологий нынешнего года. А аналитики из IDC заявляют, что к 2005 году распознавание речи вообще вытеснит с рынка все остальные речевые технологии (рис. 2).

Основные сложности

лавная проблема, возникающая при разработке САРР, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Человека это не смутит, а вот компьютер — может. Кроме того, на входящий сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале. Осложняется это и тем, что шум и искажения заранее неизвестны, то есть система не может быть подстроена под них до начала работы.

Однако более чем полувековая работа над различными САРР дала свои плоды. Практически любая современная система может работать в нескольких режимах. Во-первых, она может быть зависимой или независимой от диктора. Зависимая от диктора система требует специального обучения под конкретного пользователя, чтобы точно распознавать то, что он говорит. Для обучения системы пользователю надо произнести несколько определенных слов или фраз, которые система проанализирует и запомнит результаты. Этот режим обычно используется в системах диктовки, когда с системой работает один пользователь.

Дикторонезависимая система может быть использована любым пользователем без обучающей процедуры. Этот режим обычно применяется там, где процедура обучения невозможна, например в телефонных приложениях. Очевидно, что точность распознавания дикторозависимой системы выше, чем у дикторонезависимой. Однако независимая от диктора система удобнее в использовании, например она может работать с неограниченным кругом пользователей и не требует обучения.

Во-вторых, системы делятся на работающие только с изолированными командами и на способные распознавать связную речь. Распознавание речи является значительно более сложной задачей, чем распознавание отдельно произносимых слов. Например, при переходе от распознавания изолированных слов к распознаванию речи при словаре в 1000 слов процент ошибок увеличивается с 3,1 до 8,7, кроме того, для обработки речи требуется в три раза больше времени.

Режим изолированного произнесения команд наиболее простой и наименее ресурсоемкий. При работе в этом режиме после каждого слова пользователь делает паузу, то есть четко обозначает границы слов. Системе не требуется самой искать начало и конец слова в фразе. Затем система сравнивает распознанное слово с образцами в словаре, и наиболее вероятная модель принимается системой. Этот тип распознавания широко используется в телефонии вместо обычных DTMF-методов² .

Режим слитного произнесения более натурален и близок пользователю. При этом предполагается, что система сама различит границы слов во фразе. Однако этот режим требует гораздо больше системных ресурсов и памяти, а точность распознавания ниже, чем в предыдущем режиме. Почему это так? Причин несколько. Во-первых, при слитной речи произнесение слов менее аккуратно, чем в «режиме PIN-кода», то есть когда каждое слово произносится отдельно. Во-вторых, скорость речи даже у одного человека разная. Он может задуматься, засомневаться, забыть слово. В разговорной речи часто встречаются слова-паразиты: «ну», «а», «вот». Кроме того, границы слов часто смазываются, произносятся нечетко, что затрудняет работу системы.

Дополнительные вариации в речи возникают также из-за произвольных интонаций, ударений, нестрогой структуры фраз, пауз, повторов и т.д.

На стыке слитного и раздельного произнесения слов возник режим поиска ключевых слов. В этом режиме САРР находит заранее определенное слово или группу слов в общем потоке речи. Где это может быть использовано? Например, в подслушивающих устройствах, которые включаются и начинают запись при появлении в речи определенных слов, или в электронных справочных. Получив запрос в произвольной форме, система выделяет смысловые слова и, распознав их, выдает необходимую информацию.

Размер используемого словаря — важная составляющая САРР. Очевидно, что чем больше словарь, тем выше вероятность того, что система ошибется. Во многих современных системах есть возможность или дополнять словари по мере необходимости новыми словами, или подгружать новые словари. Обычный уровень ошибок для дикторонезависимой системы с изолированным произнесением команд — около 1% для словаря в 100 слов, 3% — для словаря в 600 слов и 10% — для словаря в 8000 слов.

Предложения современного рынка САРР

а рынке сегодня представлены CАРР различных компаний. Рассмотрим некоторые из них.

Aculab

Точность узнавания 97%.

Дикторонезависимая система. Разработчики системы проанализировали различные базы данных для многих языков, чтобы учесть все вариации речи, возникающие в зависимости от возраста, голоса, пола и акцента. Собственные алгоритмы обеспечивают распознавание речи независимо от особенностей оборудования (наушников, микрофона) и характеристик канала.

Система поддерживает возможность создания дополнительных словарей, учитывающих особенности произношения и акцентов. Это особенно полезно в тех случаях, когда системой пользуются люди, произношение которых сильно отличается от общепринятого.

Система поддерживает наиболее распространенные языки, такие как британский и американский английский, французский, немецкий, итальянский, североамериканский испанский. Словарь может быть настроен на любой из этих языков, но невозможно одновременно использовать несколько языков в составе одного словаря.

Продукт доступен на базе Windows NT/2000, Linux и Sun SPARC Solaris.

Babear SDK Version 3.0

Дикторонезависимая система, не требующая обучения под конкретного пользователя. Адаптация под пользователя происходит во время работы и обеспечивает наилучший результат распознавания. Автоматическая подстройка на голосовую активность позволяет распознавать речь в сильно зашумленной среде, например в салоне автомобиля. Система не определяет слова, не занесенные в словарь. Предусмотрена возможность поиска ключевых слов. Система может быть настроена на работу как с маленьким словарем (изолированное произнесение команд), так и с большим по объему словарем (речь).

Система поддерживает следующие языки: британский и американский английский, испанский немецкий, французский, датский, шведский, турецкий, греческий, исландский и арабский.

Система работает на базе Windows 98 (SE)/NT 4.0/2000/CE, Mac OS X и Linux.

Loquendo ASR

Дикторонезависимая система, оптимизированная для использования в телефонии. Предусмотрена возможность распознавания отдельных слов и речи, поиска ключевых слов (словарь до 500 слов). Позволяет создавать дружественные пользователю приложения за счет большого объема словаря и гибкости системы.

Поддерживает 12 языков, включая наиболее распространенные европейские языки (итальянский, испанский, британский и американский английский, французский, немецкий, греческий, шведский и др.).

Входит в состав продукта Loquendo Speech Suite вместе с системой text-to-speech и программой Loquendo VoiceXML Interpreter, поддерживающей использование различных голосов и языков.

Система работает на базе MS Windows NT/2000, UNIX и Linux.

LumenVox

Дикторонезависимая система, не требующая обучения, но после адаптации под конкретного пользователя результаты распознавания становятся гораздо лучше: точность распознавания превышает 90%.

Поддерживает различные форматы аудиофайлов: (u-law 8 кГц, РСМ 8 кГц, РСМ 16 кГц). Не имеет жестких требований к аппаратным ресурсам. Работает на базе Windows NT/2000/XP и Linux.

Требования к системе (на базе Windows):

• Windows NT 4.0 c Service Pack 6a, Windows 2000 или Windows XP Pro;

• Intel Pentium III 800 MГц или выше;

• Минимальный размер памяти 512 Mбайт.

Требования к системе (на базе Red Hat Linux):

• Red Hat Linux 7.2;

• Intel Pentium III 800 MГц или выше;

• Объем памяти 256 Mбайт;

• Размер диска 17 Mбайт (после декомпрессии).

Nuance

По словам производителей, система оптимизирована для наименьшего потребления памяти и других системных ресурсов. Точность распознавания — до 96%, причем остается высокой даже в зашумленном помещении.

Есть возможность самообучения системы и ее подстройки под каждого пользователя.

Работает на базе Windows 2000 и Linux.

SPIRIT

Язык может быть любой (словарь составляется под конкретные требования клиента и включает те слова и на том языке, которые клиент указал в требованиях к настройкам системы. В словарь могут быть включены слова из разных языков, то есть, не меняя настроек, система может распознавать слова, например, как на китайском, так и на финском языке, если они были заранее внесены в словарь). Таким образом, эта система может работать с любым языком, тогда как другие системы — лишь с определенным их набором.

Это автоматическая система распознавания речи, обеспечивающая высокое качество распознавания даже в сильно зашумленной среде. Система может быть легко настроена на работу в одном из двух режимов: распознавание фраз с фиксированным числом команд (произнесение отдельных команд, режим PIN-кода) и распознавание фраз с произвольным числом команд (слитное произнесение команд, «режим связной речи»). Есть возможность поиска ключевых слов. Данное решение работает в условиях аддитивного нестационарного шума. Требуемое соотношение «сигнал/шум» до 0 дБ в «режиме PIN-кода» и до +15 дБ в режиме связной речи.

Задержка распознавания — 0,2 с. Параметры акустического канала: полоса пропускания в пределах 300-3500 Гц. Адаптация к акустической среде производится по фрагментам шума суммарной длиной не менее 3 с.

Для «режима PIN-кода»:

• словарь — 50 команд;

• вероятность правильного распознавания — 95-99% при SNR³ = 0…6 дБ;

• требуемые акустические условия: аддитивный широкополосный статичный шум с SNR (отношение «сигнал/шум») >= 15 дБ.

Для режима распознавания связной речи:

• словарь — 12 слов /цифр;

• вероятность правильного распознавания цепочки слов — 98-99%.

Специфика: адаптация к произвольным шумам.

Автоматическая система распознавания речи от SPIRIT доступна в форме приложения для PC под MS Windows или ассемблерного кода. По запросу клиентов решение может быть портировано на любую DSP- или RISC-платформу.

VoiceWare

Система может работать как в дикторозависимом, так и в дикторонезависимом режиме, поэтому специального обучения системы для работы с конкретным пользователем не требуется.

Обеспечивается высокая точность распознавания и работа в реальном времени, даже в зашумленной среде.

Система распознает связную речь и последовательный перечень цифр.

Слова, не занесенные в словарь, и посторонний шум не воспринимаются ею, а ничего не значащие слова, такие как «а», «ну» и пр., отбрасываются.

Новые слова могут быть добавлены в словарь.

Система автоматически подстраивается под тон, произношение и другие речевые особенности пользователя.

VoiceWare поддерживает американский английский и корейский языки; китайский и японский — в разработке.

Система работает на базе Windows 95/98/NT 4.0, UNIX и Linux.

КомпьютерПресс 7'2003

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12