Как улучшить разборчивость речи?

Олег Татарников

Разборчивость речи

Как решают эту проблему профессионалы

SoundCleaner

Компьютерные транскрайберы

Заключение

 

Все мы не раз оказывались в ситуации, когда различные шумовые помехи настолько мешали разговору, что слова собеседника становились совершенно неразборчивыми. А если проводить в таких условиях видеосъемку, то речь, звучащая в кадре, станет абсолютно непонятной, поскольку исчезнет и визуальный контакт с собеседником.

К сожалению, оставляет желать лучшего и качество речи при передаче ее через Интернет. В этом может убедиться любой, кто воспользуется одной из существующих коммуникационных программ для передачи голоса через IP на базе, например, протоколов Н.323. При этом принципиального улучшения качества передачи речи при существующих методах маршрутизации в Интернете ждать не приходиться, ведь до сих пор считалось, что круг пользователей такой связи весьма ограничен. Казалось, что это могло заинтересовать лишь индивидуальных владельцев персональных компьютеров, жаждущих доступного по цене общения со своими друзьями на другом конце света, или корпоративных пользователей, пытающихся максимально удешевить связь между офисами в разных городах. Но если делать Интернет-телефонию общедоступной услугой, за которую можно взымать деньги, то, естественно, необходимо повышать качество связи, которое она обеспечивает.

Разборчивость речи

Что же такое разборчивость речи? В принципе, разборчивость является некоторой интегральной оценкой речевого сигнала и в соответствии с международным стандартом ISO/TR 4870 определяется как «степень, с которой речь может быть понята (расшифрована) слушателями». Под этим понимается степень, с которой слушатели могут понять смысл фразы, идентифицировать слова, слоги и фонемы. В соответствии с этим различают различные виды разборчивости: фонемная, слоговая, словесная и фразовая, которые, однако, все тесно связаны друг с другом и могут быть пересчитаны одна в другую.

Однако подобное определение субъективно и предполагает организацию некой экспертизы. Для определения разборчивости, в частности при оценке акустических свойств аудиторий, театральных, концертных залов, студий и других помещений, на практике используются различные методы и стандарты: ГОСТ 25902-83, ГОСТ 51061-97, ANSI S3.2 и др. Но все они предлагают довольно сложные, длительные и дорогостоящие процедуры, а объективные методы определения разборчивости, позволяющие получить быстрые и автоматизированные оценки, которые хорошо совпадают с субъективными экспертизами, пока еще разработаны недостаточно, хотя работа ведется уже на протяжении многих лет.

В настоящее время разработано большое количество таких методов: AI (Articulation Index) — индекс артикуляции; %ALcons (Percentage Articulation Loss of Consonants) — процент артикуляционных потерь согласных; STI (Speech Transmission Index) — индекс передачи речи; RASTI (Rapid Speech Transmission Index) — быстрый индекс передачи речи; SII (Speech Intelligibility Index) — индекс разборчивости речи и многие другие, соответствующие стандартам ISO/TR-4870, ANSI S3.2, S3.5; IEC 268-16 и пр.

Так, например, один из критериев, регламентированный международными нормативными документами, представляет собой безразмерный коэффициент, который может изменяться от 0 до 1. При этом его значения соотносятся с субъективной оценкой разборчивости речи в соответствии со следующей стандартизованной зависимостью:

 

Для расчетов разборчивости выбирается частотная полоса речевого сигнала в диапазоне от 150 до 7000 Гц (или с запасом — от 125 до 8000 Гц), поскольку внутри этой полосы располагаются практически все гласные и согласные русской речи. Как видите, речевой сигнал в этом случае достаточно широкополосный для того, чтобы различные помехи смогли внести свой негативный вклад в понижение разборчивости. При этом основная энергия согласных звуков сосредоточена вокруг 2000 Гц, из-за чего в результате маскировки шумом примерно на такой частоте значительно уменьшается вероятность восприятия (отметим также, что согласные звуки ниже по уровню и поэтому пропадают быстрее), а следовательно, падает уровень разборчивости речи. Интересно отметить, что при потере почти половины звуковой разборчивости слоговая разборчивость сохраняется на уровне 80%, то есть речь обладает достаточным запасом в плане информационной избыточности.

Как показывает анализ, речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал, модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит фразы, то есть скоростью артикуляции. Эксперименты показали, что частоты модуляции обычной речи лежат в диапазоне от 0,63 до 16 Гц, причем наиболее вероятные частоты модуляции находятся в области 5-7 Гц. Соответственно уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой, а потому приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи, с учетом искажений и шумов, происходит снижение разборчивости сигнала, что может быть оценено по степени уменьшения глубины его модуляции (изменения формы огибающей сигнала).

В начало В начало

Как решают эту проблему профессионалы

Надо сказать, что профессионалы стараются вообще не связываться с неразборчивой речью и предпочитают сразу записывать чистый звук — либо отдельно, либо при помощи специальных узко направленных микрофонов.

В результате длительных поисков оборудования, хоть как-то подходящего для решения проблемы повышения разборчивости уже записанной речи, автору удалось обнаружить лишь безумно дорогое устройство полосового обесшумливания фирмы Dolby Laboratories, именуемое Cat. No. 43 (просьба не путать с устройствами шумопонижения той же фирмы).

Действительно, из, казалось бы, широкополосного речевого спектра можно выделить частотные полосы, в которых имеются максимумы акустической энергии от речевой составляющей, и обрабатывать их по отдельности, добиваясь тем самым очищения полезного сигнала. Надо ли говорить, что вас ожидает кропотливая ручная работа, если, конечно, вы хотите улучшить разборчивость произносимого — без ущерба для динамического диапазона оригинальной фонограммы. Безусловно, придется поработать над средней плотностью фонограммы в каждом «новом» канале и с соотношением «полезный сигнал/помеха».

 

Профессионалы предпочитают сразу записывать чистый звук, иначе последующая обработка в системах типа Dolby Laboratories Cat. No. 43 обойдется им очень дорого

Профессионалы предпочитают сразу записывать чистый звук, иначе последующая обработка в системах типа Dolby Laboratories Cat. No. 43 обойдется им очень дорого

Но почему не решать эту проблему программно, с использованием «умных» компьютеров? Производители подобных продуктов вроде бы имеются (например, компании SIA Software, DAC или та же Dolby Laboratories), но успехи в этой области, похоже, находятся на том же уровне, что и в отношении программ автоматического распознавания речи и преобразования ее в текст. Таким образом, в настоящее время таких программ для реальной работы (да еще и на русском языке) практически не существует, и созданы они будут, очевидно, весьма нескоро.

Однако петербуржская компания «Центр речевых технологий» (ЦРТ), которая работает в этой области с 1990 года, кажется, добилась определенных успехов. Компания ЦРТ (www.speechpro.ru) имеет в своем арсенале целый набор программных и аппаратных средств, предназначенных для шумоочистки и повышения качества звуковых, и в первую очередь речевых сигналов, — это компьютерные программы, автономные устройства, платы (DSP), встраиваемые в устройства каналов записи или передачи речевой информации. В частности, компания разработала такие программы, как SIS, SoundCleaner, а также аппаратные устройства серии «Золушка», «Тишина» и др. Данные устройства повышают разборчивость речи в условиях воздействия шумов и искажений, делают ее прослушивание более комфортным, что необходимо экипажам самолетов, авиадиспетчерам, операторам служб экстренной помощи, машинистам локомотивов и пр. При этом подобное устройство может быть встроено практически в любой аналоговый или цифровой телефонный аппарат, радиостанцию, телефонную гарнитуру и т.п.

Так, например, первым покупателем платы «Тишина» стала американская компания, которая использует ее в гонках NASCAR для обеспечения качественной связи между пилотом, командой и болельщиками.

Специалисты фирмы принимали участие в восстановлении аудиоинформации, записанной на борту затонувшей подлодки «Курск» (итогом полугодовой работы стали 23 компакт-диска со 120 часами восстановленной звуковой информации и 340 страниц дословного содержания фонограмм речи), на потерпевших катастрофу воздушных судах, а также при расследовании ряда уголовных дел, для которых требовалось установить содержание фонограмм речи.

В начало В начало

SoundCleaner

Несомненным лидером в линейке продуктов шумоочистки ЦРТ является программный пакет SoundCleaner. В 2000 году программа SoundCleaner официально зарегистрирована Российским агентством по патентам и товарным знакам.

Комплекс шумоочистки речи SoundCleaner представляет собой профессиональный набор программно-аппаратных средств, предназначенных для восстановления разборчивости речи и очистки звуковых сигналов, записанных в сложных акустических условиях или передаваемых по каналам связи.

 

Портативная система шумоочистки речи SoundCleaner может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях

Портативная система шумоочистки речи SoundCleaner может помочь в повышении
разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях

Это действительно уникальный программный продукт, предназначенный для шумоочистки и повышения качества звучания живого (то есть поступающего в реальном времени) или записанного звукового сигнала. И именно он может помочь в повышении разборчивости и в текстовой расшифровке низкокачественных фонограмм речи, записанных в сложных акустических условиях (в том числе архивных).

Естественно, он эффективнее работает в отношении шумов и искажений звука известной природы, таких как типовые шумы и искажения каналов связи и звукозаписи, шумы помещений и улицы, работающих механизмов, транспортных средств и бытовой техники, голосовой «коктейль», медленная музыка, электромагнитные наводки систем питания, как шумы компьютерной и другой техники, эффекты реверберации и эха. В принципе, чем регулярнее и равномернее шум, тем успешнее SoundCleaner с ним справится.

Однако при двухканальном съеме информации он существенно снижает влияние шумов любого типа. Так, например, SoundCleaner имеет методы двухканальной адаптивной фильтрации, предназначенные для подавления как широкополосных нестационарных помех (таких как речь, радио или телетрансляция, шумы зала и т.д.), так и периодических (вибрации, сетевые наводки и т.п.). Эти методы основываются на том, что при выделении полезного сигнала используется дополнительная информация о свойствах помехи, представленная в опорном канале.

Если возникает необходимость решать нестандартные задачи по обработке тех или иных фонограмм, то программа SoundCleaner предоставляет возможность гибкой настройки процедуры обработки сигнала, включая редактирование самой схемы обработки. Таким образом, пользователи любого уровня подготовки могут успешно решать задачи шумоподавления, пользуясь автоматическими или ручными настройками программы. Для менее опытных существует 13 готовых схем обработки наиболее типичных зашумлений и искажений сигналов (электронаводка, шум транспорта, частотные и амплитудные искажения, помехи радиосвязи и др.), которые помогут в борьбе с различными видами известных шумов и помех. При этом каждая схема поддается корректировке, а более опытные пользователи могут разработать собственные схемы, которые потом можно сохранить в качестве типовых для повторного применения.

 

Интерфейс программы SoundCleaner

Интерфейс программы SoundCleaner

В комплект поставки включаются звуковые файлы примеров зашумленных речевых сигналов и оптимизированных для их обработки конфигураций и схем фильтрации, так что освоение и работа с программой будут происходить просто и довольно эффективно.

Начиная с версии 5.10 SoundCleaner может работать в качестве DirectX plug-in, сохраняя при этом все возможности для автономной работы. В этом режиме программа может работать в составе таких известных звуковых редакторов, как Adobe Audition (1.0 и выше), Sound Forge (6.0 и выше) или Wave Lab 4.0. В принципе, для работы в автономном режиме в SoundCleaner есть свой звуковой редактор Wave Assistant editor, который включает набор стандартных средств для редактирования сигнала и проведения его подробного электроакустического и спектрального анализа с целью выбора оптимального режима обработки.

Структурно программа представляет собой набор автономных модулей работы со звуком (всего имеется 19 таких модулей), объединенных в основной оболочке. Каждый модуль имеет свою панель управления и обрабатывает звук по собственному алгоритму, после чего передает его на следующий модуль. Общее количество одновременно используемых модулей ограничено только вычислительными возможностями компьютера.

Архитектура программного комплекса позволяет легко наращивать количество используемых типов модулей, обеспечивая тем самым длительный жизненный цикл программы (ибо компания создает все новые и новые модули). В программе предусмотрена возможность создания из таких модулей и использования схем обработки трех различных типов: одноканальной для сигнала моно или двухканальной с независимой обработкой в левом и правом каналах (в ряде случаев чрезвычайно эффективным оказывается использование для выделения полезного сигнала двух разных каналов).

Сигнал (до и после обработки) непрерывно отображается в виде осциллограммы и мгновенного спектра. Управление шумоочисткой осуществляется в масштабе реального времени: изменять настройки каждого модуля можно в любой момент, не прерывая воспроизведения, причем без потери сигнала, что очень важно для оперативного выбора параметров буквально на слух.

Ввод и обработка звукового сигнала могут производиться как от внешнего источника (линейного выхода аудиоаппаратуры, микрофона), так и из звукового wav-файла. Программа может работать с моно- или стереосигналами форматов ИКМ 8 и 16 бит, mu(a)-Law или 24 бит float с частотой дискретизации от 8 до 48 кГц и сохранять их после обработки с исходной частотой дискретизации в формате ИКМ 16 бит.

 

ClearVoice Denoiser — демонстрационная программа автоматического подавления шумов

ClearVoice Denoiser — демонстрационная программа автоматического подавления шумов

SoundCleaner работает под управлением ОС Windows 9х/Ме/NT/2000/XP на стандартном PC (начиная с Pentium II или Celeron с 64 Мбайт оперативной памяти) со стандартной Windows-совместимой полнодуплексной звуковой картой. Для получения гарантированно высокого качества входного и выходного сигналов для старших версий продукта предусмотрена поставка профессиональных устройств ввода/вывода сигнала: 16-разрядного STC-H216 или 24-разрядного STC-H246 «Камертон». У программы есть русскоязычный пользовательский интерфейс. С сайта компании можно скачать ClearVoice Denoiser — демонстрационную программу автоматического подавления шумов. Основные алгоритмы шумоочистки из программы SoundCleaner реализованы также в виде набора встраиваемых программных модулей (SDK), которые могут использоваться другими разработчиками программного обеспечения. Демо-версии SDK доступны на сайте производителя.

В начало В начало

Компьютерные транскрайберы

Коль скоро речь зашла о записи речи, нельзя не упомянуть и о другой разработке ЦРТ — о семействе компьютерных транскрайберов. Предположим, что разборчивость речи мы восстановили, но оставлять звук в таком виде уже не хотим, а желаем переозвучить испорченный шумами видеофрагмент. Тогда нам нужно записать сказанное в виде текстового сценария и наговорить его в тихом помещении на приличный микрофон, а осуществить запись распознанного звука в текстовой форме нам поможет транскрайбер.

Компьютерный транскрайбер, к сожалению, пока еще не является программой автоматического распознавания речи и преобразования ее в текст. В настоящее время таких программ для реальной работы на русском языке не существует, и появятся они, скорее всего, не скоро. Транскрайбер — это, скорее, компьютерный цифровой магнитофон, управляемый из специализированного текстового редактора.

Данные устройства предназначены для повышения скорости и комфортности документирования звукозаписей устной речи при подготовке сводок, протоколов совещаний, переговоров, лекций, интервью, при безбумажном делопроизводстве и во многих других случаях. Их отличает простота, удобство использования и доступность для непрофессиональных операторов: скорость работы по набору текста возрастает для профессиональных операторов, печатающих вслепую, в 2-3 раза, а для непрофессионалов — в 5-10 раз! Кроме того, значительно уменьшается механический износ магнитофона и ленты, если речь идет об аналоговом источнике. При этом у компьютерных транскрайберов существует интерактивная возможность сверки набранного текста и соответствующего звукового трека. Связь текста и речи устанавливается автоматически и позволяет в набранном тексте при подведении курсора к исследуемому фрагменту текста мгновенно автоматически находить и прослушивать соответствующие звуковые фрагменты речевого сигнала.

Повышения разборчивости речи можно добиться здесь как путем замедления скорости воспроизведения без искажения тембра голоса, так и путем многократного повторения неразборчивых фрагментов в режиме кольца.

По желанию заказчика компания может продать транскрайбер с ножной педалью, посредством которой осуществляется управление функциями цифрового магнитофона, что тоже повышает производительность и комфортность работы. Возможен и вариант программы под стандартную звуковую карту типа Sound Blaster.

В начало В начало

Заключение

В настоящее время созданием международных рекомендаций по оценке разборчивости речи занимается специальная группа Комитета стандартов AES (председатель П.Мапп). Однако специалисты этой группы занимаются преимущественно сравнительным анализом различных методов оценки этой разборчивости.

Но если так сложна проблема оценки разборчивости речи, что уже тогда говорить о методах, автоматически повышающих эту разборчивость! Ведь разборчивость речи зависит не только от факторов, которые поддаются объективным измерениям (уровень шумов и др.), но и от таких субъективных факторов, как уровень владения языком, дикция оратора, степень знакомства слушателя с содержанием сообщения, состояние его слуха и др. Как видите, создание любой автоматизированной компьютерной системы, работающей с речью, — задача чрезвычайно сложная, но поскольку она важна для многих областей, особенно для развития коммуникационных систем, и к ее решению привлечены значительные силы специалистов в различных странах, то можно надеяться, что когда-нибудь надежные системы будут созданы и для точного распознавания речи.

На нашем CD-ROM вы найдете демонстрационные версии программ SoundCleaner и ClearVoice Denoiser.

КомпьютерПресс 8'2004