Системы автоматического распознавания речи
1 Процесс распознавания речи может быть разделен на две основные фазы: оцифровка и декодирование. На первой фазе входной аудиосигнал записывается и разбивается на фрагменты. На фазе декодирования полученная информация анализируется на основе использования различных моделей и алгоритмов.
Алгоритмы декодирования могут опираться на образцы как целых слов, так и отдельных частей слов. Самой малой частью слова является фонема, и любому языку обычно достаточно 40-60 фонем, чтобы описать произношение всех слов.
Наиболее точными с точки зрения распознавания являются модели, основанные на распознавании слов целиком. Однако они могут использоваться лишь в системах со словарями небольшого объема.
Модели, основанные на фонемной структуре, являются гораздо более универсальными и в значительной мере решают проблему объема словаря.