Качество голоса в мультисервисных сетях

Максим Муханов

Приоритеты и резервирование, или Голос по IP

Введение

Голосовой трафик постепенно становится неотъемлемой частью современных сетей передачи информации. Сегодня уже не так остро стоит проблема подбора необходимого оборудования — для любого вида каналов передачи данных, имеющихся у пользователя, найдется несколько моделей оборудования различных производителей, способных передать голос по данному каналу с необходимым уровнем качества обслуживания, и остается только выбрать вариант, наиболее подходящий по стоимости, конфигурации, возможностям, удобству в использовании и т.д. Но когда речь идет о качестве передаваемого голоса, в особенности передаваемого через глобальные сети публичного пользования, зачастую проблема подбора заметно усложняется. Тестирование на существующем канале выбранного оборудования выявляет, что реальное качество обслуживания не настолько хорошо, как это представлено на Internet-сайте фирмы-производителя, в рекламных проспектах и на многочисленных гистограммах и диаграммах с результатами тестирования устройств, демонстрирующих значительное преимущество данной модели над конкурентами.

Конечно, реклама и честная конкуренция — мощные механизмы не только телекоммуникационного, но и любого другого рынка, и развитие бизнеса в их отсутствие совершенно невозможно. Однако качество сервиса (в данном случае качество передаваемого голоса) определяется таким количеством различных, в том числе и субъективных, факторов, что какими бы достоинствами ни обладало предлагаемое на рынке устройство, какие бы эффективные механизмы для обработки и передачи голосовой информации оно не использовало, это устройство не может быть в полной мере признано эталонным по уровню качества. И пока количество информации, передаваемой по каналу передачи данных, растет быстрее, чем увеличивается величина максимальной пропускной способности данного канала, указанная проблема так или иначе будет сохраняться.

Не подлежит сомнению, что трафик бывает критичным и некритичным к задержкам. Также абсолютно ясно, что речь относится к трафику первого типа, поскольку обладает ритмом. Это означает, что при передаче речи посредством любой из трех наиболее популярных технологий голосовые IP-пакеты, FR-кадры или ATM-ячейки должны передаваться с постоянной скоростью — через каждый конкретный промежуток времени от передающего абонента к принимающему должен приходить один блок голосовых данных, и так в течение всего разговора. И здесь возникает одна из основных проблем — маршрутизаторы и коммутаторы в узлах маршрута не всегда успевают обрабатывать большое количество данных в своих очередях, и даже использование различных механизмов приоритезации голосового трафика не обеспечивает окончательного избавления от произвольной задержки, величину которой очень трудно прогнозировать, что приводит к искажению качества речи, возникновению в ней неожиданных пауз, шумов и прерываний разговора.

Все ли могут стандарты?

Конечно, исследовательские отделы ведущих компаний-производителей не сидят без дела и предлагают всевозможные методы и механизмы, направленные на повышение качества и эффективности при передаче голоса. Естественно, не все зависит только от них, и сегодня отсутствие или недоработанность стандартов передачи голосового трафика через публичные сети зачастую либо ограничивает, либо полностью нейтрализует преимущества подобных механизмов. На данный момент к общепринятым стандартам передачи голосовых данных в глобальных сетях относятся:

Стандарт H.323 для передачи мультимедийной информации через сети IP.
Стандарт FRF 11/12 для передачи голосового трафика через сети Frame Relay.
Стандарт (или метод) VTOA (Voice and Telephony Over ATM) передачи голоса через сети ATM.

Однако, к сожалению, в описаниях и рекомендациях указанных выше стандартов приводятся способы упаковки голоса в ячейки, кадры и пакеты, устанавливаются используемые алгоритмы компрессии и кодирования, и при этом ничего не говорится о достижении необходимого качества голоса. Это происходит потому, что в общем смысле любая оценка качества речи, передаваемой по сетям, всегда является субъективной. Если представить некую идеализированную ситуацию, когда в глобальной сети установлен канал, по которому равномерно передается речевой трафик без задержек или с допустимой задержкой (максимальный уровень которой в современных сетях составляет 150 мс, при большем значении пользователь начинает замечать снижение качества речи, но в различных сетях возможна передача голоса при задержках до 500 мс), то качество речи в данном случае будет определяться выбранным алгоритмом компрессии. Для оценки того или иного стандарта компрессии часто применяется шкала средней экспертной оценки MOS (Mean Opinion Score). Значение MOS определяется при прослушивании фрагментов речи группой из независимых пользователей (жюри). При этом подразумевается, что качество голоса при обычном сеансе междугородней телефонной связи имеет MOS = 4. В таблице приведены оценки качества для различных стандартов речевой компрессии, применяемых в современном телекоммуникационном оборудовании различных производителей.

Но реальность такова, что на качество передаваемой речи выбранный алгоритм компрессии оказывает влияние в последнюю очередь. Пока еще на телекоммуникационном рынке доступные возможности производимой аппаратуры ограничены емкостью и стоимостью имеющихся у пользователя каналов передачи данных, а объем информации, которую необходимо передать по этим каналам, значительно превышает их максимальную пропускную способность. Сегодня оптические линии еще не проведены к каждому рабочему месту, и зачастую пользователям для соединения с глобальной сетью приходится довольствоваться медной двухпроводной выделенной линией, а иногда и обычным коммутируемым телефонным каналом. В силу того, что по такому каналу передается на операторский узел мультисервисный трафик, включающий не только речь и видео, но и трафик локальных сетей и различные синхронные и асинхронные данные низкоуровневых протоколов, необходима установка приоритетов для чувствительного к задержкам трафика. А поскольку загруженность маршрута между двумя абонентами через глобальную сеть может динамически изменяться в процессе разговора, необходимо использовать различные механизмы, сглаживающие влияние пиковых нагрузок в сети на качество передаваемой речи.

Приоритеты и резервирование, или Голос по IP

Разборчивость и узнаваемость голоса при передаче по глобальным сетям все еще отличаются от традиционного телефонного разговора. В первую очередь это связано с самой технологией: используются компрессия и механизм подавления пауз, пакетизация и компенсация потерь передачи. Что касается передачи голоса по IP-сетям, то сама их природа не гарантирует время доставки пакетов до пункта назначения. Это приводит к значительным задержкам, выпадениям, пропаданию речевого сигнала, односторонности связи и т.д. Часто невозможность доставки информации от одного абонента к другому влечет за собой полную потерю соединения и обрыв связи. Таким образом, голос при передаче по IP-сетям подвержен весьма значительным искажениям. Поэтому в IP-сетях приходится применять различные механизмы, для того чтобы придать плавный и ритмичный характер передаваемой речи. Чаще всего используется способ приоритезации голосовых IP-пакетов, которые имеют специальный формат, отличный от пакетов, содержащих прочие виды трафика. Он содержит в себе подзаголовок (иногда называемый «байт дифференциации» — DS-byte, хотя часто, в зависимости от производителя, он может быть длиннее одного байта), который информирует маршрутизатор о наличии голосового трафика в данном IP-пакете, что обеспечивает последнему первоочередную передачу по сети. Кроме того, часто добавляется 12-байтный подзаголовок протокола реального времени (RTP-Real Time Protocol), позволяющий регистрировать значения задержек при передаче данных на промежуточных узлах маршрута. Использование приоритезации обеспечивает повышение качества услуг Voice over IP, сглаживая значение общей задержки на маршрутах с большим количеством узлов, однако не эффективно при пиковом возрастании трафика на одном или нескольких отрезках маршрута. Кроме того, поскольку Voice over IP до сих пор не оформлен как единый стандарт и различные производители используют в своем оборудовании разные форматы голосовых IP-подзаголовков, при передаче данных через распределенные глобальные сети такой способ может и вовсе не сработать, что, естественно, скажется на качестве голоса.

Другим способом повышения качества голоса в сетях IP является стандартный протокол резервирования ресурса RSVP (Resource ReserVation Protocol). Он предполагает выделение маршрутизаторами и коммутаторами на всех узлах маршрута определенной части полосы пропускания только на передачу голоса. Таким образом, в ответ на запрос вызывающего абонента в глобальной сети создается виртуальный канал необходимой пропускной способности только для передачи голосового трафика (рис. 1), а прочие IP-пакеты не пропускаются в выделенную часть диапазона. Такой механизм позволяет значительно увеличить уровень обслуживания и минимизировать задержки в передаче речи до коммерческого уровня качества, однако в глобальных сетях, построенных на маршрутизаторах разных типов и принадлежащих различным владельцам, он не всегда применим. Это связано с тем, что маршрутизатор на каждом узле должен быть предварительно сконфигурирован для поддержки такой функции, как образование RSVP-туннеля, что влечет за собой целый ряд трудностей — финансовых (необходимость пользователей доплачивать дополнительные деньги за использование RSVP), юридических (если сеть проходит через разные страны, то отдельные ее части могут оказаться вне зоны контроля оператора услуг связи), психологических (отказ или нежелание системных администраторов конфигурировать RSVP на подконтрольном им узле маршрута) и т.д. В целом RSVP можно оценить как весьма эффективное средство для повышения качества голоса в IP-сетях, но в то же время достаточно сложное и трудоемкое для внедрения в WAN.

Вообще, как следует из приведенного ниже опроса журнала DataCommunications (рис. 2) около половины пользователей IP-телефонии в корпоративных сетях и более половины потребителей услуг ITSP (IP Telephony Service Provider — Провайдер услуг IP-телефонии) оценивают ее качество как приемлемое. По данным этого же опроса, низкое качество услуг (то есть качество передаваемой речи) в 48% случаев является основной причиной отказа от использования передачи голоса через IP. Это показывает существующий на данный момент приблизительный паритет в отношении качества голоса в IP-сетях, однако не стоит забывать, что сама технология Voice over IP существует и применяется на мировом рынке всего четыре года, и в данный момент является приоритетной для многих ведущих компаний — поставщиков оборудования. Кроме того, по данным Международного союза электросвязи, отмечается ежегодный двукратный прирост объема международного трафика через IP: если в 1999 году он составлял лишь 1,6% от всего международного трафика, то в 2000 году — 3,2%, или около 4 млрд. минут, в 2001 году прогнозируется около 6%, а к 2004-2005 годам — до 50% от всего международного трафика, что свидетельствует о значительном повышении качества Voice over IP.

Возрастанию качества голоса в IP-сетях также способствует активное внедрение новых протоколов VoIP, пришедших на смену стандарту H.323, изначально разработанному для передачи видеоинформации через IP. Эти протоколы ориентированы на обеспечение качества при передаче по IP-сети именно речевого трафика. Наиболее перспективными из них являются протокол инициирования сеанса SIP — Session Initiation Protocol — и спецификация H.248, известная как Megaco. Основное преимущество SIP — способность переадресовывать вызов через специальный промежуточный сервер в зависимости от месторасположения вызываемого абонента, что позволяет сократить служебную информацию в голосовом IP-пакете и тем самым уменьшить требуемую полосу пропускания. Протокол Megaco определяет правила взаимодействия между транспортными шлюзами IP-телефонии по принципу «главный/подчиненный», причем управление вызовами находится за пределами шлюзов и реализуется внешними программными агентами, что способствует еще более значительному сокращению служебной информации и освобождению полосы пропускания для передачи голоса. Подробнее о этих протоколах мы расскажем в ближайших номерах журнала.

Голос по Frame Relay или ATM

При передаче речи по сетям Frame Relay или ATM, в которых достижим необходимый уровень качества обслуживания QoS, качество голоса в большей степени определяется выбранным алгоритмом компрессии и эффективностью применяемых механизмов эхо- и шумоподавления. Однако следует заметить, что управление очередями кадров или ячеек, создаваемыми коммутатором или FRAD’ом отдельно для каждого вида трафика, должно осуществляться с учетом ограниченного значения CIR (Committed Information Rate — согласованная скорость передачи) в сети Frame Relay либо скорости передачи ячеек в сети ATM для каждого виртуального канала. Во Frame Relay для своевременной доставки голосовых кадров чаще всего применяется их разбиение (фрагментация) на ячейки стандартной длины и последующая сборка кадров на принимающей стороне. На практике этот механизм выглядит так: в буфере пакетов, хранящемся в оперативной памяти мультиплексора или FRAD до их отправки в канал, одна область отводится непосредственно голосовым пакетам, или ячейкам, имеющим фиксированный размер, а другая — прочим видам передаваемых данных, размер пакетов у которых может меняться. Если в момент, когда необходимо передать голосовую ячейку, пересылка пакета с данными еще не завершена, устройство-передатчик «разрывает» пакет и передает голосовую ячейку и только потом досылает оставшуюся часть пакета. Затем устройство-приемник осуществляет сборку фрагментированного пакета (рис. 3). Эта внешне несложная технология, реализуемая при помощи специализированных интегральных схем ASIC (Application-Specified Integrated Circuit), позволяет очень эффективно передавать через Frame Relay любой критичный к задержкам трафик и по сути представляет собой способ установки первичных приоритетов.

Одним из наиболее часто применяемых в ATM и Frame Relay способов повышения эффективности передачи и качества речевого трафика является метод регистрации голосовой активности VAD (Voice Activity Detection). Суть его состоит в регистрации пауз в человеческой речи, во время которых прекращается передача голосовых данных и канал может быть использован для других видов трафика. Чаще всего применяется схема VAD с обработкой в частотной области (рис. 4), которая также может быть использована в качестве шумоподавителя. Работа схемы основана на различии спектральных характеристик речи и фонового шума. Входной инверсный фильтр осуществляет подавление компонентов шума, а затем его выходной сигнал сравнивается с порогом, который устанавливается в период воздействия исключительно шума. Коэффициенты фильтра и уровень порога устанавливаются и изменяются в зависимости от текущего значения уровня шума. В случае положительного решения VAD на принимающей стороне автоматически формируется так называемый комфортный шум (comfort noise), то есть удаленный абонент не замечает периодического пропадания сигнала. С точки зрения системного администратора VAD является опцией настройки ATM-коммутатора или FRAD.

На приведенном на рис. 5 графике показана зависимость эффективности передачи комбинированного трафика через сети с обеспечением QoS от соотношения передаваемого критичного к задержкам голосового трафика и трафика данных. Естественно, данный график действителен только для каналов передачи данных с низкими скоростями — от 2 Мбит/с (E1) до 34 Мбит/с (E3), поскольку на более скоростных каналах эффективность ATM значительно выше, чем Frame Relay. Представленный график можно применять для приблизительной оценки качества голоса в сети Frame Relay и в сети ATM, так как чем меньше значение эффективности, тем выше задержки голосового трафика и, следовательно, тем ниже качество передаваемой речи.

Что в итоге?

Можно сделать общий вывод — независимо от технологии и среды передачи основными определяющими характеристиками качества голоса, передаваемого через телекоммуникационные мультисервисные сети, являются:

Поддержка маршрутизаторами и коммутаторами, на которых построена сеть, единых стандартов, определяющих механизмы приоритезации голосового трафика и минимизации задержек.
Поддержка оборудованием, с помощью которого абонентские АТС и телефоны подключаются к сети, стандартных высококачественных алгоритмов и механизмов речевой компрессии и эхо-подавления.

Если оборудование Voice over ATM и Voice over FR широко применяется в операторских сетях, поскольку в той или иной степени удовлетворяет обоим вышеперечисленным условиям, то устройства Voice over IP все еще очень часто слабо соответствуют каждому из них. Однако с 2000 года, с началом применения протоколов SIP и Megaco наряду с увеличением пропускной способности каналов IP, позиции Voice IP могут значительно укрепиться, что способно уже в ближайшем будущем вызвать бурный рост числа пользователей IP-телефонии, для которых качество речи является определяющим фактором при выборе технологии передачи.

КомпьютерПресс 5'2001

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12