Общение в онлайне. Сегодня и завтра

Александр Прохоров, Валентина Букина

Визуальное и голосовое общение по стандартным каналам связи сегодня

Коммуникация в сети сегодня

юдям необходимо общение. И если личная встреча затруднена, обходится слишком дорого из-за большого расстояния или неудобна еще по каким-либо причинам, на помощь чаще всего приходят телефон, e-mail, Instant Messenger. Сеть предлагает удобные и недорогие способы общения для сотен миллионов людей во всем мире, предолевая географические барьеры и сокращая расстояния.

Неудивительно, что популярность сетевых программных продуктов для коммуникации растет невиданными темпами. Технологии быстро сменяют друг друга, и если еще год назад мало кто верил, что голосовое общение по сети быстро станет реальностью, то это мнение кардинально изменилось с возникновением Yahoo! Messenger и Windows Messenger, которые предлагают естественное общение с помощью голоса, а не только обмен текстовыми сообщениями. Голосовые чаты, Интернет-вещание, IP-телефония и VoIP¹ быстро внедряются в нашу компьютерную жизнь.

Без электронной почты сегодня не обходится практически ни один пользователь РС. Текстовый обмен решает множество проблем, ведь обычно требуется всего несколько секунд, чтобы сообщение облетело половину земного шара и нашло своего адресата. Для удобства пользователей разработана масса различных почтовых оболочек, работающих под всеми существующими операционными системами. Разработчики почтовых программ постоянно вносят улучшения — в основном в сторону интеграции с другими приложениями для распределенной офисной работы и обмена файлами и данными.

После e-mail с возникновением ICQ и AIM² быстрое развитие получили технологии Instant Messaging (IM) — «сверхбыстрая почта», основное отличие которой от e-mail состоит в появлении понятия presence, то есть в возможности быть уверенным, что пользователь получил сообщение на основе информации о его онлайновом статусе. Обмен короткими текстовыми сообщениями (IM) предлагается на рынке десятками компаний, а за лидерство борются AOL-TW и Microsoft. Более года назад производители IM, включая Yahoo!, AT&T, Excite@home, Odigo, Phone.com, Prodigy, создали коалицию IM-Unified с целью потеснить AOL на рынке, ведь IM-продукты сейчас — способ коммуникации в онлайне, набирающий популярность у пользователей быстрее, чем все остальные виды коммуникации. По результатам исследований Jupiter Media Metrix, в сентябре 2001 года ICQ постянно пользовались дома и на работе 7,9 млн. человек, AOL Instant Messenger (AIM) — 28 млн. У Microsoft MSN Messenger в том же месяце было 20,4 млн. уникальных пользователей, а у Yahoo Messenger — 14,4 млн. Общее же число пользователей IM (включая тех, кто пользуется несколькими системами одновременно) превышает 180 млн. человек.

С появлением IM у пользователей появилась возможность ведения интерактивного диалога в реальном времени с контролем статуса (presence management) собеседника — таких возможностей e-mail не дает. Однако, как выяснилось в процессе роста популярности IM, люди по-прежнему не могут общаться друг с другом через разные IM-клиенты, поскольку у всех этих средств общения нет общего стандарта. Interoperability еще является неразрешенной проблемой для компьютерного сообщества.

Кроме того, есть другая (причем более фундаментальная) сложность текстового общения в реальном времени. Выразить мысль в виде текста при дефиците времени не всегда удобно — надо записывать все, что хочешь сказать. Оптимальным способом общения в реальном времени, конечно, является голос, а не текст. Кроме того, текстовым IM не достает эмоциональности — необходимого компонента человеческого общения. Недаром сразу после появления электронного текстового обмена люди стали использовать смайлики и прочие символы выражения настроения. Тем не менее текстом невозможно описать то, что мы передаем в обычном разговоре интонацией или мимикой.

Instant Messaging обретает лицо

ледующим шагом онлайнового общения стало появление голосовых и видеоконференций. С помощью недорогой цифровой камеры и микрофона пользователь может проводить вещание в Интернете. Однако для более или менее качественного видеосеанса нужен не только компьютер с подключенной видеокамерой, но и высокоскоростной канал в Интернете. Сегодня большинство новых компьютеров производители стали комплектовать аппаратной поддержкой коммуникаций, звуковыми и видеокартами, микрофоном, колонками и даже Web-камерами. Платы расширения обеспечивают ускоренное кодирование/декодирование видео- и аудио-сигналов. Такой прогресс в техническом оснащении стандартных бытовых РС вызвал появление голосовых конференций (чатов), в которых пользователи могли общаться между собой, не набивая текст, а говоря через сеть как по телефону. Одновременно с этим появились услуги по проведению видеоконференций, примерами которых могут служить такие продукты, как CU-SeeMe, Microsoft NetMeeting и др. В обоих случаях принцип передачи аудио- и видеоинформации — схожий. Она компрессируется, пакетируется и стандартными протоколами передается через каналы Интернет-адресатам. На входе адресата информация обрабатывается в соответствии с протоколом, декомпрессируется и преобразуется в стандартный звуковой и/или видеосигнал. Казалось бы, Web-камера дала практически все необходимое для полноценного общения и миг всеобщего ликования близок. Но трудности подстерегают сразу — как только пользователь подключает камеру к своему компьютеру. Для полноценной видеоконференции необходим канал с высокой пропускной способностью, иначе вы получите видеоокошко в 1/16 экрана и смену кадров со скоростью 2-3 в секунду. Это скорее напоминает фотографии, чем живое видео. Легко подсчитать, что стандартная камера, подключенная к USB-порту компьютера и способная выдавать до 30 кадров в секунду, формата 160Ѕ120, RGB, в секунду пытается передать около 7 Мбайт информации. В специально разработанные стандарты видеоконференций H.320 и H.323 комитета ITU-T вошли целые наборы рекомендаций по кодированию (компресии) аудиосигнала (G.711, G.722, G.728), видеосигнала (H.261, H.263), мультиплексированию каналов (H.221) и ряд других. Далеко не каждый пользователь даже в США может сейчас похвастаться каналом в Интернете, способным передать такой объем информации в реальном времени. В случае недостаточной пропускной способности канала стандартные видеоконференции прореживают видеосигнал, предоставляя максимальный приоритет звуку. В результате получается аналог замедленного и одновременного плохо смонтированного (с разрывами) кино. На обычной же телефонной линии (dial-up, 28 Кбит/c) даже один голос плохо проходит, в сети большие задержки, прерывания, шумы, эхо, а о видео вообще говорить не приходится.

Кроме того, здесь есть еще целое множество подводных камней. Например, регламент общения звуковых чатов, особенно в случае, когда пользователей более двух и требуется соблюдать определенный этикет, чтобы каждый смог услышать всех (проблема микширования звука). Особо хочется выделить проблему технологий потокового видео, которая целиком подавляется пропускной способностью каналов. Правда, пропускная способность каналов не является главной проблемой — рано или поздно высокоскоростные каналы будут у многих.

Фундаментальное ограничение, однако, состоит в том, что пользователи стремятся контролировать, что передается в сеть, и часто не хотят передавать всю информацию о себе и окружающем мире. Например, вам звонят по делу домой рано утром, а вы только что вышли из ванной. Или шеф вызывает нас на видеосвязь в офисе, а у вас на рабочем месте беспорядок, да еще в гостях — пара непрофильных знакомых. Или у вас деловой ужин с дамой, которая случайно оказалась весьма привлекательной, а вам на сотовый звонит жена. В этих и многих других подобных случаях полный видеосеанс вам будет явно не на пользу (сотовые телефоны и сети третьго поколения 3G позволяют вести видеообмен). Ведь хотелось бы, чтобы шеф всегда видел вас в строгом деловом костюме, а приятель не шутил над вашим дежурным галстуком, как бы вы ни выглядели на самом деле.

«Разработчики бегут наперегонки, — говорит Дарвис Мак, аналитик Nielsen/NetRatings. — Чтобы это ПО жило, его нужно непрерывно совершенствовать». Похоже, концепция электронной связи имеет целью сделать связь доступной всегда и везде. И здесь возникает другой вопрос: а готов ли человек к тому, чтобы его видели таким, каким он бывает в тот или иной момент? Например, вы находитесь дома, в домашней одежде, ужинаете — и в этот момент с вами на связь выходит ваш деловой партнер из США. Пока господствуют простейшие средства коммуникации — текстовые сообщения на компьютере, скрыть лишние бытовые детали не проблема, но жизнь не стоит на месте, видеотехнологии становятся все более совершенными, а пропускная способность каналов непрерывно растет.

Можно ли себе представить, что современные средства цифровой обработки аудио- и видеоинформации позволят убрать лишние детали? Можно ли, говоря попроще, «разобрать на части» голос и изображение, затем убрать или заменить все то, что считается конфиденциальным или неудобным, а далее «собрать» и визуализировать/озвучить оставшееся. Чудо? Это возможно уже сегодня!

Распознавание речи и видео

то может дать распознавание речевого и видеосигналов? Можно ли разложить звук и видео на компоненты на передающем конце, а затем передать и собрать снова на принимающем конце? И что получится в результате?

Технологии распознавания речевых и видеосигналов зародились сравнительно давно в наукоемких отраслях промышленности, но в настоящее время эти технологии ведут массированное наступление на потребительский рынок. Типичным примером может служить появление большого числа коммерческих приложений в области биометрии. Под биометрией понимают различные системы распознавания личности по отпечатку пальца, сетчатке глаза, по голосу и/или изображению лица пользователя. В этой области работают компании Visionics, ETrue, SPIRIT, FaceVacs, Intel, BioID, BioLink и многие другие. В частности, компания SPIRIT разрабатывает алгоритмическое и программное обеспечение по обработке речи и распознаванию говорящего, а также по идентификации и верификации человека по его лицу на основе информации, получаемой от видеокамеры. Компания Visionics известна своей линейкой продуктов FaceIt для промышленного и бытового применения.

Техническая возможность обнаруживать и выделять лицо, находящееся в поле зрения камеры (на любом двигающемся фоне), и возможность выделять голос говорящего в условиях фоновых шумов (музыки, разговоров и пр.) может служить основой проникновения этих технологий в область онлайновых коммуникаций.

Но почему, собственно, нужно отделять лицо от фона? Современная технология анализа и распознавания изображений может с достаточно высокой степенью надежности провести так называемую операцию сегментации изображения, то есть разбить изображение на связные области (компоненты), которые впоследствии можно классифицировать (интерпретировать). Таким способом, в частности, можно выделить на исходном изображении области, по своим первоначальным (прямым) признакам похожие на лица, а затем, проведя анализ косвенных признаков этих областей, выделить ту область, в которой в кадре действительно находится «доминирующее» лицо (если лиц в кадре несколько). Что же нам сможет дать выделенное на изображении лицо? Во-первых, можно определить пространственную ориентацию головы, включая углы наклона и поворота, сдвиг, приближение-удаление. Во-вторых, можно получить характеристики мимики. В-третьих, можно заменить фон, который по каким-либо причинам не устраивает говорящего. В результате получается описание пространственного положения лица, взаимного расположения черт лица и мимических признаков в виде некоторого вектора состояния, занимающего объем памяти не более чем 200 байт.

Таким образом, мы в сотни раз можем снизить объем информации, которую необходимо передать по коммуникационным сетям, и создаем принципиально новый способ управления. Кроме того, в руках самого пользователя (а не производителя программного обеспечения) будет находиться тот самый «механизм управления конфиденциальностью», о котором говорилось выше.

Похожая ситуация наблюдается и со звуком. Различия чисто технологические — это распознавание фонем для синхронизации движения губ, подавление акустического эха, искажение (преобразование) голосового тембра или подмена одного тембра голоса на другой (voice disguise³). Например, можно говорить своим обычным голосом на входе, а на выходе будет звучать голос Мадонны или Буша-младшего.

Иными словами, возможности современных технологий анализа видеосигнала и голоса настолько широки, что в основном ограничиваются лишь качеством и мощностью используемых аппаратных средств. Более того, ряд компаний уже предлагает такие возможности на обычных РС — например, российская SeeStorm и американская Eyematic, которые ведут разработки систем управления анимацией виртуальных 3D-персонажей на основе анализа аудио- и видеопотоков в реальном масштабе времени. Пока разрабатываемые технологии весьма оригинальны, и поэтому фирмы тщательно оберегают рецепты своего успеха, демонстрируя лишь анимационные рекламные ролики.

Виртуальные герои

ирокополосный доступ в Интернет обещает стать в новом тысячелетии одним из ключевых направлений. Это создаст не только основу для развития десятков новых сервисов, но и позволит транслировать полноценные видео и звук. Целью новых коммуникационных программ для Интернета станет создание и продвижение парадигмы, реалистично воспроизводящей изображение человека. По словам Поля Керона, репортера журнала Variety: «Они уже выглядят, как настоящие люди; многое умеют делать, как мы; их популяция растет и заселяет мир. Правда, мир виртуальный, поэтому и имя им — Homo Virtuals».

Развитие компьютерной анимации позволяет не только создавать виртуальную модель человека (3D-аватара) с его реальной внешностью, голосом и мимикой (даже спонтанной, вроде мигания), но и реальные жесты, включая все параметры эмоционального фона. Так, Линда Джакобсон, ведущий специалист по виртуальной реальности Silicon Graphics, считает, что к виртуальным людям следует относиться именно как к моделям реальных людей, а не как к обыкновенным анимированным персонажам. Именно задачу «достоверного присутствия» с использованием трехмерных моделей и ставят перед собой разработчики новейших коммуникационных систем. Уже сегодня коммуникационные программные продукты, ориентированные на массового пользователя и использующие трехмерные персонажи, работают по принципу управления голосом. Система анализирует голос человека, распознает звуки, которые он произносит, и на принимающем конце проигрывает этот голос наряду с трехмерным изображением лица человека, мимика и движения губ которого соответствует произносимым словам в реальном времени. Результатом является вполне реалистичный эффект присутствия собеседника. При этом становится понятна цель распознавания голосовых фонем и мимики лица для управления поведением анимированного трехмерного персонажа.

Желание людей использовать трехмерные персонажи для общения вполне понятно — люди получают новое средство визуальной коммуникации, которое не требует высокоскоростных каналов, сохраняет эмоции и оберегает личную жизнь (устраняет лишние детали), передавая только лицо человека. Ряд компаний уже предлагает свои услуги по созданию таких трехмерных персонажей (аватаров) по фотографии для широкого рынка, например австралийская BioVirtual (программный продукт 3DMeNow), английская Digimask и российская SeeStorm (программный продукт AvatarMe). Результаты работы продуктов 3DMeNow и AvatarMe достаточно схожи и позволяют непрофессиональному пользователю в короткое время создать трехмерный персонаж по фотографии. Ведущие позиции в области профессиональных систем 3D-моделирования занимают, в частности, Digital Doman, Industrial Light и Magic.

Следующее поколение таких систем ориентировано на эффект присутствия и управляется не только голосом, но и изображением (полученным от Web-камеры). Технологии компьютерного зрения (computer vision) позволяют отделять лицо человека от фона и отслеживать его движения.

Таким образом, достигается желаемый результат — возможность отделить лицо от фона, удалить ненужные детали.

Визуальное и голосовое общение по стандартным каналам связи сегодня

дин из первых программных продуктов на мировом рынке, ориентированный на массового пользователя и доступный уже сегодня (причем бесплатно) для визуального и голосового общения по стандартным телефонным каналам (dial-up, 28 Кбит/c), — продукт российской компании SeeStorm (www.seestorm.com). В этом продукте воплотились интересные новации — распознавание фонем, синхронизация губ, автоматическое подавление эха, управление трехмерным персонажем. Клиентская часть продукта бесплатна, а сервер легко интегрируется в любое сообщество. Возможность создать свою «электронную личность» особенно интересна для подростков.

По данным экспертов, ежегодный прирост мирового рынка коммуникационных услуг должен составить не менее 30%. Провайдеры Интернет-видеоконференций, такие как WebEx Communications, Net2000 Communications, представляющие услуги через стандартные Web-браузеры, постоянно заявляют об увеличении пользователей и росте доходов. Голосовые чаты HearMe, PalTalk, ChatVoice пользуются растущей популярностью. А ведь это утилитарные способы общения, ограниченные как пропускной способностью каналов, так и слишком реалистичным отображением общения, сдерживающими свободу собеседников.

Программные продукты для голосовых и видеокоммуникаций в сети, использующие сложнейшие алгоритмы распознавания голоса и видео, уже покинули лаборатории и очень скоро войдут в обиход миллионов людей во всем мире.

КомпьютерПресс 1'2002

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12