Живая фотография? Кто бы мог подумать!

Александр Прохоров

юди всегда хотели общаться. Однако сегодня времени на мирные посиделки с друзьями на кухне за чашкой чая становится все меньше, а общаться хочется по-прежнему. Спасибо изобретателям телефонов, особенно сотовых! Благодаря им мы можем в любой момент позвонить приятелю, даже если он находится в далекой Америке, а ты стоишь в пробке на МКАД. Однако как быть, если приятеля хочется не только услышать, но еще и увидеть? Фотографии — дело, конечно, хорошее, но какие-то они все-таки неживые. Видеофоны, о которых мечтало не одно поколение фантастов, не получили распространения из-за слабой пропускной способности каналов и дороговизны получающейся связи, ведь передавать надо большой объем данных, а это занимает много времени.

Ваш двойник в мобильном телефоне

ыход придумала московская компания SeeStorm. Используя технологии распознавания черт лица и voice-to-motion (перевод голоса в движение), она создала продукт под названием Mobile Avatar Mail, позволяющий буквально за несколько секунд по фотографии или любой другой картинке создать трехмерный персонаж, записать текстовое сообщение и отправить получившееся анимированное голосовое сообщение (MMS) на другой сотовый телефон. Для этого необходимо только выбрать персонаж (выбор осуществляется из стандартного набора или пользователь создает собственный уникальный персонаж), ввести текст сообщения и указать номер мобильного телефона, куда сообщение должно быть доставлено. После отправки сообщения на мобильный телефон абонента придет MMS c вашим трехмерным персонажем, который проговорит записанное сообщение так, как это сделали бы вы сами. Помимо артикуляции живость персонажу придает мимика (он может улыбаться, сердиться или удивляться). Таким образом, получается двигающаяся, говорящая фотография! Причем для ее создания не нужно никакого специального оборудования, достаточно мобильного телефона! Передача картинки по обычным каналам связи не требует много времени, ведь технология SeeStorm позволяет передавать видеоизображение и звук сильно сжатыми (сохраняя высокое качество получившейся картинки), что значительно сокращает время передачи, а следовательно, и стоимость связи.

Кстати, именно этот продукт компании SeeStorm, обойдя разработки крупнейших мировых компаний, получил престижную награду Overall Best Exhibitor как одно из лучших приложений 2003 года для мобильных телефонов на крупнейшей выставке технологий для мобильной связи Wireless Japan 2003, проходившей в июне в Токио.

Как же это работает? Прежде всего, оператор связи закачивает на свой сервер программу, предоставляющую данную услугу пользователям. После этого у вас появляется возможность создать свой персонаж, который будет храниться на сервере оператора. Собственных персонажей может быть несколько, выбор из них или из стандартного набора картинок осуществляется через меню с помощью порядковых номеров или небольших иконок. Каждый раз при отправке MMS вы сможете выбрать понравившийся персонаж, записать сообщение и отправить его, указав номер собеседника. Так как сам персонаж все время хранится на сервере и не требует пересылки, то объем передаваемых данных достаточно мал и его пересылка не занимает много времени даже на обычных каналах связи. После отправки MMS вашему собеседнику придет сообщение, скачав которое с сервера он увидит ваш персонаж и услышит записанный текст.

А где еще?

как быть, если оператор связи, с которым вы работаете, не установил такую программу? Тогда установите ее сами! Скачав c сайта seestorm.com небольшой загрузочный модуль, вы сможете создать собственный трехмерный персонаж и отправить его в письме приятелю, предварительно записав сообщение. При этом никакого дополнительного ПО для проигрывания полученного ролика не требуется. Персонаж просто «крепится» к письму, и достаточно кликнуть на прикрепленный файл, чтобы просмотреть сообщение. Общаться при этом придется не по телефону, а по e-mail, но «живость» сообщения сохранится: ваш приятель получит не просто набор букв, подписанный вами, а ваше трехмерное изображение, которое с милой улыбкой расскажет ему о последних новостях. Кроме того, благодаря SeeStorm вы всегда можете выглядеть для собеседника аккуратно и подтянуто, в отглаженном костюме и свежей рубашке. А то, что на самом деле вы не брились уже три дня, останется вашим маленьким секретом. В зависимости от настроения можно выбирать разные лица: общаться сегодня от своего имени, завтра от имени Брюса Уиллиса, а послезавтра стать знойным испанским мачо.

Если у вас есть свой сайт, вы можете поселить в нем вашего двойника, который будет приветствовать посетителей или рассказывать им о ваших продуктах и услугах. Такой персонаж не только привлечет внимание посетителей к вашему сайту, повысив его посещаемость, но может также выполнять и другие полезные функции. Например, он может быть встроен в любую тренинговую программу, обучающую посетителей вашего сайта правилам пользования чем-либо, или работать в качестве помощника (помощник-скрепка в MS Оffice).

Используемые технологии

технической точки зрения в продуктах SeeStorm задействовано несколько передовых технологий: обработки изображения и звука, компьютерного зрения, сжатия и передачи данных, подавления акустического эха. Каждая из них может быть использована отдельно от других для разработки различных приложений и продуктов, но собранные вместе они позволили SeeStorm создать уникальный продукт, объединяющий в себе преимущества анонимности «аськи» и реальности живого общения.

Для создания персонажа требуются фотография и звуковой файл, который можно либо записать через микрофон, либо взять уже готовый. Давайте посмотрим, что происходит с каждым элементом в отдельности. Начнем с фотографии. На любом изображении (фотография или другая картинка), единственное требование к которому — расположение лица близкое к фронтальному, с помощью технологии Face Feature Extraction (выделение черт лица) программа распознает наиболее важные точки на лице: брови, глаза, положение зрачков, нос, рот.

Именно эти данные применяются потом для создания трехмерной модели на основе полученной информации и исходной фотографии. Затем специальный программный модуль AvatarMe, используя уникальные технологии SeeStorm, из двумерной картинки создает трехмерное объемное изображение, похожее на исходную картинку как две капли воды.

Единственное отличие — получившийся персонаж живой, он может двигаться, моргать, выражать различные эмоции и т.д.

Технология SeeStorm позволяет проделывать с изображениями интересные фокусы. Например, если взять две фотографии и пропустить их через ФотоМиксер, то на выходе можно получить изображение, сочетающее в себе черты обоих персонажей. Можно, например, придать любому известному актеру сходство с собой любимым или предстать перед друзьями в виде кошки, морда которой будет чем-то напоминать вас.

Совет родителям, ждущим пополнения в семье: хотите узнать, как будет выглядеть ваш ребенок? Совместите ваши фотографии в ФотоМиксере, и вы узнаете, как будет выглядеть ребенок, причем когда он уже станет взрослым. Конечно, нельзя относиться к такому эксперименту серьезно, но какая-то доля правды в нем есть. Эта же технология позволяет сделать себя героем известного фильма: вы можете поменять лицо главного героя на свое собственное в записанном видеоролике. Вы боитесь высоты и никогда в жизни не были в горах? Не беда. Берете отрывок из «Скалолаза», меняете лицо Сталлоне на свое и рассказываете друзьям о незабываемых ощущениях, которые испытывает человек, ползущий по отвесной скале, демонстрируя видеозапись, подтверждающую ваши слова.

Следующий шаг — научить изображение говорить. Для этого используется несколько технологий обработки голоса. Сначала технология LipSynchro (синхронизация губ) анализирует звуковой файл речи персонажа (может применяться либо уже готовый WAV-файл, либо только что надиктованный в микрофон текст). Прежде всего определяются паузы в речи, что позволяет найти границы между словами. Затем из речи выделяются наиболее значимые морфемы, каждой из которой программа присваивает определенное положение губ персонажа. Морфемы могут быть различной степени выраженности: можно расслабленно сказать «о», а можно удивленно и с выражением воскликнуть «О!», при этом положение губ у вас будет разным. Это и называется выраженностью морфемы. Программа учитывает и то, что обычно человек начинает произносить звук после того, как открыл рот, то есть с некоторой задержкой. Обрабатывая все полученные данные, на основе морфемного и фонемного анализа LipSynchro создает набор команд, которые заставляют губы персонажа двигаться синхронно с произносимым текстом.

Кроме автоматического распознавания программа позволяет вручную править используемые фонемы, добиваясь полного соответствия между звуком и артикуляцией. Хотя, надо признать, что в этом нет необходимости, так как программа достаточно точно определяет все движения губ, не требуя ручной корректировки. Эти команды сохраняются в виде отдельного файла, который затем можно будет применять при создании другого персонажа. Например, если вы захотите создать новый персонаж, но с текстом, который уже использовался, то вам не нужно будет проделывать всю работу заново. Достаточно загрузить в AvatarPlayer нового аватара и готовый текст, уже много раз отрепетированный и выверенный вами, — и, пожалуйста, новый говорящий герой готов.

Помимо стандартной артикуляции, вы можете создать свою собственную, вручную присвоив каждой морфеме определенное движение губ персонажа. Технология распознавания мимики (Mimic recognition) позволяет по голосу определить основные эмоции, такие как радость или грусть. Полученные данные также используются в первую очередь для синхронизации движения губ персонажа.

С помощью панели управления вы можете еще больше оживить персонаж, изменив выражение лица модели — по вашему желанию аватар может улыбаться, сердиться или удивляться.

Другая интересная технология, позволяющая скрыть свое истинное лицо за маской трехмерного двойника, — это изменение голоса. Используя технологию Voice Disguising (изменение голоса), вы можете с помощью LipSynchro изменять свой голос на мужской, женский или детский, понижать его до шепота или по желанию менять тембр. Таким образом программа позволяет не только выбрать персонаж, наиболее подходящий в данной ситуации, но и голос, которым он будет говорить.

После того как звуковой файл обработан LipSynchro, а вы изменили тембр или оставили свой настоящий голос, его необходимо сжать для передачи по каналам связи. Для этого используется технология сжатия речи компании SPIRIT (головной компании SeeStorm, занимающейся разработкой и лицензированием продуктов для цифровой телефонии). Данная технология позволяет сильно сжимать голосовые данные (сохраняя при этом высокое качество речи), что обеспечивает передачу большого объема данных по обычным каналам связи, не занимающую много времени. Таким образом, программа работает, не требуя каких-то специальный условий связи или оборудования. Вполне достаточно обычного компьютера с колонками и доступом к Интернету по модему, мобильного телефона или PDA LipSynchro.

Помните «Лабиринт отражений» Сергея Лукьяненко? До настоящих людей, живущих в виртуальной реальности своей собственной жизнью, конечно, еще далеко. Но заселение виртуального пространства, похоже, уже начинается, ведь сегодня каждый может создать свою точную трехмерную копию и поселить ее в сотовом телефоне, на сайте или в электронном сообщении.

КомпьютерПресс 9'2003

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12