Идентификация звука: миссия выполнима

Сергей Асмаков

Кошмар меломана

Сервис AudioTag: взгляд пользователя

Заключение

 

Идентификация музыкальных произведений даже по небольшим отрывкам их записей уже стала реальностью. Убедиться в этом может любой пользователь Интернета, посетив бесплатный сервис AudioTag.

Кошмар меломана

Представьте себе ситуацию: по радио звучит музыка, которая вам очень понравилась. Возникает вполне естественное желание пополнить свою фонотеку записью этого произведения и послушать другие записи того же исполнителя. Если под рукой есть мобильный телефон, плеер с функцией диктофона или другое подобное устройство, можно даже успеть записать понравившийся фрагмент. Однако что делать дальше? Как определить хотя бы имя исполнителя и название композиции (не говоря уже о других данных), когда в вашем распоряжении лишь небольшой фрагмент записи произведения?

Конечно, для меломана со стажем не составит труда определить музыкальный стиль произведения, а иногда даже узнать одного или нескольких участников записи по характерной манере игры. Но, к сожалению, подобные зацепки далеко не всегда позволяют получить достаточно информации для дальнейших поисков.

Еще лет десять тому назад в подобной ситуации оставалось либо уповать на помощь друзей и знакомых, либо полагаться на волю случая. Но, к счастью, технический прогресс не обошел стороной и эту область. В последние годы было проведено немало исследований c целью разработки методов автоматической идентификации цифровых аудиозаписей вообще и музыкальных произведений в частности. Наиболее известные проекты в этой области — Musical Genome Project американской компании Pandora Media, MusicID компании Gracenote, а также AudioRadar и SIMAC (Semantic Interaction with Music Audio Contents).

При всем многообразии существующих решений можно выделить два принципиально разных подхода, используемых для анализа и поиска музыкальных записей. Один из них заключается в определении ряда музыкальных параметров, таких как темп, характерные ритмические рисунки, гармонические и мелодические конструкции. Результатом автоматического анализа музыкальных произведений является набор метаданных, содержащий описание ключевых параметров каждого файла. Оперируя этими метаданными, можно выполнять сортировку и поиск содержимого цифровой фонотеки в автоматическом режиме.

Другой подход заключается в создании так называемого цифрового отпечатка (waveform fingerprint), позволяющего идентифицировать звуковую запись исключительно по акустическим параметрам. В качестве примера реализации подобного метода можно привести технологию MusicID, разработанную сотрудниками компании Gracenote. В настоящее время данное решение под разными названиями применяется в продуктах целого ряда производителей электронной техники. В частности, в ряде моделей мобильных телефонов Sony Ericsson есть функция доступа к фирменному сервису TrackID, который позволяет определить название музыкального произведения и имя исполнителя по небольшому отрывку записи.

Но что делать, если в вашем распоряжении нет мобильного телефона Sony Ericsson с поддержкой MusicID или иного устройства с подобной функцией? Один из вариантов — воспользоваться бесплатным сервисом AudioTag (http://audiotag.info/), который позволяет идентифицировать музыкальные произведения по фрагментам их записей. Обнаружив на просторах Всемирной сети этот интересный ресурс, мы решили всесторонне изучить его возможности.

Сервис AudioTag: взгляд пользователя

Согласно справочной информации, размещенной в одном из разделов этого сайта, для идентификации записей используется метод сопоставления «цифровых отпечатков». В базе данных сервиса хранятся «цифровые отпечатки» более миллиона различных произведений. Загруженный пользователем звуковой файл подвергается анализу с целью получения его «звукового отпечатка». Затем этот отпечаток сравнивается с образцами, хранящимися в базе данных сервиса (где на данный момент собраны «цифровые отпечатки» уже более миллиона музыкальных произведений различных жанров, записанных в разное время). В большинстве случаев удается найти одну или несколько записей, схожих с загруженным файлом. Как уверяют создатели сервиса, вероятность получения ошибочного результата очень мала: система с гораздо большей вероятностью вообще не распознает запись, нежели выдаст неверные данные. Хотя, конечно, 100-процентной гарантии от ошибок нет.

 

Рисунок

Окно загрузки звукового фрагмента

Еще одна важная особенность используемого алгоритма идентификации заключается в том, что он учитывает исключительно акус-тические особенности записи, не принимая в расчет ее музыкальные свойства — тональность, гармонию, мелодию и пр. Как следствие, система способна идентифицировать именно ту запись, фрагмент которой был загружен пользователем, но не позволяет найти то же самое произведение (или мелодию) в другой аранжировке или в исполнении другого музыканта (или состава). Мы убедились в этом на примере такого известного произведения, как «Времена года» Антонио Вивальди. Для теста были записаны небольшие фрагменты части Presto из концерта № 2 («Лето») в исполнении разных оркестров. Сервис смог безошибочно идентифицировать файл с записью этого произведения в исполнении Берлинского филармонического оркестра под управлением Герберта фон Караяна, сделанной в 1965 году. Однако при загрузке того же фрагмента в исполнении Словацкого камерного оркестра (запись 1995 года) на экране появилась надпись о невозможности распознать загруженный файл.

Сервис позволяет выбрать один из двух языков интерфейса: английский либо русский. Отрадно, что русификация затронула не только интерфейс, но и содержимое базы «звуковых отпечатков». В числе прочих в ней представлена информация о большом количестве произведений русских и советских композиторов и исполнителей. Например, сервис смог идентифицировать музыку из серии отечественных фильмов «Шерлок Холмс и доктор Ватсон», написанную композитором Владимиром Дашкевичем, а также «Прелюдию для Кэт» Микаэла Таривердиева, звучащую в популярнейшем советском телесериале «Семнадцать мгновений весны».

Пользоваться сервисом оказалось совсем несложно. Процедура идентификации выполняется в три действия. Первое — загрузка звукового отрывка. Это может быть звуковой файл или же ссылка на запись, размещенную на каком­либо интернет-ресурсе. Список поддерживаемых звуковых форматов весьма обширный: WAV (в том числе ADPCM и несжатые PCM), MP3, OGG Vorbis, FLAC, FLV, AMR и MP4. В окне браузера, открывающемся при нажатии кнопки Browse, можно быстро найти нужный файл на жестком диске или на одном из съемных носителей.

Второй шаг не имеет непосредственного отношения к процессу распознавания: на этом этапе придется доказать, что вы — живой человек, а не робот. На экран выводится картинка с несложным арифметическим выражением, результат которого необходимо вычислить и ввести в соответствующее поле.

 

Рисунок

Желающему воспользоваться сервисом придется доказать,
что он является человеком. Для этого необходимо решить несложное
арифметическое выражение

Если введенный результат оказался верным, то после непродолжительной паузы на экране появляется информация о музыкальном произведении, фрагмент которого содержался в загруженном файле. Или сообщение «извините, загруженный вами аудиофайл распознать не удалось» — в том случае, если система не смогла идентифицировать запись.

Нередко в окне результатов поиска отображается несколько вариантов, для каждого из которых указывается степень соответствия загруженному фрагменту. Наиболее часто подобная ситуация возникает в том случае, когда одна и та же запись входила в разные альбомы (включая всевозможные сборники, антологии и пр.). Гораздо реже в список возможных вариантов попадают совершенно разные произведения. Такой результат можно объяснить использованием музыкальных цитат из произведений других исполнителей.

Чтобы успешно идентифицировать запись, необязательно загружать неизвестное произведение целиком. Создатели сервиса рекомендуют использовать отрывки продолжительностью от 15 до 45 секунд — этого вполне достаточно для получения «цифрового отпечатка». Правда, есть важный нюанс: загружаемый фрагмент должен отражать наиболее характерные особенности данного произведения — в противном случае вероятность его идентификации снижается.

Интересно отметить, что наличие в фонограмме посторонних шумов (которые неизбежно «украшают» записи, сделанные на встроенный микрофон портативных устройств), а также высокая степень компрессии звукового сигнала практически не влияют на точность распознавания. Из дюжины фрагментов композиций различных жанров, записанных на встроенный микрофон портативного медиаплеера, AudioTag не сумел идентифицировать лишь одну. И это при том, что звучание оригиналов было сильно искажено встроенным микрофоном, а фрагменты записи сохранены в формате МР3 с битрейтом всего 64 Кбит/с!

 

Рисунок

Если идентификация выполнена успешно,
на экране появляется информация о музыкальном произведении

Чтобы проверить тезис о стойкости используемого алгоритма к артефактам цифровой компрессии, мы заготовили десяток фрагментов разных произведений. Каждый из них был представлен в двух вариантах — несжатом WAV (44,1 кГц/16 бит) и MP3 с битрейтом 160 Кбит/с. Сначала идентификации были подвергнуты записи в формате MP3, и восемь из десяти были распознаны. Затем мы предприняли попытку идентифицировать два неопознанных в первом туре фрагмента, загрузив их версии в формате WAV. Однако это ничуть не повлияло на результаты поиска: судя по всему, информация об этих произведениях просто отсутствует в базе AudioTag.

 

Рисунок

Иногда результат поиска включает несколько вариантов.
В данном случае это одно и то же произведение, вошедшее в разные альбомы

Как выяснилось, не влияют на точность распознавания и артефакты аналоговой грамзаписи (щелчки, низкочастотный гул и пр.). С идентификацией фрагментов нескольких произведений, оцифрованных с грампластинок, AudioTag справился без проблем.

Слабое место алгоритма идентификации удалось нащупать совершенно случайно. Камнем преткновения для цифрового алгоритма стали записи со старых компакт­кассет. Разумеется, речь идет не о тех рафинированных фонограммах, которые были записаны на кассету непосредственно с проигрывателя компакт­дисков. Для эксперимента были оцифрованы фрагменты с подлинных образцов коллекции, собранной еще в доцифровую эпоху.

 

Рисунок

Одна из немногих категорий фонограмм,
с которыми алгоритм распознавания работает нестабильно, —
это записи со старых компакт-кассет

При попытке идентифицировать несколько песен известных исполнителей выяснилось, что шум магнитной ленты и наслоения аналоговых помех от нескольких перезаписей существенно снижают вероятность распознавания. Из десятка фрагментов AudioTag сумел идентифицировать только три — и это при том, что все записи были оцифрованы с параметрами AudioCD и не подвергались сжатию. А в том, что информация обо всех искомых произведениях наличествует в базе данных AudioTag, мы убедились, загрузив фрагменты незашумленных цифровых записей — все они были успешно распознаны.

Заключение

Как показало наше исследование, сервис AudioTag действительно позволяет с довольно большой степенью вероятности идентифицировать запись неизвестного музыкального произведения даже по его небольшому фрагменту не самого высокого качества. При этом, в отличие от аналогичных коммерческих решений, AudioTag доступен любому пользователю Интернета, абсолютно бесплатен и не требует установки дополнительных программных компонентов на ПК.

Опыт использования сервиса показал, что применяемый алгоритм распознавания на самом деле обеспечивает высокую точность идентификации и крайне редко выдает ошибочные сведения. В процессе написания этой статьи мы загрузили фрагменты в общей сложности более сотни различных записей, и только в паре случаев были получены неверные результаты.

Разумеется, у алгоритма идентификации, используемого этим сервисом, есть слабые места. Он хорошо справляется с распознаванием песен и коротких инструментальных произведений, однако нередко оказывается неэффективным при попытке идентифицировать записи классической музыки. По­видимому, это обусловлено такими характерными для многих классических произведений факторами, как продолжительное время звучания и наличие нескольких разнородных частей. Кстати, это в полной мере относится и к произведениям некоторых современных исполнителей. Например, идентифицировать записи немецкого композитора и музыканта Клауса Шульце сервис так и не сумел.

Но, несмотря на некоторые недостатки, сервис AudioTag может стать хорошим подспорьем для меломанов и просто неравнодушных к музыке людей, у которых возникает желание узнать, кто же является автором и исполнителем случайно услышанного произведения.

 

В начало В начало

КомпьютерПресс 10'2010


Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует