Технологии интеллектуального поиска музыки
Поисковые системы, позволяющие по ключевым словам найти в Интернете нужный текст или изображение, сегодня уже никого не удивляют. Вполне возможно, что уже через несколько лет автоматизированные системы можно будет использовать для поиска музыкальных фрагментов не только по названию и имени исполнителя, но и по критерию схожести с другими произведениями или в соответствии со вкусами пользователя.
В настоящее время во Всемирной паутине функционирует по крайней мере несколько сервисов, заявляющих о возможности сортировать музыку по настроению. Один из крупнейших проектов подобного рода — Musical Genome Project , разработанный и поддерживаемый американской компанией Pandora Media. Для классификации фонотеки, на данный момент насчитывающей более 400 тыс. записей более чем 20 тыс. исполнителей, используется порядка 400 различных признаков. Каждая запись размещена в определенной области «музыкальной вселенной» — модели некоего многомерного пространства, построенной аналитиками Pandora Media. Принцип размещения композиций в той или иной части «музыкальной вселенной» базируется на статистической обработке мнений и рейтинговых оценок пользователей сервиса, а также на экспертной оценке штатных музыкальных аналитиков Pandora Media.
Каждый из пользователей сервиса может создать собственную музыкальную «радиостанцию», подбирая произведения различных исполнителей по своему вкусу. Используя накопленные данные о предпочтениях других пользователей, система дает рекомендации по подбору записей, похожих на те, которые чаще всего звучат в эфире персональной «радиостанции».
Наряду с очевидными преимуществами подобный подход имеет и серьезные недостатки. Во-первых, ориентация исключительно на человеческий фактор не позволяет внедрить автоматизированный анализ произведений, вследствие чего описанный механизм хорошо работает только для поиска относительно известных и востребованных в данный момент композиций. А во-вторых, для накопления начального минимума рейтинговых оценок необходимо определенное время, что в значительной мере снижает темпы обновления «музыкальной вселенной». Таким образом, следующим этапом в развитии подобных сервисов должен стать переход к применению автоматизированных систем анализа и подбора музыки, созданных с использованием элементов искусственного интеллекта. О двух таких проектах мы и расскажем в данной статье.
AudioRadar
В рамках проекта AudioRadar группа ученых Мюнхенского университета под руководством доктора Отмара Хиллигеса (Otmar Hilliges) разрабатывает методы, которые можно использовать в медиаплеерах и онлайновых сервисах для автоматизированного подбора музыкальных фрагментов, соответствующих настроению и вкусам пользователя. Как отмечают участники проекта, общепринятое деление музыкальных произведений по жанрам и исполнителям весьма условно и не позволяет подобрать музыку под настроение.
Так выглядит плоская проекция
«пространства настроений» системы AudioRadar
Наиболее остро проблема поиска музыки стоит перед обладателями плееров на базе жестких дисков, ведь в эти устройства можно загружать несколько тысяч файлов. Естественно, рассортировать столь огромную коллекцию музыки вручную многим не под силу. Задача программного обеспечения, создаваемого в рамках проекта AudioRadar, заключается в том, чтобы помочь пользователям быстро находить нужные произведения среди тысяч звуковых файлов.
Работа AudioRadar построена на использовании четырех атрибутов, характеризующих каждое музыкальное произведение: темп (быстрое/медленное), ритмичность (ритмичное/мелодичное), динамика (спокойное/динамичное) и атака (резкое/мягкое). Множество значений каждого из этих атрибутов составляет отдельное измерение «пространства настроений». При автоматическом анализе музыкальной коллекции программа помещает каждую композицию в определенную точку «пространства настроений» в соответствии со значениями атрибутов. Таким образом, в каждой относительно небольшой области данного пространства группируются произведения со схожими значениями атрибутов.
Поскольку конечным пользователям было бы весьма затруднительно ориентироваться в четырехмерном пространстве, ученые разработали метод, позволяющий визуализировать «пространство настроений» в виде плоской радиальной диаграммы (видимо, именно поэтому и возникло название AudioRadar). В центре находится выбранная пользователем композиция, а на различном удалении от нее расположены ближайшие (по совокупности значений атрибутов) произведения. Пользоваться такой моделью достаточно просто: по расстоянию до показанных записей можно определить степень их похожести на выбранное произведение, а по направлению — характерные отличия (например, такие, как более быстрый темп или меньшая мелодичность). Смещая центр диаграммы в соответствующем направлении, пользователь может искать произведения, имеющие определенные отличия от исходного (например, более мелодичные песни).
Руководитель проекта AudioRadar признает, что на данном этапе созданная его сотрудниками модель является лишь прототипом и позволяет осуществлять только грубый анализ музыкальных произведений. «Мы используем алгоритмы, придуманные другими, а они далеки от идеала. Например, наш метод не всегда позволяет отличить оригинальную песню от ее интерпретации, записанной другим исполнителем», — констатирует д-р Хиллигес. К тому же система может поместить в одну и ту же область «пространства настроений» записи классической музыки и песни групп, работающих в жанре «тяжелого рока» . Разработчики AudioRadar считают, что для получения более точных результатов систему поиска по формальным критериям необходимо дополнить механизмом учета и обработки пользовательских рейтингов.
SIMAC
В начале 2004 года были начаты работы в рамках проекта SIMAC (Semantic Interaction with Music Audio Contents), главной целью которого стало создание прототипов программных средств для автоматической генерации метаданных звуковых файлов (содержащих музыкальные произведения), которые можно было бы использовать для визуализации, организации и поиска музыкальных записей по различным критериям.
Графическая модель, используемая
в системе SIMAC Music Organiser and Explorer
Исследовательские работы проекта были разделены на три основные темы:
- семантическое описание музыкальных произведений;
- методы определения похожести музыкальных произведений;
- методы структурирования музыки.
В течение 27 месяцев (с января 2004-го по март 2006 года) разработкой этих тем занимались сотрудники трех крупных европейских научных центров: университетов Queen Mary University of London (Великобритания) и Universitat Pompeu Fabra (Испания), а также Австрийского исследовательского института искусственного интеллекта (Austrian Research Institute for Artificial Intelligence). Кроме того, в работе приняли участие разработчики концерна Philips и британской компании Matrix Data. Общий бюджет проекта SIMAC составил почти 3 млн евро; часть этих средств выделил европейский фонд IST (Information Society Technologies).
Участникам проекта удалось создать несколько прототипов программных средств, в которых были реализованы теоретические наработки исследовательских групп. Расскажем вкратце о каждом из них.
SIMAC Music Annotator представляет собой инструмент для генерации метаданных музыкальных произведений, формируемых на основе автоматического анализа записи. Метаданные записываются в заголовок звукового файла в формате XML и могут быть использованы поисковыми системами, а также программными средствами (в частности, медиаплеерами).
Программа SIMAC Music Recommender предназначена для выработки рекомендаций по выбору записей музыкальных произведений, соответствующих запросам конкретного пользователя. Данное средство позволяет создать индивидуальный профиль пользователя, исходя из его предпочтений при прослушивании музыки. На основе этой информации осуществляется поиск похожих произведений и исполнителей, результаты которого упорядочиваются по релевантности.
Работа системы управления музыкальным контентом SIMAC Music Organiser and Explorer3 основана на использовании описаний, формируемых в процессе автоматического анализа звуковых файлов. Описания включают несколько разнородных характеристик, описывающих как особенности восприятия фонограммы, так и структуру музыкального произведения. В частности, учитываются тембральные характеристики записи, а также ее ритмика (темп, характерные ритмические рисунки и пр.) и информация об используемых в произведении гармонических и мелодических конструкциях.
Интерфейс системы SIMAC Music Organiser and Explorer позволяет оперировать как текстовыми данными (имя исполнителя, название произведения, жанр и т.д.), так и графической моделью, выполненной в виде радиальной диаграммы.
По мнению участников проекта, методы анализа и поиска музыки, разработанные исследовательскими группами SIMAC, могут быть реализованы как в онлайновых сервисах, так и в мобильных устройствах, например в портативных медиаплеерах.