Сентимент-анализ и продвижение в социальных медиа

Александр Прохоров, Александр Керимов

Что такое сентимент­анализ

Обзор продуктов сентимент­анализа

Платные СА-системы

Бесплатные СА-ресурсы

Что такое сентимент­анализ

Сентимент-анализ (далее СА; sentiment analysis) — это раздел текстомайнинга (text mining), система автоматического извлечения субъективных мнений из текста, дисциплина на стыке поиска информации и вычислительной лингвистики, которая исследует не столько содержание текста, сколько его тональность. Понятие cентимент-анализа имеет ряд синонимов и близких терминов: сентимент­анализ (sentiment analysis), сентиментометрия (sentiment metrics), бренд­мониторинг (brand monitoring), социомедиаанализ (social media analysis), разведка мнений (opinion mining), «подслушивание» мнений (oppinion listening), анализ тональности текста и т.п. Говоря о тональности текста, следует выделять три параметра: субъект тональности (автора текста), тональную оценку (позитив, нейтрально или негатив либо более детальное деление) и объект тональности (предмет, о котором высказывается мнение, тональная оценка).

Автоматический анализ тональности текста базируется на технологиях лингвистической интерпретации эмоций, машинного обучения, извлечения эмоционального смысла из информации и т.д. Технология может использоваться для автоматической оценки новостных событий, продуктов, персоналий, организаций, стран и т.д. К задачам СА относятся распознавание и интерпретация мнения, кластеризация текстов, исходя из полярных (позитивных или негативных) мнений; сегментация текстов по разным мнениям; прогнозирование мнений, исходя из анализируемых текстов.

Существующая на протяжении уже нескольких десятилетий, технология СА стала особенно актуальной с развитием Web, особенно Web 2.0, как инструмент мониторинга мнений миллионов пользователей Сети, которые постоянно высказывают свои мысли в разного рода социальных сетях, блогах, твиттах и т.п.

Интерес к данной технологии растет по мере того, как повышается доверие к информации из социомедиаресурсов (отметим, что оно повышается гораздо быстрее, чем к другим видам информации, — рис. 1).

 

Рисунок

Рис. 1. Степень доверия к информации (источник: Trust barometr Edelman, 2012)

Широта охвата аудитории в миллионы человек и оперативность извлечения информации (она доступна практически в режиме реального времени) позволили получать недостижимые ранее результаты исследований. Если раньше, чтобы выявить мнение по какому-либо вопросу, нужно было проводить опросы, то сегодня высказывания по огромному количеству популярных тем уже есть в Сети, надо только выявить их, распознать и оценить. На базе СА-технологий разработан богатый набор программных приложений.

Наиболее простой метод автоматического определения мнения автора состоит в выделении и подсчете в тексте количества слов, имеющих позитивную или негативную окраску. Если в нем преобладают слова типа «удобный», «практичный», «стильный», то, скорее всего, тональность текста, описывающего предмет, положительная, и, наоборот, слова «скучный», «плохой», «проблемный» свидетельствуют об отрицательном отношении автора к нему.

Однако данная задача не столь легкая, как может показаться. Изложенный метод может привести к массе ошибок. Фраза «Политик N был не настолько глуп и примитивен, чтобы…» при использовании этого простого алгоритма будет сочтена негативной оценкой, а фраза «любая программа в этих условиях будет работать лучше и надежнее, чем программа компании АБС» ошибочно будет признана положительной по отношению к компании АБС. Более того, в различном контексте одни и те же слова обладают разным смыслом, а следовательно, и различной тональностью. Проблема разработки алгоритмов СА — это тема отдельной статьи, поэтому здесь мы ограничимся ссылкой на работу, описанную в Сети по адресу: http://sentiwordnet.isti.cnr.it, которая дает представление лишь об одном из направлений совершенствования алгоритмов СА. Для автоматического извлечения мнений из текста авторы данной работы пытались использовать PNO-критерий для слова, являющегося маркером мнения (рис. 2).

 

Рисунок

Рис. 2. Схема определения PNO

Критерий PNO базируется на двух параметрах: PN-полярности (Positive — Negative — положительно — отрицательно) — это горизонтальная ось на рис. 2, и SO-полярности (Subjective — Objective — субъективно — объективно) — вертикальная ось.

SO-полярность характеризует, насколько в данном контексте словом выражаются объективные факты, а не субъективное мнение. Чем меньше субъективности, тем меньше может быть PN-вариаций и наоборот.

В качестве примера на рис. 3 приведена оценка слова estimable, которое может иметь разные значения:

 

Рисунок

Рис. 3. Схема определения PNO-ряда
на примере английского слова estimablе

  1. Заслуживающий высшей оценки (левый треугольник);
  2. Солидный, респектабельный, почетный — этот смысл передается, например, во фразе: «все солидные компании дают гарантии»;
  3. Отражает тот факт, что предмет может быть рассчитан или количественно оценен — этот смысл передается в выражениях «численно оцениваемый риск» и «оцениваемые ресурсы» (правый треугольник). То есть в данном случае слово не может выражать какую-либо субъективную позицию автора.

Для каждого из трех перечисленных вариантов будет свой PNO-ряд. Для первого варианта: P=0,75, N=0, O=0,25; для второго: P=0,625, N=0,25, O=0,125; третий вариант не содержит субъективной оценки: P=0, N=0, O=1.

Конечно, все проявления человеческого интеллекта (такие как ирония, сарказм) машине пока непонятны. Более того, оценка результатов анализа настроения часто нетривиальна: популярность может базироваться и на негативных эмоциях публики. Несмотря на ограниченность машинного интеллекта, прогресс налицо: в современных СА-инструментах реализованы десятки новых технологий, а что касается широты охвата источников информации и скорости обработки больших объемов данных, то машины давно превзошли человеческие возможности. Для того чтобы продемонстрировать скорость и точность работы современных продвинутых СА-платформ, обратимся к результатам тестирования программы OpinionEQ SMI Decision Platform. Весьма интересен пример анализа эмоций, выраженных в Твиттере во время матча 2010 FIFA World Cup, проходившего в июле 2010 года (рис. 4).

 

Рисунок

Рис. 4. Анализ эмоций, выраженных в Твиттере во время матча 2010 FIFA World Cup

Глядя на график, легко определить эмоции болельщиков, наблюдающих за ходом игры: Германия — зеленый, Уругвай — голубой. Игра закончилась около 4.30.

Для того чтобы оценить применимость методов и точность работы в реальном времени платформы OpinionEQ SMI Decision Platform, интересно сравнить график на рис. 4 и динамику матча:

  • 18-я минута матча (2:48) — Германия открывает счет;
  • 28-я минута матча (2:58) — Уругвай сравнивает счет — 1:1;
  • 51-я минута матча (3:40) — Уругвай выходит вперед — 2:1;
  • 56-я минута матча (3:45) — Германия сравнивает счет — 2:2;
  • последняя минута матча (4:20) — Германия выигрывает со счетом 3:2.

Имея информацию о результатах матча во времени, можно предположить всплески эмоций фанатов, которые будут отражаться в Твиттере. Мы видим, что немецкие болельщики проявили больше всего эмоций в конце игры. Очевидно, что автоматизированный анализ Twitter-потока дает очень четкую картину матча. Так что твитты, как и другие посты социальных медиа, могут достаточно точно отражать настроения и мнения аудитории. С помощью Twitter-потока можно получать данные в реальном времени и использовать их для принятия оперативных бизнес- и политических решений.

Еше один пример автоматизированного сентимент­анализа в реальном времени — анализ президентской предвыборной кампании — хорошо иллюстрирует возможности платформы OpinionEQ SMI Decision Platform.

В проекте отслеживались все твитты, в которых упоминались основные кандидаты в президенты США 2012 года, чтобы продемонстрировать работу анализатора эмоций. Инструмент выходит за рамки простой оценки «позитивно» или «негативно» и дает детальный разбор эмоционального профиля исследуемой аудитории (рис. 5 и 6).

 

Рисунок

Рис. 5. Динамические данные сентимент-анализа
на базе OpinionEQ SMI Decision Platform

Рисунок

Рис. 6. Спектр эмоций, которые позволяет регистрировать система
OpinionEQ SMI Decision Platform

До сих пор мы говорили о решении лингвистической задачи — оценке тональности текста, но на практике возникает еще целый ряд задач. Например, дать заключение о том, является ли данное мнение предвзятым или нет, проанализировать степень влиятельности авторов тех или иных мнений в сетевом пространстве. Не все мнения одинаково важны: как алгоритмы, лежащие в основе поисковиков, пытаются отследить ссылки с наиболее уважаемых сайтов, так и алгоритмы сентимент­анализа пытаются выделить мнение наиболее важных персон. Очевидно, что мнение министра важнее мнения дворника, а мнение блогера, у которого сотни фолловеров, важнее мнения новичка блогосферы.

Активное коммерческое развитие систем СА началось, когда они стали использоваться для получения ответов на вопросы владельцев брендов применительно к социальным медиа. Такие вопросы легко сформулировать: что клиенты думают о нашем продукте, насколько они удовлетворены уровнем нашего сервиса, как проводимая политика влияет на мнение клиентов о фирме, что клиентам нравится в продуктах наших конкурентов?

Среди клиентов (особенно это касается клиентов технологических фирм) много желающих оставаться на связи с производителями продуктов, которыми они пользуются. В их числе есть такие, к мнению которых прислушиваются все остальные клиенты. Именно их надо выявить и поддержать. Есть спрос — есть предложение. На базе платформы, решающей лингвистическую задачу определения тональности текста, строятся системы, выполняющие целый ряд прикладных задач, таких как мониторинг социальных медиа, определение площадок, на которых обсуждается бренд, оценка того, какое мнение выражается, анализ содержания этих разговоров, а также средства управления сетевой активностью в социальных медиа. Таким образом, целый ряд решений обеспечивает не только оценку тональности, но и поддержку клиентов, связь с социальной общественностью, исследование рынка и измерение результативности маркетинговых кампании.

На рис. 7 показана принципиальная схема мониторинга и управления социальным сообществом. Она включает мониторинг разговоров, сегментацию откликов, их анализ, выбор канала коммуникации с представителями сообщества и их вовлечение — эти задачи позволяют решать современные программы СА.

 

Рисунок

Рис. 7. Схема мониторинга и управления социальным сообществом (источник: Дэвид Армано)

На рис. 7 показана группа так называемых менеджеров сообщества (community managers), которые призваны управлять сообществом в своих интересах и привлекать на свою сторону активных членов сообщества, которые уже доказали свою лояльность, способствовать появлению так называемых суперфанов и вести с ними диалог.

Процесс становления суперфана показан на рис. 8: от внимания к участию, взаимодействию, затем к лидерству, лояльности и, наконец, к тому, чтобы стать суперфаном, евангелистом, приверженцем некой идеи, бренда.

 

Рисунок

Рис. 8. Процесс рождения суперфана

Особый интерес для компаний представляет привлечение лидеров мнений — то есть людей, которые пользуются особым влиянием в социальных сетях. Как правило, это люди с активной жизненной позицией, которым нравится быть не просто слушателями, а активными участниками дискуссий. Это люди с широкой сетью контактов в офлайновой и онлайновой среде, они любят учиться и знакомиться с новыми технологиями и продуктами, используют различные источники информации, чтобы быть в курсе всех событий, формируют свое собственное мнение. Эти люди не только учатся сами, но и проявляют заинтересованность в распространении своих знаний и полезных советов. Для представителей брендов очень важно вовлекать подобных людей. Например, предоставив лидеру мнения возможность самостоятельно опробовать новый товар или услугу, можно ожидать, что информация о нем (ней) будет донесена до большого количества людей. Негативные отзывы лидеров тоже могут быть очень полезны для владельцев брендов (как совет по усовершенствованию продукта) и весьма опасны для них, если критика имеет форму не совета по совершенствованию продукта, высказываемого в рамках приватной беседы, а публичной жалобы. Поэтому очень важно установление диалога и управление процессом донесения оценки лидеров мнений до среды социальных медиа. Лидеры мнений могут выступать как генераторы новаций и усовершенствований продукта, и длительная работа с ними может быть весьма плодотворной. Неслучайно появился термин «взращивание контента» (seeding of content) в социальных медиа.

Для того чтобы лучше понять механизмы работы с соцсообществом, полезно обратиться к рис. 9, на котором сравниваются концепции платной поисковой рекламы и работы по «взращиванию контента» в социальных медиа.

 

Рисунок

Рис. 9. Стратегии оплаты и заработка при работе с цифровыми медиа (источник: Дэвид Армано)

Слева на рисунке представлена схема, по которой построена платная поисковая реклама, — подходящие цифровые рекламные площадки и уместная для них контекстная реклама вычисляются поисковой машиной, проводится тендер, подбираются оптимальные пары, возникают партнерства, осуществляется взаимовыгодная сделка, поисковик получает комиссию. Согласно терминологии авторов рис. 9, формируются так называемые нетрадиционные партнерства. Согласно трактовке mackinawcity.com, нетрадиционный партнер (пon traditional partner) — это партнер, который может иметь косвенное отношение к вашей индустрии, но проявляет общий с вами интерес к вашей потенциальной аудитории.

На правой части рисунка люди, а не машины требуются для вовлечения других людей. «Посев» контента происходит в результате персонализированных контактов с целевой аудиторией. Схема работает в рамках замкнутого цикла «прослушивание аудитории — анализ — вовлечение».

Вышеописанные технологии реализованы в десятках доступных на рынке продуктов. В Интернете можно найти более 200 инструментов и платформ, которые, как утверждают их авторы, в состоянии помочь клиентам отслеживать и оценивать упоминания компании или брендов в социальных медиаканалах. Эти программы имеют огромный разброс по функциональности и цене. Наиболее простые предоставляются бесплатно, более продвинутые доступны в составе коммерческих продуктов или платных веб­сервисов. Далее мы сделаем краткий обзор решений из разных ценовых категорий, чтобы сформировать у читателей представление обо всем спектре подобных продуктов.

Мы рассмотрели лишь один из аспектов анализа сбора информации на базе социальных медиа. В принципе, информация от клиентов и потенциальных и имеющихся потребителей продуктов компании, интегрированная с другими корпоративными системами, является основой для поддержки принятия решений в корпорации на разных уровнях управления и маркетинговой стратегии компании (рис. 10).

 

Рисунок

Рис. 10. Схема учета анализа социальных медиа
в механизме принятия управленческих решений
(источник: Lanying Du, Университет Huazhong, Китай)

Обзор продуктов сентимент­анализа

Платные СА-системы

SAS Sentiment Analysis

www.sas.com/text-analytics/sentiment-analysis

Обзор мы решили начать с продукта известнейшей на рынке бизнес-аналитики компании — SAS, которая является одним из лидеров рынка, имеет широкую экспертизу в области интеллектуального анализа данных (Data Mining) и предлагает широкий спектр решений, включая управление эффективностью бизнеса, финансовую аналитику, аналитический CRM, управление рисками и т.п. Есть в ассортименте компании и приложение для сентимент­анализа.

SAS Sentiment Analysis — это часть SAS Text Analytics — линейки продуктов, обеспечивающих всесторонний лингвистический и статистический анализ неструктурированной информации. Sentiment Analysis анализирует контентосодержащие источники, включая веб­сайты и социомедиаресурсы, a также внутренние текстосодержащие ресурсы, и строит отчеты, в которых отражаются мнения потребителей, клиентов и конкурентов с указанием динамики во времени (рис. 11). В продукте интегрированы средства машинного обучения и лингвистические технологии, что увеличивает достоверность результатов анализа. Кроме того, можно отметить возможности динамического анализа, удобный интерфейс и поддержку разных языков.

 

Рисунок

Рис. 11. Интерфейс программы и построение графических отчетов
о позитивных и негативных упоминаниях

 

Lithium

http://www.lithium.com

Приложение, которое помогает оставаться на связи со своими клиентами посредством Интернета и мобильного телефона. Lithium предоставляет графические средства анализа информации (рис. 12) и помогает компаниям «услышать» клиентов в реальном времени. Lithium состоит из таких приложений, как Community Platform, Social Media Monitoring и Customer Intelligence Center.

 

Рисунок

Рис. 12. Графический анализ социальной информации, выполненный
средствами Lithium

Community Platform позволяет быть на связи с клиентами и мониторить их «социальные разговоры», которые происходят постоянно и содержат информацию о требованиях заказчика к бренду. Lithium для социального мониторинга СМИ проста в настройке, и каждый сможет легко ее применять.

Lithium Social Media Monitoring дает возможность строить и использовать социальные сообщества на базе как Интернета, так и мобильного телефона. Инструмент позволяет отделить сигнал от шума, выделить, что именно ваши клиенты говорят о вас, понять, что их волнует, и дает возможность ознакомиться с их мнением. Приложение способно показать площадки наиболее активного обсуждения и определить самых страстных ораторов. Lithium Social Media Monitoring находит новые идеи по усовершенствованию продуктов и освобождает их от недостатков, выявляет новые возможности и пути усовершенствования услуг, а также позволяет донести их до сотрудников компании, чтобы использовать все выгоды от понимания социальной информации, полученной от клиентов.

Customer Intelligence Center призван конвертировать разговоры клиентов и данные об их поведенческих профилях в бизнес-преимущества корпорации. Инструмент позволяет собирать информацию о социальном поведении клиентов и обеспечивать информированность влиятельных сторонников, чтобы поддерживать интерес социального сообщества к бренду.

 

OpinionEQ

opinioneq.com

OpinionEQ обеспечивает онлайновый доступ к платформе OpinionEQ SMI Decision Platform, а Dashboard-средства (рис. 13) дают пользователям возможность визуализировать исследования, основанные на анализе брендов, продуктов, контент­сайтов и пр. Эти исследования могут быть проведены в режиме реального времени, а результаты представлены в виде широкого спектра настраиваемых отчетов.

 

Рисунок

Рис. 13. Интерфейс OpinionEQ

Технология может быть встроена в приложения клиента. Система позволяет получать отклик от клиентов, который дает возможность определить направление развития продукта, причем не только после, но и до его запуска.

 

Radian6

Основанный в Канаде сервис Radian 6 (рис. 14) позволяет компаниям оптимизировать процесс «прослушивания» более 100 млн социальных медиасайтов. Система также предлагает инструменты управления, которые дают возможность координировать ответы на внешнюю деятельность соцсообщества, и позволяет немедленно обновить блог, сообщения в Twitter и Facebook. За пользование Radian6 взимается ежемесячная абонентская плата, зависящая от количества тем мониторинга в месяц. Среди клиентов этого ресурса такие известные компании, как Красный Крест, Adobe, Microsoft, Pepsi и Southwest Airlines.

 

Рисунок

Рис. 14. Анализ информации средствами Radian6

 

OpenAmplify

www.openamplify.com

OpenAmplify — это компания, которая специализируется в области NLP и создала платформу сентимент­анализа, основанную на десятке патентов, а также одноименный веб­сервис. Эта платформа дает возможность делать гораздо больше, чем просто проводить сентимент­анализ, — она позволяет выявлять обсуждаемые темы, юридических лиц, проводить их классификацию, выполнять сентимент­анализ как по отдельным темам, так и по всему тексту, анализировать ряд параметров, например выяснить, что автор планирует, насколько он уверен в своих намерениях, оценить степень эмоциональной выраженности автора и ответить на его вопросы. Сентимент-анализ доступен на базе продукта SocialView, построенного на платформе OpenAmplify компанией Visual Intelligence (рис. 15).

 

Рисунок

Рис. 15. SocialView открывает широкие возможности
визуального представления аналитических материалов

 

Meltwater Buzz

Запущенный в 2009 году сервис Meltwater Buzz мониторит и анализирует пользовательский контент на более чем 200 млн социальных медиасайтах и служит для оценки отношения к бренду со стороны социального сообщества (рис. 16). Все данные представляются в интуитивно понятной и простой в использовании панели, в течение всего срока подписки осуществляется поддержка пользователей. Продукт разработан компанией Meltwater, основанной в Норвегии в 2001 году, которая в настоящее время имеет 50 офисов по всему миру.

 

Рисунок

Рис. 16. Интерфейс сервиса Meltwater Buzz

 

LIQUID CAMPAIGN Opinion Mining

LIQUID CAMPAIGN Opinion Mining — это набор продуктов и услуг по сентимент­анализу и социомедиамониторингу. Разработчики начали развивать данную платформу еще в 2007 году, когда в этом направлении делались первые шаги. Одна из важнейших задач, решаемых с помощью данного инструмента, — это поиск в Сети площадок, где ведется релевантная дискуссия по исследуемому вопросу. Сервис анализирует большой объем текстовой информации и позволяет выполнять сентимент­анализ, анализ репутации собственного бренда (рис. 17) и анализ репутации брендов конкурентов. Сервис может предоставлять как веб­дешборды, так и отчеты в формате, оговоренном пользователем. Возможно применение дешбордов на базе Web с функцией углубления до уровня исходных материалов (drill into topics) и цитат. Среди клиентов сервиса — международные компании, госучреждения, аналитические компании и пиар-агентства.

 

Рисунок

Рис. 17. Анализ репутации бренда по ряду параметров

Бесплатные СА-ресурсы

Social Mention

www.socialmention.com

Social Mention — это платформа по поиску и анализу информации, объединяющая UGC-контент с множественных ресурсов в единый поток информации. Система позволяет легко отслеживать и измерять отклики соцсообщества о компаниях, новых продуктах или по любой другой анализируемой теме в режиме реального времени. Social Mention проводит мониторинг более сотни социальных ресурсов, включая Twitter, Facebook, FriendFeed, YouTube и Digg.

По ключевому слову можно получить целый ряд параметров (рис. 18), в том числе узнать количество позитивных, негативных и нейтральных упоминаний (параметр Sentiment обозначает соотношение числа позитивных упоминаний к количеству негативных).

 

Рисунок

Рис. 18. Результаты сентимент-анализа по ключевому слову Vladimir Putin

Авторы протестировали работу ресурса. На рис. 18 и 19 приведены сентимент­портреты по ключевым словам Vladimir Putin и Barack Obama.

 

Рисунок

Рис. 19. Результаты сентимент-анализа по ключевому слову Barack Obama

 

Tweetfeel

Tweetfeel просматривает твитт­сообщения на предмет упоминания тех или иных брендов, персоналий и т.д. и дает оценку позитивности или негативности высказывания.

Авторы протестировали этот ресурс 9 мая, в День Победы, и обнаружили тревожный факт: Tweetfeel с поисковым запросом «stalin» показал отрицательный сентимент (собрал 61% негативных упоминаний), в то время как для поискового запроса «hitler» программа показала 52% положительных упоминаний (рис. 20). Вот пример того, как с помощью программы Tweetfeel можно оценить настроение определенной части англоязычной аудитории Твиттера и, в какой­то мере, влияние пропаганды на эту часть сообщества.

 

Рисунок

Рис. 20. Окна Tweetfeel с поисковыми запросами «stalin» и «hitler»

 

 

Twittratr

http://twitrratr.com

Twittratr — еще одно бесплатное онлайновое приложение для анализа твитт­сообщений относительно упоминания тех или иных тем и их тональности.

Судя по результатам, показанным на рис. 21, эта система построена весьма примитивно и сортирует твитты по принципу наличия позитивных и негативных слов.

 

Рисунок

Рис. 21. Результат автоматического оценивания по запросу «Microsoft»

Заключение

Технология СА нашла широкое коммерческое применение у корпораций — владельцев брендов для анализа социальных медиа. Современные СА-приложения предоставляют возможность не только оценить тональность высказываний о бренде, но и получить целый ряд дополнительных инструментов, упрощающих управление социальной аудиторией, интересующейся брендом, установление контактов, обмен информацией, влияние на взращивание социального контента, поиск лидеров мнений социального сообщества, снабжение их информацией и привлечение к продвижению бренда.

 

В начало В начало

КомпьютерПресс 07'2012