Текстомайнинг

Извлечение информации из неструктурированных текстов

Александр Беленький

Что такое текстомайнинг

Решения на основе текстомайнинга

WordStat

TextAnalyst

Businessobjects Text Analysis

AeroText

STATISTICA Text Miner

Attensity suite

ЕРАМ-Голос клиента

Galaktika-ZOOM («Галактика»)

Медиалогия

Что такое текстомайнинг

Текстомайнинг (text mining) часто называют также текстовым дейтамайнингом (text data mining), что отчасти раскрывает взаимосвязь двух этих технологий. Если дейтамайнинг позволяет извлекать новые знания (скрытые закономерности, факты, неизвестные взаимосвязи и т.п.) из больших объемов структурированной информации (хранимой в базах данных), то текстомайнинг — находить новые знания в неструктурированных текстовых массивах.

В этом смысле текстомайнинг добавляет к технологии дейтамайнинга дополнительный этап — перевод неструктурированных текстовых массивов в структурированные. После чего данные могут обрабатываться с помощью стандартных методов дейтамайнигнга.

Наиболее простой задачей является текстомайнинг слабоструктурированных узкоспециализированных текстовых массивов (различные отчеты о поломках, результаты опросов и т.п.). В текстовых массивах, где форма документа и набор лексики ограничены, новую информацию можно извлекать, анализируя статистику на уровне отдельных ключевых слов (терминов). Когда мы говорим о неструктурированных текстах, то в общем виде задача сводится к «пониманию» произвольных текстов на естественном языке — это одна из старейших задач искусственного интеллекта (ИИ), которая может решаться с использованием различных технологий, в первую очередь на базе методов обработки данных на естественном языке — NLP (Natural Language Processing), на основе нейросетевых подходов, а также других методов и их комбинаций.

Огромное количество информации скапливается в многочисленных текстовых базах, хранящихся в личных ПК, локальных и глобальных сетях. И объем этой информации стремительно увеличивается. Чтение объемных текстов и поиск в гигантских массивах текстовых данных малоэффективны, поэтому становятся все более востребованными решения текстомайнинга.

Актуальность текстомайнинга растет по мере того, как людям самых разных профессий приходится принимать решения на базе анализа большого объема неструктурированных и слабоструктурированных текстов (рис. 1).

 

Рисунок

Рис. 1. Ожидаемое снижение/рост данных различной степени структурированности
в ближайшие три года (источник: Businessobjects)

Все более интересным становится анализ общественного мнения, выраженного в Web. В последнее время блогосфера демонстрирует практически троекратный ежегодный рост. Одним из новых направлений текстомайнинга является Opinion Mining (OM) (буквально — раскопка мнений) — технология, которая концентрируется не столько на содержании документа, сколько на мнении, которое он выражает.

Оценить успешность проведенной рекламной кампании, узнать, как к фирме относятся в прессе, — на эти и другие вопросы можно получить ответ с помощью технологии Opinion Mining.

Условно систему текстомайнинга можно разделить на четыре блока (рис. 2). Нижний блок объединяет технологии извлечения и фильтрации поступающих на обработку текстов. Блок над ним отвечает за «понимание» текстов на естественном языке.

 

Рисунок

Рис. 2. Структура обобщенной системы
текстомайнинга

В следующем блоке перечислен набор необходимых пользователю задач, каждая из которых требует своего технологического решения. В общем случае набор этих задач может быть весьма широким. К ним следует отнести:

  • классификацию;
  • кластеризацию;
  • построение семантических сетей;
  • извлечение фактов, понятий (feature extraction);
  • извлечение мнений;
  • аннотирование, суммаризация (summarization);
  • ответ на запрос (question answering);
  • тематическое индексирование (thematic indexing);
  • поиск по ключевым словам (keyword searching);
  • создание таксономий и тезаурусов.

Последний блок объединяет средства, формирующие графический интерфейс пользователя, и является важным компонентом системы. Представленная надлежащим образом информация позволяет человеку увидеть те дополнительные скрытые закономерности, которые не удается выявить другими методами.

В настоящее время предлагается достаточно много инструментов текстомайнинга — от относительно простых программ, опирающихся на статистический анализ отдельных терминов в текстах, таких как WordStat, до сложнейших приложений типа Aerotext и Businessobjects Text Analysis. Далее мы кратко рассмотрим возможности наиболее популярных приложений текстомайнинга.

С развитием Интернета анализ, базирующийся на технологиях текстомайнинга, может реализовываться не только посредством внедряемых в организации приложений, но и в виде онлайнового сервиса. В последнее время текстомайнинговый анализ множественных открытых источников информации становится доступным для коммерческих, политических и других организаций за счет появления именно таких онлайновых служб. Одна из подобных служб — «Медиалогия» — базируется на аппаратно-программном решении компании IBS, о котором тоже пойдет речь в данной статье.

Решения на основе текстомайнинга

WordStat

http://www.provalisresearch.com/wordstat/wordstat.html

WordStat (рис. 3) — это программа, которая базируется преимущественно на статистическом анализе слов в слабоструктурированных текстовых документах и позволяет извлекать информацию из инцидент-отчетов, жалобных книг, обрабатывать результаты опросов, разрабатывать таксономии и др.

 

Рисунок

Рис. 3. Интерфейс программы WordStat

Программа предоставляет возможность статистического анализа совместного появления слов в текстовых базах, позволяет проводить иерархический кластерный и другие виды анализа. Обеспечивает развитые средства визуализации данных.

На рис. 4 показаны данные, построенные на основе многочисленных инцидент-отчетов авиакомпании JetBlue Airways. Метод иерархической кластеризации позволяет построить древовидную структуру, как показано на рис. 4: те ключевые слова, которые наиболее часто выпадают друг с другом, связаны короткими линиями; те, которые вместе выпадают редко, — длинными. Иерархическая кластеризация позволяет исследователю выбрать необходимое количество кластеров. На рис. 4 выбрано 17 кластеров, каждый из которых обозначен своим цветом. Программа разбивает массив на кластеры, которые логически или семантически связаны. Однако метод позволяет выявить и новые, неочевидные связи, например два фактора, которые часто выпадают с третьим.

 

Рисунок

Рис. 4. Пример построения иерархической кластеризации

Программа предоставляет весьма наглядный метод анализа — так называемые горячие карты (Heat maps). На рис. 5 показана «горячая карта», построенная на основе отчетов авиакомпании JetBlue Airways. Она представляет собой таблицу: в строках представлены слова, отражающие тип механической проблемы, а в столбцах — марки самолетов. Кластеризация данных в строках и столбцах позволяет выявить группы самолетов, в которых появляются сходные механические проблемы.

 

Рисунок

Рис. 5. Пример построения «горячей карты» (Heat map)

TextAnalyst

http://www.analyst.ru

http://www.megaputer.com/textanalyst.php

TextAnalyst (рис. 6) — это средство семантического анализа, навигации и поиска в неструктурированных текстах. В продукте реализована синергия от использования технологий лингвистического анализа и нейросетей.

 

Рисунок

Рис. 6. Интерфейс программы TextAnalyst

Система TextAnalyst поможет быстро резюмировать, эффективно управлять и объединять в группы документы в текстовой базе. Она облегчает поиск семантической информации либо может сфокусировать изучение текста на каком-то определенном предмете.

Продукт обеспечивает решение таких задач, как составление резюме объемного текста, дает представление о чем текст, позволяет эффективно осуществлять навигацию по большим текстовым документам и поиск информации с помощью запросов на естественном языке.

Основные возможности приложения отражены на рис. 7.

 

Рисунок

Рис. 7. Основные возможности программы TextAnalyst

Продукт существует как автономное и как встраиваемое решение.

Одна из возможностей системы — это построение сети семантических связей текста (Semantic Network). Полученная семантическая сеть служит основой для дальнейшего смыслового анализа текста. Семантическая сеть — это набор наиболее важных понятий, извлеченных из текста, и взаимосвязей между ними, оцененных на основе их относительной важности (рис. 8).

 

Рисунок

Рис. 8. Пример фрагмента семантической сети

Эффективная навигация по текстовым массивам осуществляется на основе гиперссылок по ключевым словам (понятиям) в семантической сети на те предложения в документе, которые содержат необходимые комбинации слов. Отдельные предложения могут иметь, в свою очередь, гиперссылки на те места в исходном тексте, где они были обнаружены.

Продукт обеспечивает возможность выявления тематической структуры текста — программа позволяет автоматически генерировать древообразную тематическую структуру исследуемого текста. Чем более существенными являются темы в тексте, тем ближе они располагаются к корню древовидной структуры.

С помощью подключения пользовательских словарей (включаемых и исключаемых слов) программа позволяет исследователю сконцентрироваться на изучаемом предмете.

Кластеризация текстов базируется на удалении слабых ссылок в семантической сети, что приводит к разбиению текста на семантически однородные кластеры.

Обработка запросов на естественном языке осуществляется на основе анализа на наличие семантически значимых слов в исследуемой базе и возвращении релевантных предложений из исходной текстовой базы. Дополнительно формируется так называемое поддерево понятий, относящихся к запросу, что также помогает усовершенствовать поиск.

Businessobjects Text Analysis

http://www.businessobjects.com/product/catalog/text_analysis/features.asp

BusinessObjects Text Analysis обладает мощными лингвистическими возможностями по чтению и пониманию документов на 30 языках, базируясь на развитом NLP-аппарате, и позволяет обрабатывать данные на базе 220 файловых форматов. Анализ текста выполняется не на уровне слов и частоты их появления в тексте — программа идет от понимания построения предложений в естественных языках.

Данные возможности дополняются категоризацией, что позволяет применять пользовательские таксономии при анализе текста для последующей классификации, реферирования и построения связанных выжимок текста.

Программа позволяет извлекать информацию по 35 типам объектов и событий, включая людей, географические места, компании, даты, денежные суммы, email-адреса, и выявлять взаимосвязи между ними.

Мощный инструмент позволяет обрабатывать огромные массивы информации, определяя искомые объекты (рис. 9).

 

Рисунок

Рис. 9. Пример работы программы
BusinessObjects Text Analysis по распознаванию объектов в тексте

На основе структуры естественных языков программа может распознавать информацию, связанную с заданными пользователем объектами, такими как названия проектов, анализировать взаимосвязи между событиями и конкретные фразы на предмет сентимент-анализа (sentiment analysis).

BusinessObjects Text Analysis предоставляет возможность классификации документов по представленным категориям, которые могут явно и не присутствовать в исходном документе. Например, ваш документ может быть отнесен к категории «жалоба пользователя» даже в том случае, если слово «жалоба» нигде в нем не встречается. Программа сама выявит неудовлетворенность клиента и отнесет документ к этой категории автоматически.

Реферирование осуществляется на базе извлечения наиболее релевантных предложений, характеризующих смысловое содержание документа.

Программа может быть интегрирована с продуктами BusinessObjects (Crystal Reports, BusinessObjects Web Intelligence, BusinessObjects Enterprise. BusinessObjects Data Integrator и др.).

AeroText

http://www.lockheedmartin.com/products/AeroText/products.html

AeroText — это текстомайнинговое приложение, используемое для контент-анализа, которое может применяться на разных языках. Оно разрабатывалось в подразделении Integrated Systems and Solutions корпорации Lockheed Martin Corporation для нужд оборонного ведомства США (U.S. Intelligence Community (Department of Defense)). Со временем это решение стало одним из ведущих в области текстомайнинга, интеллектуальный модуль AeroText интегрирован и в другие продукты. AeroText обеспечивает извлечение информации и анализ взаимосвязей между извлеченными единицами информации (рис. 10).

 

Рисунок

Рис. 10. Схема работы приложения AeroText

AeroText — это ПО, которое позволяет решать проблему информационной перегрузки на базе извлечения элементов анализа информации, таких как сущности (entities), взаимоотношения (relationships) и события (events), в неструктурированных текстах. Программа также позволяет выявлять скрытые взаимосвязи и события в текстах. Приложение может быть интегрировано с другими инструментами управления знаниями (knowledge management tools), обладает средствами индивидуальной настройки под исследуемую среду и поддерживает извлечение данных на различных языках.

AeroText — это решение data-independent, то есть решение, не зависящее от типа документа, тематики и типа языка. С помощью этой технологии могут решаться такие задачи, как построение базы данных, маршрутизация документов, броузинг, подготовка реферата (выжимки текста), построение полнотекстовых поисковых индексов и т.п. Версия AeroText 5.x существует в виде набора компонентов. Программа позволяет осуществлять извлечение информации, связанной с конкретными объектами (персоны, организации, географические объекты и т.п.), ключевые фразы (указание на конкретное время, объемы денег) и т.п. Решение также анализирует взаимосвязи между предметами, позволяя решить проблему множественных значений одного и того же предмета, осуществляет идентификацию взаимоотношений между предметами, извлечение событий (кто, где, когда), категоризацию тем (предмет, его определение), определение временного промежутка, когда имело место событие, определение места, которое может быть привязано к карте.

STATISTICA Text Miner

STATISTICA Text Miner — это дополнительное расширение программы STATISTICA Data Miner, предназначенное для перевода неструктурированных текстовых данных в информацию, пригодную для принятия решений. STATISTICA Text Miner позволяет извлекать из текста необходимые данные, структурировать их и представлять информацию в графическом виде (рис. 11). В качестве входных данных можно использовать не только текстовые документы или веб-страницы, но и файлы других типов. Программа обеспечивает доступ к текстовым документам в различных форматах, включая TXT, PDF, PS, HTML, XML, RTF и др.

 

Рисунок

Рис. 11. Интерфейс STATISTICA Text Miner

Документы могут быть обработаны, прежде чем они будут проиндексированы (фактически эти процессы происходят одновременно). Программа написана таким образом, что поддержка дополнительных языков осуществляется с минимумом затрат. Средства анализа позволяют получить количественный отчет по исследуемому тексту. Путем статистического анализа можно оценивать степень похожести документов. На базе сопоставления документов по частоте появления в них различных слов можно установить принадлежность документа к той или иной смысловой категории. Кластерный анализ позволяет идентифицировать группы сходных по смыслу документов. Предсказательные методы добывания данных позволяют устанавливать связи между полученными численными характеристиками документов с другими индикаторами (например, оценить намерение ввести в заблуждение, медицинский диагноз и т.д.).

STATISTICA Text Miner имеетоткрытую архитектуру. Программное обеспечение для текстомайнинга может быть интегрировано с любым ПО из линейки продуктов STATISTICA: STATISTICA Data Miner workspace, WebSTATISTICA или с обычными приложениями STATISTICA.

Attensity suite

http://www.attensity.com

Attensity — это набор текстомайнинговых решений, базирующихся на статистических и NLP-технологиях.

Технологии Attensity — это результат десятилетних исследований в области компьютерной лингвистики, которые привели к созданию ПО, позволяющему извлекать знания из неструктурированных текстов. Программу отличают широкий набор технологий извлечения — от ключевых слов до событий, открытая архитектура и удобный интерфейс (рис. 12). Программа Attensity предлагает богатый набор инструментов для анализа текстов, который включает средства интеграции, интеллектуальный модуль, масштабируемую серверную платформу, использует запатентованные средства извлечения информации и позволяет создавать бизнес-решения «под ключ». Технология дает пользователям возможность извлекать и анализировать следующие факты: кто, что, где, когда и почему делал, — и впоследствии уточнять, кто, в каких местах и в каких событиях принимал участие и как они между собой связаны.

 

Рисунок

Рис. 12. Интерфейс Attensity

В основе Attensity Text Analytics suite лежит технология извлечения информации из неструктурированных текстов. Она позволяет извлекать информацию, спрятанную в неструктурированном тексте, и переводить ее в структурированные данные, имеющие связи, которые могут быть проанализированы теми же методами, что и другие виды структурированных данных. Извлечение информации как из неструктурированных, так и из структурированных источников дает дополнительные возможности.

Программа может работать даже с текстами, содержащими грамматические ошибки, что важно в том случае, когда приходится обрабатывать сообщения электронной почты, личные записи, жалобы клиентов и т.п.

ЕРАМ-Голос клиента

http://www.epam-group.ru

«ЕРАМ-Голос клиента» обеспечивает оперативную обратную связь с клиентами посредством анализа мнений в интернет-форумах и блогах по таким темам, как отношение к бренду, причины недовольства и т.п.

Инструмент представляет собой бизнес-приложение, в основе которого лежат лингвистические алгоритмы и технологии Opinion Mining, позволяющие извлекать данные из различных неструктурированных источников и структурировать информацию в виде базы данных. Полученные структурированные данные можно обрабатывать разными аналитическими инструментами, начиная с MS Excel и заканчивая системами OLAP, Business Intelligenсe (BI) и Data Mining. Система подключается к аналитическим инструментам разных вендоров, в том числе SAP, Oracle, SPSS, Cognos и др. Подходы, которые лежат в основе данного программного продукта, существенно расширяют возможности представленных сегодня на российском рынке корпоративных и онлайн поисковых систем (Yandex.ru, Google.ru и др.), поскольку последние предполагают последующую ручную обработку информации (просмотр ссылок, извлечение нужных данных, занесение их в базу данных). В случае, когда объем информации составляет десятки тысяч документов в день, ручная обработка просто неприемлема.

При этом инструмент может работать как с внешними (блоги, форумы, интернет-сайты, СМИ и т.д.), так и с внутренними (CRM, записи колл-центров, разного рода мессенджеры, переписка по электронной почте и т.д.) источниками. Система использует для анализа как структурированную (базы данных), так и неструктурированную (тексты, графика и т.д.) информацию. «ЕРАМ-Голос клиента» обеспечивает прямой доступ к мнению клиентов. Данные представляются в виде удобных отчетов, которые показывают ситуацию в целом или в подробностях. Можно проводить анализ трендов, выявлять аномальные отклонения и скрытые зависимости, составлять рейтинги и т.п.

Результаты могут использоваться для планирования маркетинговой кампании, вывода нового продукта на рынок, оценки эффективности инвестиций и т.п. В результате с помощью этого инструмента на основе данных из интернет-источников можно:

  • выявлять и классифицировать проблемы, связанные с товаром/услугой;
  • видеть измеряемые изменения мнений клиентов по каждой из проблем за любой промежуток времени;
  • иметь свободный доступ к агрегированным показателям и каждому отдельному мнению;
  • сопоставлять результаты анализа интернет-ресурсов, опросов и фокус-групп;
  • оценивать эффективность вложений в различные виды маркетинговых коммуникаций;
  • получить объективный инструмент для обоснования бюджета;
  • получать самую свежую информацию о товарах, услугах, ценах и действиях конкурентов.

Программа «ЕРАМ-Голос клиента» уже используется такими компаниями, как сеть отелей Marriott, Johnson & Johnson, Novartis, Visa, маркетинговое агентство Rapp Collins, крупные электронные магазины R-Toys, E-Bay и т.д.

Система была разработана компанией EPAM Systems для американской компании Clarabridge, которая реализует ее на территории США, при этом в работе над ней принимали участие программисты, консультанты и лингвисты ЕРАМ. На территории стран СНГ эксклюзивным дистрибьютором системы является компания EPAM Systems. Качество обработки информации: точность — порядка 95-97%, производительность — более 20 тыс. документов в день. Система продуктивно работает с такими характеристиками с английским и русским языками и предназначена для автоматизации анализа больших массивов информации из разнообразных источников.

Galaktika-ZOOM («Галактика»)

«Галактика ZOOM» — это технология динамического контент-анализа. Она позволяет строить информационные портреты объектов по любой текстовой информации, в частности по сообщениям СМИ. Такой портрет состоит из статистически значимых слов и выражений, сопровождающих упоминание объекта.

«Галактика ZOOM» обеспечивает поиск в информационных массивах с применением языка запросов, а также контекстный или тематический поиск информации с учетом морфологии.

На рис. 13 показан пример «исследование — информационный портрет» — слова и словосочетания, отражающие информационное содержание объекта. Уникальной особенностью системы «Галактика ZOOM» является умение выявлять значимые слова и словосочетания документа, отражающие его смысл. Программа позволяет уточнить запрос, выбрав слово/словосочетание для включения (колонка «И») или исключения (колонка «И НЕ»).

 

Рисунок

Рис. 13. Пример работы «Галактика ZOOM»

Медиалогия

http://www.mlg.ru/about

«Медиалогия» — это система для проведения глубоких исследований по открытым источникам информации на базе технологии анализа массивов неструктурированной информации.

Система «Медиалогия» не предусматривает передачи программы заказчикам, производя обслуживание клиентов в онлайновом режиме. «Медиалогия» — это web-приложение, представляющее собой мощное решение со сложной архитектурой (рис. 14) и обеспечивающее непрерывную обработку поступающей информации, структурированное хранение данных, расчет аналитических параметров, проведение анализа по запросам пользователя и хранение настроек и отчетов.

 

Рисунок

Рис. 14. Архитектура системы «Медиалогия»

Пользователь, имеющий доступ к системе, создает запрос и получает готовый отчет, доступный для просмотра через систему или экспорта на компьютер пользователя. Персональные настройки и пользовательский профиль тоже хранятся на сервере. Такая схема позволяет сделать систему максимально производительной и не привязанной к конкретному компьютеру.

Система «Медиалогия» ежедневно импортирует десятки тысяч сообщений, поступающих из различных источников (газет, журналов, телевидения, радио, информационных агентств, интернет-ресурсов). Эти сообщения структурируются, оцениваются и проходят семантическую обработку. Полученные в результате обработки расчетные индексы и семантические связи служат основой для проведения анализа информации. Схема превращения исходных материалов в хранилище знаний показана на рис. 15.

 

Рисунок

Рис. 15. Схема превращения исходных материалов в хранилище знаний

«Медиалогия» предназначена в том числе для решения следующих задач:

  • конкурентный анализ;
  • информационная разведка;
  • управление репутацией;
  • изучение отраслевого рынка;
  • оперативный мониторинг СМИ;
  • точный поиск информации по открытым источникам.

Она позволяет производить поиск сообщений по заданным параметрам и контексту с применением технологий искусственного и человеческого интеллекта. Система специализируется на анализе информационного поля на основе интеллектуальной обработки данных в режиме реального времени. При этом возможно выявление связей и отношений между персонами и компаниями, отслеживание особенностей отображения ситуации отдельными источниками или авторами. Система позволяет отслеживать десятки типов связей (партнер, конкурент, акционер, друг) и взаимоотношений (контакты, финансовые отношения, конфликты) между объектами.

Результаты запросов к системе представлены в форме интуитивно понятной деловой графики. Для изучения регионального распределения информации используется геоинформационная карта РФ. Специальные «семантические карты» служат для визуализации связей объекта. Все виды представления в системе «Медиалогия» интерактивны. Цветовая разметка текстов сообщений позволяет свободно ориентироваться в тексте.

В системе также хранятся материалы в оригинальных форматах.

Источники информации проходят тщательный отбор — в базу «Медиалогии» попадают только наиболее значительные в своих областях СМИ.

Программа позволяет рассчитать так называемый индекс информационного благоприятствования — расчетный показатель, который дает возможность оценить качественную составляющую информационной ситуации, сложившейся вокруг персоны, компании или бренда.

 

В начало В начало

КомпьютерПресс 10'2008


Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует