oldi

Интеллектуальные технологии анализа данных

Николай Никольский


Деятельность любой крупной организации во многом зависит от экономической и политической конъюнктуры, складывающейся на финансовых и товарных рынках как внутри страны, так и за ее пределами, а также от изменений в социальной и общественно-политической сферах жизни общества. Своевременность и объективность информации, получаемой руководством компании, во многом определяют качество управления и стратегического планирования. В наше время, когда существует огромное количество источников информации и темпы ее появления и изменения во много раз выше, чем раньше, обработка всего объема информации ручным способом становится невыполнимой задачей. На помощь аналитическим службам все чаще приходят новые информационные технологии, позволяющие эффективно использовать разнообразную информацию. Информационные системы, специализирующиеся на анализе информации из внешних источников, — это то, что нужно сегодня для максимально эффективного использования аналитики в бизнесе. При реализации современных подходов к управлению подобные системы являются необходимым инструментом поддержки принятия решений. Сегодня наш рассказ — об информационно-аналитической системе (ИАС), разработанной проектным интегратором — компанией Cognitive Technologies.

Если заглянуть в информационно-аналитический отдел любого крупного предприятия, вы с большой долей вероятности увидите, что зачастую его сотрудники до сих пор используют ножницы и клей для составления подборок новостей. Полученные подборки затем размещаются по папкам, объединяющим максимум две рубрики; если же сообщение относится сразу к нескольким рубрикам, его приходится размножать. Чтобы найти потом нужные сообщения, требуется немало времени; к тому же такой труд еще и крайне утомителен.

Даже если аналитический отдел информатизирован, многие рутинные операции по обработке поступающих извне сведений сегодня по-прежнему возлагаются на операторов. Это и ручное вычленение сообщений из новостной ленты, и чтение всей поступившей информации, и ручное же формирование отчетов. Традиционные программные средства в данном случае существенно помочь ничем не могут. Кроме того, для повышения скорости работы операторы практикуют просмотр не самого текста сообщения, а лишь его заголовка и атрибутов — это зачастую снижает качество анализа сообщений и их рубрицирования.

ИАС предназначена для работы с новостными лентами и прочей информацией, поступающей на предприятие из новостных агентств и СМИ; ее отличительной чертой является автоматизация всех рутинных процедур — от обработки ленты до составления отчета (дайджеста), включая процедуру отнесения сообщения к той или иной рубрике. Вообще технологии интеллектуального анализа текстов имеются у разработчиков ПО в России, однако до настоящего времени они использовались только в поисковых системах.

Разработка ИАС была закончена в декабре 1999 года. Система не поставляется (пока) в «коробочном» варианте: в случае с ее внедрением (в КБ «Газпромбанк») она дорабатывалась с учетом условий заказчика. Решение, созданное на основе известного электронного архива «Евфрат», включило в себя его базовые функции: во-первых, систему перевода бумажных документов в электронные, во-вторых, систему хранения и поиска электронных документов (архив), и в-третьих, систему автоматического создания дайджестов и отчетов, учета новых документов, их пересылки, отправки на печать, в архив или удаления.

Принцип работы ИАС состоит в следующем. Если изначально новостная информация поступает на предприятие в бумажном виде, существует два пути: либо сканировать сообщения с автоматическим распознаванием текста посредством встроенной OCR CuneiForm, либо организовать поступление новостей из информационного агентства или в целом из Интернета. Таким образом, мы получаем файл или набор различного рода файлов с электронным текстом, содержащим новостные сообщения. Система принимает данные файлы, анализирует их содержимое, выделяя сообщения и приводя к единому формату, а затем помещая их в отдельные файлы (каждое сообщение — один файл, см. рисунок).

После этого сообщения распределяются по рубрикам: в КБ «Газпромбанк», например, охватывается более 100 рубрик. Система может самостоятельно просмотреть каждое сообщение и определить, к какой рубрике его следовало бы отнести. Стоит подробнее рассмотреть механизм автоматического рубрицирования сообщений. Система является обучаемой, то есть сначала эксперт должен «натаскать» ее на определенные типы новостей. Эксперт дает системе понять, какого рода тексты соответствуют конкретной рубрике: он вручную рубрицирует некоторое количество сообщений (100 обработанных сообщений на рубрику обеспечивает высокое качество сортировки, хотя результат дадут и три сообщения). Для каждого рубрицированного экспертом сообщения система строит семантическую модель; сравнивая их, затем она выделяет общие признаки принадлежности текстов к каждой отдельно взятой рубрике.

Поскольку система является обучаемой, ее можно настроить на рубрицирование сообщений по любой тематике; число рубрик также может быть сколь угодно большим. Иногда экспертные знания системы могут устаревать (например, при смене правительства) — тогда эксперт должен их обновить. Что касается контроля правильности автоматической рубрикации, то его можно проводить, просматривая реквизиты сообщений, которые система помещает в отдельный файл. Тотальный контроль здесь не обязателен — достаточно выборочных проверок.

Далее по заранее заданному набору рубрик (в КБ «Газпромбанк» их шесть) составляется дайджест новостей за произвольный период времени, задаваемый в запросе. Полные тексты сообщений из нужных рубрик автоматически помещаются в соответствующим образом оформленный файл формата MS Word. Далее нужно просто его распечатать — и дайджест готов. Следует подчеркнуть, что наряду с печатной версией обзора доступным является и его электронный аналог, который может быть разослан по сети всем заинтересованным лицам. Электронная версия обзора более удобна в обращении уже тем, что не занимает место на столе или в мусорной корзине. Если учесть, что поиск материалов в этой версии в сотни раз быстрее, то «полезность» ее, по сравнению с традиционной бумажной, становится очевидной.

Кроме того, все полученные из новостной ленты сообщения отправляются на хранение в электронный архив, откуда нужный текст всегда можно извлечь буквально за несколько секунд. В архиве каждое сообщение является отдельным документом, имеющим свои реквизиты и проиндексированным по словам. Соответственно поиск нужного сообщения (или нескольких сообщений) можно проводить как по ключевым словам из текста или заголовка, так и по таким атрибутам, как дата, автор, источник и, конечно, рубрика. Стоит отметить, что поиск по словам производится с учетом морфологии, то есть будут найдены все вхождения слова, даже если оно встречается в разных формах. Это делает поиск более эффективным, а запросы — более простыми.

Сам архив не обязательно должен находиться на жестком диске: файлы могут быть сжаты программой-архиватором и перенесены на внешние носители, такие как записываемые диски CD-ROM или ленточные носители, либо архив вообще может быть опубликован в Интернете. Интерфейс системы хранения сообщений аналогичен системе «Евфрат» — это графическая форма представления документов и папок на виртуальном рабочем столе. Данный же интерфейс обеспечивает быстрое составление поисковых запросов и наглядное представление результатов поиска.

ИАС тесно интегрирована со вспомогательными программами, обеспечивающими разнообразие возможностей при работе с информацией. Возможно взаимодействие с ресурсами Интернета, такими как электронная почта и универсальное адресное пространство, дающее доступ к документам в среде WWW, FTP и т.п. Это может быть полезно как для публикации актуальных для предприятия новостей в Сети, так и для получения информации из нее. Если же предприятие разбросано по различным территориям, подобные возможности системы обеспечивают оперативную доставку тех же дайджестов в разные отделы и представительства.

Таким образом, ИАС позволяет свести на нет все рутинные процедуры, связанные с первичной обработкой, хранением, поиском сообщений, обеспечивает автогенерацию регулярных отчетов (дайджестов), а также помогает проводить автоматическую рубрикацию принимаемых сообщений. Данный инструмент мог бы существенно повысить эффективность работы аналитических отделов предприятий, улучшая временные и качественные показатели их работы.

КомпьютерПресс 4'2000