MineSet — визуализационный дейтамайнинг на вашем столе

Александр Прохоров

Одна картинка стоит тысячи слов

Что такое MineSet

Визуализационные возможности MineSet

Одна картинка стоит тысячи слов

Известно, что степень восприятия информации зависит от способа ее представления. И когда мы говорим, что человек не в силах изучить за час 300-страничный отчет и принять решение, это вовсе не означает, что будь данная информация представлена в ином виде, то решение нельзя было бы принять за считаные секунды.

Способность человека анализировать информацию тесно связана с возможностью визуализировать данные. Потому мы говорим: «увидеть закономерности», «разглядеть зависимости», имея в виду чисто аналитические задачи. В связи с этим уместно вспомнить и английское выражение «humanize the mass of data», которое можно перевести как «очеловечить данные», то есть сделать их воспринимаемыми, чтобы лучше их интерпретировать и запомнить, а потом принять на их основе правильное решение.

Современные аналитики буквально погребены под кучей информации в виде транзакций, записей, ссылок, адресов и т.п. Неуловимые корреляции и ускользающие взаимосвязи скрывают от них причины явлений, сдерживают перспективы увеличения эффективности бизнеса. Чтобы открыть спрятанные взаимосвязи в хранилищах данных, целесообразно обратиться к продукту MineSet, который сегодня поставляется компанией Purple Insight (Первые версии данного продукта были разработаны Silicon Graphics в 90-х годах. Компания Purple Insight (http://www.purpleinsight.com/aboutus/) была организована в 2003 году для продвижения и развития MineSet, а также для предоставления ассоциированных сервисов (консультаций, управления проектами, тренингов, инсталляций и т.п.)). Продукт представляет собой интегрированное решение программных инструментов для дейтамайнинга (Дейтамайнинг (data mining — добыча данных) — технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, корреляций и тенденций) и визуализации данных.

В начало В начало

Что такое MineSet

МineSet революционизирует процесс дейтамайнинга применительно к различным областям исследований, и в первую очередь в области бизнес-аналитики. На базе MineSet 3.2 вы можете получить настольное Windows-приложение, которое по возможностям визуального дейтамайнинга не уступает инструментам, ранее доступным только UNIX-пользователям. MineSet обеспечивает такую же функциональность и на IRIX, и на Windows и предоставляет бизнес-пользователям визуальную интерпретацию сложных дейтамайнинговых алгоритмов.

 

Функциональность MineSet-продуктов

Функциональность MineSet-продуктов

MineSet 3.2 — это модульная структура, состоящая из набора компонентов:

  • MineSet DV, MineSet 100M, MineSet 500M — работают под управлением Microsoft Windows;
  • MineSet Enterprise Server — работают под управлением Microsoft Windows, Microsoft Windows Server и Silicon Graphics (SGI) IRIX;
  • MineSet Enterprise Client — работают под управлением Microsoft Windows и Silicon Graphics (SGI) IRIX.

MineSet дает возможность пользователям визуально интерпретировать самые сложные данные. Пользователи могут обращаться к сетевым хранилищам данных с лэптопов и интерактивно анализировать данные или загружать информацию в MineSet из обычной электронной таблицы и визуализировать табличные данные. Открытая архитектура MineSet позволяет создавать приложения для конкретных заказчиков.

MineSet — это масштабируемое клиент-серверное решение. Пользовательский интерфейс (клиент) и обработка данных с помощью Data Mining-моделей (сервер) функционируют раздельно. Пользователи версий MineSet 100M и 500M могут запускать клиентское и серверные приложения на одной машине. MineSet Enterprise предлагает пользователям выбрать из двух вариантов — запуск клиентского и серверного приложения на одном компьютере или запуск серверной части на более мощной машине. Несколько приложений Enterprise Client могут подключаться к Enterprise Server. На рис. 1 представлена функциональность основных компонентов и схема работы MineSet.

 

Рис. 1. Работа MineSet

Рис. 1. Работа MineSet

MineSet обладает стандартными характеристиками дейтамайнингового приложения. Визуализатор статистики представляет все базовые средства анализа информации в графическом формате, включая матожидание, среднеквадратическое отклонение и т.п. (рис. 2).

 

Рис. 2. Пример статистического анализа данных на MineSet

Рис. 2. Пример статистического анализа данных на MineSet

Существует целый ряд интересных алгоритмов обработки данных, например кластеризация. MineSet формирует кластеры (clusters) за счет группирования схожих записей, пытаясь максимизировать эту схожесть в каждой группе. В качестве примера на рис. 3 и 4 показано объединение в кластеры данных по различным пользователям некой платежной системы. Алгоритм позволяет выделить кластеры и найти их центры.

 

Рис. 3. Визуализация транзакций пользователей банка

Рис. 3. Визуализация транзакций пользователей банка

Рис. 4. Выделение кластеров  цветом

Рис. 4. Выделение кластеров цветом

В начало В начало

Визуализационные возможности MineSet

Сегодня на рынке существует целый ряд инструментов, обладающих развитыми дейтамайнинговыми средствами, но не так много продуктов, которые при этом обладают мощными визуализационными средствами. MineSet имеет уникальное сочетание обеих этих технологий с упором на визуализационные возможности, позволяющие просматривать данные с помощью разных видов представления.

К уникальным особенностям программы следует отнести: масштабируемость, позволяющую обрабатывать большие объемы данных, многоплатформенность — поддержку широкого спектра баз данных и операционных систем, а также открытую архитектуру.

MineSet открывает перед пользователями перспективы интерактивного исследования данных на базе инструментов визуализации, которые позволяют быстрее выявлять значимые тенденции и зависимости. Инструменты Splat Visualizer и Scatter Visualizer дают возможность представить данные по восьми осям. Map Visualizer позволяет представить данные, с учетом географических связей на карте. С помощью технологий анимации и синхронизации просмотра можно выделить характерные профили. Tree Visualizer дает возможность изобразить данные с учетом иерархических связей, в том числе посредством технологии «пролета» над трехмерными территориями (fly-through technique set in a 3D landscape). Statistics Visualizer дает визуально представляемую сводку базовой статистической обработки данных. Об этих возможностях пакета мы расскажем более подробно.

 

Association Rules Visualizer

Association Rule Generator (генератор ассоциативных связей) описывает частоту, с которой те или иные элементы появляются вместе в наборе данных, за счет чего определяется структура организации данных (например, речь может идти о том, какие продукты часто продаются вместе). Также приводится информация относительно силы ассоциации данных.

Rule Visualizer (визуализатор связей), который используется для отображения результатов работы подобного алгоритма, представляет в графическом виде результаты, выдаваемые генератором ассоциативных связей, и позволяет визуально выявлять количество и относительную силу взаимосвязей между объектами.

Правила представляются на сетке, а признаки правил изображаются в точке сочленения в узлах сетки этих элементов в виде столбцов, дисков и меток. Сетку с 3D-правилами можно масштабировать, вращать и панорамировать.

На рис. 5 приведены данные, сгенерированные генератором ассоциативных связей для продаж пищевых продуктов. Эта диаграмма показывает, как следует правильно расположить продукты в супермаркете, основываясь на том, какие товары часто покупаются вместе. Высокие столбики показывают, что покупатели некоторого продукта (категории продукта) слева с высокой вероятностью также купят ту или иную категорию продукта справа.

 

Рис. 5. Диаграмма поможет расположить товары в супермаркете

Рис. 5. Диаграмма поможет расположить товары в супермаркете

 

Map Visualizer

Map Visualizer (ландшафтный визуализатор, рис. 6) позволяет представить данные в виде трехмерного ландшафта — столбчатых диаграмм, с индивидуальными высотой и цветом, что позволяет показывать количественные и реляционные характеристики пространственно ориентированных данных и быстро идентифицировать в данных как тенденции и взаимосвязи, так и аномалии.

Map Visualizer позволяет аналитикам наблюдать за развертыванием множества данных, а также одновременно генерировать анимационные презентационные ролики.

 

Рис. 6. Пример работы ландшафтного визуализатора Map Visualizer

Рис. 6. Пример работы ландшафтного визуализатора Map Visualizer

При работе доступны все операции навигации через ландшафт: панорамирование, вращение в 3D-пространстве, масштабирование с укрупнением интересующей области и др. Пользователь может выполнять как операцию drill-down (приближение, дословно — спуск вниз, то есть увеличение масштаба карты) с целью получения детализированной информации о специфических областях данных, так и операцию drill-up (подъем, то есть уменьшение масштаба карты), чтобы посмотреть, как некоторые локализованные данные встроены в окружающую среду.

 

Evidence Visualizer

Evidence Visualizer (визуализатор свидетельств) позволяет показывать свидетельства, то есть выявленные закономерности, подтверждающие выдвигаемые гипотезы.

Строки круговых 3D-диаграмм или столбцов отображают признаки, использованные классификатором. Каждая круговая диаграмма отражает вероятность того, что величина признака или диапазон величин подходят для классификации.

На рис. 7 анализируется зарплата работающего населения США. Evidence Visualizer отражает атрибуты, которые могут влиять на классификацию по зарплате. Атрибуты представлены рядами круговых трехмерных диаграмм. Высота круговой диаграммы (цилиндра) показывает величину записей в данной категории; цвет представляет, что зарплата больше или меньше 50 тыс. долл. На каждый пункт может быть несколько градаций (круговых диаграмм), например для обозначения пола (мужской/женский) имеется две диаграммы, а для возраста — восемь диаграмм.

 

Рис. 7. Evidence Visualizer, представляющий анализ населения США (работающие взрослые)

Рис. 7. Evidence Visualizer, представляющий анализ населения США (работающие взрослые)

 

Decision Tree Visualizer

Decision Tree Visualizer (визуализатор деревьев решений) позволяет представить иерархически организованную информацию в виде трехмерного ландшафта (с возможностью «пролета» в этом пространстве), то есть вести обзор всего множества данных или его части. Количественные и реляционные характеристики данных делаются явными с помощью иерархически соединенных узлов. В каждом узле строятся столбцы, высота и цвет которых соответствуют значениям величин данных. Линии, соединяющие узлы, показывают взаимосвязи множества данных с его подмножествами.

Имеется также возможность отображения деревьев решений, выдаваемых генератором деревьев решений. Визуализатор позволяет анализировать весьма сложные модели. Каждый узел в дереве отражает точку принятия решения (рис. 8). В зависимости от того, как модель оценивает данные по отношению к решению, вы выбираете ответвление влево или вправо — в зависимости от ответа на некоторый вопрос (на представленном рисунке пол — мужской или женский). По мере того как пользователь «пролетает» над деревом, ему открывается все больше информации.

 

Рис. 8. Трехмерное отображение деревьев решений

Рис. 8. Трехмерное отображение деревьев решений

 

Scatter Visualizer

Набор данных иногда слишком сложен для представления его в двумерном или даже трехмерном представлении. В этом случае удобно обратиться к такому инструменту, как Scatter Visualizer (дисперсионный визуализатор), — это средство для анализа данных во многих измерениях. К обычной 3D-системе координат добавляются дополнительные измерения, ассоциированные, например, с размером и цветом элементов данных (рис. 9).

 

Рис. 9. Анимация показывает зависимость содержания холестерина в организме человека от его роста и веса

Рис. 9. Анимация показывает зависимость содержания холестерина в организме человека от его роста и веса

В частности, это позволяет визуально исследовать данные в восьми измерениях. В трехмерном пространстве, дополненном координатной сеткой, можно ориентировать изображение для акцентирования определенного измерения. Можно масштабировать величины некоторых переменных для придания им большей значимости. Существует возможность фильтрации изображения для показа данных, удовлетворяющих определенным критериям. Scatter Visualizer — идеальное средство для анализа выбросов данных, порой представляющихся аномальными и не поддающихся общим закономерностям.

 

Splat Visualizer

Принцип работы Splat Visualizer представлен на рис. 10, где показана корреляция между различными видами образования, типами работы и количеством часов, проводимых на рабочем месте. Распределение зарплаты показано цветом (голубой — низкая, зеленый — высокая). Зависимость размера зарплаты от уровня образования понятна всем, а вот такая закономерность, как, скажем, то, что люди, занятые в образовании, за сверхурочные часы получают значительно меньше, чем, например, биологи, вряд ли общеизвестна.

 

Рис. 10. Пример работы  Splat Visualization

Рис. 10. Пример работы Splat Visualization

Подобное представление информации позволяет пользователям лучше понять значение данных.

 

Комплектация и цены MineSet, 3,2 долл.

Комплектация и цены MineSet, 3,2 долл.

КомпьютерПресс 12'2005

Наш канал на Youtube

1999 1 2 3 4 5 6 7 8 9 10 11 12
2000 1 2 3 4 5 6 7 8 9 10 11 12
2001 1 2 3 4 5 6 7 8 9 10 11 12
2002 1 2 3 4 5 6 7 8 9 10 11 12
2003 1 2 3 4 5 6 7 8 9 10 11 12
2004 1 2 3 4 5 6 7 8 9 10 11 12
2005 1 2 3 4 5 6 7 8 9 10 11 12
2006 1 2 3 4 5 6 7 8 9 10 11 12
2007 1 2 3 4 5 6 7 8 9 10 11 12
2008 1 2 3 4 5 6 7 8 9 10 11 12
2009 1 2 3 4 5 6 7 8 9 10 11 12
2010 1 2 3 4 5 6 7 8 9 10 11 12
2011 1 2 3 4 5 6 7 8 9 10 11 12
2012 1 2 3 4 5 6 7 8 9 10 11 12
2013 1 2 3 4 5 6 7 8 9 10 11 12
Популярные статьи
КомпьютерПресс использует