MineSet визуализационный дейтамайнинг на вашем столе
Одна картинка стоит тысячи слов
Визуализационные возможности MineSet
Одна картинка стоит тысячи слов
звестно, что степень восприятия информации зависит от способа ее представления. И когда мы говорим, что человек не в силах изучить за час 300-страничный отчет и принять решение, это вовсе не означает, что будь данная информация представлена в ином виде, то решение нельзя было бы принять за считаные секунды.
Способность человека анализировать информацию тесно связана с возможностью визуализировать данные. Потому мы говорим: «увидеть закономерности», «разглядеть зависимости», имея в виду чисто аналитические задачи. В связи с этим уместно вспомнить и английское выражение «humanize the mass of data», которое можно перевести как «очеловечить данные», то есть сделать их воспринимаемыми, чтобы лучше их интерпретировать и запомнить, а потом принять на их основе правильное решение.
Современные аналитики буквально погребены под кучей информации в виде транзакций, записей, ссылок, адресов и т.п. Неуловимые корреляции и ускользающие взаимосвязи скрывают от них причины явлений, сдерживают перспективы увеличения эффективности бизнеса. Чтобы открыть спрятанные взаимосвязи в хранилищах данных, целесообразно обратиться к продукту MineSet, который сегодня поставляется компанией Purple Insight (Первые версии данного продукта были разработаны Silicon Graphics в 90-х годах. Компания Purple Insight (http://www.purpleinsight.com/aboutus/) была организована в 2003 году для продвижения и развития MineSet, а также для предоставления ассоциированных сервисов (консультаций, управления проектами, тренингов, инсталляций и т.п.)). Продукт представляет собой интегрированное решение программных инструментов для дейтамайнинга (Дейтамайнинг (data mining добыча данных) технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, корреляций и тенденций) и визуализации данных.
Что такое MineSet
ineSet революционизирует процесс дейтамайнинга применительно к различным областям исследований, и в первую очередь в области бизнес-аналитики. На базе MineSet 3.2 вы можете получить настольное Windows-приложение, которое по возможностям визуального дейтамайнинга не уступает инструментам, ранее доступным только UNIX-пользователям. MineSet обеспечивает такую же функциональность и на IRIX, и на Windows и предоставляет бизнес-пользователям визуальную интерпретацию сложных дейтамайнинговых алгоритмов.
Функциональность MineSet-продуктов
MineSet 3.2 это модульная структура, состоящая из набора компонентов:
- MineSet DV, MineSet 100M, MineSet 500M работают под управлением Microsoft Windows;
- MineSet Enterprise Server работают под управлением Microsoft Windows, Microsoft Windows Server и Silicon Graphics (SGI) IRIX;
- MineSet Enterprise Client работают под управлением Microsoft Windows и Silicon Graphics (SGI) IRIX.
MineSet дает возможность пользователям визуально интерпретировать самые сложные данные. Пользователи могут обращаться к сетевым хранилищам данных с лэптопов и интерактивно анализировать данные или загружать информацию в MineSet из обычной электронной таблицы и визуализировать табличные данные. Открытая архитектура MineSet позволяет создавать приложения для конкретных заказчиков.
MineSet это масштабируемое клиент-серверное решение. Пользовательский интерфейс (клиент) и обработка данных с помощью Data Mining-моделей (сервер) функционируют раздельно. Пользователи версий MineSet 100M и 500M могут запускать клиентское и серверные приложения на одной машине. MineSet Enterprise предлагает пользователям выбрать из двух вариантов запуск клиентского и серверного приложения на одном компьютере или запуск серверной части на более мощной машине. Несколько приложений Enterprise Client могут подключаться к Enterprise Server. На рис. 1 представлена функциональность основных компонентов и схема работы MineSet.
Рис. 1. Работа MineSet
MineSet обладает стандартными характеристиками дейтамайнингового приложения. Визуализатор статистики представляет все базовые средства анализа информации в графическом формате, включая матожидание, среднеквадратическое отклонение и т.п. (рис. 2).
Рис. 2. Пример статистического анализа данных на MineSet
Существует целый ряд интересных алгоритмов обработки данных, например кластеризация. MineSet формирует кластеры (clusters) за счет группирования схожих записей, пытаясь максимизировать эту схожесть в каждой группе. В качестве примера на рис. 3 и 4 показано объединение в кластеры данных по различным пользователям некой платежной системы. Алгоритм позволяет выделить кластеры и найти их центры.
Рис. 3. Визуализация транзакций пользователей банка
Рис. 4. Выделение кластеров цветом
Визуализационные возможности MineSet
егодня на рынке существует целый ряд инструментов, обладающих развитыми дейтамайнинговыми средствами, но не так много продуктов, которые при этом обладают мощными визуализационными средствами. MineSet имеет уникальное сочетание обеих этих технологий с упором на визуализационные возможности, позволяющие просматривать данные с помощью разных видов представления.
К уникальным особенностям программы следует отнести: масштабируемость, позволяющую обрабатывать большие объемы данных, многоплатформенность поддержку широкого спектра баз данных и операционных систем, а также открытую архитектуру.
MineSet открывает перед пользователями перспективы интерактивного исследования данных на базе инструментов визуализации, которые позволяют быстрее выявлять значимые тенденции и зависимости. Инструменты Splat Visualizer и Scatter Visualizer дают возможность представить данные по восьми осям. Map Visualizer позволяет представить данные, с учетом географических связей на карте. С помощью технологий анимации и синхронизации просмотра можно выделить характерные профили. Tree Visualizer дает возможность изобразить данные с учетом иерархических связей, в том числе посредством технологии «пролета» над трехмерными территориями (fly-through technique set in a 3D landscape). Statistics Visualizer дает визуально представляемую сводку базовой статистической обработки данных. Об этих возможностях пакета мы расскажем более подробно.
Association Rules Visualizer
Association Rule Generator (генератор ассоциативных связей) описывает частоту, с которой те или иные элементы появляются вместе в наборе данных, за счет чего определяется структура организации данных (например, речь может идти о том, какие продукты часто продаются вместе). Также приводится информация относительно силы ассоциации данных.
Rule Visualizer (визуализатор связей), который используется для отображения результатов работы подобного алгоритма, представляет в графическом виде результаты, выдаваемые генератором ассоциативных связей, и позволяет визуально выявлять количество и относительную силу взаимосвязей между объектами.
Правила представляются на сетке, а признаки правил изображаются в точке сочленения в узлах сетки этих элементов в виде столбцов, дисков и меток. Сетку с 3D-правилами можно масштабировать, вращать и панорамировать.
На рис. 5 приведены данные, сгенерированные генератором ассоциативных связей для продаж пищевых продуктов. Эта диаграмма показывает, как следует правильно расположить продукты в супермаркете, основываясь на том, какие товары часто покупаются вместе. Высокие столбики показывают, что покупатели некоторого продукта (категории продукта) слева с высокой вероятностью также купят ту или иную категорию продукта справа.
Рис. 5. Диаграмма поможет расположить товары в супермаркете
Map Visualizer
Map Visualizer (ландшафтный визуализатор, рис. 6) позволяет представить данные в виде трехмерного ландшафта столбчатых диаграмм, с индивидуальными высотой и цветом, что позволяет показывать количественные и реляционные характеристики пространственно ориентированных данных и быстро идентифицировать в данных как тенденции и взаимосвязи, так и аномалии.
Map Visualizer позволяет аналитикам наблюдать за развертыванием множества данных, а также одновременно генерировать анимационные презентационные ролики.
Рис. 6. Пример работы ландшафтного визуализатора Map Visualizer
При работе доступны все операции навигации через ландшафт: панорамирование, вращение в 3D-пространстве, масштабирование с укрупнением интересующей области и др. Пользователь может выполнять как операцию drill-down (приближение, дословно спуск вниз, то есть увеличение масштаба карты) с целью получения детализированной информации о специфических областях данных, так и операцию drill-up (подъем, то есть уменьшение масштаба карты), чтобы посмотреть, как некоторые локализованные данные встроены в окружающую среду.
Evidence Visualizer
Evidence Visualizer (визуализатор свидетельств) позволяет показывать свидетельства, то есть выявленные закономерности, подтверждающие выдвигаемые гипотезы.
Строки круговых 3D-диаграмм или столбцов отображают признаки, использованные классификатором. Каждая круговая диаграмма отражает вероятность того, что величина признака или диапазон величин подходят для классификации.
На рис. 7 анализируется зарплата работающего населения США. Evidence Visualizer отражает атрибуты, которые могут влиять на классификацию по зарплате. Атрибуты представлены рядами круговых трехмерных диаграмм. Высота круговой диаграммы (цилиндра) показывает величину записей в данной категории; цвет представляет, что зарплата больше или меньше 50 тыс. долл. На каждый пункт может быть несколько градаций (круговых диаграмм), например для обозначения пола (мужской/женский) имеется две диаграммы, а для возраста восемь диаграмм.
Рис. 7. Evidence Visualizer, представляющий анализ населения США (работающие взрослые)
Decision Tree Visualizer
Decision Tree Visualizer (визуализатор деревьев решений) позволяет представить иерархически организованную информацию в виде трехмерного ландшафта (с возможностью «пролета» в этом пространстве), то есть вести обзор всего множества данных или его части. Количественные и реляционные характеристики данных делаются явными с помощью иерархически соединенных узлов. В каждом узле строятся столбцы, высота и цвет которых соответствуют значениям величин данных. Линии, соединяющие узлы, показывают взаимосвязи множества данных с его подмножествами.
Имеется также возможность отображения деревьев решений, выдаваемых генератором деревьев решений. Визуализатор позволяет анализировать весьма сложные модели. Каждый узел в дереве отражает точку принятия решения (рис. 8). В зависимости от того, как модель оценивает данные по отношению к решению, вы выбираете ответвление влево или вправо в зависимости от ответа на некоторый вопрос (на представленном рисунке пол мужской или женский). По мере того как пользователь «пролетает» над деревом, ему открывается все больше информации.
Рис. 8. Трехмерное отображение деревьев решений
Scatter Visualizer
Набор данных иногда слишком сложен для представления его в двумерном или даже трехмерном представлении. В этом случае удобно обратиться к такому инструменту, как Scatter Visualizer (дисперсионный визуализатор), это средство для анализа данных во многих измерениях. К обычной 3D-системе координат добавляются дополнительные измерения, ассоциированные, например, с размером и цветом элементов данных (рис. 9).
Рис. 9. Анимация показывает зависимость содержания холестерина в организме человека от его роста и веса
В частности, это позволяет визуально исследовать данные в восьми измерениях. В трехмерном пространстве, дополненном координатной сеткой, можно ориентировать изображение для акцентирования определенного измерения. Можно масштабировать величины некоторых переменных для придания им большей значимости. Существует возможность фильтрации изображения для показа данных, удовлетворяющих определенным критериям. Scatter Visualizer идеальное средство для анализа выбросов данных, порой представляющихся аномальными и не поддающихся общим закономерностям.
Splat Visualizer
Принцип работы Splat Visualizer представлен на рис. 10, где показана корреляция между различными видами образования, типами работы и количеством часов, проводимых на рабочем месте. Распределение зарплаты показано цветом (голубой низкая, зеленый высокая). Зависимость размера зарплаты от уровня образования понятна всем, а вот такая закономерность, как, скажем, то, что люди, занятые в образовании, за сверхурочные часы получают значительно меньше, чем, например, биологи, вряд ли общеизвестна.
Рис. 10. Пример работы Splat Visualization
Подобное представление информации позволяет пользователям лучше понять значение данных.
Комплектация и цены MineSet, 3,2 долл.