Методология Sybase для cоздания хранилищ и витрин данных

Сергей Цуприков

Хранилища данных и поддержка принятия решений

Этапы создания ХД с точки зрения бизнес-процессов

Комплексный подход Sybase к созданию ХД и ВД

Компонентная адаптивная архитектура

Методология SAFE/DW

PowerDesigner — семейство продуктов для проектирования корпоративных ВД

Sybase Adaptive Server IQ

Семейство продуктов EnterpriseCONNECT

PowerStage — инструмент загрузки данных в ХД

Dynamic OLAP — новая архитектура для DSS

Быстрое создание ХД для Windows NT

Внедрение ВД в корпорации MCI

Хранилища данных и поддержка принятия решений

В последние годы резко вырос интерес к технологиям хранилищ данных (ХД). Это явление не без оснований связывают с повышением требований менеджеров к улучшению процессов поддержки принятия решений (DSS —Decision Solution Support). Компании постоянно ищут новые ниши на рынке и применяют новые подходы, чтобы сохранить своих наиболее выгодных клиентов в обстановке неуклонного снижения цен. Условия функционирования предприятий все усложняются, что затрудняет выработку стратегии поведения и глубинное понимание процессов конкуренции. Инвестиции в аналитические системы производятся с целью более оперативного выявления и быстрого (с опережением конкурентов) использования новых возможностей, еще только обозначившихся на рынке.

Главная цель создания ХД состоит в том, чтобы сделать все значимые для управления бизнесом данные доступными в стандартизованной форме, пригодными для моделирования, анализа и получения необходимых отчетов. ХД можно назвать оптимально организованной базой данных, обеспечивающей максимально быстрый доступ к информации, необходимой для принятия решений. Таким образом, реальная (и весьма ощутимая) польза от ХД наступает при его эксплуатации в процессе анализа ситуации и принятия решения.

Согласно исследованиям корпорации Meta Group, проведенным еще в 1996 году, ХД в той или иной форме пытаются создавать около 90% компаний, входящих в список Fortune 1000. Согласно тем же исследованиям, средний проект создания корпоративного ХД обходился заказчику в 3 млн. долл. и длился 24 месяца. Еще более удручает то, что, по данным консалтинговой группы Earl Hadden & Assosiates, специализирующейся на исследованиях в области ХД, до 80% уже реализованных проектов не могут решить всех поставленных перед ними задач, а 40% из их числа могут считаться полностью проваленными.

В начало

В начало

Этапы создания ХД с точки зрения бизнес-процессов

В общих чертах процесс создания ХД cоcтоит из следующих основных этапов — проектирования и загрузки данных.

Проектировщики, тесно взаимодействуя с бизнес-аналитиками, очерчивают круг бизнес-понятий, процессов и объектов, принятых в конкретной организации, формализуют и описывают потоки данных. Проектируется структура хранилища, заполнение хранилища данными, и начинается работа аналитиков.

В реальной жизни процессу создания хранилища данных зачастую предшествует разработка прототипа — небольшой системы, призванной продемонстрировать новые возможности, чтобы, попробовав систему в работе, сделать выводы о необходимости продолжения дальнейшей разработки.

Такая система, называемая далее витриной данных (ВД), — это небольшое хранилище, обеспечивающее потребности одного из подразделений компании или одного из направлений бизнеса. ВД не требует (хотя и не исключает) наличия корпоративного ХД, охватывающего сразу все аспекты ее жизнедеятельности организации. Как правило, она доступна ограниченному кругу аналитиков, для работы которых она и создавалась. Стоимость разработки ВД намного ниже, чем корпоративного ХД, а результат ее внедрения может окупиться намного быстрее. Параллельно с созданием ВД может идти процесс проектирования корпоративного ХД.

Здесь важно подчеркнуть такое принципиальное отличие DSS на основе ХД от интегрированной системы управления предприятием, как наличие метаданных. Они хранятся в централизованно управляемом репозитарии и содержат информацию о структуре ХД (или ВД); структурах данных, импортируемых из иных источников; о самих источниках; о методах загрузки и агрегирования данных.

Для успешного внедрения ВД должны сразу создаваться в рамках единой корпоративной архитектуры для решения задач, связанных с поддержанием целостности, обмена, преобразования и перемещения данных внутри всей корпоративной инфраструктуры. Можно выделить четыре ключевых требования к корпоративной архитектуре витрин данных:

  • настраиваемая технология для быстрого внедрения;

  • поддержка больших объемов данных и хранение детализированных данных;

  • быстрое время отклика с возможностью его настройки;

  • корпоративная архитектура для ввода, преобразования и обновления данных.

В начало

В начало

Комплексный подход Sybase к созданию ХД и ВД

В настоящее время компания Sybase (www.sybase.ru, www.sybase.com) считается одним из лидеров технологии хранилищ данных. По данным различных исследовательских отчетов, она удерживает почти треть этого рынка. Хотя число производителей ПО для создания и эксплуатации ХД перевалило за два десятка, подход Sybase к этому процессу представляет особый интерес из-за наличия полной линии собственных продуктов, реализующих все его этапы. Это как минимум гарантирует хорошую интеграцию их друг с другом, что существенно повышает надежность работы ХД (которое, как известно, для данных систем считается характеристикой наибольшего приоритета). Более того, Sybase стала практически единственной компанией, выпустившей интегрированный комплект базовых программных продуктов для ХД под названием Warehouse Studio для решения всех задач, связанных с их созданием, управлением и развитием. Среди этих продуктов — высокопроизводительные оптимизированные серверы для хранения и управления бизнес-информации, связующее ПО для доступа к распределенным источникам данных, популярные средства разработки для построения лучших систем поддержки принятия решений.

Корпоративная архитектура ХД компании Sybase представляет собой интегрированный набор программных продуктов Sybase и ее партнеров, позволяющих быстро создавать масштабируемые приложения для DSS в рамках единой архитектуры, способной сохранить целостность и непротиворечивость данных, а также обеспечить свое развитие ХД в будущем.

В начало

В начало

Компонентная адаптивная архитектура

Компонентная адаптивная архитектура Sybase (ImpactNOW) обеспечивает наиболее широкие возможности по повторному использованию стандартных компонентов, причем всех основных форматов объектов, — ActiveX, JavaBeans, CORBA. Кроме того, она позволяет использовать их на любом уровне: клиента, сервера баз данных, промежуточного слоя. Это обеспечивает быструю разработку приложений, их высокую производительность, расширяемость и надежность.

В начало

В начало

Методология SAFE/DW

Методология SAFE/DW предлагает ряд подходов, позволяющих ускорить процесс построения ХД. В частности, в рамках исследовательской стадии проекта она требует определить бизнес-цели, информационные запросы, определить критические для успеха факторы, разработать предварительную бизнес-модель. В рамках создания бизнес-модели требуется идентифицировать потоки данных, выявить относительную ценность данных, смакетировать потоки данных в логическую структуру объектов.

В начало

В начало

PowerDesigner — семейство продуктов для проектирования корпоративных ВД

PowerDesigner (бывшее название S-Designor) — базовый продукт Sybase для проектирования корпоративных информационных систем. Различные модули PowerDesigner, интегрированные между собой и объединенные системой групповой разработки MetaWorks, позволяют создавать функциональные диаграммы потоков данных в нотации различных методологий, создавать концептуальные и физические информационные модели, производить создание информационных моделей на основе уже имеющихся баз данных (обратное проектирование), создавать приложения для ряда популярных средств разработки.

PowerDesigner WarehouseArchitect — специальный модуль для проектирования хранилищ данных, позволяющий проектировать многомерные информационные модели, модели типа «звезда» и поддерживающий генерацию баз данных как для Sybase IQ, так и для других СУБД. WarehouseArchitect поддерживает все уровни ХД с точки зрения моделирования данных, метаданных и импорта данных, а также содержит интерфейсы для подключения аналитических инструментов третьих фирм, которые являются неотъемлемой частью хранилищ данных.

Основные возможности WarehouseArchitect:

  • импорт из БД OLTP;

  • проектирование моделей ХД и ВД, поддерживающих информационные и аналитические системы с использованием пространственного моделирования, схем «звезда», «снежинка», разбиения и агрегации;

  • генерация ХД и ВД (как оптимизированных традиционных РСУБД, так и многомерных систем) и управление ими;

  • использование сценариев для автоматизации переноса данных из OLTP БД в ХД;

  • экспорт/импорт многомерной информации в/из механизмов OLAP и других проектировщиков запросов;

  • генерация отчетов о проделанной работе над проектированием системы.

Многомерное моделирование — это метод, помогающий проектировщику баз данных строить информационные структуры, которые удовлетворяли бы все запросы, выдвигаемые конечными пользователями. Цель пространственного моделирования состоит в том, чтобы предоставить хранилищам данных и инструментам управления запросами корректное определение БД, которое само может быть представлено для предметно-ориентированного моделирования информации. Для этого информация может быть переопределена и представлена конечным пользователям различными способами, с различных точек зрения. WarehouseArchitect позволяет использовать при многомерном моделировании графические объекты, которые могут удерживаться и управляться словарем PowerDesigner MetaWorks:

В начало

В начало

Sybase Adaptive Server IQ

Согласно исследованиям Meta Group, около половины всех запросов пользователей хранилищ данных составляют незапланированные запросы. Когда пользователи ИС получают результаты аналитического запроса, то во многих случаях у них возникают дополнительные вопросы по полученной информации.

Sybase Adaptive Server IQ представляет собой специализированную СУБД для DSS. Ориентированная на стандартные многопроцессорные (SMP) платформы, она обеспечивает повышение производительности при обработке запросов в 10-100 раз по сравнению с традиционными реляционными СУБД, сжимает базы данных, а также позволяет существенно сократить расходы на внедрение и эксплуатацию.

Ключевыми технологиями в Sybase IQ является вертикальное хранение данных (по столбцам, а не по записям) и использование технологии обработки запросов Bit-Wise. Вертикальное хранение данных позволяет запросам использовать только необходимые поля или столбцы (наборы полей), значительно сокращая количество операций ввода/вывода при типичном пользовательском запросе. Шагом вперед по сравнению с традиционными алгоритмами индексирования типа B-деревьев и индексов побитового отображения (bit-map) является технология индексирования Bit-Wise, которая позволяет представить все данные в виде особых бинарных структур, доступ к которым (как и операции группирования, суммирования и сравнения) производится с высокой скоростью. Набор специализированных алгоритмов индексации позволяет оптимизировать производительность обработки запросов для произвольных типов данных с любой мощностью (мощность — показатель количества одинаковых значений в одной колонке. Чем больше разных значений, тем больше мощность столбца. Примером высокомощных данных является монотонно возрастающий уникальный столбец ID).

В отличие от давно известных алгоритмов побитового отображения данных, в Sybase IQ при обработке запроса могут применяться одновременно несколько индексов. В традиционной реляционной СУБД (даже с использованием индексов с побитовым отображением) обработка запроса ограничена рамками одного индекса, после которого обычно следует частичное сканирование таблицы. В Sybase IQ сканирование таблицы исключается. Нет принципиальной необходимости и в больших таблицах для хранения агрегированных данных, которые часто используются в традиционных параллельных или многомерных СУБД. Любые необходимые агрегаты могут быть получены в реальном времени. Поэтому в ВД имеет смысл хранить детальные данные, предоставляя пользователям большие возможности получения необходимой им информации.

Sybase IQ построена на базе открытой архитектуры Sybase Open Client/Open Server, поэтому он полностью совместим с широким набором популярных продуктов для аналитических запросов, например, Cognos Impromptu, Powerplay, Business Objects, Brio Query и многими другими инструментами, через интерфейсы Sybase Open Client или ODBC, поддерживая стандартный язык запросов SQL.

В отличие от многих других СУБД, Sybase IQ работает с одинаковым быстродействием на информационных схемах «звезда», плоских таблицах или на нормализованных БД, в зависимости от того, какая информационная модель более пригодна для конкретной области деятельности. В силу того что Sybase IQ обеспечивает автоматическую настройку, основываясь на характеристиках данных, нет необходимости в сложных моделях или постоянных настройках таблиц для новых запросов. Это особенно важно при итеративном проектировании и внедрении. Кроме того, существуют возможности параллельной загрузки и последовательного обновления данных. В результате ХД или ВД на основе Sybase IQ могут быть созданы в весьма сжатые сроки.

В традиционной РСУБД индексы и агрегаты в значительной степени увеличивают размер хранилища данных. Согласно исследованиям Sentry Market Research, проведенным в 1996 году, хранилища данных на 65-75% заполнены агрегированными значениям, индексами и другими дополнительными структурами, которые существенно увеличивают размер базы данных по сравнению с исходными данными. Так, например, система с 50 Гбайт исходных данных превратится в несколько витрин данных, каждая объемом данных в несколько сотен гигабайт, что повлечет за собой значительные дополнительные расходы и сложности в администрировании. Размер сжатой базы данных в Sybase IQ будет занимать от 50 до 100% от размера «чистых» данных, что дает значительную экономию.

В случаях, когда необходимость в уникальных качествах Sybase IQ отсутствует, ее место заменяет СУБД Sybase Adaptive Server Enterprise, признанная одной из наиболее высокопроизводительных в своем классе. Для настольных и мобильных ВД можно даже использовать «портативную» СУБД Sybase Adaptive Server Anywhere, которая может быть инсталлирована даже на карманном ПК типа Palm Pilot.

В начало

В начало

Семейство продуктов EnterpriseCONNECT

Любая корпоративная информационная система требует поддержания ВД в актуальном состоянии. Для некоторых приложений достаточно ежемесячных обновлений данных, для других требуются ежедневные обновления либо обновления по событию. Принципиальным моментом здесь является обеспечение целостности обновлений. Кроме того, важно обеспечить возможность использования стандартных программ для «очистки» и необходимых преобразований данных между разными витринами данных.

Таким образом, необходима архитектура перемещения данных, которая бы позволяла перемещать большой объем данных с соблюдением транзакционной целостности, обеспечивая при этом надежную устойчивую работу распределенной системы, а также давая возможность организовать доступ к различным источникам данных в рамках одной витрины данных или всего корпоративного хранилища данных.

Семейство программных продуктов EnterpriseCONNECT является одним из наиболее известных наборов технологий для управления движением данных в распределенных и разнородных средах.

Первым шагом в технологии ХД является обеспечение доступа к оперативным и архивным данным. С помощью сервера Sybase OmniCONNECT и набора модулей доступа для него обеспечивается одновременный доступ и извлечение данных из 25 различных источников, включая DB2, IMS, VSAM, Teradata и AS/400. Интересно то, что для пользователя вся работа происходит в единой логической БД.

После извлечения оперативных данных они должны быть доставлены в конкретные ВД. В рамках технологии ХД этот процесс называется «захват измененных данных». Семейство программных продуктов Sybase Replication Server позволяет организовать перемещение данных как из архивных систем на мэйнфреймах, так и из систем в архитектуре «клиент/сервер» в ВД.

Важно отметить, что при этом поддерживается тиражирование данных из разнородных источников, таких как DB2, IMS, IDMS, Oracle, Sybase и Lotus Notes. Существует возможность поддержки репликации из произвольных источников данных с использованием открытого интерфейса к Replication Server. Применение технологии SQL Remote, обеспечивающей тиражирование данных по электронной почте, позволяет организовать обмен данными на уровне всего предприятия, начиная с мэйнфреймов и заканчивая ПК-блокнотами.

В основе технологии тиражирования данных Sybase лежит идея чтения завершенных транзакций из журнала транзакций, что позволяет минимизировать нагрузку на работающую систему. После этого транзакции попадают в Replication Server, который может находиться на отдельной машине и работать под отличной от СУБД-источника операционной системой. В случае если линия связи недоступна, транзакции хранятся в очереди. При появлении связи тиражирование автоматически восстанавливается, причем гарантируется целостная доставка транзакций в хранилище или витрину данных; тиражирование данных при этом производится асинхронно. Replication Server поддерживает как инкрементальное тиражирование данных, так и тиражирование данных по событию. Таким образом, при необходимости можно организовать непрерывную передачу завершенных транзакций из оперативной базы данных в хранилище данных.

Во многих случаях полезно иметь несколько витрин данных с одинаковыми схемами баз данных, что требует симметричного тиражирования данных. Однако в других случаях витрины данных будут обмениваться элементами данных, отличающимися по структуре.

Replication Server поддерживает модель «подписки» на данные. После того как Replication Server получил данные, на которые он подписан, существует возможность программирования произвольной логики для модификации и преобразования этих данных. Поэтому схема базы данных — приемника может быть полностью идентична базе данных — источнику, может слегка от нее отличаться, а может быть и совершенно другой.

Кроме того, существует возможность маршрутизации потоков транзакций между несколькими Replication Server.

Большое число ХД и ВД использует собственные программы преобразования данных. В других системах используются программные продукты Carleton, Prism, Informatica или других поставщиков. Replication Server позволяет подключать произвольные программы преобразования данных, обеспечивая тем самым законченное решение для перемещения и «очистки» данных. В рамках партнерской программы Sybase Warehouse WORKS, в которой участвует более 70 компаний, Sybase расширяет рамки своей технологии продуктами третьих фирм для преобразования, получения, проектирования и управления данными в хранилищах данных. В частности, программные инструменты Carleton PASSPORT позволяют автоматизировать процесс проектирования, преобразования и извлечения данных из мэйнфреймов. На выходе получается файл, готовый для загрузки в Sybase IQ. Набор программных продуктов Informatica PowerMart, построенных в архитектуре «клиент/сервер», позволяет проектировать, преобразовывать и обновлять данные из реляционных СУБД. Технология PowerMart может быть интегрирована непосредственно в Replication Server с использованием динамического преобразования данных.

Кроме того, сбор данных возможен и более простыми способами: через ODBC-интерфейс, путем извлечения их из текстовых файлов и некоторых структурированных файлов (например, файлов формата dBASE).

В начало

В начало

PowerStage — инструмент загрузки данных в ХД

В процессе загрузки данных в ХД решаются три взаимосвязанные задачи: сбор данных, их очистка и агрегирование. Сбор данных состоит в организации передачи данных из внешних источников в ХД. Очистка данных — это процесс модификации данных по ходу заполнения ХД, который состоит из следующих последовательных этапов:

  • исключение дублирования данных;

  • восстановление пропущенных данных;

  • приведение данных к единому формату;

  • удаление служебной и управляющей информации;

  • проверка данных на целостность.

Компания Sybase предлагает свой продукт PowerStage (разработанный на базе ПО DataStage компании VMARK), упрощающий извлечение, очистку, трансформацию и агрегирование данных. Он специально оптимизирован для работы с Sybase IQ.

В начало

В начало

Dynamic OLAP — новая архитектура для DSS

Dynamic OLAP — это новая архитектура для DSS, предложенная Sybase, Inc. Она базируется на контроле со стороны конечного пользователя процессов построения и разделения аналитических моделей в масштабируемой среде ХД. Dynamic OLAP объединяет гибкость и простоту «табличного» похода с масштабируемостью РСУБД. В отличие от традиционного подхода OLAP, требующего нескольких месяцев для реализации, Dynamic OLAP обеспечивает построение сложных аналитических систем в считанные дни. Для реализации Dynamic OLAP компания Sybase предлагает PowerDimensions — пространственную среду бизнес-моделирования. Последняя содержит развитые аналитические функции: финансового, статистического, логического анализа, расчета временных рядов и прочие математические отношения, которые являются неотъемлемыми атрибутами при построении аналитической модели.

PowerDimensions — это фактически аналитический подход, рожденный из катастрофического сокращения времени, отпущенного на принятие решения. Единственно возможный выход — дать аналитикам контроль над процессом моделирования. Сочетание такого контроля со стороны аналитика с контролем информационного подразделения за ХД, основанным на других технологических решениях Sybase, обеспечивает сохранение целостности информации, но не за счет производительности конечного пользователя. Сервер PowerDimensions может легко интегрироваться в существующую инфраструктуру и показывает в сочетании с Sybase IQ рекордную в отрасли производительность.

В начало

В начало

Быстрое создание ХД для Windows NT

Не стоит думать, что ХД можно построить только на дорогостоящей UNIX-платформе. Для упрощенного старта проекта Sybase разработала интегрированный пакет программ QuickStart DataMart for Windows NT, основанный на Sybase IQ 11.5. QuickStart DataMart содержит все программные компоненты, необходимые для построения законченных витрин данных, включая средства проектирования, трансформации и перемещения данных, БД, инструменты анализа и администрирования. Версия QuickStart DataMart для Windows NT включает PowerStage, упрощающий извлечение, очистку и трансформацию данных именно в среде Windows NT. По оценкам Sybase, с его помощью можно разработать ХД в течение всего трех месяцев.

QuickStart ReportMart for Windows NT предназначен для построения витрин данных, содержащих данные работающих систем OLTP для построения сложных аналитических запросов и отчетов. Он содержит Sybase IQ 11.5, а также Replication Agent и Replication Server.

В начало

В начало

Внедрение ВД в корпорации MCI

К настоящему времени ХД и ВД на базе технологий Sybase внедрены в десятках организаций: MCI, Chase Manhattan, American Airlines, AT&T Wireless Services и др.

В качестве довольно наглядного примера можно рассмотреть реализации архитектуры ВД Sybase в американской телекоммуникационной корпорации MCI, клиенты которой ежедневно генерируют миллионы транзакций. Задача состояла в том, чтобы с помощью многочисленных прикладных систем использовать эту информацию для создания новых услуг, анализа ценовой политики, стратегического и тактического планирования и телемаркетинговой службы, ориентируясь при этом на разные группы пользователей (например, физические лица, небольшие компании или крупные корпорации).

В идеале для решения такой задачи подходит централизованное хранилище данных. Однако в реальности, в условиях, когда различные подразделения компании быстро создают и развивают собственные приложения, такая система была бы неэффективной.

На сегодняшний день в MCI работает как минимум три самостоятельных ВД, объем каждой из которых более 100 гигабайт. Ими управляет СУБД Sybase SQL Server 11 (старое название Adaptive Server Enterprise) в сочетании с Sybase IQ на платформе SPARCsever 2000, при этом исходные данные хранятся на мэйнфрейме. В настоящее время эти ВД активно используются в службе телемаркетинга, отделе планирования и подразделении обслуживания клиентов. После их внедрения срок выполнения аналитических процессов сократился с нескольких недель до нескольких часов.

Кроме того, в MCI существует проект создания большого централизованного ХД для обработки транзакций, которое будет использоваться в том числе и для обеспечения «общей» информацией ВД. Ввиду того что каждая ВД имеет различный набор задач и требований, она спроектирована индивидуально и использует собственные внешние источники данных. Эти ВД были внедрены значительно быстрее и обошлись гораздо дешевле, чем создание централизованного ХД.

В России возможность внедрения ХД на базе Sybase IQ рассматривает Транспортная Клиринговая Палата, выполняющая функции координации и проведения расчетов за авиаперевозки (в ее работе участвуют более 200 перевозчиков из СНГ). Основная задача этого проекта — прогноз, выявление тенденций и выработка рекомендаций по улучшению обслуживания пассажиров.

КомпьютерПресс 3'1999