Концепция хранилищ данных и основные причины ее появления. Определение ХД

Причины появления концепции ХД. 

Для реализации задач принятия решения, данные в информационном фонде СППР д.б. организованы способом отличным от принятого в OLTP системах. Это связано со следующими причинами:

1) выполнение аналитических запросов всегда сопряжено с обработкой больших информационных массивов. Чем выше степень нормализации таблиц, тем медленнее выполняется анализ в связи с увеличением числа операций соединенных таблиц. В OLTP системах нормализация таблиц позволяет устранить избыточность данных и уменьшить объём действий, выполняемых при обновлении данных. В OLAP системах обновление данных производится крайне редко, преобладают операции дополнения и чтения больших объемов данных, поэтому необходимость нормализации ниже.
2) Сама специфика данных требует менее разветвлённой структуры их представления поскольку это агрегированные, а не детализированные данные.
Определение ХД принадлежит Б. Имману (Prism Solution) - ХД это предметно - ориентированная, интегрированная, зависимая от времени коллекция данных, предназначенная для принятия решения. Согласно Имману ХД должно выступать в роли единого и единственного источника истины.
Основные свойства ХД:
1) Предметная ориентированность - в ХД должна быть заложена модель предметной области, соответствующая модели оператора (аналитика, менеджера) и удобная для выполнения его задач (бизнес анализа).
2) Интегрированность - все данные о некотором предмете (бизнес объекте):
· собираются из множества различных источников (различных БД и разнородных приложений);
· очищаются и дополняются;
· согласовываются: синтаксически (приводятся к единому формату), семантически (контроль целостности); 
· агрегируются (группируются в первую очередь хронологически);
· сохранять в едином удобном для OLAP формате.
3) Неизменность - после внесения в хранилище, данные остаются неизменными.
4) Поддержка хронологии:
· в большинстве случаев наличие атрибутов (дата, время) обязательно;
· желательно физически упорядочить данные по хронологии;
· использование СППР ориентировано на отражение в ХД истории, достаточной для выполнения задач бизнес - анализа и прогнозирования.
Реализация ХД
Основными вопросами (проблемами) реализации ХД, определяющими требования к ней, являются:
1) неоднозначность программной среды,
2) распределённость,
3) защита данных от НСД,
4) построение и ведение многоуровневых справочных метаданных,
5) эффективное хранение и обработка больших объёмов данных.
Метаданные
Без наличия актуальных, максимально полных и легко понимаемых пользователем описания данных, ХД превращается в обычный, но дорогостоящий элемент архивации.
Метаданные - это высокоуровневые средства отражения информаций модели СППР.
В первую очередь требование наличия словаря метаданных (репозитария) вытекает из свойства неоднозначности источников информации. Необходима входящая в ХД модель, которая должна содержать:
1)описание не только целевых структур данных БД хранилища, но и структур данных в источниках их получения.
2)правила процедуры и периодичность их выборки и выгрузки.
3)процедуры и места согласования и агрегации.
4)периодичность обновления данных.
5)статистические оценки продолжительности выполнения запросов.
Наличие многоуровневого, всестороннего описания данных позволяют реализовать требования нерегламентированности запросов ХД. 
Уровни метаданных в ХД
1. Уровень приложения (внешних источников данных)
Описывает структуру данных в операционных БД и других источниках данных. Обычно этот уровень достаточно сложен для понимания неподготовленного пользователя и является приложение - ориентированным.
2. Уровень ядра ХД
Описывает логическую и физическую структуру и взаимосвязи данных в ХД.
3. Уровень конечного пользователя
Описывает структуры данных в ХД в терминах предметной области конечного пользователя.
Разработка системы управления метаданных включает в себя:
1. анализ процессов возникновения, изменения и использования метаданных
2. проектирование структуры хранения метаданных
3. организация прав доступа к метаданным
4. проработка вопросов блокировок и разрешение конфликтов при совместимости использования метаданных, разделение метаданных между витринами данных
5. согласование метаданных ХД с репозитариями case - средств, применяемых при проектировании и разработке хранилищ
6. реализация пользовательского интерфейса с репозитарием.
Наиболее известные репозитарии, входящие в состав:
1)Case-средств
Power Designer (Sybase)
Designer 2000 (Oracle)
Silverrun (CSA Research)
2)Системы разработки приложения 
Developer 2000 (Oracle)
Power Builder (Sybase)
3)Систем администрирования и поддержки ИС фирм:
Platinium
MSP
Существует стандарт обмена метаданных (MDIS), обеспечивающий возможность интеграции средств разных производителей.

Категории: 

Метки: