Основы технологии OLAP.
OLAP базируется на использовании концепции ХД и многомерного представления массива данных.
Основной объект OLAP – OLAP-гиперкуб. Это многомерный массив данных, состоящий из отдельных ячеек, содержащих значения показателей.
Измерения – последовательность конкретных значений атрибутов анализируемого показателя.
Мера – числовое значение показателя, соответствующее определенным меткам измерений.
«Объем продаж»
Метки на осях измерений могут иметь внутреннюю иерархию: мир-страна-регион-город-район-магазин.
Собственно OLAP сводится к последовательности нескольких типовых операций с гиперкубами:
1. Срез (сечение, Slice). В результате среза из исходного куба формируется подмножество значений показателя, соответствующее метке на оси измерений подвергшихся сечению. Для пользователя результатом среза является двухмерная таблица, заголовки строк и столбцов в которой соответствуют неразрезанным измерениям.
2. Rotate. Поворот/Вращение. В результате строки и столбцы меняются местами.
3. Консолидация (свертка).
В результате гиперкуб уменьшается в размерах, за счет консолидации значений показателей по одному или нескольким измерениям.
4. Детализация (развертка) – Drill Down.
В результате выполнения детализации гиперкуб увеличивается, за счет детализации показателей по одному или нескольким измерениям.
5. Построение линий трендов. Строится график зависимостей показателей.
6. Построение кросс – таблиц. Создание перекрестных таблиц из двух и более.
Исходным сырьем для OLAP является обычные двухмерные таблицы.
Разновидности OLAP:
1. ROLAP – реляционный OLAP. При использовании этой технологии массивы для анализа представляют собой реляционные базы. Для реализации OLAP в этом случае используют схему данных, называемая «Звезда».
Fact |
Dim. 1 |
Dim. 2 |
Dim.3 |
Таблица фактов содержит данные, например, о числовых значениях показателя. Таблицы измерений содержат данные об атрибутах этого показателя. Т.е. эти данные меняются редко/
Схема «Снежинка».
Dim. 3.1. |
В этом случае таблицы измерений могут связываться с консольными таблицами (3.1). Такая схема может использоваться если атрибуты измерений имеют внутреннюю иерархию.
Схема «Созвездие».
Dim. 2.1. |
Fact 2 |
Dim. 2.2. |
«Созвездием» эта схема называется потому, что в ней соединяется несколько «Звезд».
В этих схемах используется связь один ко многим (от Dim к Fact).
«+»: В использовании обычных реляционных баз для хранения данных.
«-»: Не слишком высокая эффективность анализа.
2. MOLAP – многомерный OLAP. В этом случае анализу подвергаются именно гиперкубы данных. Фактически каждый гиперкуб представляет собой большую плоскую таблицу, содержащую все значения атрибутов измерений и соответствующие им значения показателей, но система воспринимает как многомерный массив.
«+»: Высокая эффективность анализа.
«-»: Относительная сложность построения таких массивов.
3. HOLAP – гибридный OLAP. Используется сочетание многомерного способа представления данных и реляционного.
«+» предыдущих двух комбинируются.
4. DOLAP (Desktop OLAP) – настольный OLAP. Эти термином обозначают средства для OLAP, которыми можно пользоваться в персональном режиме (на ПК, например).
Требования к средствам OLAP:
Полный список требований к программным средствам реализации OLAP составляют «12 правил Кодда», дополненные позже еще 6 правилами. В сжатом виде эти требования содержатся в тесте FASMI (Fast of Analysis Shared Multidimensional Information) - быстрый анализ разделяемой многомерной информации.
Быстрый означает, что большая часть запросов должна обрабатываться в течении времени, в пределах 3 секунд, при этом наиболее простые – не дольше 1 секунды, а самые сложные – не дольше 20 секунд.
Анализ означает, что OLAP – средство должно обеспечивать выполнение всех видов многомерного, а так же статистического анализа массивов данных.
Разделяемая означает, что в OLAP – средстве должен быть предусмотрен разделяемый доступ к любым элемента массива данных, вплоть до отдельных ячеек.
Многомерной означает, что OLAP – средство должно поддерживать многомерное представление информации, обеспечивать анализ многомерно представленной информации.
Информация. Это слово означает, что OLAP – средство должно предоставлять результаты анализа в любой, необходимой пользователю форме. Это средство должно обеспечивать анализ любой доступной информации.
Технология OLAP практически реализуется с помощью инструментов (приложений) 3 типов:
1. Простые OLAP – средства, интегрированные в различные пакеты общего назначения, например в таблицы.
2. OLAP – средства, интегрированные в большие СУБД, а так же в информационные системы управления предприятием.
3. Автономные OLAP – средства. Например, аналитическая платформа «Контур» и др. Это средства, которые приобретаются отдельно.
ОСНОВЫ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ.
Data Mining (добыча данных). Этот термин точнее, чем наименование «интеллектуальный анализ данных».
Data Mining – это методы и средства машинной «добычи» из массивов необработанных данных информации, которая является новой, практически ценной, нетривиальной, доступной для интерпретации человеком.
Типовые задачи Data Mining:
1. Классификация – это разделение совокупности на классы, причем количество классов определено заранее, известны признаки, соответствующие каждому классу.
2. Кластеризация – подобна задаче классификации, но классы заранее не определены.
Кластеры |
Классификация кластеризация.
3. Выявление последовательностей – шаблонов в данных, соответствующих событиям, происходящим в определенной последовательности.
4. Выявление ассоциаций – шаблонов в данных, соответствующих событиям, происходящим одновременно.
5. Построение регрессионных моделей и прогнозирование.
Y=a0+a1x
Средствами Data Mining добывается ценная информация из текстовых, гипертекстовых документов сети Internet, а так же находящихся в других источниках. Для обозначения этих технологий используется:
1.Web Content Mining – методы и средства автоматического аннотирования и классификации текстовых и гипертекстовых документов из сети Internet.
2.Web Usage Mining – методы и средства, позволяющие выявить закономерности в поведении пользователей web-узлов.
Text Mining – добыча информации из текстового документа.
Основные средства и технологии Data Mining:
1. Стандартные методы математической статистики:
1.1. регрессионный анализ (построение регрессионных моделей).
1.2. Корреляционный анализ – определение коэффициента ясности связи. (1 – абсолютный предел связи).
1.3. Дисперсионный анализ.
1.4. Кластерный анализ.
2. Переборные методы:
Переборные методы просты в реализации, но их эффективность невысокая, поэтому на практике переборные механизмы улучшаются применением эвристик (улучшения, произведенные опытным путем).
3. Искусственные нейронные сети (ИНС).
ИНС могут быть универсальными классификаторами -апроксиматорами и прогнозаторами.
4. Системы с нечеткой логикой и нечеткие модели:
Используются в областях и конкретных задачах, для которых типична неопределенность в исходных данных и логических правилах. Неопределенность данных может быть связана с неполнотой, недостоверностью, противоречивостью, нечеткостью. При решении многих задач исходная информация недостаточна, противоречива и т.п.
5. Генетические алгоритмы.
Эволюционные стратегии, используемые при решении задач оптимизации.
6. Методы логических шаблонов в шаблонах массивов данных.
Шаблон – последовательность, определенная цепочка событий.
Инструменты Data Mining:
Статистические методы реализуются либо в специальных пакетах (SPSS, STATISTICA, R), несложный анализ выполняется в электронных таблицах (MS Excel, Open Office Calc).
Интеллектуальный анализ выполняется в специальных пакетах (SAS, Polyanalist, MATLAB(имеет пакет расширения для интеллектуального анализа данных): Neural Network, Fuzzy Logic (нечеткая логика), Genetic Algorithm and Direct Search (генетический алгоритм и прямой поиск).