Основы технологии OLAP.

OLAP базируется на использовании концепции ХД и многомерного представления массива данных.

Основной объект OLAP – OLAP-гиперкуб. Это многомерный массив данных, состоящий из отдельных ячеек, содержащих значения показателей.

Измерения – последовательность конкретных значений атрибутов анализируемого показателя.

Мера – числовое значение показателя, соответствующее определенным меткам измерений.

«Объем продаж»

 

Метки на осях измерений могут иметь внутреннюю иерархию: мир-страна-регион-город-район-магазин.

Собственно OLAP сводится к последовательности нескольких типовых операций с гиперкубами:

1. Срез (сечение, Slice). В результате среза из исходного куба формируется подмножество значений показателя, соответствующее метке на оси измерений подвергшихся сечению. Для пользователя результатом среза является двухмерная таблица, заголовки строк и столбцов в которой соответствуют неразрезанным измерениям.

 

2. Rotate. Поворот/Вращение. В результате строки и столбцы меняются местами.

3. Консолидация (свертка).

В результате гиперкуб уменьшается в размерах, за счет консолидации значений показателей по одному или нескольким измерениям.

4. Детализация (развертка) – Drill Down.

В результате выполнения детализации гиперкуб увеличивается, за счет детализации показателей по одному или нескольким измерениям.

5. Построение линий трендов. Строится график зависимостей показателей.

6. Построение кросс – таблиц. Создание перекрестных таблиц из двух и более.

Исходным сырьем для OLAP является обычные двухмерные таблицы.

Разновидности OLAP:

1. ROLAP – реляционный OLAP. При использовании этой технологии массивы для анализа представляют собой реляционные базы. Для реализации OLAP в этом случае используют схему данных, называемая «Звезда».

Fact
Dim. 1
Dim. 2
Dim.3

 

 


Таблица фактов содержит данные, например, о числовых значениях показателя. Таблицы измерений содержат данные об атрибутах этого показателя. Т.е. эти данные меняются редко/

 

Схема «Снежинка».

Dim. 3.1.

В этом случае таблицы измерений могут связываться с консольными таблицами (3.1). Такая схема может использоваться если атрибуты измерений имеют внутреннюю иерархию.

Схема «Созвездие».

Dim. 2.1.
Fact 2
Dim. 2.2.

«Созвездием» эта схема называется потому, что в ней соединяется несколько «Звезд».

В этих схемах используется связь один ко многим (от Dim к Fact).

«+»: В использовании обычных реляционных баз для хранения данных.

«-»: Не слишком высокая эффективность анализа.

2. MOLAP – многомерный OLAP. В этом случае анализу подвергаются именно гиперкубы данных. Фактически каждый гиперкуб представляет собой большую плоскую таблицу, содержащую все значения атрибутов измерений и соответствующие им значения показателей, но система воспринимает как многомерный массив.

«+»: Высокая эффективность анализа.

«-»: Относительная сложность построения таких массивов.

3. HOLAP – гибридный OLAP. Используется сочетание многомерного способа представления данных и реляционного.

«+» предыдущих двух комбинируются.

4. DOLAP (Desktop OLAP) – настольный OLAP. Эти термином обозначают средства для OLAP, которыми можно пользоваться в персональном режиме (на ПК, например).

Требования к средствам OLAP:

Полный список требований к программным средствам реализации OLAP составляют «12 правил Кодда», дополненные позже еще 6 правилами. В сжатом виде эти требования содержатся в тесте FASMI (Fast of Analysis Shared Multidimensional Information) - быстрый анализ разделяемой многомерной информации.

Быстрый означает, что большая часть запросов должна обрабатываться в течении времени, в пределах 3 секунд, при этом наиболее простые – не дольше 1 секунды, а самые сложные – не дольше 20 секунд.

Анализ означает, что OLAP – средство должно обеспечивать выполнение всех видов многомерного, а так же статистического анализа массивов данных.

Разделяемая означает, что в OLAP – средстве должен быть предусмотрен разделяемый доступ к любым элемента массива данных, вплоть до отдельных ячеек.

Многомерной означает, что OLAP – средство должно поддерживать многомерное представление информации, обеспечивать анализ многомерно представленной информации.

Информация. Это слово означает, что OLAP – средство должно предоставлять результаты анализа в любой, необходимой пользователю форме. Это средство должно обеспечивать анализ любой доступной информации.

Технология OLAP практически реализуется с помощью инструментов (приложений) 3 типов:

1. Простые OLAP – средства, интегрированные в различные пакеты общего назначения, например в таблицы.

2. OLAP – средства, интегрированные в большие СУБД, а так же в информационные системы управления предприятием.

3. Автономные OLAP – средства. Например, аналитическая платформа «Контур» и др. Это средства, которые приобретаются отдельно.

 

ОСНОВЫ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ.

Data Mining (добыча данных). Этот термин точнее, чем наименование «интеллектуальный анализ данных».

Data Mining – это методы и средства машинной «добычи» из массивов необработанных данных информации, которая является новой, практически ценной, нетривиальной, доступной для интерпретации человеком.

Типовые задачи Data Mining:

1. Классификация – это разделение совокупности на классы, причем количество классов определено заранее, известны признаки, соответствующие каждому классу.

2. Кластеризация – подобна задаче классификации, но классы заранее не определены.

Кластеры

Классификация кластеризация.

3. Выявление последовательностей – шаблонов в данных, соответствующих событиям, происходящим в определенной последовательности.

4. Выявление ассоциаций – шаблонов в данных, соответствующих событиям, происходящим одновременно.

5. Построение регрессионных моделей и прогнозирование.

Y=a0+a1x

 

Средствами Data Mining добывается ценная информация из текстовых, гипертекстовых документов сети Internet, а так же находящихся в других источниках. Для обозначения этих технологий используется:

1.Web Content Mining – методы и средства автоматического аннотирования и классификации текстовых и гипертекстовых документов из сети Internet.

2.Web Usage Mining – методы и средства, позволяющие выявить закономерности в поведении пользователей web-узлов.

Text Mining – добыча информации из текстового документа.

Основные средства и технологии Data Mining:

1. Стандартные методы математической статистики:

1.1. регрессионный анализ (построение регрессионных моделей).

1.2. Корреляционный анализ – определение коэффициента ясности связи. (1 – абсолютный предел связи).

1.3. Дисперсионный анализ.

1.4. Кластерный анализ.

2. Переборные методы:

Переборные методы просты в реализации, но их эффективность невысокая, поэтому на практике переборные механизмы улучшаются применением эвристик (улучшения, произведенные опытным путем).

3. Искусственные нейронные сети (ИНС).

ИНС могут быть универсальными классификаторами -апроксиматорами и прогнозаторами.

4. Системы с нечеткой логикой и нечеткие модели:

Используются в областях и конкретных задачах, для которых типична неопределенность в исходных данных и логических правилах. Неопределенность данных может быть связана с неполнотой, недостоверностью, противоречивостью, нечеткостью. При решении многих задач исходная информация недостаточна, противоречива и т.п.

5. Генетические алгоритмы.

Эволюционные стратегии, используемые при решении задач оптимизации.

6. Методы логических шаблонов в шаблонах массивов данных.

Шаблон – последовательность, определенная цепочка событий.

Инструменты Data Mining:

Статистические методы реализуются либо в специальных пакетах (SPSS, STATISTICA, R), несложный анализ выполняется в электронных таблицах (MS Excel, Open Office Calc).

Интеллектуальный анализ выполняется в специальных пакетах (SAS, Polyanalist, MATLAB(имеет пакет расширения для интеллектуального анализа данных): Neural Network, Fuzzy Logic (нечеткая логика), Genetic Algorithm and Direct Search (генетический алгоритм и прямой поиск).