Технология аналитической обработки данных (OLAP-технология) и средства OLAP-технологии


Оперативная аналитическая обработка данных

В процессе анализа данных, поиска решений часто возникает необходимость в построении зависимостей между различными параметрами. Кроме того, число таких параметров может варьироваться в широких пределах. Как уже отмечалось ранее традиционные средства анализа, оперирующие данными, которые представлены в виде таблиц реляционной БД, не могут в полной мере удовлетворять таким требованиям. В 1993 г. Е. Кодд основоположник реляционной модели БД − рассмотрел ее недостатки, указав, в первую очередь, на невозможность «объединять, просматривать и анализировать данные с точки зрения множественности измерений, т. е. самым понятным для аналитиков способом».

В концепции технологии аналитической обработки данных (On-Line Analytical Processing или OLAP-технологии) используется понятие измерения.

При этом под измерением понимается последовательность значений одного из анализируемых параметров. Например, для параметра «время» это последовательность календарных дней, для параметра «регион» это может быть список городов.

Множественность измерений предполагает представление данных в виде многомерной модели. По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области.

По Кодду, многомерное концептуальное представление (multi-dimensional conceptual view) − это множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.

Каждое измерение может быть представлено в виде иерархической структуры. Например, измерение «Исполнитель» может иметь следующие иерархические уровни: «предприятие − подразделение − отдел − служащий». Более того, некоторые измерения могут иметь несколько видов иерархического представления. Например, измерение «Время» может включать две иерархии со следующими уровнями: «год − квартал − месяц − день» и «неделя − день».

На пересечениях осей измерений (Dimensions) располагаются данные, количественно характеризующие анализируемые факты, − меры (Measures). Это могу быть объемы продаж, выраженные в единицах продукции иди в денежном выражении, остатки на складе, издержки и т.п.

Таким образом, многомерную модель данных можно представить как гиперкуб (конечно, название не очень удачное, поскольку под кубом обычно понимают фигуру с равными ребрами, что в данном случае далеко не так). Ребрами такого гиперкуба являются измерения, а ячейками − меры.

Над таким гиперкубом могут выполняться следующие операции:

1. Срез (Slice) − формирование подмножества многомерного массива данных, соответствующего единственному значению одного или нескольких элементов измерений, не входящих в это подмножество. Например, при выборе элемента «Факт» измерения «Сценарий» срез данных представляет собой подкуб, в который входит все остальные измерения. Данные, что не вошли в сформированный срез, связаны с теми элементами измерения «Сценарий», которые не были указаны в качестве определяющих (например, «План», «Отклонение», «Прогноз» и т. п.). Если рассматривать термин «срез» с позиции конечного пользователя, то наиболее часто его роль играет двумерная проекция куба.

2. Вращение (Rotate) − изменение расположения измерений, представленных в отчете или на отображаемой странице. Например, операция вращения может заключаться в перестановке местами строк и столбцов таблицы или перемещении интересующих измерений в столбцы или строки создаваемого отчета, что позволяет придавать ему желаемый вид. Кроме того, вращением куба данных является перемещение внетабличных измерений на место измерений, представленных на отображаемой странице, и наоборот (при этом внетабличное измерение становится новым измерением строки или измерением столбца). В качестве примера первого случая может служить отчет, для которого элементы измерения «Время» располагаются поперек экрана (являются заголовками столбцов таблицы), а элементы измерения «Продукция» − вдоль экрана (заголовки строк таблицы). После применения операции вращения отчет будет иметь следующий вид: элементы измерения «Продукция» будут расположены по горизонтали, а элементы измерения «Время» − по вертикали. Примером второго случая может служить преобразование отчета с измерениями «Меры» и «Продукция», расположенными по вертикали, а измерением «Время», расположенным по горизонтали, в отчет, у которого измерение «Меры» располагается по вертикали, а измерения «Время» и «Продукция» − по горизонтали. При этом элементы измерения «Время» располагаются над элементами измерения «Продукция». Для третьего случая применения операции вращения можно привести пример преобразования отчета с расположенными по горизонтали измерением «Время» и по вертикали измерением «Продукция» в отчет, у которого по горизонтали представлено измерение «Время», а по вертикали − измерение «География».

3. Консолидация (Drill Up) и детализация (Drill Down) − операции, которые определяют переход вверх по направлению от детального (down) представления данных к агрегированному (up) и наоборот, соответственно. Направление детализации (обобщения) может быть задано как по иерархии отдельных измерений, так и согласно прочим отношениям, установленным в рамках измерений или между измерениями. Например, если при анализе данных об объемах продаж в Северной Америке выполнить операцию Drill Down для измерения «Регион», то на экране будут отображены такие его элементы, как «Канада», «Восточные Штаты Америки» и «Западные Штаты Америки». В результате дальнейшей детализации элемента «Канада» будут отображены элементы «Торонто», «Ванкувер», «Монреаль» и т. д.