Аналітичні системи багатовимірного аналізу даних


Орієнтовані на дані СППР часто відносять до типу аналітичних систем (АС), метою яких є лише аналіз даних. Інколи терміни "АС" і "ОДСППР" уживають як синоніми. Зауважимо, що стосовно інформаційних процесів аналітичні системи є вторинними по відношенню до операційних транзакційних систем OLTP (On-line transaction processing), оскільки всі дані, що використовуються для аналізу, необхідно спочатку нагромадити і, за можливості, частково обробити, чим і займаються різні транзакційні системи, а лише потім їх проаналізувати. Відмінності систем оброблення транзакцій OLTP (онлайнових систем оброблення даних) і аналітичних систем (орієнтованих на дані СППР) наведені в табл. 4.3.

 

Таблиця 4.3

Основні відмінності систем оброблення транзакцій (OLTP) і аналітичних систем

Характеристика Онлайнова система оброблення транзакцій Аналітична система
Мета системи Облік, зберігання і оперативне оброблення первинних, деталізованих даних, що характеризують поточний стан об’єктів предметної галузі (ПГ) Отримання і зберігання узагальнених даних про ПГ і подання їх у вигляді, зручному для бізнес-аналізу та підтримки прийняття рішень
Джерела та номенклатура даних Поточні оперативні дані, що деталізовано характеризують стан об’єктів ПГ, як правило, за останній та кілька попередніх місяців Крім детальних, потрібні узагальнені дані за певні періоди, а також фактичні дані, нагромаджені за тривалий час. Крім внутрішніх потрібні ще й зовнішні дані
Вигляд даних Оперативні БД можуть містити семантично еквівалентну інформацію, подану в різних форматах, яка не завжди може бути узгодженою (з причин використання різних технологій та різних СУБД) Сховище даних має містити узгоджену інформацію, що подається в однакових форматах і максимально відповідає оперативній БД. Тобто сховища даних містять компоненти для зведення до єдиного вигляду інформації з різних джерел.
Частота оновлення Дані є динамічними, поточними, тобто безперервно оновлюються і дуже часто змінюються Дані є статичними, тобто вони практично не змінюються, а лише доповнюються новими записами
Характер запитів до системи Перелік запитів до транзакційних систем відомий ще за їх проектування. Переважають регламентні запити, які детерміновані в часі, тобто створюються з певною періодичністю і мають фіксований перелік вихідних повідомлень. За розв’язання таких задач переважають дуже часті вибірки з БД даних невеликими порціями. Транзакційні системи, головно, містять задачі прямого розрахунку За розв’язання аналітичних завдань переважають нерегламентні запити, які потребують оброблення великих обсягів агрегованих даних (сум, мінімальних, максимальних, середніх та інших значень показників). АС має надавати аналітику різноманітні інструменти для оброблення даних та методики аналізу (наприклад, весь спектр статистичних методів, генетичних алгоритмів, нечіткої логіки і т. п.)
Подання результатів роботи Складання фіксованого ряду звітних форм наперед відомої структури. Переважна більшість цих звітів потребує первинної деталізованої інформації Велика кількість різноманітних звітів на основі агрегованих даних. Надання аналітику можливості самому визначати характер і форму використовуваних звітів. Подання результатів аналізу в зручному для розуміння вигляді (графічному, табличному тощо)
Захист Для оперативної БД, як правило, достатньо захисту на рівні таблиць Аналітичні дані потребують більшого захисту, зокрема, на рівні окремих значень аналітичних показників
Наявність метаданих Метаданими в OLTP-системах користуються переважно лише адміністратори систем Репозитарій метаданих – це необхідна компонента, яка є довідником про дані сховища для користувачів системи
Необхідність перепроектування Бази даних транзакційної системи мають бути спроектовані так, щоб вони не потребували подальшого перепроектування Створення сховищ даних є ітеративним за своєю суттю і потребує регулярного перепроектування протягом усього їхнього життєвого циклу

 

Аналітичні завдання залежно від концепції аналізу можна поділити на дві групи: завдання статичного та завдання оперативного аналізу. Ці дві групи аналітичних завдань суттєво відрізняються між собою.

Перша група завдань характеризується тим, що вони реалізуються на основі традиційної технології автоматизації розв’язання. За цієї технології спочатку формулюється технічне завдання, яке передається програмісту для програмування. Програміст складає програму та тестує її і лише після цього отримує результат у вигляді регламентованих, тобто чітко визначених форм. За такого підходу виникає велика затримка в часі між моментом виникнення потреби в аналізі та отриманням відповідного результату. Дуже часто результат аналізу, який був потрібний аналітику, отримують пізно і рішення приймається без його врахування. Тому для прийняття оперативних рішень такий вид аналізу не підходить.

 

 

Рис. 4.1. Узагальнена схема інформаційної аналітичної системи

 

Саме потреба в оперативному багатоаспектному бізнес-аналізі привела до виникнення нової OLAP-технології розв’язання аналітичних завдань. Ця технологія призначена забезпечувати аналітиків динамічним багатовимірним аналізом консолідованих даних. Як уже зазначалося, розв’язання аналітичних завдань не може обмежуватись лише даними транзакційних систем. Для порівняльного аналізу та виявлення тенденцій потрібно мати великі обсяги зовнішніх даних з різних статистичних збірників, з електронних та інших джерел. Зручним способом зберігання даних для розв’язання оперативних аналітичних завдань є сховища даних, що утворюють основу аналітичних інформаційних систем. Узагальнена схема інформаційної аналітичної системи, котра ураховує описані засади, показана на рис. 4.1.

Орієнтовані на дані СППР мусять мати дані найвищої якості, інакше дані можуть призвести до невдач у розв’язанні проблем. Дані найвищої якості – це точні, своєчасні, значимі (важливі) і повні (комплектні) дані. Оцінювання або вимірювання якості джерел даних є попереднім завданням, яке пов’язане з оцінюванням технічної здійснимості проекту орієнтованої на дані СППР.

Зважаючи на те, що сховища даних і системи оперативного аналітичного оброблення (OLAP-системи) в принциповому плані виконують фактично такі самі функції, а саме: на основі нагромаджених за багато періодів даних про поточні ділові операції появляється можливість отримувати інформацію для створення кращих, основаних на фактах, управлінських рішень, деякі коментатори стали їх ототожнювати. Насправді, сховища даних і OLAP – різні види орієнтованих на дані СППР.

Сховище даних (Data Warehouses)є специфічною базою даних, яка проектується і наповнюється, щоб підтримувати створення рішень в організації. Це є пакет, своєрідна система керування базою даних, що існує окремо від оперативних систем, обновлюється і структурується для термінових оперативних запитів і управлінських підсумків. За змістом та часовим горизонтом вона відрізняється від оперативних систем. При цьому сховище даних є незмінним у часі, а, отже, здатним підтримувати різноманітні види аналізу. Переважно такі бази даних є архівами операційних даних, відібраних для забезпечення підтримки прийняття рішень та оптимізованих для взаємодії з СППР організації. На рис. 4.2 зображена спрощена схема формування та використання сховища даних у СППР. Дані беруться з різноманітних джерел оперативних даних. Після переміщення проводиться їх відбір для гарантування того, що вони мають достатню значимість, є безперервними і точними. Потім дані завантажуються в реляційні таблиці, які в змозі підтримувати різноманітні види аналізу та запитів, і оптимізуються для тих таблиць, які, як очікується, будуть найчастіше застосовуватися. І, нарешті, дані зберігаються для подальшого використання в СППР.

 

 

Рис. 4.2. Схема формування і використання сховища даних у СППР

 

Згідно з концепцією засновника сховищ даних Б. Інмона (Bill Inmon) "сховище даних є тематично орієнтованою, інтегрованою, динамічною (time-variant), довготривалою сукупністю даних для підтримання процесів менеджерів, котрі розробляють рішення". Р. Кімбал (Ralph Kimball, 1996), інший піонер створення сховищ даних, уважає, що "сховище даних містить копії даних транзакций, специфічно структурованих для запитів і аналізу".

Головними властивостями сховищ даних, які виділені Інмоном, є:

Тематична (суб’єктна) орієнтованість –означає фокусування на темах, пов’язаних з бізнесом або організаційною активністю суб’єктів подібно діям споживачів (клієнтів), службовців і постачальників, тобто сховища даних мають орієнтуватися на предметну галузь, а не на специфіку програмних засобів, які будуть взаємодіяти з цими додатками.

Інтегрованість –означає, що дані зберігаються в узгодженому форматі завдяки використанню іменованих правил (умовних позначень, домовленостей), обмежень домена (області допустимих значень, сфери дії), фізичних атрибутів і вимірів.

Динамічність (time-variant) –це відповідність даних певним моментам часу, тобто це є часові ряди (або серії), що не мають поточного статусу.

Довготривалість –означає, що дані тільки читаються і не змінюються з часом, як тільки вони переміщуються в сховище, і зберігаються для підтримки рішень.

Крім цих характеристик існують і інші важливі властивості сховищ даних, зокрема:

Підсумовуваність даних –операційні дані набувають придатної для підтримки рішень форми, тобто бази даних утримують агреговані значення для управлінських рішень як окремий відбиток від баз даних, які використовуються для онлайнового оброблення транзакцій – OLTP (On Line Transaction Processing).

Масштабність –мається на увазі, що в сховищах даних зберігається набагато більше даних, ніж у звичайних базах даних.

Ненормалізованість –дані в сховищах можуть бути надмірними, ненормалізованими.

Наявність метаданих –метадані в СППР на основі сховищ даних обов’язкові. Ці метадані життєво важливі для підтримки сховищ даних і для кінцевих користувачів, яким потрібно знати, як розмістити дані.

Сховища даних недешеві. До цих пір потрібні багатомільйонні загальні витрати і тривалий час для їх проектування та реалізації. Велике корпоративне сховище даних може потребувати 2-3 мільйонів доларів, необхідних для створення програмного та апаратного забезпечення, оплати праці розробників, витрат на навчання та 2-3 років для його створення. Оскільки сховища даних розробляються з метою забезпечення кожного менеджера підприємства загальним рядом даних, то вони, як правило, великі за обсягом даних і збільшуються з часом. Типові розміри потрібної пам’яті – від 50 гігабайт (гігабайт = 1 073 741 844 байтам) до понад один Тб (терабайт = 1000 гігабайтам). Проте, незважаючи на значні фінансові та витрати часу, організація сховищ даних стає все популярнішою. Нині побудова сховищ даних є головним напрямом розвитку інформатики. Оцінки дещо різняться, але можна впевнено стверджувати, що більше половини корпорацій, які входять до 500 найуспішніших, мають або планують мати сховища даних.

Зі сховищем даних пов’язаний термін "вітрина даних" (Data Mart).Інколи застосовують такі його синоніми: кіоск даних, підмножина сховища даних, сховище даних рівня підприємства, ярмарка даних. Вітрина данихце певна частина сфокусованих на окрему тему даних або виокремлені елементи сховища даних. Наприклад, деякі компанії скоріше будують вітрину даних щодо споживачів, ніж багатопредметне сховище даних. Така вітрина даних містить всю необхідну інформацію про споживачів. Багато організацій і бізнесових структур починають будувати свої повномасштабні (корпоративні) сховища даних шляхом побудови серії сфокусованих вітрин даних.

Коли сховище даних уже створене та оптимізоване, то необхідно ефективно завантажувати нові дані в систему без переривання процесу підтримки прийняття рішень. Однак у разі збільшення кількості даних розробникам необхідно визначати нові синтаксичні формати та формати запитів, які були б швидшими та легшими. Найпоширенішим засобом організації сховищ даних для задоволення різних аналітичних запитів є використання багатовимірної моделі даних, що пов’язується з поняттям OLAP, зокрема, з його реляційним різновидом.

Група продавців технології OLAP, яка є асоціацією захисників програмних продуктів OLAP, що має призначення сприяти більшому розумінню системи і її головних принципів, сформувала Раду OLAP. Рада запропонувала таке визначення OLAP:

Оперативне (онлайнове) аналітичне оброблення (On-line analytical processing – OLAP) є категорією технології програмного забезпечення, яке дало змогу аналітикам, менеджерам і виконавцям підсилити подання даних завдяки швидкому, узгодженому, інтерактивному доступу до широкого діапазону можливих зображень інформації, яка була одержана шляхом перетворення неопрацьованих (первинних) даних для відображення в реальній вимірності, зрозумілій користувачам, стану підприємства.

З практичного погляду OLAP є якраз тим, чого очікували від СППР протягом багатьох років, тобто перспективною системою, яка проста для використання, містить спеціалізовані (спеціально виділені) дані і пристосована до потреб користувачів. Ця система використовує сховища даних, а також містить велику кількість інструментальних засобів кінцевого користувача для організації доступу до даних і проведення їх аналізу.

OLAP здійснюється в багатокористувацькому клієнт/серверному режимі і уможливлює узгоджену швидку відповідь на запити, незалежно від обсягу і складності бази даних. OLAP допомагає користувачеві синтезувати інформацію підприємства завдяки порівняльному, конкретизованому перегляду даних, а також завдяки аналізу фактичних і розрахункових показників у варіантах аналізу типу "що ..., якщо...?". Все це досягається за допомогою використання сервера OLAP.

Сервер OLAPє високорозрядним, багатокористувацьким механізмом (або процесором бази даних) маніпулювання даними, специфічно розробленим для того, щоб підтримувати і здійснювати операції з багатовимірними структурами даних. Багатовимірна структура упорядкована так, щоб кожний елемент даних був розміщений і забезпечений доступом на основі перетину компонентів вимірностей, які визначають той елемент. Сервер і структура даних оптимізовані для швидкого пошуку інформації, для проведення аналізу типу "на даний випадок" (ad-hoc) у будь-якому аспекті, а також для швидкого та гнучкого обчислення і перетворення первинних даних, що грунтується на формульних взаємозалежностях.

Досягнутий на даний час стан технологічних засобів і вимоги кінцевих користувачів щодо узгоджених і швидких відповідей визначають, що найкращим підходом до організації оброблення даних є установлення багатовимірної бази даних у сервері OLAP. Прикладами багатовимірних серверів можуть бути Lightship Server від Pilot Software і Essbase від Arbor Software.

Функціональні можливості OLAP характеризують підтримку кінцевих користувачів-аналітиків динамічним багатовимірним аналізом консолідованих підприємницьких даних і навігаційними діями, включаючи: обчислення і моделювання, що застосовується за допомогою вимірності, ієрархії і/або компонентів; аналіз трендів за послідовні періоди; квантування підмножин (підмножини даних аналізують за допомогою тонких зрізів) для візуалізації на екрані; практичне оброблення з підвищенням рівня деталізації до найглибших рівнів консолідації основних даних; прямий доступ до основних деталізованих даних; повернення до порівнянь у нових вимірах із застосуванням візуалізації.