Тема №17. Моделі сховищ даних

Запитання для самоперевірки

Тема №16. Архітектура сховищ даних

Запитання для самоперевірки

 

1. Мета інфологічного проектування?

2. З урахуванням чого формується дата логічний рівень?

3. Структура файла?

 

Література: Л2[150-153]

 

 

План:

1. Компоненти сховищ даних

 

Сховища даних можуть включати такі компоненти: віртуальне сховище даних, корпоративне сховище даних, кіоски чи вітрини даних.

Віртуальне сховище даних — це репозитарій метаданих, які описують джерела надходження інформації, структуру даних сховища, методи агрегації та завантаження даних, відомості про структуру бізнес-понять та інші дані про дані, що зберігаються у сховищі.

Корпоративні сховища даних (enterprіse data warehouses) вміщують інформацію, зібрану із певної множити оперативних БД, яка характеризує всю корпорацію і необхідна для виконання консолідованого аналізу діяльності корпорації в цілому. Такі сховища охоплюють всі численні напрямки діяльності корпорації і використовуються для прийняття як тактичних та і стратегічних рішень. Розробка корпоративного сховища даних дуже трудоміст­кий процес, який може становити від одного до кількох років, а обсяги сховища можуть досягати від 50 Гбайт до кількох терабайт.

Кіоски чи вітрини даних (data marts)це певна підмножина кор­поративних даних, які характеризують конкретний аспект діяльності корпорації, наприклад роботу якогось її підрозділу. Кіоск може отримувати дані з корпоративного сховища даних (залежний кіоск) чи бути незалежним, і тоді джерелом поповнення його даними будуть оперативні БД. Розробка кіоска даних потребує значно менше часу і в середньому триває близько трьох-чотирьох місяців.

Корпоративні сховища даних та кіоски будуються за подібними принципами і використовують практично одинакові технології.

В останні часи з’явилось поняття глобального сховища даних, в якому сховище даних розглядається як єдине джерело інтегрованих даних для всіх вітрин даних.

 

1. З яких компонентів складаються сховища даних?

2. Надайте характеристику корпоративного сховища даних.

 

Література: Л2[159-161]

 

 

План:

1. Моделі сховищ даних.

 

Сховища повинні надавати можливість параметризації даних за різними ознаками, наприклад банківські операції під час їх аналізу необхідно групувати за часом їх виконання, за клієнтами, за їх обсягами у вартісному виразі, за контрагентами, видами валют та іншими ознаками. Тобто дані мають бути представлені у сховищі таким чином, щоб надавати можливість їх багатовимірного аналізу. Основи багатовимірного аналізу були започатковані Е.Ф. Коддом (E. F. Codd) в 1993 р.

Найбільш вдалою формою представлення даних, що надасть можливість багатовимірної їх параметризації є подання даних у вигляді неплоскої реляційної моделі, а багатовимірної моделі. В основу OLАP-систем покладено поняття гіперкуба, тобто багатовимірного куба, у комірках якого зберігаються необхідні для аналізу дані.

Проте нині існує три варіанти побудови систем на основі сховищ даних: MOLAP (Multіdіmensіonal OLAP), ROLAP (Relatіonal OLAP) і HOLAP (Hybrіd OLAP). В MOLAP-системі гіперкуб реалізується як спеціальна модель нереляційної структури, яка швид­ше забезпечує доступ до даних, ніж реляційні моделі, але вимагає додаткових витрат пам’яті.

В ROLAP — системах гіперкуб це лише користувацький інтерфейс, який моделюється на традиційній реляційній базі даних. Дані в сховищі представляються у вигляді моделі, що дістала назву «зірка» (star schema). Ця модель складається з таблиць двох типів: однієї таблиці даних, що аналізуються, тобто фактів (fact table) — центр зірки і декількох таблиць, які характеризують пев­ні виміри цих фактів (demensіon table). Таблиця фактів вміщує числові характеристики якогось напрямку діяльності компанії чи фірми, наприклад обсяги продажу, а також ключі таблиць вимірів. Таблиці вимірів містять додаткові характеристики ключових полів, як правило, це довідкові дані, наприклад дані про назву товару, назву його виробника, тип товару та інші. Зауважимо, що дані таблиць вимірів денормалізовані.

Якщо ж таблиці вимірів нормалізовані, то така модель називається «сніжинкою» (snowflake schema). В ROLAP– системах зберігаються агреговані дані.

Такий підхід дозволяє зберігати великі обсяги даних, але вони не досить ефективні при виконанні аналітичних операцій, тому системи, побудовані на реляційних моделях, розглядаються швид­ше як інтелектуальні генератори звітів. Але досі ці системи пе-
реважають так, як в реляційні моделі вкладені великі інвестиції
і вони є більш зрозумілими і звичними.

HOLAP-системи — це комбінований варіант зберігання даних, який використовує обидва типи СУБД. У багатовимірній СУБД зберігаються агрегати даних, а докладні дані, які мають невеликий обсяг, зберігаються в реляційній СУБД.