VII. Засоби Data Mining в Microsoft SQL Server 2000

З можливостей, SQL Server 2000, що надаються, перш за все виділимо наступні:

· побудова і обробка моделей Data Mining;

· витягання даних як з реляційних, так і з багатовимірних джерел;

· два алгоритми здобування даних - Microsoft Decision Trees і Microsoft Clustering;

· розширення мови запитів до багатовимірних даних (MDX);

· робота із зовнішніми додатками через об'єктну модель DSO (Decision Support Objects).

Моделі

Моделі Data Mining - це основа витягання даних в SQL Server 2000. По суті модель є сукупність метаданих, що відображають деякі правила і закономірності в початкових даних. При цьому структура моделі визначає набір ключових атрибутів аналізу, тоді як її зміст несе безпосередньо статистичну інформацію - тут простежується схожість з ідеологією звичайних таблиць. Проте варто мати на увазі, що на основі одного і того ж набору початкових даних можна побудувати декілька різних моделей. У цьому сенсі побудова правильної моделі гарантує нам отримання саме тих “прихованих” даних, які ми прагнемо виявити. На рис. 12 показана структура моделі, що містить дані про покупців магазина в розрізі товарів, що їх придбають.

Рисунок 12. Структура моделі Data Mining  

Процес побудови моделі реалізований в Analysis Services у вигляді майстра, що дозволяє крок за кроком задати параметри моделі і виконати її обробку, що, на думку розробників, спрощує проведення аналізу.

Вибір джерела даних

Перший крок в побудові моделі - вибір джерела даних для аналізу. Підтримуються два типи джерел даних: багатовимірні, використовувані в рамках технології OLAP (правда, поки як OLAP-джерело можна використовувати тільки сам модуль Analysis Services), і звичайні - реляційні. Наявність першого варіанту дає набагато більшу свободу вибору для аналізу, адже далеко не кожне підприємство має власне багатовимірне сховище даних.

Після вибору джерела можна приступати безпосередньо до формування структури моделі. Для цього потрібно визначити таблицю (або вимір, у разі багатовимірного джерела), що містить аналізовані дані, а також вибрати одне з полів таблиці (або показник багатовимірного куба), яке знаходитиметься у фокусі дослідження. Наприклад, якщо вам потрібно оцінити ризик кредиту для певних клієнтів банку, то величину цього ризику можна вибрати як предмет дослідження. Початковими даними для дослідження у такому разі можуть виступати дані про клієнта - вік, річний дохід, наявність автомобіля, місце проживання і т.п. Взагалі кажучи, вибір початкових даних і предмету аналізу - процес творчий, так що якщо не вдалося отримати необхідні оцінки відразу, то спробуйте змінити структуру моделі, ввівши в неї додаткові атрибути. Можливо, це дозволить оцінити ситуацію з іншої точки зору.

Вибір алгоритму аналізу

Наступний важливий крок - вибір одного з двох алгоритмів аналізу даних. Як вже зазначалось , Analysis Services підтримує два алгоритми - Microsoft Decision Trees і Microsoft Clustering. Оскільки області застосування і результати роботи кожного з них можуть сильно розрізнятися, на цьому кроці має сенс зупинитися докладніше. Алгоритм Microsoft Decision Trees заснований на відомому методі побудови дерев рішень. У його рамках значення кожного з досліджуваних атрибутів класифікується на основі значень решти атрибутів, з використанням правил вигляду “якщо -- то”. Результат роботи такого алгоритму - деревовидна структура, кожен вузол якої є якесь запитання. Щоб вирішити, до якого класу віднести деякий об'єкт або ситуацію, потрібно відповісти на питання, що стоять у вузлах цього дерева, починаючи з його кореня (найбільш близький аналог такої структури - дерево видів в біології). Головна перевага цього алгоритму - наочність і простота використання. Проте область застосування "деревовидного" методу обмежена в основному завданнями класифікації Другий алгоритм, Microsoft Clustering, використовує інший, не менш відомий метод пошуку логічних закономірностей - метод “найближчого сусіда”. В процесі роботи алгоритму початкові дані об'єднуються в групи (кластери) на основі аналогічних або схожих значень атрибутів. Отримані набори даних аналізуються, що дозволяє виявити приховані закономірності або побудувати імовірносний прогноз. Даний алгоритм дозволяє провести глибший аналіз даних, чим дерево рішень, але і він має свої обмеження. Його переважно застосовують для наборів даних із схожими атрибутами, значення яких належать певному інтервалу (наприклад, вік, річний дохід і т. п.). Проте у разі нетипових значень атрибутів алгоритм може давати невірну оцінку. Вибір правильного алгоритму залежить від класу завдання, яке потрібно вирішити, а також від складу початкових даних. Задачі класифікації неоднорідних даних краще вирішувати за допомогою алгоритму дерев рішень, а завдання прогнозування або виявлення неявних закономірностей - за допомогою методу кластеризації. Який би алгоритм ви не вибрали, на цьому побудова моделі закінчена, і можна переходити до наступного процесу - тренування моделі.

Тренування побудованої моделі - це не що інше, як процес обробки початкових даних згідно вибраного алгоритму. Цей процес може зайняти тривалий час, особливо при великих об'ємах даних. Після закінчення тренування початкові дані більше вам не знадобляться. В результаті тренування модель буде заповнена статистичними даними, які можуть бути представлені як в графічному, так і в цифровому вигляді.

Відображення результатів

Для відображення результатів аналізу використовуються вбудовані засоби Analysis Services. При цьому варіанти відображення різні для кожного з алгоритмів. Як приклад нижче приведені результати роботи алгоритму Microsoft Decision Trees.

Рисунок 13. Дерево рішень.

Схема на рис.13 показує всі гілки побудованого дерева рішень. Темнішим кольором виділені гілки, відповідні найбільшій вірогідності (числу попадань), а світлішим - найменшою. У даному прикладі гілок у дерева небагато, проте в деяких випадках їх число може досягати декількох сотень. Виділена частина дерева відображається в режимі детального перегляду (рис.14).

Рисунок 14. Вибрана частина дерева рішень

Будь-яку частину дерева рішень можна виділити для детального перегляду, але при цьому не можна проглядати більше двох рівнів одночасно. На збільшеній частині дерева можна бачити значення, привласнені кожному з вузлів в процесі роботи алгоритму. Як і в режимі проглядання всього дерева цілком, колір вузла тут сигналізує про кількість попадань початкових даних в цю гілку. Вибір певного вузла дерева дозволяє проглянути статистичну інформацію про даний вузол в числовому вигляді. Ця інформація включає значення вузла дерева, кількість значень початкових даних, що потрапили в дану гілку, і вірогідність попадання (рис.15).

Рисунок 15. Інформація в числовій формі.

Отже, ми бачимо, що засоби витягання даних в SQL Server 2000 Analysis Services надають достатньо багатий набір функціональних можливостей для аналітиків і менеджерів підприємств. До того ж даний інструментарій відрізняється простотою у використанні і невисокою ціною, і, думається, він зможе знайти своїх користувачів в середовищі багатьох компаній.

VIII. Сфера застосування технологій інтелектуальних обчислень

8.1. Бізнес-застосування Data Mining

Для застосування продукту Data Mining, необхідно виконати ряд кроків:

1. Встановити масштаби проекту, що визначають, які дані необхідно зібрати. Важливо, щоб проект був направлений на реалізацію реальних бізнес -цілей.

2. Розробити базу даних для Data Mining. Необхідна інформація може бути розподілена по декількох базах, іноді вона навіть зберігається не в електронній формі. Дані з різних баз необхідно консолідувати і усунути невідповідності. Насправді розвиток технології баз даних вже не вимагає застосування алгоритмів Data Mining до окремої вітрини даних. Фактично, ефективний аналіз вимагає корпоративного сховища даних, що з погляду вкладень обходиться дешевше, ніж використання окремих вітрин.

Відзначимо, що у міру впровадження Data Mining - проектів в масштабі підприємства кількість користувачів зростає, тому все частіше виникає необхідність в доступі до великомасштабних інфраструктур даних. Сучасне сховище надає не тільки ефективний спосіб зберігання всіх корпоративних даних і усуває необхідність у використанні інших вітрин і джерел, але і стає ідеальною основою для Data Mining - проектів. Репозиторій даних підприємства забезпечує узгоджені і актуальні дані про клієнтів. Упроваджуючи Data Mining функції в сховищі, компанії скорочують витрати в двох напрямах. В цьому випадку, по-перше, вже не потрібно набувати і обслуговувати додаткове устаткування для Data Mining . По-друге, компанії не потрібно переносити дані зі сховища в спеціальні джерела для Data Mining - проектів, при цьому економляться час і матеріальні ресурси.

Ще один важливий момент - очищення даних. Тут розуміється перевірка на цілісність і обробка відсутніх значень. Точність методів Data Mining залежить від якості інформації, яка лежить в їх основі. Відмітимо, що перші два етапи можуть зайняти половину (а то і більше) часу, відведеного на весь проект.

3. Застосувати алгоритми Data Mining для визначення відносин між даними. І не виключено, що для виявлення потрібних залежностей доведеться використовувати декілька різних алгоритмів. Одні з них підійдуть на перших етапах процесу, інші на пізніших. У певних випадках має сенс запустити декілька алгоритмів паралельно, щоб проаналізувати дані з різних точок зору.

4. Досліджувати співвідношення, виявлені на попередніх етапах, на застосування в масштабах проекту. На цьому етапі можливо потрібна допомога експерта в певній області. Він визначить, чи є ті або інші відносини дуже специфічними або дуже загальними і вкаже, в яких областях слід продовжити аналіз.

5. Представити результати у вигляді звіту, в якому будуть перераховані всі відносини, що інтерпретуються. Такий звіт принесе тільки одномоментну вигоду, тоді таке як застосування, що дозволяє експертові творчо підходити до виявлення відносин, набагато корисніше. Тому фірма-постачальник повинна не тільки навчити клієнта методиці пошуку залежностей в даних, але і звернути особливу увагу на навчальній роботі з самою програмою.

Також на розподіл часу для Data Mining проекту впливають і інші чинники: тип кінцевого застосування, наявність і стан сховища даних. Наприклад, якщо взяти застосування для прогнозування продажів, то виявлені відносини між даними можна використовувати до тих пір, поки не зміниться діяльність компанії. І навпаки, при аналізі споживчої корзини компанія зазвичай шукає все нові залежності в даних. Для проекту прогнозування збуту більше часу доведеться витратити на перших трьох етапах, а для аналізу споживчої корзини - на останньому.

Сфера застосування Data Mining нічим не обмежена - вона скрізь, де є які-небудь дані. Але в першу чергу методи Data Mining сьогодні, м'яко кажучи, заінтригували комерційні підприємства, що розгортають проекти на основі інформаційних сховищ даних (Data Warehousing).

Data Mining представляють велику цінність для керівників і аналітиків в їх повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів Data Mining вони можуть отримати відчутні переваги в конкурентній боротьбі. Стисло охарактеризуємо деякі можливі бізнес- застосування Data Mining .

Роздрібна торгівля

Ось типові завдання, які можна вирішувати за допомогою Data Mining у сфері роздрібної торгівлі:

· аналіз купівельної корзини (аналіз схожості) призначений для виявлення товарів, яких покупці прагнуть придбати разом. Знання купівельної корзини необхідне для поліпшення реклами, вироблення стратегії створення запасів товарів і способів їх розкладки в торгових залах.

· дослідження тимчасових шаблонів допомагає торговим підприємствам приймати рішення про створення товарних запасів.

· створення прогнозуючих моделей дає можливість торговим підприємствам дізнаватися характер потреб різних категорій клієнтів з певною поведінкою. Ці знання потрібні для розробки точно направлених, економічних заходів щодо просування товарів.

Банківська справа

Досягнення технології Data Mining використовуються в банківській справі для вирішення наступних поширених завдань:

· виявлення шахрайства з кредитними картками. Шляхом аналізу минулих транзакцій, які згодом виявилися шахрайськими, банк виявляє деякі стереотипи такого шахрайства.

· сегментація клієнтів. Розбиваючи клієнтів на різні категорії, банки роблять свою маркетингову політику більш цілеспрямованою і результативною, пропонуючи різні види послуг різним групам клієнтів.

· прогнозування змін клієнтури. Data Mining допомагає банкам будувати прогнозні моделі цінності своїх клієнтів, і відповідним чином обслуговувати кожну категорію.

Телекомунікації

В області телекомунікацій методи Data Mining допомагають компаніям енергійніше просувати свої програми маркетингу і ціноутворення, щоб утримувати існуючих клієнтів і привертати нових. Серед типових заходів відзначимо наступні:

· аналіз записів про докладні характеристики викликів. Призначення такого аналізу - виявлення категорій клієнтів з схожими стереотипами користування їх послугами і розробка привабливих наборів цін і послуг;

· виявлення лояльності клієнтів. Data Mining можна використовувати для визначення характеристик клієнтів, які, один раз скориставшись послугами даної компанії, з великою часткою вірогідність залишаться їй вірними. У результаті засоби, що виділяються на маркетинг, можна витрачати там, де віддача більше всього.

Спеціальні застосування