Збереження даних (Data Retention).

ВСТУП

Збереження даних (Data Retention).............................................................

3.3.2. Дистиляція шаблонів (Data Distilled) .........................................................

IV. Генетичні алгоритми........................................................................

4.1. Генетичні успадкування —концептуа­льна засада генетичних алгоритмів.......

4.2. Загальна схема генетичних алгоритмів............................................................

4.3. Доступне програмне забезпечення генетичних алгоритмів ...........................

V. Програмні агенти в СППР .......................................................................

5.1. Призначення і основні характеристики програмних агентів.....................

5.2. Програмні агенти у СППР та ВІС.....................................................................

VI. Доступне програмне забезпечення дейтамайнінгу.............................

VII. Засоби Data Mining в Microsoft SQL Server 2000..........................................

VIII. Сфера застосування технологій інтелектуальних обчислень....................

8.1. Бізнес-застосування Data Mining...........................................................................

8.2. Технології ІАД та український ринок .....................................

ЛІТЕРАТУРА ...........................................................................................................

 

 

.

 

Засоби сучасної інформаційної технології в останній час уможливили накопичення і зберігання великих обсягів даних про бізнесові процеси. Ці дані можуть знаходитися в корпоративних базах або сховищах даних. Вони містять важливі закономірності і зв’язки між системними характеристиками, які можуть бути використані для прийняття обгрунтованих управлінських рішень. Наразі виникла проблема розробки методів відкриття таких закономірностей, про існування яких користувачі можуть і не знати. Проте традиційний аналіз даних передбачує введення даних в стандартні або настроєні користувачем моделі, тобто в будь-якому випадку допускається, що зв'язки між різними показниками добре відомі і можуть бути виражені математично. Однак, в багатьох випадках зв'язки не можуть бути апріорі відомі. У таких ситуаціях моделювання стає неможливим і тут можна застосовувати дейтамайнінг (Data Mining) – інтелектуальний аналіз даних (ІАД). Тому, особливо важливим аспектом підготовки спеціалістів напрямку "Комп'ютерні науки” є успішне засоєння ними дисципліни "Інтелектуальний аналіз даних”.

У результаті вивчення дисципліни “Інтелектуальний аналіз даних” студент повинен :

знати - сутність та призначення Data Mining; характеристики процесів та активностей дейтамайнінгу;дерево методів дейтамайнінгу; доступне програмне забезпечення ІАД; призначення та основні характеристики генетичних алгоритмів і програмних агентів;

вміти - будувати дерево методів дейтамайнінгу; проводити кластерний аналіз засобами дейтамайнінгу;здійснювати вибір відповідних логічних методів із побудовою таблиці трансакцій;будувати крос-таблицю;вміло застосовувати доступне програмне забезпечення дейтамайнінгу.

Опорний конспект лекцій з дисципліни “Інтелектуальний аналіз даних” включає 8 розділів, кожний із яких містить необхідний методичний матеріал для вивчення даного предмету.

 

 

I. Дейтамайнінг — засоби інтелектуального аналізу даних у СППР

1.1. Представлення нової технології інтелектуального аналізу даних (ІАД)

Комп'ютерні технології із застосуванням інтелектуальних обчислень переживають свій розквіт. Це пов'язано, головним чином, з потоком нових ідей, що виходять з галузі комп'ютерних наук, яка утворилась на перетині штучного інтелекту, статистики та теорії баз даних. Зараз відбувається стрімкий зріст числа програмних продуктів, що використовують нові технології, а також типів задач, де їх застосування надає значного економічного ефекту. Елементи автоматичної обробки і аналізу даних, що називають Data Mining (знаходження знань) стають невід'ємною частиною концепції електронних сховищ даних та організації інтелектуальних обчислень. Простий доступ користувача до сховища даних забезпечує тільки отримання відповідей на питання, що були задані, в той час як технологія data mining дозволяє побачити ("знайти") приховані правила і закономірності у наборах даних, які користувач не може передбачити, і застосування яких може сприяти збільшенню прибутків підприємства.

Data Mining переводиться як "видобуток" чи "добування даних". Нерідко поруч зData Mining зустрічаються слова "інтелектуальний аналіз даних". Справа в тому, що людський розум сам по собі не пристосований для сприйняття великих масивів різнорідної інформації. Але і традиційна математична статистика, яка довгий час претендувала на роль основного інструмента аналізу даних, також нерідко відстає при вирішенні складних життєвих задач. Вона оперує усередненими характеристиками вибірки, що часто є фіктивними величинами (типу середньої температури пацієнтів в лікарні, середньої висоти будинку на вулиці тощо ). Тому методи математичної статистики виявляються корисними, головним чином, для перевірки заздалегідь сформульованих гіпотез.

 

Можливості інтелектуального аналізу

Більшість підприємств накопичують під час своєї діяльності величезні обсяги даних, але єдине, що вони хочуть від них одержати - це корисну інформацію. Яким чином можна довідатися з даних про те, що є найбільш потрібним для їхніх клієнтів, як найефективніше використати наявні ресурси або як мінімізувати втрати? Для вирішення цих проблем призначені новітні технології інтелектуального аналізу. Вони використовують складний статистичний аналіз і моделювання для знаходження моделей і відношень, прихованих у базі даних - таких моделей, що не можуть бути знайдені звичайними методами. Доти поки модель не відповідає існуючим реально відношенням, неможливо отримати успішні результати. Технології інтелектуального аналізу можуть не тільки підтвердити емпіричні спостереження, але і знайти нові, невідомі раніше моделі. За допомогою методів data mining можна знайти таку модель, що приведе до радикального поліпшення у фінансовому і ринковому становищі компанії. Хоча інструментарій інтелектуального аналізу і звільняє користувача від можливих складностей у застосуванні статистичних методів, він все-таки потребує від нього розуміння роботи цього інструментарію й алгоритмів, на яких він базується. Крім цього, технологія знаходження нового знання в базі даних не може дати відповіді на ті питання, що не були задані. Вона не заміняє аналітиків чи менеджерів, а дає їм сучасний, могутній інструмент для поліпшення роботи, яку вони виконують.

 

1.2. Суть і складові інтелектуальної фази при прийнятті рішень

Процес створення рішення розпочинається з фази обдумування,протягомякоїдосліджується реальність (ситуація прийняття рішення), ідентифікується проблема та визначається особа або група осіб, відповідальних за її розв’язок (тримачі проблеми).

Інтелектуальна фаза розпочинається з ідентифікації організаційної мети або цілей, зв'язаних з поточними бізнесовими питаннями (наприклад, обчислення оптимального рівня запасу, формування замовлень на виготовлення продукції, проведення диверсифікаційних заходів тощо), визначення, чи ці питання взагалі існують і наскільки вони важливі. Проблеми, котрі потребують вирішення, зазвичай виникають при незадовільному стані бізнесової діяльності, коли фактичні здобутки не виправдовують витрачених на їх отримання зусиль або суттєво відрізняються стандартів продуктивності (наприклад, фінансових індикаторів).

Ідентифікація проблеми включає, крім визначення реальності її існування, виділення її симптомів, окреслення її масштабів та формулювання проблеми в явному виді. Часто те, що описується як проблема (наприклад, надмірні витрати) може бути тільки симптомом або мірою іншої проблеми (наприклад, як невідповідний рівень запасу). Оскільки реальні, світового рівня проблеми зазвичай надзвичайно ускладнені в силу дії багатьох взаємозв’язаних чинників (що, в загальному випадку, не підвладні творцям рішення), тому в практичному менеджменті інколи важко відрізнити симптоми від конкретних проблем.

Існування проблеми можна визначити за допомогою моніторингу бізнесових подій і транзацій та шляхом аналізування рівня організаційної продуктивності. Вимірювання продуктивності і створення відповідної моделі має базуватися на реальних даних. Збирання даних і оцінювання майбутніх значень параметрів системи є найбільш важким кроком аналізу. Виділимо головні випадки, що можуть мати місце протягом етапів збирання та оцінювання даних і які створюють труднощі при ідентифікації проблеми та її вирішення:

- Дані є недоступними. В даному разі заміна їх неточними оцінками, які можуть бути покладені при створенні моделі, приводить до помилкових рішень.

- Одержування даних може бути дорогим, тобто витрати матеріальних і трудових ресурсів або непосильні творцю рішень, або значно перевищують потенційні вигоди від рішення.

- Оцінювання даних часто буває суб’єктивним, тобто не відображати реальний стан речей.

- Важливі дані, що впливають на результат, є якісними, тому виникає проблема їх квантифікації.

- Великий обсяг надходжуваних даних, які не може збагнути творець рішення (інформаційне перевантаження). В даному разі рішення або не створюється вчасно, або вони грунтується на фрагментах загальної картини реальної ситуації, що в любому випадку є небажаним.

- Наслідки чи результати рішення можуть відбуватися за межами визначеного періоду часу. В такому випадку вартісні елементи рішень, такі як значення доходів, витрат і прибутків, мають бути придатними для запису в різні моменти часу. З цією метою, зокрема, використовується підхід поточної вартості майбутнього (present-value), пов’язаний з дисконтуванням витрат і надходжень.

- Часто робляться припущення, що майбутні дані будуть подібні до історичних. В такому разі має бути упевненість в тому, що минулі ситуації повторюються. Якщо так не можна діяти, то потрібно передбачити природу можливих змін даних і включити це в аналіз.

Як тільки буде завершене попереднє дослідження, то це дає можливість визначити, чи дійсно проблема існує, де вона розміщена і настільки вона суттєва. Інтелектуальна фаза, як правило, завершується формальним формулюванням проблеми.

 

1.3. Комп’ютеризовані засоби підтримки інтелектуальної фази

Перша вимога щодо підтримки рішення для інтелектуальної фази є отримання здатності переглядати зовнішні і внутрішні інформаційні джерела для окреслення можливостей бізнесової системи та ідентифікації проблем, а також щоб надійно інтерпретувати виявлені скануванням (переглядом) ситуаційної обстановки факти і закономірності. Підтримуючі рішення засоби інформаційної технології тут виявляються надзвичайно доречними.

Найбільш пристосованими (можливо і спеціально розробленими) для першої фази створення рішень є так звані орієнтовані на дані системи підтримки прийняття рішень (Data-driven DSS) . Ця категорія включає системи управління створенням звітів, сховище даних і системи аналізу, виконавчі інформаційні системи (ВІС), географічні інформаційні системи (ГІС), системи бізнесової інформації (Business Intelligence Systems), системи оперативного аналітичного оброблення OLAP (on-line analytic processing). В цих типах СППР робиться наголос на доступі і маніпулювання з великими БД структурованих даних, часовими рядами внутрішніх даних компанії і деякими зовнішніми даними.

Наприклад, головне призначення ВІС є підтримка інтелектуальної фази за допомогою безперервного моніторингу зовнішньої і внутрішньої інформації, перегляду ранніх ознак проблем і можливостей. В даний час на ринку програмних продуктів пропонуються десятки комерційних продуктів виконавчих інформаційних систем, створених різними компаніями світу, лідерами серед яких є:

корпорації Pilot Software, Inc., що володіє 25 % ринку ВІС за доходом, найбільш відомими ВІС цієї корпорації -- Commander Center, Lightship і Lightship Lens. У центрі уваги цих програмних продукту — ідентифікація і стеження за ключовими індикаторами (показчиками) діяльності фірми;

Comshare Inc. , що володіє 60 % ринку ВІС за доходом. Найбільш відомою ВІС цієї корпорації є Commander EIS (дозволяє розпізнавати ключові індикатори або “важливі коефіцієнти успіху”, а далі відстежувати їх ).

Набули розповсюдження також інші ВІС, зокрема розроблена фірмою Execucom з використанням відомого продукту IFPS/Plus Executive Edge; інститут SAS розробив SAS/EIS як середовище для розробки ВІС, що включає об'єкти для побудови ВІС.

Системи сховищ даних, які дозволяють маніпулювання даними за допомогою комп'ютеризованих інструментальних засобів, пристосовані до специфічних задач, є більш загальними інструментальними засобами і операціями, що забезпечують додаткові функціональні можливості. На даний час пропонуються сотні різних засобів для створення сховищ даних. У створенні великих сховищ даних лідирують корпорації IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase, Microsoft. Крім того, на ринку продуктів для побудови і використання сховищ даних значне місце займають Brann Software. Business Objects, Cayenne Software, Computer Associates, MicroStrategy, Prism Solutions, Brio Technology, Cognos, Platinum Technology .

СППР з оперативною аналітичною обробкою (OLAP) забезпечують найвищий рівень функціональних можливостей і підтримки рішення, яка поєднана з аналізом великих сукупностей історичних даних. Однією з найбільш відомих реалізацій ідеї оперативної аналітичної обробки, що інтенсивно впроваджується в Україні, є сімейство програмних продуктів Oracle Express OLAP, котре являє собою інструментально-технологічне програмне забезпечення, призначене для створення прикладних аналітичних систем підтримки прийняття рішень на основі багатовимірного аналізу даних. Є низка інструментальних засобів для кінцевого користувача, доступні для підтримки OLAP. Вони включають Business Object Inc. Business Objects, програмне забезпечення AG Esperant, Andyne PaBLO, Visualizer IBM і Platinum Forest & Trees. Ці, а також десятки інших інструметальних засобів OLAP продуктивно можуть використовуватися для підтримки інтелектуальної фази створення рішень.

Системи бізнесової інформації (бізнес-інтелектуальні системи) призначені для аналізу великих за обсягом масивів даних, поданих у вигляді гіперкубів даних .

Географічна інформаційна система (ГІС) – програмно-апаратний комплекс, призначений для збору, керування, аналізу і відображення просторово-розподіленої інформації. ГІС є підтримуюча система, яка представляє дані з використання карт (мап). Вона допомагає менеджерам мати доступ, показувати і аналізувати дані, які мають географічний зміст і значення. Окремі типи ГІС доречні в аналізі маршрутизації і розміщення, маркетингу і в інших традиційних областях бізнесу. Також програмне забезпечення ГІС забезпечує зв'язок між інтерфейсом користувача і базою даних, тому користувач може запитувати і аналізувати просторові дані. Прикладом цього типу програмного забезпечення є програмне забезпечення ГІС ArcInfo8 підприємства ESRI. ArcInfo призначено, щоб допомогти користувачам запитувати і бачити просторові дані. Інший, широко використовуваний продукт настільного відображення, є MapInfo.

Важливим джерелом інформації для підтримки інтелектуальної фази створення рішень є традиційні інформаційні систем менеджменту (МІС), наприклад 1С, а також сучасні широкомасштабні корпоративні системи (R/3, Scala 5, Oracle Application, Baan-IV, ГАЛАКТИКА), в яких забезпечується інтегроване оброблення інформації всіх бізнесових областей (маркетинг, виробництво, фінанси).

Засоби і технології дейтамайнінгу (Data Mining) також виявитися надзвичайно корисними для фази обдумування проблеми . До числа найбільш відомих програмних продуктів дейтамайнінгу слід віднести PolyAnalyst, MineSet, KnowlengeSTUDIO. Для прогнозування окремих показників і параметрів бізнесової діяльності на інтелектуальній фазі створення рішення в останній час широко застосовуються програмні засоби нейромереж. На ринку програмних продуктів пропонується десятки придатних для використання нейропакетів (наприклад, NeuroShelL).

Орієнтовані на знання СППР, зокрема експерні системи (ЕС) і правило-орієнтовані СППР також підтримують інтелектуальну фазу. ЕС можуть надати поради про природу проблеми, її класифікацію, її серйозність і тому подібне. ЕС можуть створювати рекомендації щодо придатності вибраного для розв’язування проблеми підходу та ймовірності успіху розв'язування. Однією із перших областей успішного застосування ЕС є проблеми інтерпретації інформації і діагностика. Ці можливості можуть використовуватися в інтелектуальній фазі.

1.4. Методологічні засоби підтримки інтелектуальної фази

На стадії обдумування і формулювання проблеми, котра вимагає подальшого вирішення, зазвичай основне “інтелектуальне” навантаження лягає на творця рішення. Тому методологічна підтримка має бути зорієнтовна головно на суб’єктивне оцінювання інформації і обставин. З цією метою використовується низка методів і підходів, більшість яких вмонтовані в методологічну базу різних СППР. До числа таких методів можна віднести: дерева цілей, оцінювання імовірностей, матриця аномальних подій, мозкова атака, метод Дельфі, метод історичних аналогій, порівняльний аналіз, вивчення прикладів, жюрі або симульоване опитування думок. З метою упорядкування вхідної інформації і на цій основі отримання якісно нової може застосовуватися морфологічний аналіз як упорядкований спосіб розгляду предметів і отримання систематизованої інформації стосовно всіх можливих розв’язків досліджуваної проблеми . Для задач таксономії окремих елементів рішення може застосовуватися кластерний аналіз. Виокремлення проблеми і її симптомів, виділення підпроблем та установлення їх ієрархії зручно проводити за допомогою методів дерев рішень та діаграм впливу.

 

II. Розвиток і призначення дейтамайнінгу (Data Mining)

2.1. Поняття Data Mining

У 70-х роках минулого століття широко застосовувалася практика, коли компанії наймали аналітиків з бізнесу, котрі, вико­ристовуючи статистичні пакети подібні SAS і SPSS, виконували аналіз трендів даних і проводили їх кластерний аналіз. Як тільки стало технологічно можливим і доцільним зберігати великі обсяги даних, менеджери виявили бажання самим мати доступ до даних, подібних тим, що генеруються в пам'яті касового апарата роздріб­ної торгівлі й аналізувати їх. Запровадження штрихових кодів і гло­бальна гіпертекстова система Інтернету також зробили реальною можливість для компаній збирати великі обсяги нових даних. Однак у зв'язку з цим виникло питання про інструментальні засоби добу­вання корисної інформації з нагромаджених обсягів «сирих» даних. Ці засоби опісля отримали назву «Data Mining» (дейтамайнінг).

Слід зауважити, що протягом багатьох років компанії прово­дили статистичні дослідження своїх даних. Коли статистик аналі­зує дані, то він спочатку висуває гіпотезу про можливий зв'язок між певними даними, а потім посилає запит до бази даних і вико­ристовує відповідні статистичні методи, щоб довести або спрос­тувати сформульовану гіпотезу. Це підхід називається «режимом верифікації» («verification mode»). На противагу йому програмне забезпечення дейтамайнінгу функціонує в «режимі відкриття» (discovery mode), тобто виявляє приховані, часто невідомі для ко­ристувачів шаблони (patterns) зв'язків між даними, а не аналізує наперед створену гіпотезу щодо них.

За останні роки надзвичайно зріс інтерес до дейтамайнінгу з боку ділових користувачів, котрі вирішили скористатися перева­гами даної технології для отримання конкурентної переваги в бі­знесі (див. http://www.datamining.com/). Зростаюча зацікавленість щодо впровадження дейтамайнінгу (ДМ) у результаті закінчилася появою низки комерційних продуктів, кожен з яких має таку са­му назву, описаний низкою подібних елементів, але фактично має неоднакові функціональні можливості й ґрунтується на різ­них особливих технічних підходах.

Менеджери з інформаційних технологій, що мають завдання підібрати відповідну СППР, часто безпосередньо зустрічаються зі складними питаннями стосовно реагування на потреби бізнес-користувачів через те, що засадні принципи створення дейтамай­нінгу набагато складніші, ніж традиційні запити і формування звітів, крім того, вони відчувають підсилений тиск щодо часу ре­алізації потреб користувачів, тобто користувачі вимагають роз­робити дейтамайнінг якомога швидше. Проте очевидною пере­шкодою для розроблення і впровадження в корпораціях рішень з дейтамайнінгу є наявність багатьох різних підходів до нього, що мають свої певні властивості й переваги, у той час як фактично тільки кількома основними методами формуються основи біль­шості систем ДМ. У цьому контексті важливою є однозначна ін­терпретація самого поняття дейтамайнінгу.

Дейтамайнінг (Data mining)— це тип аналітичних додатків які підтримують рішення, розшукуючи за прихованими шабло­нами (patterns) інформацію в базі даних. Цей пошук може бути зроблений або користувачем (тобто тільки за допомогою вико­нання запитів) або інтелектуальною програмою, яка автоматично розшукує в базах даних і знаходить важливі для користувача зра­зки інформації. Відповіді на інформаційні запити подаються в бажаній для користувача формі (наприклад, у вигляді діаграм, звітів тощо).

Англомовний термін «Data mining» часто перекладається як «добування даних»; «добування знань»; «добування інформації»; «аналіз, інтерпретація і подання інформації зі сховища даних»; «вибирання інформації із масиву даних». У даній книзі буде ви­користовуватися як основний термін «дейтамайнінг» — україно­мовна транскрипція початково запровадженого і однозначно вживаного в англомовній літературі терміна «Data mining».

Добування даних — це процес фільтрування великих обсягів даних для того, щоб підбирати відповідну до контексту задачі інформацію. Вживається також термін «Data surfing» (дослі­дження даних в Інтернеті). Корпорація IBM визначає ДМ, як «процес екстракції з великих баз даних заздалегідь невідомої, важливої інформації, що дає підстави для дій та використання її для розроблення критичних бізнесових рішень». Інші визначення не пов'язують ні з обсягом бази даних, ні з тим, чи використову­ється підготовлена інформація в бізнесі, але переважно ці умови загальні.

Інструментальні засоби добування даних використовують різ­номанітні методи, включаючи доказову аргументацію (case-based reasoning), візуалізацію даних, нечіткі запити й аналіз, нейромережі та інші. Доказову аргументацію (міркування за прецеден­тами) застосовують для пошуку записів, подібних до якогось пе­вного запису чи низки записів. Ці інструментальні засоби дають змогу користувачеві конкретизувати ознаки подібності підібра­них записів. За допомогою візуалізації даних можна легко і швид­ко оглядати графічні відображення інформації в різних аспектах (ракурсах). Ці та інші методи частково були розглянуті раніше, а детальніше будуть розглянуті далі.

Дейтамайнінг як процес виявлення в загальних масивах даних раніше невідомих, нетривіальних, практично корисних і доступ­них для інтерпретації знань, необхідних для прийняття рішень у різних галузях людської діяльності, практично має нічим не об­межені сфери застосування. Але, насамперед, методи ДМ нині більше всього заінтригували комерційні підприємства, що ство­рюють проекти на основі сховищ даних (Data Warehousing), хоча наявність сховища даних не є обов'язковою умовою здійснення дейтамайнінгу. Досвід багатьох таких підприємств свідчить, що рівень рентабельності від застосування дейтамайнінгу може до­сягати 1000 %. Наприклад, відомі повідомлення про економічний ефект, за якого прибутки у 10—70 раз перевищували первинні витрати, що становили від 350 до 750 тис. дол. Є відомості про проект у 20 млн дол., який окупився всього за 4 місяці. Інший приклад — річна економія 700 тис. дол. за рахунок упровадження дейтамайнінгу в мережі універсамів у Великобританії.

Дейтамайнінг являє собою велику цінність для керівників і аналітиків у їх повсякденній діяльності. Ділові люди усвідомили, що за допомогою методів ДМ вони можуть отримати відчутні пе­реваги в конкурентній боротьбі.

 

2.2. Інтеграція OLAP-технологій та ІАД

Оперативна аналітична обробка та інтелектуальний аналіз даних - дві складові частини процесу підтримки прийняття рішень. Але сьогодні більшість систем OLAP загострює увагу тільки на забезпеченні доступу до багатовимірних даних, а більшість засобів ІАД, що працюють у сфері закономірностей, мають справу з одновимірними перспективами даних. Ці два види аналізу повинні бути тісно об'єднані, тобто системи OLAP повинні фокусуватися не тільки на доступі, але і на пошуку закономірностей. Як відмітив N. Raden, "багато компаній створили ... прекрасні сховища даних, ідеально розклавши по поличках гори невживаної інформації, яка сама по собі не забезпечує ні швидкою, ні достатньо грамотної реакції на ринкові події".

Вчений K. Parsaye вводить складений термін "OLAP Data Mining" (багатовимірний інтелектуальний аналіз) для позначення такого об'єднання інший науковець J. Han пропонує ще простішу назву - "OLAP Mining", і пропонує декілька варіантів інтеграції двох технологій.

"Cubing then mining". Можливість виконання інтелектуального аналізу повинна забезпечуватися над будь-яким результатом запиту до багатовимірного концептуального уявлення, тобто над будь-яким фрагментом будь-якої проекції гіперкуба показників.

"Mining then cubing". Подібно даним, витягнутим з сховища, результати інтелектуального аналізу повинні представлятися в гіперкубічній формі для подальшого багатовимірного аналізу.

"Cubing while mining". Цей гнучкий спосіб інтеграції дозволяє автоматично активізувати однотипні механізми інтелектуальної обробки над результатом кожного кроку багатовимірного аналізу (переходу між рівнями узагальнення, витягання нового фрагмента гіперкуба і т. д.).

На жаль, дуже небагато виробників надають сьогодні достатньо могутні засоби інтелектуального аналізу багатовимірних даних в рамках систем OLAP. Проблема також полягає в тому, що деякі методи ІАД (байєсівські мережі, метод найближчого сусіда) непридатні для завдань багатовимірного інтелектуального аналізу, оскільки засновані на визначенні схожості деталізованих прикладів і не здатні працювати з агрегованими даними .

 

 

Рисунок 1. 8. Архітектура системи багатовимірного інтелектуального аналізу даних

 

Дуже часто виникає питання про різницю між засобами інтелектуального аналізу і OLAP-системами (On-Line Analytical Processing) - засобами оперативної аналітичної обробки.

OLAP - це частина технологій, скерованих на підтримку прийняття рішення. Звичайні засоби формування запитів і звітів описують саму базу даних. Технологія OLAP використовується для відповіді на задані питання. При цьому користувач сам формує гіпотезу про дані чи відношення між даними і після цього використовує серію запитів до бази даних для підтвердження чи відхилення цих гіпотез. Засоби Data Mining відрізняються від засобів OLAP тим, що замість перевірки передбачуваних взаємозалежностей, вони на основі наявних даних можуть будувати моделі, що дозволяють кількісно оцінити ступінь впливу досліджуваних факторів. Крім того, засоби інтелектуального аналізу дозволяють робити нові гіпотези про характер невідомих, але реально існуючих відношень у даних.

Сучасні технології інтелектуального аналізу опрацьовують інформацію з метою автоматичного пошуку шаблонів, характерних для яких-небудь фрагментів неоднорідних багатомірних даних. На відміну від оперативної аналітичної обробки даних у Data Mining тягар формулювання гіпотез і виявлення незвичайних шаблонів перекладено з людини на комп'ютер.

Приклади формулювань задач при використанні методів OLAP і Data Mining

OLAP Data Mining
Які середні показники травматизму для людей, що палять і не палять? Які фактори найкраще передбачають нещасні випадки?
Які середні розміри телефонних рахунків існуючих клієнтів у порівнянні з рахунками колишніх клієнтів (що відмовилися від послуг телефонної компанії)? Які характеристики відрізняють клієнтів, що, цілком ймовірно, збираються відмовитися від послуг телефонної компанії?
Яка середня величина щоденної купівлі по вкраденій та невкраденій кредитній картці? Які схеми купівлі характерні для шахрайства з кредитними картками?

 

2.3. Data Mining і сховища даних

Для успішного проведення всього процесу знаходження нових знань необхідною умовою є наявність сховища даних.

Отже, сховище даних- це предметно-орієнтований, інтегрований, прив'язаний до часу, незмінний збір даних для підтримки процесу прийняття управлінських рішень. Предметна орієнтація означає, що дані об'єднані в категорії і зберігаються відповідно до тих областей, що вони описують, а не до їх застосувань. Інтегрованість означає, що дані задовольняють вимогам усього підприємства (у його розвитку), а не єдиної функції бізнесу. Тим самим сховище даних гарантує, що однакові звіти,згенеровані для різних аналітиків, будуть містити однакові результати.

Прив'язка до часу означає, що сховище можна розглядати як сукупність

"історичних" даних: можна відновити картину на будь-який момент часу.

Атрибут часу завжди є явно присутнім у структурах сховища даних.

Незмінність означає, що, потрапивши один раз у сховище, дані вже не

змінюються на відміну від оперативних систем, де дані зобов'язані бути

присутніми тільки в останній версії, оскільки постійно змінюються. У сховище

дані лише долучаються.

Для рішення переліченого ряду задач, що неминуче виникають при організації

й експлуатації інформаційного сховища, повинно існувати спеціалізоване

програмне забезпечення. Сучасні засоби адміністрування сховища даних мають

забезпечити ефективну взаємодію з інструментарієм знаходження нового

знання.

III. Характеристика процесів і активностей дейтамайнінгу

3.1. Процеси дейтамайнінгу

Засоби сучасної інформаційної технології в останній час уможливили накопичення і зберігання великих обсягів даних про бізнесові процеси. Ці дані можуть знаходитися в корпоративних базах або сховищах даних. Вони містять важливі закономірності і зв’язки між системними характеристиками, які можуть бути використані для прийняття обгрунтованих ділових рішень. Наразі виникла проблема розробки методів відкриття таких закономірностей, про існування яких користувачі можуть і не знати. Проте традиційний аналіз даних передбачує введення даних в стандартні або настроєні користувачем моделі, тобто в будь-якому випадку допускається, що зв'язки між різними показниками добре відомі і можуть бути виражені математично. Однак, в багатьох випадках зв'язки не можуть бути апріорі відомі. У таких ситуаціях моделювання стає неможливим і тут можна застосовувати дейтамайнінг (Data Mining) .

Традиційно мали місце два типи статистичних аналі­зів: підтверджуючий (confirmatory analysis) і дослідницький аналіз (exploratory analysis). У підтверджуючому аналізі будь-хто має конкретну гіпотезу і в результаті аналізу або підтвер­джує, або спростовує її. Однак недоліком підтверджуючого ана­лізу є недостатня кількість гіпотез у аналітика. За дослідницько­го аналізу виявляють, підтверджуються чи спростовуються підхожі гіпотези. Тут система, а не користувач, бере ініціативу за аналізу даних.

Здебільшого термін «дейтамайнінг» використовується для описання автоматизованого процесу аналізу даних, в якому сис­тема сама бере ініціативу щодо генерування взірців, тобто дейта­майнінг належить до інструментальних засобів дослідницького аналізу.

В загальному вигляді можна виділити три класи процесів дейтамайнінгу: відкриття, пророче моделювання і аналіз аномалій (див. рис.2). Процеси, що входять в ці класи, досить різноманітні, але в своїй основі мають низку загальних ознак, зокрема: дані, що несуть цінну інформацію, часто глибоко приховані в середині по справжньому великих баз даних, які інколи містять дані за багато років. У деяких випадках ці дані консолідуються в сховища даних; обчислювальне середовище дейтамайнінгу звичайно орієнтовано на архітектуру клієнт/сервер; найдосконаліші нові інструментальні засоби, включаючи продвинуті інструментальні засоби візуалізації, допомагають переміщувати інформаційну "руду", зариту в корпоративних файлах або архівних експортованих даних, щоб отримати корисний результати. Найновіші засоби добування інформації - текстовий дейтамайнінг - також дозволяють досліджувати корисні "непрограмовані" дані (неструктурний текст, який зберігається в різних позиціях, як наприклад, базі даних Lotus Notes, текстові файли на Internet або корпоративному Інтранет); реальним добувальником інформації часто є кінцевий користувач, котрий займається практичними обробками даних (Drill Down/Up) та іншими інструментальними засобами запиту, щоб створювати епізотичні запити і одержувати швидкі відповіді, маючи при цьому незначну комп’ютерну підготовку або не володіючи ніякою майстерністю програмування; попадання на інформаційну ”жилу" часто включає виявлення непередбаченого результату і вимагає, щоб кінцеві користувачі думали творчо;інструментальні засоби дейтамайнінгу легко комбінуються з електронними таблицями та іншими інструментальними засобами розробки програмного забезпечення. Тому здобуті в результаті дейтамайнінгу дані можуть бути швидко і легко аналізуватися та оброблюватися; через великі обсяги даних інколи необхідно використовувати паралельне виконання дейтамайнінгу.

 

Рисунок 2. Типи процесів дейтамайнінгу

Відомі п'ять загальних типів інформації, що можуть бути одержані засобами дейтамайнінгу:

· класифікація: дозволяє робити висновок щодо визначення характеристик конкретної групи (наприклад, споживачі, які були втрачені через дії конкурентів);

· кластерізація: ототожнює групи елементів, які використовують спільно зображуючий параметр сигналу даних (кластерізація відрізняється від класифікації, бо не вимагається наперед визначена характеристика);

· асоціація: ідентифікуєзв'язки або відношення між подіями, які відбувалися колись (наприклад, зміст кошика відвідань магазину за покупками)

· упорядковування: подібно асоціації, крім того, установлюється зв'язок в часовому вимірі (наприклад, повторний візит до супермаркету або фінансове планування виготовлення продукту);

· прогнозування: оцінює майбутні значення, засновані на взірцях, здобутих з великого набору даних (наприклад, прогнозування попиту).

 

3.2. Користувачі та дії дейтамайнінгу

Необхідно відрізняти описані щойно процеси від дій дейтамайнінгу, за допомогою яких процеси дейтамайнінгу мо­жуть бути виконані, і користувачів, які виконують ці дії. Спершу про користувачів. Дії дейтамайнінгу, зазвичай, виконуються трьома різними типами користувачів: виконавцями (executives), кінцевими користувачами (end users) і аналітиками (analysts). Усі користувачі, як правило, виконують три види дії дейтамайнінгу всередині корпоративного середовища: епізодичні; стратегічні; безперервні (постійні).

Безперервні і стратегічні дії дейтамайнінгу часто стосуються безпосередньо виконавців і менеджерів, хоч аналітики також мо­жуть у цьому їм допомагати.

3.3. Дерево методів дейтамайнінгу

Технології дейтамайнігу використовують велике число методів, частина з яких запозичена з інструментарію штучного інтелекту, іншу частину складають або класичні статистичні методи, або іноваційні методи, породжені останніми досягненнями інформаційної технології. Верхній рівень дихотономії технологій дейтамайнінгу може бути оснований на тому, чи зберігаються дані після дейтамайнінгу, чи вони дистилюються для подальшого використання.

На рис. 3. показано класифікаційне дерево методів дейтамайнінгу, де відображені основні класи і підкласи методів, причому гілкування можна продовжити, через те, що низка методів, наприклад, кластерний аналіз, нейромережі, дерева рішень включають багато різновидів. Зупинимося на короткому аналізі складових дерева методів дейтамайнінгу, приділяючи більше уваги тим з них, які мало висвітлені в україномовній літературі.

 

В той час, як при дистиляції шаблонів ми аналізуємо дані, виділяємо взірець і потім залишаємо (або забуваємо) дані, то при підході збереження дані зберігаються для зіставляння з взірцем (шаблоном). Коли надходять нові елементи даних, то вони порівнюються з попереднім набором даних.

Кластерний аналіз – це спосіб групування багатовимірних об’єктів, що базується на зображенні результатів окремих спостережень точками геометричного простору з наступним виділенням груп як “грон” цих точок. Термін “кластерний аналіз” запропонований К. Тріоном в 1939 р. (cluster -грона, скупчення, пучок англ.).

Синонімами (хоч з обмовками і не завжди) виступають вирази: автоматична класифікація, таксономія, розпізнавання без навчання, розпізнавання образів без вчителя, самонавчання та інш. В дейтамайнінгу кластерний аналізвикористовується в основному для задач таксономії.

Основна мета цього виду аналізу - виділити в початкових багатовимірних даних такі однорідні підмножини, щоб об'єкти всередині груп були схожі у відомому значенні один на одного, а об'єкти з різних груп не схожі. Під “схожими” розуміється близькість об'єктів в багатовимірному просторі ознак, і тоді задача зводиться до виділення в цьому просторі природних скупчень об'єктів, які і вважаються однорідними групами.

В кластерному аналізі використовуються десятки різних алгоритмів і методів (один з таких методів - K-Means реалізований в системі дейтамайнінгу KnowledgeSTUDIO).

Метод “найближчого сусіда” (“nearest neighbor”) - добре відомий приклад підходу, який основується на збереження даних. При цьому набір даних тримається в пам'яті для порівняння з новими елементами даних. Коли презентується новий запис для передбачення, знаходяться “відхилення" між ним і подібними наборами даних, і найбільш подібний (або найближче сусідній) ідентифікується.

Наприклад, якщо розглядається новий споживач банківських послуг, то атрибути пропонованого клієнта порівнюються з всіма існуючими банківськими клієнтами (наприклад, вік і прибуток перспективного порівняно з віком і прибутком існуючих клієнтів). Потім множина найближчих “сусідів” для перспективного клієнта вибирається на підставі найближчого значення прибутку, віку тощо. При такому підході використовується термін “K-найближчий сусід" (K-nearest neighbor”). Термін означає, що вибираються K верхніх (самих найближчих ) сусідів (наприклад, десять верхніх) для розгляду розгляду в перспективі. Наступне найближче порівняння виконується, щоб вибрати серед нових продуктів (наприклад, послуг банку), що найбільш відповідає перспективі на основі продуктів, які використовуються верхніми K сусідами. Добре відомим прикладом програмного продукту з компонентами найближчим сусідом є система Darwin™ корпорації TMC.

Звичайно, дуже дорого тримати всі дані, і тому інколи зберігається тільки множина “типових випадків", наприклад, набір із ста “типових клієнтів", як основа для порівняння. Цей підхід часто називається міркування за аналогією (на основі аналогічних випадків).

Міркування за аналогією (case-based reasoning - CBR) або міркування за прецендентами (аналогічними випадками). Даний метод має дуже просту ідею – щоб зробити прогноз на майбутнє або вибрати правильне рішення, система CBR находить близькі аналогії в минулому при різних ситуаціях і відбирає ту відповідь, яка за схожими ознаками була правильною. Інструментальні засоби міркування за прецендентами знаходять записи в базі даних, які подібні до описаних записів. Користувач описує, як сильний зв'язок має бути перед тим, щоб пропонувати увазі новий випадок. Ця категорія інструментальних засобів також зветься міркування на основі пам’яті (memory-based reasoning).

Програмне забезпечення CBR пробує виміряти “відхилення (дистанцію)", що основується на вимірювання одного запису по відношенню до інших записів і згруповує записи за подібністю. Ця методика мала успіх при аналізуванні зв'язків в текстах вільного формату. Web-сайт www.ai-cbr.org є ресурс штучного інтелекту і області технології міркування за прецендентами. На сайті є великий список посилань на продавців інструментальних засобів міркування за прецендентами і консультантів. Приклади систем, які використовують CBR, включають Kate tools (Acknosoft, Франція), Pattern Recognition Workbench (Unica, США).

 


Рисунок 3. Дерево методів дейтамайнінгу

Очевидна ключова проблема цього методу полягає в виборі “типового" клієнта як випадку для порівняння. Інша вразлива проблема полягає в тому, що необхідно обробити бази даних з великим числом нецифрових значень (наприклад, багато продуктів супермаркету або автомобільні запасні частини).

 

3.3.2. Дистиляція шаблонів (Data Distilled)

При цій технології вибирають взірець або шаблон з набору даних, потім використовують його з різними намірами. Природно, тут виникають перші два запитання: Які типи шаблонів можуть бути вибрані і як вони будуть подаватися?Очевидно, шаблон потрібно виразити формально. Ця альтернатива приводить до чотирьох виокремлених підходів: логічні методи, візуалізація, крос-табуляційні (Cross- tabulational) методи і на основі рівнянь (equational).

Логічні методи (підходи). Методи логічного підходу в системах дейтамайнінгу можуть бути розділені на чотири групи: нечіткі запити і аналізи, правила, дерева рішень, генетичні алгоритми.

Нечіткі запити і аналізи (Fuzzy Query and Analysis). Ця категорія інструментальних засобів дейтамайнінгу основується на відгалуженні математики, що називається нечіткою логікою (fuzzy logic), або логікою невпевненості і розмитості (fuzziness). Вона надає рамку для виявлення розмитості і рангування результатів запитів. Компанія Fuzzy Tech, яка розробляє програмне забезпечення нечітких запитів, має Web-сайт з цікавою і досить повною інформацією про цей інструментальний засіб (http://www.fuzzytech.com/index.htm).

Правила. Правила продукції достатньо відомі, зокрема вони досить часто застосовуються в правило-орієнтованих СППР. Розглянемо основні інші різновиди правил та особливості їх застосування в дейтамайнінгу.

Логічні зв'язки між елементами ділових процесів звичайно частіше за все подаються як правила. Найпростіші типи правил виражаються умовними або афінними (асоціативними) зв'язками (відношеннями).

Умовне правило є твердження типу: Якщо умова 1 -- Тоді умова 2.

Наприклад, в демографічній базі даних може мати місце правило: Якщо “професія=Атлет - Тоді вік < 30” . Тут порівнюється значення полів даної таблиці тобто, використовується представлення виразом "атрибут-значення". В даному прикладі Професія є атрибут, а Атлет - значення.

Афінінна логіка (Affinity logic) є чітка як в термінах мови вираження, так і в термінах структури даних, які використовуються. Афінний аналіз (або асоціативний аналіз) є пошук взірців і умов, які описують як різні елементи “групуються разом " або “ставляться разом" в серії подій або транзакцій. Афінне правило має форму: Коли елемент (позиція) 1- Також елемент (позиція) 2.

Приклад цього є “Коли фарба, Також пензель фарби”. Проста система афінного аналізу аналізу використовує таблицю транзакцій (наприклад, табл.1), щоб ідентифікувати елементи, що становлять групу елементів транзакцій.

Тут, поле “номер транзакції” використовується, щоб створити групу елементів, в той час як відповідне поле включає об’єкти, які групуються. У цьому прикладі, схожість (affinity) тразакцій 123 і 124 є пара (фарба, пензель фарби). Логічні умови і асоціації часто комбінуються, створюючи гібридну структуру - прозору (transparent) логіку.

Правила можуть також працювати добре на багатовимірних даних і OLAP даних, тому що вони можуть мати справу з діапазонами числових даних і їхніх логічних форматів, що дозволяє розглядати шаблони вздовж багатократної розмірності.

Правила індукції. Правила iндукції -- це процес перегляду набору даних і створення взірців. За допомогою автоматичного дослідження набору даних, як показано на рис. 4, система індукції формує гіпотези, які приводять до взірців (шаблонів). Процес по суті подібній до того, як людина-аналітик проводить дослідницький аналіз.

 

 

 
 

Рисунок 4. Схема використання правил індукції в системі дейтамайнінгу

Таблиця 1

Таблиця транзакцій

Номер транзакції Елемент
Фарба
Пензель фарби
Цвяхи
Фарба
Пензель фарби
Лісоматеріал
….

Потрібно також відрізняти нечіткі (fuzzy) і неточні (inexact) правила. Неточні правила часто мають “фіксований" коефіцієнт довіри, тобто кожне

правило має специфічне ціле число або процент (як наприклад 70%), який представляє достовірність. Правила індукції може відкрити дуже загальні правила, які мають справу з цифровими і нецифровими даними. Ці правила можуть комбінуватися з умовними і афінними (спорідненими) твердженнями в гібридних шаблонах (взірцях). Ключове питання полягає в переході від плоских баз даних до даних багатовимірних шаблонів OLAP-систем.

Найвідомішими прибічниками систем генерування правил є компанії Information Discovery, Inc. і Ultragem Corporation, кожна з яких має різний підхід до використання правил. Система Data Mining SuiteTM компанії InformationDiscovery використовує правила індукції (між іншими методами), в той час, як Ultragem покладається на генетичні алгоритми. Data Mining Suite генерує багатовимірні правила від баз даних багатотабличних SQL безпосередньо. Ultragem генерує правила через генетичні мутації.

Дерева рішень. Дерева рішень (decision trees) є одним з найбільш популярних підходів до рішення задач Data Mining. Дерева рішень виражають просту форму умовної логіки, вони створюють ієрархічну структуру класифікуючих правил типу “ЯКЩО …ТО”. Система дерева рішень просто ділить таблицю для аналізу даних в менші таблиці за допомогою вибору підмножин, основаних на значеннях для даного атрибута. Зважуючи на те, як ділиться таблиця, ми отримуємо різні алгоритми дерева рішень, як наприклад, CART (Classificatfon and Regression Trees), CHAID (Chi Square Automatic Interaction Detec­tion), C4.5 , ID3, See5, Sipina та інші.

Для прикладу розглянемо набір записів (табл.2), що характеризує прибутковість збуту продуктів різними фірмами в різних регіонах. Дерево рішень, створене за цією таблицею, показане на рис.5. Для першого гілкування вибраний атрибут Штат, щоб почати виділення розділів розгалудження, потім атрибут - Фірма-виробник. Звичайно, якщо є 100 стовпців в таблиці, питання, які атрибути потрібно вибрати першими, стає критичним.

Таблиця 2

Характеристики збуту продуктів

Фірма-виробник Штат Місто Колір продукту Прибуток
Smith CA Los Angeles Голубий Високий
Smith AZ Flagstaff Зелений Низький
Adams NY NYC Голубий Високий
Adams AZ Flagstaff Червоний Низький
Johnson NY NYC Зелений Середній
Johnson CA Los Angeles Червоний Середній

 

 
 

Рисунок 5. Приклад побудови дерева рішень

 

Фактично, в багатьох випадках, включаючи наведену вище таблицю, немає апріорі найкращих атрибутів, і який би атрибут для дерева рішень спершу не вибраний, завжди буде пошкодження інформації. Наприклад, два факти: (a) “Голубі продукти мають високий прибуток" та (б) “Арізона має нижчий прибуток" не можуть ніколи бути одержані з дерева рішень, що відповідає таблиці. Ми можемо або отримати факт (a) або факт (б) з дерева, але не обидва, тому що дерево рішень вибирає один специфічний атрибут для виділення розділів в кожній стадії. Правила і крос-табуляція, з другого боку, можуть відкрити обидва ці факти.

На даний час досить велике число продавців пропонують пакети програмного забезпечення, які основуються на методах дерева рішень як наприклад, CART. Сюди входять американські корпорації IBM, Pilot Software, Business Objects, Cognos, NeoVista, SAS, Angoss і Integral Solutions (ISL) та інші. Більшість цих систем дозволяє інтерактивне дослідження даних з деревами рішень. Самими поширеними програмними продуктами дейтамайнінгу, що основуються на деревах рішень, є See5/C5.0 (RuleQuest, Австралія), Clementine (Integral Solutions, Великобританія), SIPINA (University ofLyon, Франція), IDIS (Information Discovery, США). В програмному продукті дейтамайнінгу KnowledgeSTUDIO пропонується п'ять алгоритмів дерев рішень. Вартість систем варіюється від 1 до 10 тис. дол.

Генетичні алгоритми. Генетичні алгоритми також генерують правила з наборів даних, але не слідують дослідженням, орієнтованим протоколом правил індукції. Замість цього, вони покладаються на ідею “мутації" (“mutation”), щоб зробити зміни в шаблонах з метою отрамання підходящої форми шаблону завдяки селекції (відбору). Генетична операція кросовера (cross-over) є фактично дуже подібною до дій, пов’язаних з отриманням гібриду рослин і/або тварин. Обмін генетичним матеріалом хромосом (chromosomes) також базується на тому ж методі. У випадкуправил, матеріал, який обмінюється, є частина шаблону, який правило описує.

Головний фокус в генетичних алгоритмах є комбінування шаблонів з правил, які були відкриті до цього, в той час як в правилах індукції головний фокус обробки є набори даних (детальніше див. розділ IV).

Візуалізаціяданих. Візуалізація даних (Data visualization) – це інструментальні засоби графічного зображення комплексних зв'язків в багатовимірних даних з різних перспектив або точок зору, представлення даних і узагальнюючої інформації з використанням графіки, анімації, 3-D дисплеїв та інших мультимедійних засобів. Графічне подання інформації засобами візуалізації має на меті забезпечення спостерігача якісним розумінням контексту інформації.

Візуалізація даних відноситься до інструментальних засобів дейтамайнінгу, які трансформують комплексні формули, математичні зв'язки або інформацію сховища даних в діаграми або інші легко зрозумілі моделі. Статистичні інструментальні засоби подібно кластерному аналізу або дереву класифікації і регресії CART часто є компонентами інструментальних засобів візуалізації даних. Аналітики можуть візуалізувати кластери або досліджують бінарне дерево, яке створюється за допомогою класифікування записів.

Крос-табуляція (Cross Tabulation).Крос-табуляція (Cross Tabulation) або перехресна табуляція (перехресні табличні дані) є основна і дуже проста форма аналізу даних, добре відома в статистиці і широко використовувана для створення звітів. Двохвимірна крос-таблиця (cross-tab) подібна до електронної таблиці як щодо заголовків рядків і стовпців, та і щодо атрибутних значень. Комірки (cells ) в таблиці являють собою агреговані операції, звичайно ряд атрибутних значень, що зустрічаються разом. Багато крос-таблиць за ефективністю рівноцінні до трьохвимірних ствопчатих гістограм (3D bar graph), що показують сумісно зустрічаючірахунки.

Наприклад, крос-таблицядля рівня прибутку, отримана шляхом аналізу вихідної табл. 2, може мати вигляд, як показано в табл. 3. В таблицю не включені поля “Фірма-виробник” і “Місто”, тому що крос-таблиця буде дуже великою. Однак, слід звернути увагу на той факт, що співпадання рахунків для полів “Голубий” і “Високий” перевищує інші і вказує на сильніший зв'язок.

Маючи справу з малим рядом нецифрових значень, крос-таблиці є достатньо простими, щоб використовувати і знаходити деякі умовні логічні зв'язки (але не атрибутну логіку, афінну або інші форми логіки). Крос-таблиці звичайно виконуються для чотирьох класів проблем: коли число нецифрових значень зростає; коли особа має справу з номерними значеннями; коли включаються декілька кон’юнкцій (логічних множень); коли відношення базуються не тільки на підрахунках. Агенти (Agents) і довірчі мережі (belief networks) є варіаціями теми крос-таблиць.

Таблиця 3.

Крос-таблиця

  CA AZ NY Голубий Зелений Червоний
Прибуток високий

Програмні агенти. Термін “агент" інколи використовується (серед інших), щоб звернутися до крос-таблиць, які графічно показані в мережі і дозволяють тільки кон’юнкції (тобто операції логічного множення “І”). У цьому контексті термін агент є ефективним еквівалентом до терміну “пара: поле-значення ".

Наприклад, якщо розглядати крос-таблицю (табл. 2), можна визначити 6 “агентів" (КОЛІР: голубий; КОЛІР: Червоний; КОЛІР: Зелений; ШТАТ: CA; ШТАТ: AZ; ШТАТ: NY) для мети (ПРИБУТОК: Високий) і графічно показати їх (рис. 6). Зауважимо, що тут ваги 100 і 50 є просто відсотками кількості значень, що приєднуються з метою (тобто, вони представляють рівень впливу, а не ймовірність).

Подібно іншим методам крос-таблиць, коли мають справу з цифровими значеннями, агенти вимагають розбити числа в фіксовані “блоки", (наприклад, розбити ВІК на три вікові класи: (1-30), (31-60), (61-100)). Звичайно, дані можуть утримувати шаблони, які перекривають будь-які з цих областей (наприклад, область (28-37)) і вони не будуть виявлені агентом. І, якщо діапазони вибрані дуже вузькі, то буде пропущено дуже багато з більших шаблонів. Крім того, ця нездатність мати справу з цифровими проблемами зберігається і для багатовимірних даних. Головним прибічником технології агента є корпорація DataMindTM, котра рекомендує використовувати мережі агентів, щоб обчислити “впливи". Фокус уваги в DataMind - аналіз даних кінцевого користувача, показуючи при цьому впливи у вигляді мережі агентів. (Детальніше дивись розділ V).

Довірчі мережі.Довірчі мережі (Belief Networks), що інколи називаються каузальними (причинними) мережами (causal networks)), також покладаються на співпадання підрахунків (co-occurence counts), але як за графічним виконанням, так і відображенням імовірностей трошки відмінні від агентів.

Довірчі мережі звичайно ілюструються з використанням графічної презентації розподілу ймовірності (отриманого від підрахунків). Довірча мережа є орієнтованим графом (directed graph), що складається з вершин (змінні представлення) і дуг (представлення імовірносної залежності) між вершинами змінних.

Приклад довірчої мережі зображений на рис.7, де показано заради простоти тільки атрибут “колір”. Рисунок відображає частину крос-таблиці, наведеної раніше. Кожна вершина містить умовний розподіл ймовірності, який описує зв'язок між вершиною і породжуючими елементами (parents) цієї вершини. Граф довірчої мережі ациклічний. Порівнюючи даний рисунок з рис. 6, можна побачити, що дуги в цій схемі означають імовірносну залежність між вершинами, скоріше, ніж “впливи" обчислень крос-таблиці.

Рисунок. 6. Схема впливу агентів на мету

Підходи на основі рівнянь Equational Approaches). Основний метод виразу взірців (шаблонів) в цих системах є скоріше “поверхнева конструкція”,ніж

 
 

логічний вираз або обрахунки співпадання. Такі системи звичайно використовують множину рівнянь, щоб визначити „поверхню” всередині числового простору, потім вимірюють дистанцію (відхилення) від цієї поверхні.

Рисунок. 7 . Приклад довірчої мережі

 
 

Підхід дейтамайнінгу на основі рівнянь включає статистичні методи і нейромережі. Оскільки висвітлення питань використання нейромереж в задачах дейтамайнінгу вимагає досить багато місця, а з іншого боку ці питання опубліковані в низці україномовних видань, то наразі обмежимося декількома коментарями щодо статистичних методів.

Як правило, сучасні статистичні пакети, поряд з традиційними статистичними методами, включають також і елементи дейтамайнінгу. Відомим недоліком статистичних систем є високі вимоги щодо спеціальної підготовки користувачів. Крім того, потужні сучасні статистичні пакети (наприклад, SAS, SPSS, STATGRAPICS, STATISTICA, STADIA) є досить громіздкими для масового застосування в фінансах і бізнесі, до того ж вони досить дорогі – від $1000 до $8000.

Має місце ще принципово суттєвий недолік статистичних пакетів, котрий обмежує застосування їх в дейтамайнінгу. Мова йде про те, що більшість методів, що входять до статистичних пакетів, засновані на статистичній парадигмі, в якій головними фігурантами слугують усереднені характеристики вибірки. А ці характеристики при дослідженні реальних складних життєвих феноменів перетворюються в фіктивні характеристики.

Інші методи дейтамайнінгу.Зображене на рис.3. дерево методів дейтамайнінгу не покриває всієї множини використовуваних на даний час засобів видобування взірців інформації. Коротко зупинимося на деяких із методів, які не відображені на класифікаційній схемі, виділяючи при цьому аспекти впровадження в реально діючі системи дейтамайнінгу.

Нелінійні регресійні методи. Пошук залежності цільових змінних від інших ведеться в формі функцій якогось певного вигляду. Наприклад, в одному з найбільш вдалих алгоритмів цього типу - методі групового обліку атрибутів (МГОА) залежність шукають в формі поліномів. Очевидно, що цей метод дає більш статистично значущі результати, ніж нейронні мережі. Це робить даний метод досить перспективним для аналізу фінансових і корпоративних даних. Прикладом системи, де реалізовані методи МГОА, є система NeuroShell компанії Ward Systems Group.

Еволюційне програмування. Сьогодні це сама молода і найбільш перспективна гілка data mining, реалізована, зокрема, в системі PolyAnalyst. Суть методу в тому, що гіпотези про вигляд залежності цільової змінної від інших змінних формулюються системою у вигляді програм на деякій внутрішній мові програмування. Процес побудови цих програм будується як еволюція в світі програм (цим метод трохи схожий на генетичні алгоритми). Коли система знаходить програму, досить точно виражаючу шукану залежність, вона починає вносити в неї невеликі модифікації і відбирає серед побудованих таким чином дочірніх програм ті, які підвищують точність. Таким способом система "вирощує" декілька генетичних ліній програм, які конкурують між собою в точності вираження шуканої залежності.

Спеціальний транслюючий модуль системи PolyAnalyst переводить знайдену залежність з внутрішньої мови системи на зрозумілу користувачеві мову (математичні формули, таблиці та інше.), роблячи їх легкодоступними. Всі ці заходи приводять до того, що PolyAnalyst показує в деяких задачах аналізу, зокрема, фінансових ринків Росії вельми високі показники.

Алгоритми обмеженого перебору. Алгоритми обмеженого перебору були запропоновані в середині 60-х років М.М. Бонгардом для пошуку логічних закономірностей в даних. Відтоді вони продемонстрували свою ефективність при розв’язуванні безлічі задач в самих різних областях.

Ці алгоритми обчислюють частоти комбінацій простих логічних подій в підгрупах даних. На основі аналізу обчислених частот робиться висновок про корисність тієї або іншої комбінації для встановлення асоціації в даних, для класифікації, прогнозування тощо.Найбільш яскравим сучасним представником цього підходу є система WizWhy підприємства WizSoft. Хоча автор системи Абрам Мейдан не розкриває специфіку алгоритму, покладеного в основу роботи WizWhy, за наслідками ретельного тестування системи були зроблені висновки про наявність тут обмеженого перебору (вивчалися результати, залежності часу їх отримання від числа аналізованих параметрів і ін.).

Автор WizWhy стверджує, що його система виявляє логічні правила типу if-then в даних. Насправді це, звичайно, не так. По-перше, максимальна довжина комбінації в if-then правила в системі WizWhy рівна 6, і, по-друге, з самого початку роботи алгоритму проводиться евристичний пошук простих логічних подій, на яких потім будується весь подальший аналіз. Зрозумівши ці особливості WizWhy, неважко було запропонувати просте тестове завдання, яке система не змогла взагалі вирішити. Інший момент - система видає рішення за прийнятний час тільки для порівняно невеликої розмірності даних.

Проте, система WizWhy є на сьогоднішній день одним з лідерів на ринку продуктів Data Mining. Це не позбавлено підстав. Система постійно демонструє вищі показники при рішенні практичних задач, чим решта всіх алгоритмів. Вартість системи біля $ 4000, кількість продажів - 30000.


Рисунок 8 . Система WizWhy виявила правила, що пояснюють низьку врожайність деяких сільськогосподарських ділянок

IV. Генетичні алгоритми

4.1. Генетичні успадкування —концептуа­льна засада генетичних алгоритмів

У загальному значенні генетичні алгоритми (Genetic Algorithms) — це тип алгоритмів, інспірованих механізмами еволюції живої природи, які застосовуються, головно, до задач глобальної оптимізації (зокрема, задач комбінаторної оптимізації)