Кластерний аналіз.

Кластерний аналіз - завдання розбиття певної множини об'єктів на групи, які називаються кластерами так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Даний аналіз передбачає наступні цілі:

1. Розуміння даних шляхом виявлення кластерної структури.

2. Стиснення даних. Якщо вихідна вибірка надлишково велика, то можна скоротити її, залишивши по одному найбільш типовому представнику від кожного кластера.

3. Виявлення новизни. Виділяються нетипові об'єкти, які не вдається приєднати до жодного з кластерів.

Перше застосування кластерний аналіз знайшов в соціології. Назва кластер ний аналіз походить від англійського слова cluster - гроно, скупчення. Вперше в 1939 було визначено предмет кластерного аналізу та зроблено його опис дослідником Тріон (Tryon). Головне призначення кластерного аналізу - розбивка безлічі досліджуваних об'єктів і ознак на однорідні у відповідному розумінні групи або кластер. Це означає, що вирішується завдання класифікації даних і виявлення відповідної структури в ній. Методи кластерного аналізу можна застосовувати в самих різних випадках, навіть у тих випадках, коли мова йде про простий угрупованню, в якої все зводиться до утворення груп за кількісним подібністю.

Велике достоїнство кластерного аналізу в тому, що він дозволяє проводити розбиття об'єктів не по одному параметру, а по цілому набору ознак. Крім того, кластерний аналіз на відміну від більшості математико-статистичних методів не накладає ніяких обмежень на вид розглянутих об'єктів, і дозволяє розглядати безліч вихідних даних практично довільної природи. Це має велике значення, наприклад, для прогнозування кон'юнктури, коли показники мають різноманітний вигляд, що утруднює застосування традиційних економетричних підходів.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації і

різко скорочувати, стискати великі масиви соціально-економічної інформації,

робити їх компактними і наочними.

Важливе значення кластерний аналіз має стосовно до совокупностям тимчасових рядів, що характеризують економічний розвиток (наприклад, загальногосподарської і товарної кон'юнктури). Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи часових рядів, динаміка яких найбільш схожа.

Кластерний аналіз можна використовувати циклічно. У цьому випадку дослідження проводиться до тих пір, поки не будуть досягнуті необхідні результати. При цьому кожен цикл тут може давати інформацію, яка здатна сильно змінити спрямованість і підходи подальшого застосування кластерного аналізу. Цей процес можна представити системою зі зворотним зв'язком. У завданнях соціально-економічного прогнозування вельми перспективно поєднання кластерного аналізу з іншими кількісними методами (наприклад, з регресійний аналізом).

Як і будь-який інший метод, кластерний аналіз має певні недоліки і обмеження: Зокрема, склад і кількість кластерів залежить від обиранихкритеріїв розбиття. При зведенні вихідного масиву даних до більш компактному увазі можуть виникати певні перекручування, а також можуть губитися індивідуальні риси окремих об'єктів за рахунок заміни їх характеристиками узагальнених значень параметрів кластера. При проведенні класифікації об'єктів ігнорується дуже часто можливість відсутності в розглянутій сукупності будь-яких значень кластерів.

У кластерному аналізі вважається, що:

а) обрані характеристики допускають в принципі бажана розбивка на

кластери;

б) одиниці виміру (масштаб) обрані правильно.

Вибір масштабу відіграє велику роль. Як правило, дані нормалізують вирахуванням середнього та поділом на стандартне відхилення, так що дисперсія виявляється рівною одиниці.

Завдання кластерного аналізу полягає в тому, щоб на підставі даних, містяться в безлічі Х, розбити безліч об'єктів G на m (m - ціле) кластерів (Підмножин) Q1, Q2, K, Q_m, так, щоб кожен об'єкт G_j належав одному і тільки одному підмножині розбиття. А об'єкти, що належать одному і тому ж кластеру, були подібними, у той час як об'єкти, що належать різним кластерам, були різнорідними.

Рішенням задачі кластерного аналізу є розбиття, що задовольняють деякому критерію оптимальності. Цей критерій може являти собою деякий функціонал, що виражає рівні бажаності різних розбиттів і угруповань, який називають цільовою функцією. Наприклад, в якості цільової функції може бути взята внутрішньо групова сума квадратів відхилення:

де x_j- являє собою виміру j-го об'єкта.

Кластер має наступні математичні характеристики: центр, радіус, середньоквадратичне відхилення, розмір кластера.

Центр кластера - це середнє геометричне місце точок у просторі змінних. Радіус кластера - максимальна відстань точок від центру кластера. Кластери можуть бути такими, що перекриваються. Така ситуація виникає, коли виявляється перекриття кластерів. У цьому випадку неможливо за допомогою математичних процедур однозначно віднести об'єкт до одного з двох кластерів. Такі об'єкти називають спірними.

Спірний об'єкт - це об'єкт, який у міру подібності може бути віднесений до декільком кластерам. Розмір кластера може бути визначений або по радіусу кластера, або по середньоквадратичному відхиленню об'єктів для цього кластера. Об'єкт відноситься до кластеру, якщо відстань від об'єкта до центру кластера менше радіуса кластера. Якщо ця умова виконується для двох і більше кластерів, об'єкт є спірним.

Неоднозначність даного завдання може бути усунена експертом або аналітиком. Робота кластерного аналізу спирається на два припущення. Перше припущення - розглядаються ознаки об'єкта в принципі допускають бажане розбиття пулу (Сукупності) об'єктів на кластери. На початку лекції ми вже згадували про порівнянності шкал, це і є друге припущення - правильність вибору масштабу або одиниць вимірювання ознак.

Вибір масштабу в кластерному аналізі має велике значення. Розглянемо приклад.

Уявімо собі, що дані ознаки х в наборі даних А на два порядки більше

даних ознаки у: значення змінної х знаходяться в діапазоні від 100 до 700, а

значення змінної у - в діапазоні від 0 до 1.

Тоді, при розрахунку величини відстані між точками, що відбивають положення об'єктів у просторі їхніх властивостей, змінна, має великі значення, тобто змінна х, буде практично повністю домінувати над змінною з малими значеннями, тобто змінної у. Таким чином через неоднорідність одиниць вимірювання ознак стає неможливо коректно розрахувати відстані між точками. Ця проблема вирішується за допомогою попередньої стандартизації змінних.

Стандартизація (standardization) або нормування (normalization) призводить значення всіх перетворених змінних до єдиного діапазону значень шляхом висловлення через відношення цих значень до якоїсь величиною, що відбиває певні властивості конкретної ознаки. Існують різні способи нормування вихідних даних.

де x, s - відповідно середнє і середньоквадратичне відхилення x; x_max, x_min- найбільше і найменше значення x.

Поряд зі стандартизацією змінних, існує варіант додання кожної з них визначеного коефіцієнта важливості, або ваги, який би відображав значимість відповідної змінної. В якості ваг можуть виступати експертні оцінки, отримані в ході опитування експертів - фахівців предметної області. Отримані твори нормованих змінних на відповідні ваги дозволяють отримувати відстані між точками в багатовимірному просторі з урахуванням неоднакового ваги змінних.

У ході експериментів можливо порівняння результатів, отриманих з урахуванням експертних оцінок і без них, і вибір кращого з них.

5rik.ru

Материалы для учебы и работы

Кластерний аналіз.