Аналіз показників та інтерпретація результатів

 

Вихідні дані для аналізу були відібрані від сюди. Абсолютні показники (наприклад, кількість злочинів, середньорічна чисельність працівників та ін) були переведені у відносні, виходячи з чисельності населення. Всього в аналізі беруть участь 17 міст Росії, описані 10 параметрами. Дані, які використовувалися для аналізу наведені у таблиці.

Якщо провести кластерний аналіз, вказавши кількість кластерів рівним 3, то отримаємо наступний результат:

 

Умовно, місто відноситься до того чи іншого кластеру за критерієм максимуму приладдя даного кластеру. Як видно, в окремий кластер була винесена Москва. Одна з цілей кластерного аналізу це визначення нетипових об'єктів. Москва є нетиповим містом для даної вибірки, оскільки займає окремий кластер. В інших двох кластерах кількість віднесених об'єктів одно 8-ми в кожному.


Можна збільшити кількість кластерів до 5, в такому випадку на виході буде даний результат.

 

 

Москва як і раніше, займає окремий кластер, але з'являється ще один нетиповий об'єкт - Санкт-Петербург. В інших кластерах залишається по 5 міст. Виходить, що є два нетипових міста в заданих умовах, які не близькі між собою. Їм характерні такі риси: велика кількість жителів, найвища зарплата, відносно низький рівень злочинності, малий відсоток учнів в загальноосвітніх установах, а також високий відсоток середньорічної чисельності працівників.

Можна припустити, що для людини міграція з одного міста в інше в рамках одного кластера, буде виробляти незначний загальний ефект, якщо не враховувати кліматичні умови та інші специфічні параметри, які не були враховані у вихідних даних.


У статті описаний алгоритм нечіткої кластеризації c-means для визначення ступеня приналежності групи об'єктів до кластерів на прикладі великих міст Росії. Даний метод можна застосовувати для аналізу споживачів, ситуацій, об'єктів при розпізнаванні образів та інших завданнях, де необхідно визначити спільність об'єктів в рамках заданої групи.

Додаткові джерела інформації

1. Fuzzy clustering on Wikipedia

2. Cluster Analysis on Wikipedia
Кластерний аналіз на Вікіпедії

3. Аналіз даних і процесів / А.А.Барсегян, М.С.Купріянов, І.І.Холод, М.Д.Тесс, С.І.Елізаров. З-е изд. перераб. і доп. СПб.