Ієрархічний кластерний аналіз для бінарних об’єктів.


 

Суть даного методу полягає в реалізації конкретної процедури класифікації, зведених у звичайну таблицю “об’єкт – ознака” бінарних даних, представлених числами: “0” – відсутність даної ознаки в даного об’єкта або “1” – наявність цієї ознаки в цього об’єкта. При використанні інформаційної статистики матрицю близькості не формують. Підготовка даних означає, що будь-які числові дані також можуть бути представлені в бінарній формі, якщо їх значення мають конкретно визначений діапазон, для якого можна вказати, у відповідності з тим чи іншим критерієм, деяке порогове значення таке, що перевищення значенням ознаки цього значення можна трактувати як значення бінарної ознаки рівне “1”, а значення ознаки, які є меншими або рівними цьому порогу трактувати як значення бінарної ознаки рівне “0”.

Пояснимо процедуру ієрархічної класифікації методом інформаційної статистики на конкретному прикладі. Нехай необхідно згрупувати п’ять об’єктів, кожен з яких характеризується десятьма ознаками. Поіменуємо ці об’єкти літерами A, B, C, D, E і зведемо інформацію про них в таблицю, в якій бінарні значення ознак представлені цифрами “0”, “1”. Таблиця має наступний вид.

Згідно з процедурою, на кожному кроці процесу класифікації буде потрібно знати:

1. Склад усіх груп, які залишились.

2. Число об’єктів в кожній групі.

3. Інформаційний зміст кожної групи.

Далі необхідно дослідити усі можливі об’єднання між групами, між об’єктами та між групою і об’єктом.

 

Об’єкти Ознаки
A
B
C
D
E

 

Для кожного об’єднання треба знати:

1. групи, з яких воно складене;

2. число об’єктів після об’єднання;

3. інформаційний зміст після об’єднання;

4. інформаційний виграш, визначений різницею інформаційних змістів об’єднаних груп.

 

Послідовність операцій в процедурі є подана алгоритмом у формі табл. 3.

Крок 1. Так як об’єкти A – E мають нульовий інформаційний зміст, то інформаційний виграш , наприклад від об’єднання A і B дорівнює , так, що для початкового об’єднання інформаційний виграш рівний інформаційному змісту. Об’єднують пару з найменшим інформаційним виграшем, тобто об’єднують об’єкти A і B в нову групу F з двома об’єктами і інформаційним змістом . Об’єкти A і B і будь-яке об’єднання, яке їх містить, можуть бути тепер виключені. Ілюстрацією реалізації першого кроку даної процедури є фрагмент таблиці 3.

 

Таблиця 3.