Ієрархічний кластерний аналіз для бінарних об’єктів.
Суть даного методу полягає в реалізації конкретної процедури класифікації, зведених у звичайну таблицю “об’єкт – ознака” бінарних даних, представлених числами: “0” – відсутність даної ознаки в даного об’єкта або “1” – наявність цієї ознаки в цього об’єкта. При використанні інформаційної статистики матрицю близькості не формують. Підготовка даних означає, що будь-які числові дані також можуть бути представлені в бінарній формі, якщо їх значення мають конкретно визначений діапазон, для якого можна вказати, у відповідності з тим чи іншим критерієм, деяке порогове значення таке, що перевищення значенням ознаки цього значення можна трактувати як значення бінарної ознаки рівне “1”, а значення ознаки, які є меншими або рівними цьому порогу трактувати як значення бінарної ознаки рівне “0”.
Пояснимо процедуру ієрархічної класифікації методом інформаційної статистики на конкретному прикладі. Нехай необхідно згрупувати п’ять об’єктів, кожен з яких характеризується десятьма ознаками. Поіменуємо ці об’єкти літерами A, B, C, D, E і зведемо інформацію про них в таблицю, в якій бінарні значення ознак представлені цифрами “0”, “1”. Таблиця має наступний вид.
Згідно з процедурою, на кожному кроці процесу класифікації буде потрібно знати:
1. Склад усіх груп, які залишились.
2. Число об’єктів в кожній групі.
3. Інформаційний зміст кожної групи.
Далі необхідно дослідити усі можливі об’єднання між групами, між об’єктами та між групою і об’єктом.
Об’єкти | Ознаки | |||||||||
A | ||||||||||
B | ||||||||||
C | ||||||||||
D | ||||||||||
E |
Для кожного об’єднання треба знати:
1. групи, з яких воно складене;
2. число об’єктів після об’єднання;
3. інформаційний зміст після об’єднання;
4. інформаційний виграш, визначений різницею інформаційних змістів об’єднаних груп.
Послідовність операцій в процедурі є подана алгоритмом у формі табл. 3.
Крок 1. Так як об’єкти A – E мають нульовий інформаційний зміст, то інформаційний виграш , наприклад від об’єднання A і B дорівнює , так, що для початкового об’єднання інформаційний виграш рівний інформаційному змісту. Об’єднують пару з найменшим інформаційним виграшем, тобто об’єднують об’єкти A і B в нову групу F з двома об’єктами і інформаційним змістом . Об’єкти A і B і будь-яке об’єднання, яке їх містить, можуть бути тепер виключені. Ілюстрацією реалізації першого кроку даної процедури є фрагмент таблиці 3.
Таблиця 3.