Общие сведения

Важным понятием при работе с информацией является классификация объектов.

Классификация— система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком.

Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и вы­делить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов — это процедура группировки на качественном уровне, направ­ленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

Пример 2.6.Всю информацию об университете можно классифицировать по много­численным информационным объектам, которые будут характеризоваться общими свойствами:

• информация о студентах — в виде информационного объекта "Студент";

• информация о преподавателях — в виде информационного объекта "Преподава­тель";

• информация о факультетах — в виде информационного объекта "Факультет" и т.п.

 

Свойства информационного объекта определяются информационными параметрами, называемыми реквизитами. Реквизиты представляются либо числовыми данными, напри­мер вес, стоимость, год, либо признаками, например цвет, марка машины, фамилия.

Реквизит— логически неделимый информационный элемент, описывающий [определяющий ]свойство объекта, процесса, явления и т.п.

Пример2.7. Информация о каждом студенте в отделе кадров университета система­тизирована и представлена посредством одинаковых реквизитов:

фамилия, имя, отчество;

пол;

год рождения;

место рождения;

адрес проживания;

факультет, где проходит обучение студент, и т.д.

Все перечисленные реквизиты характеризуют свойства информационного объекта "Студент".

Кроме выявления общих свойств информационного объекта классификация нужна для разработки правил (алгоритмов) и процедур обработки информации, представленной сово­купностью реквизитов.

Пример2.8. Алгоритм обработки информационных объектов библиотечного фонда позволяет получить информацию о всех книгах по определенной тематике, об авто­рах, абонентах и т.д.

Алгоритм обработки информационных объектов фирмы позволяет получить инфор­мацию об объемах продаж, о прибыли, заказчиках, видах производимой продукции и т.д.

Алгоритмы обработки в том и другом случае преследуют разные цели, обрабатывают разную информацию, реализуются разными способами.

При любой классификации желательно, чтобы соблюдались следующие требования:

• полнота охвата объектов рассматриваемой области;

• однозначность реквизитов;

• возможность включения новых объектов.

В любой стране разработаны и применяются государственные, отраслевые, региональ­ные классификаторы. Например, классифицированы: отрасли промышленности, оборудова­ние, профессии, единицы измерения, статьи затрат и т.д.

Классификатор— систематизированный свод наименований и кодов клас­сификационных группировок.

При классификации широко используются понятия классификационный признак и значение классификационного признака, которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объеди­нением этих двух понятий в одно, названное как признак классификации. Признак класси­фикации имеет также синоним основание деления.

Пример 2.9.В качестве признака классификации выбирается возраст, который состо­ит из трех значений: до 20 лет, от 20 до 30 лет, свыше 30 лет.

Можно в качестве признаков классификации использовать: возраст до 20 лет, возраст от 20 до 30 лет, возраст свыше 30 лет.

Разработаны три метода классификации объектов: иерархический, фасетный, дескрип-торный. Эти методы различаются разной стратегией применения классификационных при­знаков. Рассмотрим основные идеи этих методов для создания систем классификации.

Иерархическая система классификации

Иерархическая система классификации (рис. 2.3) строится следующим об­разом:

· исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного признака на классы (группировки), которые образуют 1-й уровень;

· каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;

· каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т.д.

Рис. 2.3. Иерархическая система классификации

 

Учитывая достаточно жесткую процедуру построения структуры классификации, не­обходимо перед началом работы определить ее цель, т.е. какими свойствами должны обла­дать объединяемые в классы объекты. Эти свойства принимаются в дальнейшем за признаки классификации.

Запомните! В иерархической системе классификации из-за жесткой структуры особое внимание следует уделить выбору классификационных признаков.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранно­го классификационного признака. Для последующей группировки в каждом новом классе необходимо задать свои классификационные признаки и их значения. Таким образом, выбор классификационных признаков будет зависеть от семантического содержания того класса, для которого необходима группировка на последующем уровне иерархии.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

Достоинства иерархической системы классификации:

• простота построения;

• использование независимых- классификационных признаков в различных ветвях иерархической структуры.

Недостатки иерархической системы классификации:

• жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки;

• невозможность группировать объекты по заранее не предусмотренным сочетаниям
признаков.

Пример 2.10.Поставлена задача — создать иерархическую систему классификации для информационного объекта "Факультет", которая позволит классифицировать ин­формацию обо всех студентах по следующим классификационным признакам: фа­культет, на котором он учится, возрастной состав студентов, пол студента, для женщин — наличие детей.

Система классификации представлена на рис.2.4 и будет иметь следующие уровни:

0-й уровень. Информационный объект "Факультет";

1-й уровень. Выбирается классификационный признак — название факультета, что позволяет выделить несколько классов с разными названиями факультетов, в которых хранится информация обо всех студентах.

2-й уровень. Выбирается классификационный признак — возраст, который имеет три градации: до 20 лет, от 20 до 30 лет, свыше 30 лет. По каждому факультету выделяют­ся три возрастных подкласса студентов.

3-й уровень. Выбирается классификационный признак — пол. Каждый подкласс 2-го уровня разбивается на две группы. Таким образом, информация о студентах каждого факультета в каждом возрастном подклассе разделяется на две группы — мужчин и женщин.

4-й уровень. Выбирается классификационный признак — наличие детей у женщин: есть, нет.

Созданная иерархическая система классификации имеет глубину классификации, рав­ную четырем.

Рис. 2.4.Пример иерархической системы классификации для информационного объекта "Факультет"

Фасетная система классификации

Фасетная система классификации в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасета-м и (facet — рамка). Каждый фасет (Фi) содержит совокупность однородных значений дан­ного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.

Пример 2.11.Фасет цвет содержит значения: красный, белый, зеленый, черный, желтый.

Фасет специальность содержит названия специальностей.

Фасет образование содержит значения: среднее, среднее специальное, высшее.

Схема построения фасетной системы классификации в виде таблицы отображена на рис. 2.5. Названия столбцов соответствуют выделенным классификационным признакам(фасетам), обозначенным Ф\, Ф2, ..., Ф\, ..., Фп- Например, цвет, размер одежды, вес и т.д. Произведена нумерация строк таблицы. В каждой клетке таблицы хранится конкретное зна­чение фасета. Например, фасет цвет, обозначенный Ф2, содержит значения: красный, белый, зеленый, черный, желтый.


Рис.2.5. Фасетная система классификации

 

Процедура классификации состоит в присвоении каждому объекту соответствующих значений из фасетов. При этом могут быть использованы не все фасеты. Для каждого объ­екта задается конкретная группировка фасетов структурной формулой, в которой отражает­ся их порядок следования:

КS = (Ф12,..., Фi,..., Фn),

где Фit i-й фасет;

п — количество фасетов.

При построении фасетной системы классификации необходимо, чтобы значения, ис­пользуемые в различных фасетах, не повторялись. Фасетную систему легко можно модифи­цировать, внося изменения в конкретные значения любого фасета.

Достоинства фасетной системы классификации:

• возможность создания большой емкости классификации, т.е. использования большого числа признаков классификации и их значений для создания группировок;

• возможность простой модификации всей системы классификации без изменения структуры существующих группировок.

Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Пример 2.12.Обратитесь к содержанию примера 2.10, где показано построение иерархической системы классификации. Для сопоставления разработаем фасетную систему классификации.

Сгруппируем и представим в виде таблицы (рис. 2.6) все классификационные признаки по фасетам:

• фасет название факультета с пятью названиями факультетов;

• фасет возраст с тремя возрастными группами;

• фасет пол с двумя градациями;

• фасет дети с двумя градациями.

Структурную формулу любого класса можно представить в виде:

Ks = (Факультет, Возраст, Пол, Дети)

Присваивая конкретные значения каждому фасету, получим следующие классы:

K1 = (Радиотехнический факультет, возраст до 20 лет, мужчина, есть дети);

k2= (Коммерческий факультет, возраст от 20 до 30 лет, мужчина, детей нет);

К3 = (Математический факультет, возраст до 20 лет, женщина, детей нет) и т.д.

 

Рис. 2.6.Пример фасетной системы классификации для информационного объекта "Факультет"

Дескрипторная система классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.

Суть дескрипторного метода классификации заключается в следующем:

• отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;

• выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;

• создается словарь дескрипторов, т. е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.

Пример 2.13.В качестве объекта классификации рассматривается успеваемость студентов. Ключевыми словами могут быть выбраны: оценка, экзамен, зачет, преподаватель, студент, семестр, название предмета. Здесь нет синонимов, и поэтому указанные ключевые слова можно использовать как словарь дескрипторов. В качестве предметной области выбирается учебная деятельность в высшем учебном заведении. Ключевыми словами могут быть выбраны: студент, обучаемый, учащийся, преподаватель, учитель, педагог, лектор, ассистент, доцент, профессор, коллега, факультет, подразделение университета, аудитория, комната, лекция, практическое занятие, занятие и т.д. Среди указанных ключевых слов встречаются синонимы, например: студент, обучаемый, учащийся; преподаватель, учитель, педагог; факультет, подразделение университета и т.д. После нормализации словарь дескрипторов будет состоять из следующих слов: студент, преподаватель, лектор, ассистент, до­цент, профессор, факультет, аудитория, лекция, практическое занятие и т.д.

 

Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:

синонимические, указывающие некоторую совокупность ключевых слов как синонимы;

родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;

ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.

Пример 2.14.Синонимическая связь: студент — учащийся — обучаемый.

Родо-видовая связь: университет — факультет — кафедра. Ассоциативная связь: студент — экзамен — профессор — аудитория.