Регистрационное кодирование

Классификационное кодирование

Общие понятия

СИСТЕМА КОДИРОВАНИЯ

Лекция №4

Система кодирования применяется для замены названия объекта на условное обозначение (код) в целях обеспечения удобной и более эффективной обработки информации.

Система кодирования — совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

· длиной — число позиций в коде;

· структурой — порядок расположения в коде символов, используемых для обозначения классификационного признака.

 

Процедура присвоения объекту кодового обозначения называется кодированием. Можно выделить две группы методов, используемых в системе кодирования, которые образуют:

· классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;

· регистрационную систему кодирования, не требующую предварительной классификации объектов.

Рассмотрим представленную на рисунке схему системы кодирования.

 

 


Система кодирования, использующая разные методы

 

 

Классификационное кодирование применяется после проведения классификации объектов. Различают последовательное и параллельное кодирование.

Последовательное кодирование используется для иерархической классификационной структуры. Суть метода заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры. Последовательная система кодирования обладает теми же достоинствами и недостатками, что и иерархическая система классификации.

 


Пример 1. Проведем кодирование информации, классифицированной с помощью иерархической схемы. Количество кодовых группировок будет определяться глубиной классификации и равно 4. Прежде чем начать кодирование, необходимо определиться с алфавитом, т.е. какие будут использоваться символы. Для большей наглядности выберем десятичную систему счисления — 10 арабских цифр. Анализ схемы на рисунке для информационного объекта "Факультет" показывает, что длина кода определяется 4 десятичными разрядами, а кодирование группировки на каждом уровне можно делать путем последовательной нумерации слева направо. В общем виде код можно записать как ХХХХ, где Х — значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для классификационного признака "название факультета" и имеет следующие значения: 1 — коммерческий; 2 — информационные системы; 3 — для следующего названия факультета и т.д.;

2-й разряд выделен для классификационного признака "возраст" и имеет следующие значения: 1 — до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет;

3-й разряд выделен для классификационного признака "пол" и имеет следующие значения: 1 — мужчины; 2 — женщины;

4-й разряд выделен для классификационного признака "наличие детей у женщин" и имеет следующие значения: 1 — есть дети; 2 — нет детей, 0 — для мужчин, так как подобной информации не требуется.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

1310 — студенты коммерческого факультета, свыше 30 лет, мужчины;

2221 — студенты факультета информационных систем, от 20 до 30 лет, женщины, имеющие детей.

Параллельное кодирование используется для фасетной системы классификации. Суть метода заключается в следующем: все фасеты кодируются независимо друг от друга; для значений каждого фасета выделяется определенное количество разрядов кода. Параллельная система кодирования обладает теми же достоинствами и недостатками, что и фасетная система классификации.

Пример 2. Проведем кодирование информации, классифицированной с помощью фасетной схемы (см. рисунок для информационного объекта "Факультет"). Количество кодовых группировок определяется количеством фасетов и равно 4. Выберем десятичную систему счисления в качестве алфавита кодировки, что позволит для значений фасетов выделить один разряд и иметь длину кода, равную 4. В отличие от последовательного кодирования для иерархической системы классификации в данном методе не имеет значения порядок кодировки фасетов. В общем виде код можно записать как ХХХХ, где Х — значение десятичного разряда. Рассмотрим структуру кода, начиная со старшего разряда:

1-й (старший) разряд выделен для фасета "пол" и имеет следующие значения: 1 — мужчины; 2 — женщины;

2-й разряд выделен для фасета "наличие детей у женщин" и имеет следующие значе­ния: 1 — есть дети; 2 — нет детей, 0 — для мужчин, так как подобной информации не требуется ;

3-й разряд выделен для фасета "возраст" и имеет следующие значения: 1 —до 20 лет; 2 — от 20 до 30 лет; 3 — свыше 30 лет;

4-й разряд выделен для фасета "название факультета" и имеет следующие значения: 1 — радиотехнический, 2 — машиностроительный, 3 — коммерческий; 4 — инфор­мационные системы; 5 — математический и т.д.

Принятая система кодирования позволяет легко расшифровать любой код группировки, например:

2135 — женщины в возрасте свыше 30 лет, имеющие детей и являющиеся студентами математического факультета;

1021 — мужчины возраста от 20 до 30 лет, являющиеся студентами радиотехническо­го факультета.

Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.

Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе,

Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.

Пример 3. Все студенты одного факультета разбиваются на учебные группы (в данной терминологии — серии), для которых используется порядковая нумерация. Внутри каждой группы производится упорядочение фамилий студентов по алфавиту и каждому студенту присваивается номер.