Кодирование

Для полной формализации данных недостаточно простой классификации, поэтому проводят следующую процедуру – кодирование.

Кодирование – это процесс присвоения условных обозначений (кодов) объектам и классификационным группам по соответствующей системе кодирования.Кодирование реализует перевод информации, выраженной одной системой знаков, в другую систему, то есть перевод записи на естественном языке в запись с помощью кодов.

Система кодирования – это совокупность правил обозначения объектов и группировок с использованием кодов. Код – это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определенном алфавите (некоторое множество знаков). Число знаков этого множества называется основанием кода. В качестве алфавита кода может быть выбраны цифры, буквы, штрихи. Реже используются цветовые коды.

Код характеризуется следующими параметрами:

длиной;

основанием кодирования;

структурой кода, под которой понимают распределение знаков по признакам и объектам классификации;

степенью информативности, рассчитываемой как частное от деления общего количества признаков на длину кода;

коэффициентом избыточности, который определяется как отношение максимального количества объектов к фактическому количеству объектов.

К методам кодирования предъявляются определенные требования:

код должен осуществлять идентификацию объекта в пределах заданного множества объектов классификации;

желательно предусматривать использование в качестве алфавита кода десятичных цифр и букв;

необходимо обеспечивать по возможности минимальную длину кода и достаточный резерв незанятых позиций для кодирования новых объектов без нарушения структуры классификатора;

помехозащищенность кода.

Методы кодирования могут носить самостоятельный характер – регистрационные методы кодирования, или быть основанными на предварительной классификации объектов – классификационные методы кодирования.

Регистрационные методы кодирования бывают двух видов: порядковый и серийно-порядковый.

В первом случае кодами служат числа натурального ряда. Каждый из объектов классифицируемого множества кодируется путем присвоения ему текущего порядкового номера. Данный метод кодирования обеспечивает довольно большую долговечность классификатора при незначительной избыточности кода. Этот метод обладает наибольшей простотой, использует наиболее короткие коды и лучше обеспечивает однозначность каждого объекта классификации. Кроме того, он обеспечивает наиболее простое присвоение кодов новым объектам, появляющимся в процессе ведения классификатора. Существенным недостатком порядкового метода кодирования является отсутствие в коде какой-либо конкретной информации о свойствах объекта, а также сложность машинной обработки информации при получении итогов по группе объектов классификации с одинаковыми признаками.

В серийно-порядковом методе кодирования кодами служат числа натурального ряда с закреплением отдельных серий этих чисел (интервалов натурального ряда) за объектами классификации с одинаковыми признаками. В каждой серии, кроме кодов имеющихся объектов классификации, предусматривается определенное количество кодов для резерва.

Классификационные коды используют для отражения классификационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации. Группу классификационных систем кодирования можно разделить на две подгруппы в зависимости от того, какую систему классификации используют для упорядочения объектов: системы последовательного кодирования и параллельного кодирования.

Последовательные системы кодирования характеризуются тем, что они базируются на предварительной классификации по иерархической системе. Код объекта классификации образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе кодирования. В этом случае код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки.

Параллельные системы кодирования характеризуются тем, что они строятся на основе использования фасетной системы классификации и коды группировок по фасетам формируются независимо друг от друга.

В параллельной системе кодирования возможны два варианта записи кодов объекта:

Каждый фасет и признак внутри фасета имеют свои коды, которые включаются в состав кода объекта. Такой способ записи удобно применять тогда, когда объекты характеризуются неодинаковым набором признаков. При формировании кода какого-либо объекта берутся только необходимые признаки.

Для определения групп объектов выделяется фиксированный набор признаков и устанавливается стабильный порядок их следования, то есть устанавливается фасетная формула. В этом случае не надо каждый раз указывать, значение какого из признаков приведено в определенных разрядах кода объекта.

К достоинствам параллельного метода следует отнести гибкость структуры кода, обусловленную независимостью признаков, из кодов которых строится код объекта классификации. Метод позволяет использовать при решении конкретных технико-экономических и социальных задач коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом отдельном случае с кодами небольшой длины. При этом методе кодирования можно осуществлять группировку объектов по любому сочетанию признаков. Параллельный метод кодирования хорошо приспособлен для машинной обработки информации. По конкретной кодовой комбинации легко узнать, набором каких характеристик обладает рассматриваемый объект. При этом из небольшого числа признаков можно образовать большое число кодовых комбинаций. Набор признаков при необходимости может легко пополняться присоединением кода нового признака. Это свойство параллельного метода кодирования особенно важно при решении технико-экономических задач, состав которых часто меняется.

Наиболее сложными вопросами, которые приходится решать при разработке классификатора, являются выбор методов классификации и кодирования и выбор системы признаков классификации. Основой классификатора должны быть наиболее существенные признаки классификации, соответствующие характеру решаемых с помощью классификатора задач. При этом данные признаки могут быть или соподчиненными, или несоподчиненными. При соподчиненных признаках классификации и стабильном комплексе задач, для решения которых предназначен классификатор, целесообразно использовать иерархический метод классификации, который представляет собой последовательное разделение множества объектов на подчиненные классификационные группировки. При несоподчиненных признаках классификации и при большой динамичности решаемых задач целесообразно использовать фасетный метод классификации.

Другим важным вопросом при разработке классификаторов и кодификаторов является помехозащищенность кода. Она предполагает включение в код дополнительных контрольных чисел, значение которых вычисляется из чисел кода по определенному алгоритму. Для обнаружения ошибки выполняется повторное вычисление контрольного числа. Если рассчитанное значение отличается от контрольного разряда, тогда в полученном коде существует ошибка. Заметим, что существует вероятность того, что контрольное число случайным образом совпадет с «неправильными данными кода», хотя эта вероятность довольно мала.

Рассмотрим традиционный метод контрольных чисел – «метод остатка по модулю простого числа». Он заключается в вычислении контрольного числа K по следующей формуле:

где a – весовой коэффициент разряда кода, b – числовое значение этого разряда, q – заданное простое число.

Например, задан код 46022. В качестве весовых коэффициентов для весов разрядов этого кода выбраны числа 3, 5, 7, 11, 13. Деление осуществляется по модулю 11.

Сумма произведений значений разрядов на веса:

S = 4*3 + 6*5 + 0*7 + 2*11 + 2*13 = 90

Остаток от деления по модулю 11 равен: 90 mod 11= 2.

В итоге получаем помехозащищенный код: 46022 2.

 

Классификаторы российского значения составляют Единую систему классификации и кодирования (ЕСКК). Она насчитывает около 4 десятков общероссийских классификаторов (ОК), которые делятся на 4 группы:

· классификаторы трудовых и природных ресурсов (например, ОКИН – ОК информации о населении);

· классификаторы информации о структуре экономики и административно-территориальном делении; (например, ОКОНХ – ОК отраслей народного хозяйства; ОКПО – ОК предприятий и организаций

· классификаторы информации о продукции и услугах; (примером является ОКП – ОК промышленной и сельхозпродукции)

· классификаторы технико-экономических показателей (ОКТЭП), управленческой документации (ОКУД – ОК управленческой документации), единиц измерения(ОКЕИ), ИНН и др.

 

В ЭИС находят себе применение следующие общероссийские классификаторы:

ОКОГУ – общероссийский классификатор органов государственной власти и управления;

ОКФС – общероссийский классификатор форм собственности;

ОКОПФ – общероссийский классификатор организационно-правовых форм;

ОКОФ – общероссийский классификатор основных фондов;

ОКДП – общероссийский классификатор видов экономической деятельности, продукции и услуг;

ОКУН – общероссийский классификатор услуг населению;

ОКПДТР – общероссийский классификатор профессий рабочих, должностей служащих и тарифных разрядов;

ОКОНХ – общероссийский классификатор отраслей народного хозяйства;

ОКП – общероссийский классификатор продукции;

ОКЕИ – общероссийский классификатор единиц измерения.