Методи класифікації та кодування економічної інформації

Використання систем класифікації та кодування — необхідний елемент автоматизованого оброблення даних.

Класифікація є одним із засобів вивчення природи досліджуваних об’єктів шляхом їх упорядкування і систематизації.

Система правил, відповідно до якої здійснюється розбиття множини об’єктів, що вивчаються, на підмножину за значенням тих чи тих характеристик і ознак, та результати, одержувані при їх використанні, називається системою класифікації, а процес ранжування об’єктів за цією системою — класифікуванням.

Класифікація є одним з найважливіших етапів проектування інформаційного забезпечення систем автоматизації; вона також забезпечує основу аналізу і моделювання інформаційних потоків.

Щоб класифікувати об’єкти будь-якої природи, необхідно визначити набір класифікаційних ознак, що визначають підставу розподілу об’єктів.

Будь-яка класифікація інформації має відповідати таким основним вимогам:

· забезпечення повноти охоплення об’єктів множини, що вивчається;

· не перетинання груп об’єктів, що виділяються;

· можливість включення нових груп об’єктів;

· лаконічність, чіткість і зрозумілість класифікаційних ознак;

· незмінність прийнятої класифікаційної ознаки на всіх рівнях класифікації.

До основних систем класифікації економічної інформації належать ієрархічна, фасетна і змішана. Ієрархічна система класифікації — це система, у якій поділ множини об’єктів на підмножини виконується послідовно згідно із заданими ознаками. Первинна множина об’єктів спочатку поділяється на підмножини, утворені за однією ознакою, котра може набувати різних значень. Далі кожна здобута підмножина поділяється на групи за значеннями наступної ознаки. Ці групи у свою чергу поділяються на підгрупи за наступними ознаками і т. д. Між виділеними групами об’єктів встановлюється певна ієрархія. При цьому кожна підмножина належить лише одній вищій множині. Ієрархічна система класифікації характеризується глибиною, тобто кількістю ступенів поділу первинної множини, або, що те саме, кількістю заданих ознак класифікації. Ієрархічній системі класифікації притаманні простота, наочність, логічність побудови, добра пристосованість до ручного оброблення. Вадами такої системи є жорсткість структури через фіксованість ознак і порядку їх розміщення, складність включення нових ознак, необхідність великого резерву місткості.

В ієрархічній системі класифікації на будь-якому рівні підмножини елементи не повинні перетинатися. Сума елементів усіх множин кожного рівня дорівнює кількості елементів первинної (початкової) множини. Для фасетної класифікації це не є обов’язковим, сума елементів підмножини може бути більшою за кількість елементів початкової множини. Для фасетної системи обов’язковим є не повторюваність ознак.

Вибраний метод класифікації має задовольняти такі вимоги:

· бути достатньо містким і повним;

· характеризуватися достатньою економічно обґрунтованою глибиною;

· кількість ознак має бути виправданою;

· забезпечувати розв’язання всіх комплексів задач;

· характеризуватися лаконічністю, гнучкістю та якістю класифікаційних ознак.

При проектуванні інформаційних систем можливе застосування різноманітних систем кодування: порядкової, серійно-порядкової, послідовної, кодування з повторенням та інші.

Порядковий засіб кодування — це формування коду з чисел натурального ряду та його присвоєння. Це найбільш повний і простий засіб. Застосовується для однопризначних номенклатур.

Серійно-порядковий засіб — формування коду з чисел натурального ряду і закріплення окремих серій чи діапазонів цих чисел за об’єктами класифікації з однаковими ознаками, та його присвоєння. Застосовується для двопризначних номенклатур.

Послідовний засіб — формування коду класифікаційного групування чи об’єкту класифікації з використанням кодів послідовно розміщених підпорядкованих групувань, що одержують при ієрархічному засобі класифікації, та його присвоєння.

Паралельний засіб — формування коду класифікаційного групування чи об’єкту класифікації з використанням кодів незалежних групувань, одержаних під час фасетного засобу класифікації, та його присвоєння.

При утворенні системи класифікації та кодування для об’єкту застосовуються різноманітні комбінації методів класифікації та кодування, вибір яких залежить від призначення класифікатора, специфіки вирішуваних завдань та вибору обчислювальної техніки.

До кодів ставляться такі вимоги:

· забезпечення розв’язання всіх задач системи за їх мінімальної довжини кодів;

· єдність кодів на всіх рівнях;

· структура коду повинна забезпечити групування інформації в необхідних розмірах;

· коди можуть бути як внутрiшньомашинні, так і зовнішні.

Внутрiшньомашинні коди використовуються обчислювальною системою, а зовнішні, крім цього, й користувачем.

Методи кодування використовуються при складанні класифікаторів. Класифікаторце систематизоване зведення назв кодованих об’єктів, їх класифікаційних угруповань і кодів. Класифікатор включає ідентифікаційний блок і блок назв. Ідентифікація — це умовне позначення одиниць інформації за допомогою присвоєння їм скорочених цифрових, буквених або змішаних позначень (мнемокодів). Так, при створенні бази даних з кадрів кожній одиниці інформації присвоюється спеціальний ідентифікатор (табельний номер — TABN, освіта — OSV, тарифна ставка — TSTAW, розряд робітника — RAZ і т. ін.).

Класифікатори застосовуються для формування словників-довідників, використовуваних для друкування у вихідних документах назв об’єктів.

При розробці класифікаторів облікової інформації використовуються здебільшого два методи класифікації: ієрархічний і фасетний.

Заієрархічним методом класифікації між класифікаційними угрупованнями встановлюються відношення підпорядкування — ієрархія. Початкова множина об’єктів групується за обраною ознакою. Далі кожне угруповання згідно із заново обраною основою поділяється на низку дрібніших, які, у свою чергу, також поділяються, конкретизуючи об’єкт або його властивості.

Фасетна класифікація не має жорсткої структури і заздалегідь побудованих кінцевих угруповань. В її основу покладено аналіз, якому підлягають характерні ознаки об’єктів класифікації і в процесі якого виявляються основні категорії властивостей предмета. Наприклад, державний класифікатор підприємств і організацій (ЗКПО), побудований за фасетною системою класифікації і паралельним методом кодування, складається з трьох блоків: ідентифікації, назв і фасетів класифікаційних ознак.

Переваги фасетної системи класифікації полягають у гнучкості її структури, можливості включення нових фасет і виключення старих.

До перемог такої системи можна віднести нетрадиційність і складність її використання в разі ручного оброблення даних і недостатньо повне використання місткості з огляду на те, що багато можливих комбінацій фасет не мають практичного застосування. Зміна системи класифікації передбачає використання обох згаданих систем.

Блок ідентифікації — це перелік реєстраційних номерів підприємств і організацій, побудований за двоступеневим ієрархічним методом класифікації з використанням паралельного методу кодування. Так, умовний код підприємства 01703258 означає: 01 — промисловість, 70325 — порядковий номер підприємства, 8 — контрольне число.

Блок назв складається з повної офіційної назви підприємства та зазначення його розміщення, які описані природною мовою і мають невизначену довжину.

Блок фасетів класифікаційних ознак відбиває багатоступеневу класифікацію підприємств і організацій, побудовану із застосуванням фасетного методу класифікації і паралельного методу кодування цифровими десятковими знаками. Він містить три пос­тійних фасети:

· Ф 1 – підпорядкованість, довжиною 8 розрядів, побудований за чотириступеневим ієрархічним методом класифікації та послідовним і серійно-порядковим методом кодування;

· Ф2 – адміністративно-територіальна підпорядкованість, має довжину 4 розряди, побудований за двоступеневим ієрархічним методом класифікації і порядковим методом кодування;

· Ф3 – галузевої підпорядкованості, побудований з використанням кодів державного класифікатора галузей народного господарства, довжиною 5 розрядів.

Штрихове кодування.Одним із найсучасніших методів формалізації інформації є штрихове кодування. Воно ґрунтується на принципі двоїстої системи обчислення і використанні методу оптичного читання. Штрихове кодування — це спосіб побудови коду за допомогою чергування широких і вузьких, темних і світлих смужок (штриховий код— це послідовність 0 та 1: широким лініям і широким проміжкам присвоюється логічне значення 1, вузь­ким — 0). Існує кілька видів штрихових кодів, а саме:

· UPC — універсальний товарний код (створений і застосовуваний у США);

· EAN — товарний код (створений в Європі на базі UPC. Відповідає назві Європейської асоціації товарної нумерації, яка отримала статус міжнародної організації — EAN International. Україна вступила до асоціації в 1994 р.);

· UCC/EAN — єдиний стандартизований штриховий код (створений об’єднаними зусиллями організацій США і Канади (Uniform Code Council) i EAN International.