Формализация данных

Прием и регистрация собираемой первичной информации

Прием и регистрация собираемой первичной информации на входе информационной системы могут производиться вручную, автоматизированным способом или автоматически. При ручном способе фактографические данные об информационных объектах фиксируются на специальных бланках и в журналах установленной табличной формы, а поступающие документы регистрируются и сохраняются в виде оригиналов или копий. При автоматизированном способе регистрация осуществляется на машинном носителе (например, дискете или винчестере) путем диалога оператора и компьютера. При этом широко используется съем информации при помощи специальных устройств – сканеров. Автоматическая регистрация выполняется без участия человека и предполагает прямое подключение ИС к источнику. Например, при регистрации пассажиропотоков метро встроенными в турникеты фотоэлементными устройствами, подключенными к компьютеру. В этом случае входная информация представляет собой кодированный сигнал. В условиях автоматизированной технологии основная информация о производственных процессах поступает с автоматических датчиков.

При любом способе регистрации входная информация должна контролироваться с целью недопущения ее дублирования или обнаружения в ней ошибочных данных. Собранная информация представляет собой первичные данные информационной системы. Отформатированные данные подлежат обработке в пакетном или диалоговом режиме с целью получения производной информации, используемой потребителями для принятия управленческих решений.

Другим важным компонентом, наряду со сбором и регистрацией входных данных является их формализация для последующей автоматизированной обработки. Совокупность методов и средств преобразования внешнего представления данных в машинное, описания хранимой и обрабатываемой информации и последующего преобразования данных из машинного представления во внешнее называется информационным обеспечением (ИО) ИС.

Информационное обеспечение ИС является средством для решения следующих задач:

однозначного и экономичного представления информации в системе (на основе кодирования объектов);

организации процедур анализа и обработки информации с учетом характера связей между объектами (на основе классификации объектов);

организации взаимодействия пользователей с системой (на основе экранных форм ввода-вывода данных);

обеспечения эффективного использования информации в контуре управления деятельностью объекта автоматизации (на основе унифицированной системы документации).

Информационное обеспечение ИС включает два комплекса: внемашинное ИО (классификаторы технико-экономической информации, документы, методические инструктивные материалы) и внутримашинное ИО (макеты/экранные формы для ввода первичных данных в ЭВМ или вывода результатной информации, структуры информационной базы: входных, выходных файлов, базы данных).

К информационному обеспечению предъявляются следующие общие требования:

информационное обеспечение должно быть достаточным для поддержания всех автоматизируемых функций объекта;

для кодирования информации должны использоваться принятые у заказчика классификаторы;

для кодирования входной и выходной информации, которая используется на высшем уровне управления, должны быть использованы классификаторы этого уровня;

должна быть обеспечена совместимость с информационным обеспечением систем, взаимодействующих с разрабатываемой системой;

формы документов должны отвечать требованиям корпоративных стандартов заказчика (или унифицированной системы документации);

структура документов и экранных форм должна соответствовать характеристиками терминалов на рабочих местах конечных пользователей;

графики формирования и содержание информационных сообщений, а также используемые аббревиатуры должны быть общеприняты в этой предметной области и согласованы с заказчиком;

в ИС должны быть предусмотрены средства контроля входной и результатной информации, обновления данных в информационных массивах, контроля целостности информационной базы, защиты от несанкционированного доступа.

Классификация

Для того чтобы обеспечить эффективный поиск, обработку на ЭВМ и передачу по каналам связи технико-экономической информации, ее необходимо представить в цифровом виде. С этой целью ее нужно сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.

Классификация – это разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами. Классификация фиксирует закономерные связи между классами объектов. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Таким образом, совокупность правил распределения объектов множества на подмножества называется системой классификации.

Свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации, называется признаком классификации. Например, признак «роль предприятия-партнера в отношении деятельности объекта автоматизации» позволяет разделить все предприятия на две группы (на два подмножества): «поставщики» и «потребители». Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки.

Классификатор – это документ, с помощью которого осуществляется формализованное описание информации в ИС, содержащей наименования объектов, наименования классификационных группировок и их кодовые обозначения.

По сфере действия выделяют следующие виды классификаторов:

международные: входят в состав Системы международных экономических стандартов (СМЭС) и обязательны для передачи информации между организациями разных стран мирового сообщества;

общегосударственные (общесистемные): обязательны для организации процессов передачи и обработки информации между экономическими системами государственного уровня внутри страны;

отраслевые: используют для выполнения процедур обработки информации и передачи ее между организациями внутри отрасли;

локальные: используют в пределах отдельных предприятий.

Каждая система классификации характеризуется следующими свойствами:

Гибкость системы – это способность допускать включение новых признаков, объектов без разрушения структуры классификатора. Необходимая гибкость определяется временем жизни системы.

Емкость системы – это наибольшее количество классификационных группировок, допускаемое в данной системе классификации.

Степень заполненности системы определяется как частное от деления фактического количества группировок на величину емкости системы.

В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная.

При использовании иерархического метода классификации происходит «последовательное разделение множества объектов на подчиненные, зависимые классификационные группировки». Получаемая на основе этого процесса классификационная схема имеет иерархическую структуру. В ней первоначальный объем классифицируемых объектов разбивается на подмножества по какому-либо признаку и детализируется на каждой следующей ступени классификации. Обобщенное изображение иерархической классификационной схемы представлено на рисунке 4.1.

Рисунок 4.1.Иерархическая классификационная схема

Характерными особенностями иерархической системы являются:

возможность использования неограниченного количества признаков классификации;

соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, образованной по одному признаку, на множество классификационных группировок по нижестоящему (подчиненному) признаку.

Таким образом, классификационные схемы, построенные на основе иерархического принципа, имеют неограниченную емкость, величина которой зависит от глубины классификации (числа ступеней деления) и количества объектов классификации, которое можно расположить на каждой ступени. Количество же объектов на каждой ступени классификации определяется основанием кода, то есть числом знаков в выбранном алфавите кода. (Например, если алфавит – двузначные десятичные цифры, то можно на одном уровне разместить 100 объектов). Выбор необходимой глубины классификации и структуры кода зависит от характера объектов классификации и характера задач, для решения которых предназначен классификатор.

К положительным сторонам иерархической системы классификации следует отнести логичность, простоту ее построения и удобство логической и арифметической обработки.

Серьезным недостатком иерархического метода классификации является жесткость классификационной схемы. Она обусловлена заранее установленным выбором признаков классификации и порядком их использования по ступеням классификации. Это ведет к тому, что при изменении состава объектов классификации, их характеристик или характера решаемых при помощи классификатора задач требуется коренная переработка классификационной схемы. Гибкость этой системы обеспечивается только за счет ввода большой избыточности в ветвях, что приводит к слабой заполненности структуры классификатора. Поэтому при разработке классификаторов следует учитывать, что иерархический метод классификации более предпочтителен для объектов с относительно стабильными признаками и для решения стабильного комплекса задач.

Недостатки, отмеченные в иерархической системе, отсутствуют в других системах, которые относятся к классу многоаспектных систем классификации.

Аспект – точка зрения на объект классификации, который характеризуется одним или несколькими признаками. Многоаспектная система – это система классификации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации.

Существуют два типа многоаспектных систем: фасетная и дескрипторная. Фасет – это аспект классификации, который используется для образования независимых классификационных группировок. Дескриптор – ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта к классу, группе и т.д.

Под фасетным методом классификации понимается «параллельное разделение множества объектов на независимые классификационные группировки». При этом методе классификации заранее жесткой классификационной схемы и конечных группировок не создается. Разрабатывается лишь система таблиц признаков объектов классификации, называемых фасетами. При необходимости создания классификационной группировки для решения конкретной задачи осуществляется выборка необходимых признаков из фасетов и их объединение в определенной последовательности. Общий вид фасетной классификационной схемы представлен на рисунке 4.2.

Рисунок 4.2. Схема признаков фасетной классификации

Внутри фасета значения признаков могут просто перечисляться по некоторому порядку или образовывать сложную иерархическую структуру, если существует соподчиненность выделенных признаков.

К преимуществам фасетной системы следует отнести большую емкость системы и высокую степень гибкости, поскольку при необходимости можно вводить дополнительные фасеты и изменять их место в формуле. При изменении характера задач или характеристик объектов классификации разрабатываются новые фасеты или дополняются новыми признаками уже существующие фасеты без коренной перестройки структуры всего классификатора.

К недостаткам, характерным для данной системы, можно отнести сложность структуры и низкую степень заполненности системы.

В современных классификационных схемах часто одновременно используются оба метода классификации. Это снижает влияние недостатков методов классификации и расширяет возможность использования классификаторов в информационном обеспечении управления.

Рассмотренные выше системы классификации хорошо приспособлены для организации поиска в фактографических системах (в том числе и в системах обработки данных) с целью последующей логической и арифметической обработки информации на ЭВМ. Но они лишь частично решают проблему содержательного поиска информации при принятии управленческих решений, характерного для документальных информационных систем.

Для поиска показателей и документов по набору содержательных признаков используется информационный язык дескрипторного типа, которой характеризуется совокупностью терминов (дескрипторов) и набором отношений между терминами.

Содержание документов или показателей можно достаточно полно и точно отразить с помощью списка ключевых слов – дескрипторов. Дескриптор – это термин естественного языка (слово или словосочетание), используемый при описании документов или показателей, который имеет самостоятельный смысл и неделим без изменения своего значения.

Для того чтобы обеспечить точность и однозначность поиска с помощью дескрипторного языка, необходимо предварительно определить все постоянные отношения между терминами: родовидовые, отношения синонимии, омонимии и полисемии, а также ассоциативные отношения.

Все выделенные отношения явно описываются в систематическом словаре понятий – тезаурусе, который разрабатывается с целью проведения индексирования документов, показателей и информационных запросов.

5rik.ru

Материалы для учебы и работы

Формализация данных