Технологии сбора, хранения, обработки, передачи и представления информации
Лекция №2
В общем виде технологию сбора, хранения, обработки передачи и представления информации можно представить следующим образом (рис. 2.1).
Рис. 2.1
Сборпредполагает получение максимально выверенной исходной информации и является одним из самых ответственных этапов в работе с информацией, поскольку от цели сбора и методов последующей обработки полностью зависит конечный результат работы всей информационной системы.
Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. На заключительном этапе сбора, когда информация преобразуется в данные, т. е. в информацию, представленную в формализованном виде, пригодном для компьютерной обработки, осуществляется ее ввод в систему.
Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления. Сбор данных должен обеспечивать необходимую полноту и минимальную избыточность хранимой информации, что может быть достигнуто за счет выбора данных, оценки их необходимости, а также анализа существующих данных и разделения их на входные, промежуточные и выходные.
Для сбора данных необходимо сначала определить технические средства, позволяющие осуществлять сбор быстро и высококачественно и поддерживающие операции ввода информации и представления данных в электронной форме. В качестве средств сбора в информационных системах обычно выступают агрегаты, представляющие собой совокупность устройств и программного обеспечения к ним, которые служат для преобразования информации, представленной в неэлектронной форме, в электронную для ее последующего использования в системе.
Так, для различных этапов сбора текстовой и графической информации, а также для выбора из предлагаемых системой вариантов обычно применяются такие средства, как клавиатура, различные манипуляторы («мышь», шаровой джойстик, световое перо и т. д.), сканер, планшет, сенсорный экран, монитор.
Для сбора звуковой информации чаще всего используются диктофон и микрофон, в некоторых случаях применяются звуковые датчики и аппаратура распознавания речи, а также средства записи эфира радиостанций.
Сбор видеоинформации осуществляется с помощью видеокамер и фотоаппаратов; кроме того, существуют средства, позволяющие записывать сигналы телевизионного вещания.
В промышленных системах в зависимости от сферы применения часто используются также технические средства для сканирования штрих-кода, захвата изображений, автоматические датчики объема, давления, температуры, влажности, системы распознавания сигналов и кодов и т. д.
В целом применение подобных промышленных средств сбора информации называют технологией автоматической идентификации, т. е. идентификацией и/или прямым сбором данных в микропроцессорное устройство (компьютер или программируемый контроллер) без использования клавиатуры.
Автоматическая идентификация объединяет пять групп технологий, обеспечивающих решение проблемы сбора разнообразных данных:
1. Технологии штрихового кодирования (Bar Code Technologies).
2. Технологии радиочастотной идентификации (RF1D — Radio Frequency Identification Technologies).
3. Карточные технологии (Card Technologies).
4. Технологии сбора данных (Data Communications Technologies).
5. Новые технологии, такие, как распознавание голоса, оптическое и магнитное распознавание текста, биометрические технологии и некоторые другие.
При первоначальной разработке технологии сбора данных после выбора технических средств необходимо продумать план сбора данных, который обычно включает несколько этапов, особенно характерных для исследовательских проектов:
• определение проблемной ситуации и формулирование цели сбора данных;
• детальное изучение предметной области с помощью опроса экспертов, изучения литературы и групповых дискуссий и уточнение задач сбора данных;
• разработка концепции сбора данных на основании выработки гипотез, их практической проверки, выявления причинно-следственных связей;
• детальное планирование сбора данных, определение источников информации (вторичные данные, уже собранные кем-то до проекта, или первичные, новые данные);
• отбор источников информации и сбор вторичных данных;
• оценка полученных вторичных данных (актуальность, точность, полнота, пригодность для дальнейшей обработки);
• планирование сбора первичных данных, выбор способа сбора;
• проведение сбора и ввода первичной информации;
• анализ полученных данных;
• представление результатов сбора данных, передача их на хранение и в обработку.
В зависимости от целей, сферы деятельности и располагаемых технических средств можно выделить целый спектр методов сбора данных:
1) в экономических информационных системах (например, маркетинга):
• опрос и интервью — групповой, индивидуальный или телефонный опрос, опрос в форме анкетирования, формализованные и неформализованные интервью;
• регистрация (наблюдение) — систематическое, планомерное изучение поведения того или иного объекта или субъекта;
• эксперимент — исследование влияния одного фактора на другой при одновременном контроле посторонних факторов;
• итерационная регистрация — повторяющийся сбор данных у одной группы опрашиваемых через равные промежутки времени;
• экспертная оценка — оценка исследуемых процессов квалифицированными специалистами-экспертами;
2) в геоинформационных системах:
• сбор информации из нормативной и методической документации;
• сбор пространственных (координатных и атрибутивных) данных;
• мониторинг потоков данных, поступающих с научно-исследовательских воздушных и морских судов, береговых станций и буев в оперативном и задержанном режиме;
• сбор данных, поступающих по каналам удаленного доступа к данным;
3) в статистических информационных системах:
• сбор данных с первичных документов;
• заполнение собственных форм и шаблонов при сборе данных;
• сбор данных из подотчетных организаций с помощью заполнения ими предписанных форм отчетности;
4) в информационных системах управления производственными процессами широко применяются методы сбора данных, основанные на технологии автоматической идентификации.
Собранная информация, переведенная в электронную форму, подлежит правильному хранению и требует обеспечения к ней доступа.
Процедура хранения информации заключается в формировании и поддержке структуры хранения данных в памяти ЭВМ.
Универсальной методики построения системы хранения данных на сегодняшний день не существует. Можно сформулировать только основные требования, предъявляемые к структурам хранения:
• независимость от программ, использующих хранимые данные;
• обеспечение полноты и минимальной избыточности данных;
• возможность актуализации данных (т. е. пополнения или изменения значений данных, записанных в базе);
• возможность извлечения данных, а также сортировки и поиска по заданным критериям.
Наиболее часто в роли структур хранения данных выступают базы или банки данных [19, 23, 24].
База данных (БД) — специально организованная совокупность взаимосвязанных данных, отражающих состояние выделенной предметной области в реальной действительности и предназначенной для совместного использования при решении задач многими пользователями.
БД представляет собой комплекс информационных, технических, программных, лингвистических и организационных средств, обеспечивающих сбор, хранение, поиск и обработку данных.
Банк данных — универсальная база данных, обслуживающая любые запросы прикладных программ вместе с соответствующим программным обеспечением.
Для обеспечения доступа к базе данных, составления обобщенных и детализированных отчетов, выполнения анализа данных с помощью запросов используются системы управления базами данных (СУБД). Среди наиболее ярких можно отметить: Lotus Approach, Microsoft Access, Borland dBase, Borland Paradox, Microsoft Visual FoxPro, а также базы данных Microsoft SQL Server и Oracle, используемые в приложениях, построенных по технологии «клиент—сервер».
Кроме баз и банков данных, современную структуру хранения информации предоставляют хранилища данных.
Хранилище данных– это
Хранилище данных включает в себя следующие функциональные блоки:
• инструменты настройки информационной модели, отражающей все виды информации, необходимой для решения задач предприятия;
• репозиторий метаданных, т. е. описание структуры хранилища данных, доступное как внутренним программам хранилища, так и внешним системам, обеспечивающее гибкость хранилища;
• технология сбора данных из внешних источников, а также из удаленных подразделений с помощью двух методов:
— применение средств ETL (Extract, Transformation, Loa-din — извлечение, трансформация, загрузка), присущих специальным системам, для извлечения данных из других баз данных, трансформации в соответствии с правилами, описанными в системе, и загрузки в хранилище данных;
— применение стандартного формата сбора данных и разработка процедур их выгрузки на стороне источника, что обеспечивает однородность данных, извлеченных из разных систем, и децентрализацию разработки за счет передачи ее специалистам, знающим исходную систему;
• механизмы расчета агрегатов и показателей, базирующихся на детальных данных хранилища, с помощью технологий иерархической настройки структуры данных или показателей, а также встроенного языка программирования;
• пользовательские интерфейсы, позволяющие коллективу сотрудников разделять функции и выполнять различные задачи, включая администрирование, дизайн приложений, технологическую поддержку хранилища, анализ данных по запросам и т. д.;
• механизмы выполнения произвольных запросов, включая средства генерации запросов и необходимых индексов;
• инструменты настройки и выпуска отчетов как конечных продуктов хранилища данных, в том числе отчетов регламентированной формы, аналитических и настраиваемых пользователем.
Следует отметить, что немаловажным требованием к любой системе хранения данных является обеспечение резервного копирования, архивирования, структурированного хранения и восстановления данных в требуемые сроки.
Резервное копирование — это создание копий файлов для быстрого восстановления работоспособности системы при возникновении аварийной ситуации. Копии файлов хранятся на резервных носителях в течение определенного времени, а затем перезаписываются.
Различают полное, инкрементальное и дифференциальное резервное копирование.
Полное резервное копирование предполагает создание копий всех данных, подлежащих резервному копированию, что позволяет в случае аварийной ситуации быстро восстановить информацию; однако такое копирование занимает довольно продолжительное время.
Дифференциальное резервное копирование предполагает дублирование только тех файлов, которые были созданы или изменены с момента проведения предыдущего сеанса полного копирования. При возникновении аварийной ситуации для восстановления данных потребуются последняя полная и дифференциальная копии.
Инкрементальное резервное копирование предполагает создание копий только тех файлов, которые были созданы или изменены с момента последнего полного, дифференциального или инкрементального копирования. Такое копирование осуществляется довольно быстро, однако при возникновении аварийной ситуации для восстановления данных потребуется последняя полная и все последующие инкрементальные копии, а процедура восстановления будет очень длительной.
Учитывая достоинства и недостатки существующих методов резервного копирования, на практике параллельно применяют полное копирование (например, 1 раз в неделю) и инкрементальное (например, 1 раз в день).
Архивное копирование есть процесс копирования файлов для бессрочного или долговременного хранения на архивных носителях. Архивное копирование также может быть полным, инкрементальным и дифференциальным, однако оно осуществляется реже резервного копирования.
Технологический процесс обработки информации базируется на нескольких типах технологий обработки данных, которые используются специалистами в самых различных областях деятельности. Среди них выделяют следующие:
1. Предметная технология - это последовательность технологических этапов преобразования первичной информации определенной предметной области в результатную, не зависящая от использования средств вычислительной техники и информационной технологии.
2. Базовая информационная технология — это совокупность аппаратных и программных средств, предназначенных для организации процесса преобразования данных (информации, знаний), их связи и передачи.
Базовая информационная технология делится на:
- обеспечивающие информационные технологии — технологии обработки информации, которые могут использоваться как инструментарий в различных предметных областях для решения различных задач;
- функциональные информационные технологии — такая модификация обеспечивающих информационных технологий, при которой реализуется какая-либо из предметных технологий. Функциональная информационная технология образует готовый программный продукт или его часть, предназначенный для автоматизации задач в определенной предметной области и заданной технической среде.
Преобразование обеспечивающей информационной технологии в функциональную может быть выполнено не только специалистом-разработчиком систем, но и самим пользователем. Это зависит от квалификации пользователя и от сложности необходимой модификации. Корректная реализация предметной технологии зависит от рациональной организации технологического процесса обработки информации.
Технологический процесс обработки информации — есть строго определенная последовательность взаимосвязанных процедур, выполняемых для преобразования первичной информации с момента ее возникновения до получения требуемого результата.
Технологический процесс призван автоматизировать обработку исходной информации за счет привлечения технических средств базовой информационной технологии, сократить финансовые и трудовые затраты, обеспечить высокую степень достоверности результатной информации. Для конкретной задачи той или иной предметной области технологический процесс обработки информации разрабатывается индивидуально.
Совокупность процедур зависит от следующих факторов:
• характер и сложность решаемой задачи;
• алгоритм преобразования информации;
• используемые технические средства;
• сроки обработки данных;
• используемые системы контроля;
• число пользователей и т. д.
В любой предметной области в технологическом процессе обработки информации можно выделить три основных этапа.
Первый этап начинается со сбора первичных документов из различных источников и подготовки их к автоматизированной обработке.
На этом этапе производятся анализ представленных для обработки документов, систематизация имеющейся информации, составление и уточнение контрольных сведений, которые в дальнейшем будут использованы для проверки корректности введенных данных.
Второй этап является основным и включает ввод, обработку информации по заданному алгоритму, а также вывод результатных документов.
На этом этапе осуществляется ручной или автоматизированный ввод информации с первичных документов, контроль корректности и полноты результатов ввода. Информация с первичных документов переносится в информационную базу либо в электронную форму документа и таким образом преобразуется в данные. Далее следует обработка данных на основании алгоритма решения поставленной задачи, их преобразование в выходные данные, формирование и печать результатных документов.
На заключительном третьем этапе технологического процесса обработки информации производится контроль качества и полноты результатных документов, их тиражирование и передача заинтересованным лицам по различным каналам связи в электронном виде или на бумажных носителях.
Способы обработки информации:
Централизованный способ предполагает сосредоточение данных в информационно-вычислительном центре, выполняющем все основные действия технологического процесса обработки информации. Основное достоинство централизованного способа — сравнительная дешевизна обработки больших объемов информации за счет повышения загрузки вычислительных средств.
Децентрализованный способ характеризуется рассредоточением информационно-вычислительных ресурсов и распределением технологического процесса обработки информации по местам возникновения и потребления информации. Достоинством децентрализованного способа является повышение оперативности обработки информации и решения поставленных задач за счет автоматизации деятельности на конкретных рабочих местах, применения надежных средств передачи информации, организации сбора первичных документов и ввода исходных данных в местах их возникновения.
Зачастую на практике применяют смешанный способ обработки информации, для которого характерны признаки двух способов одновременно (централизованный с частичной децентрализацией или децентрализованный с частичной централизацией). В этом случае за основу принимают один из способов, используя при этом преимущества другого, за счет этого достигается высокая эффективность работы информационно-вычислительных средств, экономия материальных и трудовых ресурсов.
Вычислительные средства участвуют в процессе обработки информации в двух основных режимах: пакетном или диалоговом.
В случае, когда технология обработки информации на компьютере представляет собой заранее определенную последовательность операций, не требующую вмешательства человека, и диалог с пользователем отсутствует, информация обрабатывается в так называемом пакетном режиме. Суть его состоит в том, что программы обработки данных последовательно выполняются под управлением операционной системы как совокупность (пакет) заданий. Операционная система обеспечивает ввод данных, вызов требуемых программ, включение необходимых внешних устройств, координацию и управление технологическим процессом обработки информации.
Сегодня более распространен диалоговый режим, когда необходимо непосредственное взаимодействие пользователя с компьютером и на каждое свое действие пользователь получает немедленные ответные действия компьютера. Диалоговый режим позволяет пользователю интерактивно управлять порядком обработки информации и получать результатные данные в виде необходимых документов либо файлов.
Передача информации в любом виде осуществляется через канал передачи, который определяется таким параметром как емкость канала.
Воспроизведение информации — это процесс, при котором ранее записанная на носителе информация считывается устройством воспроизведения.
Отображение информации — есть представление информации, т. е. генерация сигналов на основе исходных данных, а также правил и алгоритмов их преобразования в форме, приемлемой для непосредственного восприятия человеком.