Формы организации данных в информационных системах

Функции ИВС в ИС

Роль информационно-вычислительных сетей в ИС

За исключением одиночных ИС, которые функционируют на автономных персональных компьютерах, технической основой большинства современных ИС являются вычислительные сети.

Особенности сети (локальная или корпоративная), на которой построена и функционирует ИС, зависят от архитектуры ИС.

Архитектура информационной системы – концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы.

Выделяют следующие типы архитектур ИС:

· файл-сервер;

· клиент-сервер;

· многоуровневая архитектура

Все эти архитектуры построены на вычислительных сетях. Архитектура «файл-сервер» обычно функционирует на базе локальной сети, «клиент-сервер» – на базе локальной или корпоративной, многоуровневая архитектура строится на основе корпоративной сети. Особенности этих архитектур мы разберем в следующих лекциях.

1) Обеспечение удаленного доступа к ресурсам ИС (базы данных, сетевые устройства);

2) Повышение вычислительных мощностей рабочих станций пользователей за счет распределения вычислительного процесса между несколькими компьютерами;

3) Повышение надежности систем за счет резервного копирования;

4) Обеспечение быстрого обмена информацией между различными пользователями ИС (особенно в случае большой удаленности)

На сегодняшний день существуют следующие формы организации данных в памяти ЭВМ: файлы, базы данных, хранилища данных и базы знаний.

Иногда все эти формы организации данных называют общим термином – информационная база. В таком случае внемашинное ИО определяют как совокупность информационной базы на машинных носителях и систему программ ее организации, накопления, ввода и доступа к данным.

Исторически первой формой организации данных была файловая организация данных.

Файл представляет собой совокупность однородной жестко организованной и поименованной информации, расположенной на машинном носителе. Это могут быть файлы данных и программные файлы, постоянные и текущие (переменные) файлы, промежуточные и выходные файлы.

Файловая организация данных используется при небольших объемах информации и обеспечивает высокую скорость обработки данных. Однако она имеет ряд недостатков, в частности файловая организация исключает установление связи между файлами и работу в диалоге, способствует большому дублированию данных.

Базы данных – совокупность данных по конкретной предметной области, структурированных в памяти компьютера таким образом, что достигаются их непротиворечивость, целостность, минимальная избыточность и максимальная независимость прикладных программ от данных.

Использование БД обеспечивает следующие преимущества:

· сокращение избыточности хранимых данных, благодаря однократному хранению каждого документа в базе данных;

· совместное использование данных всеми пользователями ЭИС;

· стандартизация представления данных, что упрощает обмен данными между разными ЭИС;

· обеспечение процедур проверки достоверности информации и процедур ограничения доступа к данным.

Одним из основных свойств баз данных можно считать независимость данных от использующих их прикладных программ. Под независимостью данных подразумевается то, что изменения в данных не приводит к изменению программ. Разработка программ длительный, трудоемкий и дорогостоящий процесс, поэтому при возникновении потребности модифицировать структуру данных в случае использования базы данных, нет необходимости изменять уже созданные прикладные программы.

Для ввода, наполнения, удаления, фильтрации и поиска данных в БД используется специальный комплекс программных и языковых средств - СУБД.

Следующей формой организации данных является хранилище данных. Хранилище данных (ХД) - предметно-ориентированный, интегрированный, неизменчивый, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей.

Пользователи ХД - это высший и средний менеджмент организации, аналитики, представители подразделений финансового анализа, маркетинга и других отделов.

Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

Интегрированность данных означает, что данные, полученные из различных источников, хранятся согласованно, централизованно и объединены так, чтобы они довлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

Некорректируемость (неизменяемость). Данные в хранилище данных не создаются и не удаляются: т.е. поступают из внешних источников, не корректируются и не удаляются, а лишь дополняются новыми.

Зависимость от времени. Данные в хранилище привязаны к некоторому промежутку или моменту времени.

Хранилище данных позволяет собрать в едином, по крайней мере с точки зрения пользователя, месте - супербазе всю информацию, которая может понадобиться управляющему при принятии решения. Источниками данных для информационного хранилища служат в первую очередь данные из разрозненных транзакционных и учетных информационных систем, основанных на различных реляционных СУБД, которые обслуживают повседневную бизнес-деятельность. Источниками необходимой информации могут быть также газеты, радио, телевидение, Интернет и любые другие. При этом предполагается, что данные предварительно должны быть приведены к единым стандартам, очищены от противоречий, структурированы и обобщены с требуемым уровнем детализации.

Хранилище позволяет вести процесс анализа показателей собственной коммерческой деятельности и деятельности конкурентов в их взаимосвязи с внутренними и внешними факторами (анализ продаж, анализ доходов, управление активами и пассивами).

Существуют два архитектурных направления - нормализованные хранилища данных и размерностные хранилища.

В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы - витрины данных. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ - высокая избыточность информации, проблемы с интегрированностью данных из нескольких таблиц одновременно.

Размерностные хранилища используют схему "звезда" или "снежинка". При этом в центре звезды находятся данные (таблица фактов) а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример - факты продаж и поставок товара). Таблицы данных и соответствующие размерности образуют архитектуру "ШИНА". Размерности часто создаются в третьей нормальной форме (медленно изменяющиеся размерности), для протоколирования изменения в размерностях. Основным достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных а также управление и изменение размерностей данных.

Операции с данными в ХД:

1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.

2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.

3. Загрузка - помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.

4. Анализ - OLAP, Data Mining, Reporting итд.

5. Представление результатов анализа.

База знаний, БЗ (англ. Knowledge base, KB) — это особого рода база данных, разработанная для управления знаниями (метаданными), то есть предназначенная для сбора, хранения, поиск и выдачи знаний. Под базами знаний понимает совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации. Классами правил вывода являются: деревья вывода, деревья целей и семантические сети.

 

Современные базы знаний обычно работают совместно с продвинутыми системами поиска информации и имеют тщательно продуманную структуру и формат представления знаний.

Наиболее важным свойством информации, хранящейся в базах знаний, является достоверность конкретных и обобщенных сведений в базе данных и релевантности информации, получаемой с использованием правил вывода, заложенных в базу знаний. В ответах на простейшие запросы к базам знаний системы логического программирования Пролог, выдает значения «истина» и «ложь» в зависимости от наличия соответствующих фактов.

Наиболее важный параметр БЗ — качество содержащихся знаний. Информация, содержащаяся в БЗ должна быть релевантной (соответствующей описываемым явлениям и процессам), достоверной и актуальной.

Классификация баз знаний

В зависимости от уровня сложности систем, в которых применяются базы знаний, различают:

· БЗ всемирного масштаба — например, Интернет или Википедия

· БЗ национальные — например, Википедия

· БЗ отраслевые— например, Автомобильная энциклопедия

· БЗ организаций — см. Управление знаниями

· БЗ экспертных систем — см. Экспертная система

· БЗ специалистов