Формы организации данных в информационных системах
Функции ИВС в ИС
Роль информационно-вычислительных сетей в ИС
За исключением одиночных ИС, которые функционируют на автономных персональных компьютерах, технической основой большинства современных ИС являются вычислительные сети.
Особенности сети (локальная или корпоративная), на которой построена и функционирует ИС, зависят от архитектуры ИС.
Архитектура информационной системы – концепция, определяющая модель, структуру, выполняемые функции и взаимосвязь компонентов информационной системы.
Выделяют следующие типы архитектур ИС:
· файл-сервер;
· клиент-сервер;
· многоуровневая архитектура
Все эти архитектуры построены на вычислительных сетях. Архитектура «файл-сервер» обычно функционирует на базе локальной сети, «клиент-сервер» – на базе локальной или корпоративной, многоуровневая архитектура строится на основе корпоративной сети. Особенности этих архитектур мы разберем в следующих лекциях.
1) Обеспечение удаленного доступа к ресурсам ИС (базы данных, сетевые устройства);
2) Повышение вычислительных мощностей рабочих станций пользователей за счет распределения вычислительного процесса между несколькими компьютерами;
3) Повышение надежности систем за счет резервного копирования;
4) Обеспечение быстрого обмена информацией между различными пользователями ИС (особенно в случае большой удаленности)
На сегодняшний день существуют следующие формы организации данных в памяти ЭВМ: файлы, базы данных, хранилища данных и базы знаний.
Иногда все эти формы организации данных называют общим термином – информационная база. В таком случае внемашинное ИО определяют как совокупность информационной базы на машинных носителях и систему программ ее организации, накопления, ввода и доступа к данным.
Исторически первой формой организации данных была файловая организация данных.
Файл представляет собой совокупность однородной жестко организованной и поименованной информации, расположенной на машинном носителе. Это могут быть файлы данных и программные файлы, постоянные и текущие (переменные) файлы, промежуточные и выходные файлы.
Файловая организация данных используется при небольших объемах информации и обеспечивает высокую скорость обработки данных. Однако она имеет ряд недостатков, в частности файловая организация исключает установление связи между файлами и работу в диалоге, способствует большому дублированию данных.
Базы данных – совокупность данных по конкретной предметной области, структурированных в памяти компьютера таким образом, что достигаются их непротиворечивость, целостность, минимальная избыточность и максимальная независимость прикладных программ от данных.
Использование БД обеспечивает следующие преимущества:
· сокращение избыточности хранимых данных, благодаря однократному хранению каждого документа в базе данных;
· совместное использование данных всеми пользователями ЭИС;
· стандартизация представления данных, что упрощает обмен данными между разными ЭИС;
· обеспечение процедур проверки достоверности информации и процедур ограничения доступа к данным.
Одним из основных свойств баз данных можно считать независимость данных от использующих их прикладных программ. Под независимостью данных подразумевается то, что изменения в данных не приводит к изменению программ. Разработка программ длительный, трудоемкий и дорогостоящий процесс, поэтому при возникновении потребности модифицировать структуру данных в случае использования базы данных, нет необходимости изменять уже созданные прикладные программы.
Для ввода, наполнения, удаления, фильтрации и поиска данных в БД используется специальный комплекс программных и языковых средств - СУБД.
Следующей формой организации данных является хранилище данных. Хранилище данных (ХД) - предметно-ориентированный, интегрированный, неизменчивый, зависимый от времени набор данных, предназначенный для поддержки принятия решений различными группами пользователей.
Пользователи ХД - это высший и средний менеджмент организации, аналитики, представители подразделений финансового анализа, маркетинга и других отделов.
Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
Интегрированность данных означает, что данные, полученные из различных источников, хранятся согласованно, централизованно и объединены так, чтобы они довлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
Некорректируемость (неизменяемость). Данные в хранилище данных не создаются и не удаляются: т.е. поступают из внешних источников, не корректируются и не удаляются, а лишь дополняются новыми.
Зависимость от времени. Данные в хранилище привязаны к некоторому промежутку или моменту времени.
Хранилище данных позволяет собрать в едином, по крайней мере с точки зрения пользователя, месте - супербазе всю информацию, которая может понадобиться управляющему при принятии решения. Источниками данных для информационного хранилища служат в первую очередь данные из разрозненных транзакционных и учетных информационных систем, основанных на различных реляционных СУБД, которые обслуживают повседневную бизнес-деятельность. Источниками необходимой информации могут быть также газеты, радио, телевидение, Интернет и любые другие. При этом предполагается, что данные предварительно должны быть приведены к единым стандартам, очищены от противоречий, структурированы и обобщены с требуемым уровнем детализации.
Хранилище позволяет вести процесс анализа показателей собственной коммерческой деятельности и деятельности конкурентов в их взаимосвязи с внутренними и внешними факторами (анализ продаж, анализ доходов, управление активами и пассивами).
Существуют два архитектурных направления - нормализованные хранилища данных и размерностные хранилища.
В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы - витрины данных. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ - высокая избыточность информации, проблемы с интегрированностью данных из нескольких таблиц одновременно.
Размерностные хранилища используют схему "звезда" или "снежинка". При этом в центре звезды находятся данные (таблица фактов) а размерности образуют лучи звезды. Различные таблицы фактов совместно используют таблицы размерностей, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (Пример - факты продаж и поставок товара). Таблицы данных и соответствующие размерности образуют архитектуру "ШИНА". Размерности часто создаются в третьей нормальной форме (медленно изменяющиеся размерности), для протоколирования изменения в размерностях. Основным достоинством размерностных хранилищ является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным размерностям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных а также управление и изменение размерностей данных.
Операции с данными в ХД:
1. Извлечение – перемещение информации от источников данных в отдельную БД, приведение их к единому формату.
2. Преобразование – подготовка информации к хранению в оптимальной форме для реализации запроса, необходимого для принятия решений.
3. Загрузка - помещение данных в хранилище, производится атомарно, путем добавления новых фактов или корректировкой существующих.
4. Анализ - OLAP, Data Mining, Reporting итд.
5. Представление результатов анализа.
База знаний, БЗ (англ. Knowledge base, KB) — это особого рода база данных, разработанная для управления знаниями (метаданными), то есть предназначенная для сбора, хранения, поиск и выдачи знаний. Под базами знаний понимает совокупность фактов и правил вывода, допускающих логический вывод и осмысленную обработку информации. Классами правил вывода являются: деревья вывода, деревья целей и семантические сети.
Современные базы знаний обычно работают совместно с продвинутыми системами поиска информации и имеют тщательно продуманную структуру и формат представления знаний.
Наиболее важным свойством информации, хранящейся в базах знаний, является достоверность конкретных и обобщенных сведений в базе данных и релевантности информации, получаемой с использованием правил вывода, заложенных в базу знаний. В ответах на простейшие запросы к базам знаний системы логического программирования Пролог, выдает значения «истина» и «ложь» в зависимости от наличия соответствующих фактов.
Наиболее важный параметр БЗ — качество содержащихся знаний. Информация, содержащаяся в БЗ должна быть релевантной (соответствующей описываемым явлениям и процессам), достоверной и актуальной.
Классификация баз знаний
В зависимости от уровня сложности систем, в которых применяются базы знаний, различают:
· БЗ всемирного масштаба — например, Интернет или Википедия
· БЗ национальные — например, Википедия
· БЗ отраслевые— например, Автомобильная энциклопедия
· БЗ организаций — см. Управление знаниями
· БЗ экспертных систем — см. Экспертная система
· БЗ специалистов