ОРГАНИЗАЦИОННЫЕ ФОРМЫ ХРАНЕНИЯ ДАННЫХ

Недостатки традиционного подхода организации массивов информации в памяти ЭВМ, при котором разработка информационной базы ориентировалась на конкретные функциональные задачи, привели к необходимости переориентации на информацию, что повлекло за собой переход от проблемно-ориентированной базы данных к информационно-ориентированной. Все это обусловило новую организацию данных в ЭВМ, что нашло свое отражение в разработке автоматизированных банков данных, хранилищ данных и баз знаний.

Автоматизированный банк данныхпредставляет собой совокупность технических и программных средств формирования и ведения баз данных, а также позволяет нескольким специалистам совместно использовать хранимые информационные ресурсы и обобщать получаемые результаты.

Автоматизированный банк данных (АБД) — совокупность программных и технических средств для централизованного хранения и коллективного многоцелевого использования данных.

Автоматизированный банк данных ориентирован на обеспечение интегрированности и целостности БД, независимости и минимальной избыточности хранимых данных, их защиту от несанкционированного доступа, случайного или умышленного уничтожения.

В общем случае АБД состоит из нескольких компонентов (рис. 7.25).

Рис. 7.25. Пример организации автоматизированного банка данных

Базы данных(одна или несколько), каждая из которых представляет собой совокупность данных, организованных по определенным правилам, предусматривающим общие принципы описания, хранения и манипулирования данными. В базе данных накапливается и постоянно обновляется информация в виде небольшого числа массивов, каждый из которых ориентирован на использование при решении многих задач управления. При этом основное внимание уделяется непрерывному поддержанию в системе точной динамической информационной модели объекта управления.

СУБД, включающая в себя комплекс программных и языковых средств, предназначенных для создания, ведения и использования баз данных многими пользователями.

Приложения базы данныхспециализированные программные средства, при помощи которых пользователи управляют процессом обработки информации. В многопользовательских и распределенных БД, образующих автоматизированный банк данных, выделяют серверные и клиентские приложения:

- серверные приложения включают сервер БД, источники данных, а также связующее программное обеспечение, с помощью которого приложение подключается к АБД или удаленной базе данных в локальной сети;

- клиентскими являются приложения, с которыми напрямую взаимодействует конечный пользователь. Наличие клиентских приложений способствует упрощению работы специалиста. От него скрыты объекты БД, программный код, а также происходящие внутри нее события.

Вычислительная система является технической базой АБД Она представляет собой совокупность взаимосвязанных и согласованно действующих персональных компьютеров и других устройств, обеспечивающих автоматизацию процессов приема, обработки и выдачи информации пользователям. К ним относятся серверы, где централизованно располагаются базы данных, рабочие станции локальной вычислительной сети, а также каналы связи, поддерживающие коллективное использование данных.

Системное программное обеспечение включает операционные системы рабочих станций и сетевые операционные системы, которые управляют функционированием средств вычислительной техники.

Обслуживающий персонал, к которому относятся инженерно-технические специалисты, поддерживающие аппаратную часть АБД, а также администраторы базы данных, отвечающие за выработку требований к БД, ее проектирование, реализацию, эффективное использование и сопровождение, включая управление учетными записями пользователей БД и защиту от несанкционированного доступа. Не менее важной функцией администратора БД является поддержка целостности базы данных и т.д.

В основе организации многих АБД положены OLTP-средства, которые позволяют выполнять большое количество изменений, поддерживают одновременное обращение множества пользователей к одним и тем же данным для выполнения разнообразных операций — чтения, записи, удаления или модификации данных, т.е. OLTP-cистемы проектируются, настраиваются и оптимизируются для выполнения максимального количества транзакций за короткие промежутки времени (см. раздел 7.5).

Эти системы и АБД, построенные на их основе, обеспечивают регистрацию некоторых фактов, их непродолжительное хранение и сохранение в архивах. В АБД информация актуальна только на момент обращения к базам данных, а в следующий момент времени по тому же запросу можно получить совершенно другой результат (рис. 7.26).

Интерфейс таких систем рассчитан на проведение жестко определенных операций, и возможности получения результатов на нерегламентированный запрос сильно ограничены. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких транзакций и неизбежного замедления работы остальных пользователей.

 

Рис. 7.26. Пример схемы функционирования АБД, организованного на основе OLTP-систем

Таким образом, автоматизированные банки данных, организованные на основе OLTP, позволяют решать лишь оперативные, в меньшей мере тактические задачи, но не обеспечивают решение стратегических задач, а потому не удовлетворяют в полной мере потребности менеджеров стратегического уровня, которым, как правило, приходится принимать управленческие решения в условиях неопределенности, неполноты информации, ее разрозненности в первоисточниках, низком качестве и уровне готовности (отсутствием агрегатов, вычисляемых показателей).

В связи с этим возникло понимание того, что централизованное хранение информации, помимо механизмов размещения и извлечения данных, должно поддерживать работу менеджеров и аналитиков предприятия и позволять:

- анализировать информацию во временном аспекте; формировать произвольные запросы;

- обрабатывать большие объемы данных, которые должны непротиворечивыми, полными и надежными;

- интегрировать данные из различных источников и т.д.

Поэтому в настоящее время на крупных предприятиях в корпоративных информационных системах наиболее востребованной организацией, используемой для поддержки принятия решений, являются хранилища данных (ХД), с помощью которых решаются задачи сбора, анализа и преобразования первичных данных.

Хранилище данных (DW) организовывается для поддержки функций систем бизнеса-анализа и отчетности, как правило, на уровне отдельных бизнес-подразделений и ориентировано прежде всего на бизнес-понятия (например, продажи), а не на бизнес-процессы (например, выписку счетов) и содержит всю существенную информацию, относящуюся к этим понятиям, которая собрана из различных обрабатывающих систем. Эта информация собирается и представляется за согласованные периоды времени и не подвержена оперативным изменениям.

К концу 1980-х гг., когда была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности для создания соот­ветствующих систем, которые первоначально были названы хранилищами информации (Information Warehouse — IW). И лишь в 1990-е гг., с выходом книги «Building the Data Warehouse» (Построение хранилищ данных) Уиль­яма (Билла) Инмона хранилища получили свое нынешнее наименование «хранилища данных» (DW). Билл Инмон определил хранилища данных как «предметно-ориентированные, интегрированные, неизменные, поддержи­вающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источ­ника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений».

В основе современной концепции хранилищ (складов) данных положены OLAP-средства, которые позволяют выполнять:

- интеграцию разъединенных детализированных данных, которые описывают некоторые конкретные факты, свойства, события и т.д., в едином хранилище данных;

- тематическое и временное структурирование, согласование и агрегирование;

- разделение наборов данных, используемых для оперативной (производственной) обработки, и наборов данных, используемых для решения аналитических задач.

При этом данные, помещаемые в хранилище, должны отвечать определенным требованиям (табл. 7.3).

Таблица 7.3 Требования, предъявляемые к данным в ХД

Требование Характеристика требования
Предметная ориентированность Данные организованы в соответствии со способом их представления в предметных приложениях
Интегрированность Данные объединены едиными наименованиями, едини­цами измерения и т.д.
Поддержка хронологии Данные хронологически структурированы и отражают историю за период времени, достаточный для выполнения задач бизнес-анализа, прогнозирования и подготовки принятия решения
Согласованность во времени Данные приведены к единому моменту времени
Неизменяемость Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения

О хранилище данных можно говорить как о совокупности источника данных, где собирается информация для дальнейшей обработки, и процедур извлечения, преобразования и загрузки данных (ETL — extraction, transformation, loading).

Данные в ХД попадают из оперативных систем (OLTP), которые предназначены для автоматизации бизнес-процессов. Кроме того, хранилище может пополняться за счет внешних источников.

Таким образом, основное назначение информационного хранилища — информационная поддержка принятия решений, а не оперативная обработка данных. Технология информационного хранилища обеспечивает сбор данных из существующих внутренних баз данных (БД бухгалтерского, финансового, кадрового учета и др.) и внешних источников (например, БД правительственных и законодательных органов, партнеров и т.д.), формирование, хранение и эксплуатацию информации как единой, хранение аналитических данных в форме, удобной для анализа и принятия управленческих решений.

Основные отличия локальной базы данных от информационного хранилища представлены в табл. 7.4.

Таблица 7.4 Отличия базы данных от информационного хранилища

Элемент отличия База данных Информационное хранилище
Данные, содержа-щиеся в системе Оперативные данные организации Внутренние и внешние данные предприятия
Модели данных Поддерживается одна модель данных Поддерживается большое количество моделей данных
Выполняемые запросы Запросы по оперативным данным предприятия, отражающим ситуацию на настоящий момент времени Оперативные и ретроспек-тивные запросы, содержащие данные предприятия и внешних организаций как на настоящий момент времени, так и за пре-дыдущие периоды

Принцип, положенный в основу технологии информационного хранилища, заключается в том, что все необходимые для анализа данные извлекаются из нескольких локальных баз, преобразуются посредством статистических методов в аналитические данные, которые помещаются в один источник данных — информационное хранилище (рис. 7.27).

В процессе перемещения данных из локальной базы данных в информационное хранилище выполняются следующие преобразования:

- очищение данных— устранение ненужной для анализа информации (адреса, почтовые индексы, идентификаторы записей и т.д.);

- агрегирование данных— вычисление суммарных, средних, ми­нимальных, максимальных и других статистических показателей;

- преобразование в единый формат— производится в том случае, если одинаковые по наименованию данные, взятые из разных внешних и внутренних источников, имеют разный формат представления (например, даты);

- согласование во времени— приведение данных в соответствие к одному моменту времени (например, к единому курсу рубля на текущий момент).

Несмотря на большое разнообразие подходов, выделяют три основных вида хранилищ данных — распределенные витрины (или киоски) данных (Distributed Data Mart DDM); хранилища данных двухуровневой архитектуры; корпоративные хранилища данных трехуровневой архитектуры (Enterprise Data Warehouse).

Рис. 7.27. Технология помещения данных в хранилище данных

Распределенные витрины данных (РВД) представляют собой множество тематических БД, содержащих информацию, относящуюся к отдельным аспектам деятельности организации. Особенности РВД связаны с особенностями задач, на решение которых они ориентированы: аналитическую оперативную обработку информации и, как следствие, сложные для оперативных баз данных SQL-запросы.

Распределенные витрины данных (Distributed Data Mart DDM) — срез хранилища данных, представляющий собой массив тематической, узконаправленной информации, ориентированный, например, на пользователей одной рабочей группы.

Распределенная витрина данных — это упрощенный вариант хранилища данных, содержащий только тематически объединенные данные. Целевая база данных максимально приближена к конечному пользователю и может содержать тематически ориентированные агрегатные данные. Витрина данных существенно меньше по объему, чем корпоративное хранилище данных, и для ее реализации не требуется особо мощная вычислительная техника. Кроме того, в отличие от корпоративных хранилищ распределенные витрины данных часто строятся снизу вверх на основе информационных ресурсов подразделения, используемых конкретным приложением поддержки принятия решений или группой пользователей. РВД содержат агрегированные, а также часто и детализированные данные опредметной области. Выделяют два вида витрин данных:

- зависимая, когда хранимая в витрине данных информация может быть подмножеством корпоративного хранилища;

- независимая, когда информация поступает непосредственно из оперативных источников данных. Такие витрины строятся без создания центрального хранилища. При этом информация поступает из локальных баз данных и ограничена конкретной предметной областью, поэтому в разных витринах данных информация может дублироваться (рис. 7.28).

Рис. 7.28. Независимые витрины данных предприятия

Хранилища данных двухуровневой архитектуры характеризуются тем, что данные концентрируются в одном источнике, к которому все пользователи имеют доступ. Таким образом обеспечивается возможность формирования ретроспективных запросов, анализа тенденций, поддержки принятия решений (рис. 7.29).

Рис. 7.29. Хранилище данных двухуровневой архитектуры

Корпоративные хранилища данных (КХД) трехуровневой архитектуры поддерживают не отдельные подразделения, а всю компанию и используют различные бизнес-приложения. Информационные технологии при этом играют ключевую роль в новой среде, так как поддерживают функционирование хранилищ данных, обеспечивают их эффективное использование, что приводит к росту прибыли предприятия, улучшению возможностей для получения маржи, повышению эффективности на корпоративном уровне, а также на уровне отдельных бизнес-подразделений.

Архитектура КХД имеет следующую структуру:

- первый уровень — общекорпоративный включает БД на основе ре­ляционной СУБД, т.е. детализированные данные (OLTP-cpeдства);

- второй уровень БД уровня подразделения (или конечного пользователя) поддерживают витрины данных на основе многомерной СУБД, т.е. агрегированных данных (ОLАР-средства);

- третий уровень рабочие места конечных пользователей, на которых непосредственно установлен аналитический инструментарий.

Компактное хранение детализированных данных и поддержка очень больших БД обеспечивается реляционными СУБД, а простота настройки и хорошее время отклика при работе с агрегированными данными обеспечивается многомерными СУБД.

Реляционная БД в хранилище данных строится по одной из двух архитектур:

- «звезда», в которой с одной таблицей фактов связаны несколько таблиц измерений (справочников);

- . «снежинка», отличающаяся наличием иерархических справочников. Это делается для оптимизации скорости выполнения объемных запросов.

В многомерных СУБД имеется возможность хранить данные как на постоянной основе (непосредственно в многомерной БД), так и динамически (на время сеанса) загрузить данные из реляционных БД (на основе регламентированных запросов). Таким образом, имеется возможность хранить на постоянной основе только те данные, которые наиболее часто запрашиваются в данном узле. Для всех остальных хранятся только описания их структуры и программы их выгрузки из центральной БД. И хотя при первичном обращении к таким виртуальным данным время отклика может оказаться достаточно продолжительным, такое решение обеспечивает высокую гибкость и требует более дешевых аппаратных средств.

Корпоративные хранилища данных базируются прежде всего на репозитории данных (сквозной БД) и информации предприятия. Среда хранилища данных предназначена только для чтения и состоит из детальных и агрегированных данных, которые полностью очищены и интегрированы; кроме того, в репозитории хранится обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения такое хранилище данных реализует свои функции через подмножество зависимых витрин данных (рис. 7.30).

Рис. 7.30. Пример схемы КХД с зависимыми витринами данных

Функционирование хранилища данных основано на сборе оперативных данных из различных источников, их очистке, интеграции и занесении в реляционную БД. При этом они сразу становятся доступными для анализа при помощи различных средств построения отчетов. Затем данные (полностью или частично) подготавливаются для аналитической обработки и загружаются в специальную базу данных OLAP-систем, важнейшим элементом которых являются метаданные, т.е. информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища. Организуется этот процесс за счет того, что метаданные располагаются в специализированном словаре метаданных, куда автоматически подключаются словари источников данных. Задача словаря метаданных состоит в том, чтобы освободить разработчика от необходимости стандарти­зировать источники данных. Специальные компоненты словарей данных обеспечивают своевременное извлечение данных из словарей и выполняют их преобразование к единому формату на основе словаря метаданных.

Таким образом, задача ХД — предоставить «сырье» для анализа в одном месте и в простой, понятной структуре. Для этого в хранилищах данных предусмотрены:

- общая семантика данных;

- централизованная управляемая среда;

- согласованный набор процессов извлечения и бизнес-логики использования;

- непротиворечивость содержащейся информации;

- легко создаваемые по шаблонам и наполняемые витрины данных;

- единый репозиторий метаданных;

- многообразие механизмов обработки и представления данных.

Однако хранилища данных имеют определенные недостатки, к которым прежде всего относятся:

- большие затраты по реализации;

- высокая ресурсоемкость в масштабе всего предприятия;

- потребность в сложных сервисных системах и т.д.

Базы знаний (БЗ).Развитие и усложнение информационно-логических структур данных, обрабатываемых в информационных технологиях, привело к появлению новой формы организации информации — базам знаний.

Под знаниями понимаются закономерности предметной области (принципы, связи, законы), полученные в результате практической деятельности и профессионального опыта, позволяющие специалистам ставить и решать задачи в этой области.

Знания можно рассматривать как стратегическую информацию для формирования цели и построения кинематической траектории, а информацию — как оперативные знания, используемые ИТ в динамическом процессе.

Управление знаниями за счет внедрения и эксплуатации БЗ, использование их в процессе функционирования предприятия позволяет перевести менеджмент экономического объекта на качественно новую ступень реализации управленческих процессов.

Существует большое количество моделей (языков) представления знаний для различных предметных областей, большинство из которых может быть сведено к четырем классам — продукционные, семантические сети, фреймы и формальные логические модели.

Продукционная модель, или модель, основанная на правилах, позволяет представить знания в виде предложений типа: если (условие), то (действие).

- Условие — некоторое предложение-образец, по которому осуществляется поиск в базе знаний.

- Действия выполняются при успешном исходе поиска (они могут быть промежуточными, выступающими далее как условия, и терминальными или целевыми, завершающими работу системы).

При использовании продукционной модели база знаний состоит из набора правил. Программа, которая выполняет логический вывод из предварительно построенной базы фактов и правил в соответствии с законами формальной логики, называется машиной вывода. При этом под фактом понимается утверждение, являющееся постоянно истинным, а под правилом понимается утверждение, состоящее из двух частей: условия и результата — если (условие), то (результат), например, если стол сделан из древесины сосны, то стол является деревянным.

Чаще всего логический вывод, генерируемый машиной вывода, бывает прямой (отданных к поиску цели) или обратный (от цели для ее подтверждения — к данным). Данные — это исходные факты, на основании которых запускается машина вывода.

Продукционная модель чаще всего применяется в промышленных экспертных системах. Она характеризуется наглядностью, высокой модульностью, легкостью внесения дополнений и изменений и простотой механизма логического вывода.

Семантическая сеть — это ориентированный граф, вершинами которого являются понятия, а дугами (ребрами) — отношения между ними.

Термин «семантическая» означает смысловая, а сама семантика — это наука, устанавливающая отношения между символами и объектами, которые они обозначают, т.е. наука, определяющая смысл знаков. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений. Понятиями обычно выступают абстрактные или конкретные объекты, а отношения — это связи типа: «это» («is»), «имеет частью» («has part»), «принадлежит» и т.д. Характерной особенностью семантических сетей является обязательное наличие трех типов отношений:

- класс — элемент класса;

- свойство — значение;

- пример элемента класса.

Количество типов отношений в семантической сети определяется ее создателем исходя из конкретных целей. В реальном мире их огромное множество. Скорость работы с базой знаний зависит от того, насколько эффективно реализованы программы обработки нужных отношений.

Наиболее часто возникает потребность в описании отношений между элементами, множествами и частями объектов (иерархические отношения). Отношение между объектом и множеством, обозначающим, что объект принадлежит этому множеству, называется отношением классификации.

Часто в семантических сетях требуется определить отношения синонимии и антонимии. Эти связи либо дублируются явно в самой сети, либо в алгоритмической составляющей.

Кроме того, в семантических сетях используются следующие отношения:

- связи типа «часть-целое» («класс-подкласс», «элемент-множество» и т.д.);

- функциональные связи (обычно определяются глаголами «производит», «влияет» и т.д.);

- количественные (больше, меньше, равно и т.д.);

- пространственные (далеко от, близко от, за, под, над и т.д.);

- временные (раньше, позже, в течение и т.д.);

- атрибутивные связи (иметь свойство, иметь значение...);

- логические связи (и, или, не) и др.

Проблема поиска решения в базе знаний типа семантической сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети, которая и соответствует поставленному вопросу.

Основное преимущество этой модели — в соответствии современным представлениям об организации долговременной памяти человека. Недостаток модели — это сложность поиска вывода на семантической сети.

Фрейм (англ. frame — каркас, кадр или рамка) имеет значительное количество смысловых значений. В базах знаний фрейм — это модель абстрактного образа, минимально возможное описание сущности какого-либо объекта, явления, события, ситуации, процесса.

Различают фреймы-образцы, или прототипы, хранящиеся в базе знаний, и фреймы-экземпляры, которые создаются для отображения реальных ситуаций на основе поступающих данных.

Модель фрейма является достаточно универсальной, поскольку позволяет отобразить все многообразие знаний через:

- фреймы-структуры для обозначения объектов и понятий (кредит, договор и т.д.);

- фреймы-роли (менеджер, поставщик, покупатель и т.д.);

- фреймы-сценарии (заключение договора, собрание акционеров и т.д.);

- фреймы-ситуации (поставка товара, передача сообщения и т.д.) и др.

Совокупность фреймов, моделирующая какую-либо предметную область, представляет собой иерархическую структуру, в которую фреймы собираются с помощью родовидовых связей. На верхнем уровне иерархии находится фрейм, содержащий наиболее общую информацию, истинную для всех остальных фреймов. Фреймы обладают способностью наследовать значения характеристик своих родителей, находящихся на более высоком уровне иерархии. Эти значения могут передаваться по умолчанию фреймам, находящимся ниже них в иерархии, но если последние содержат собственные значения данных характеристик, то в качестве истинных принимаются именно они. Это обстоятельство позволяет без затруднений учитывать во фреймовых системах различного рода исключения. Различают следующие системы фреймов:

- статические, в которых фреймы не могут быть изменены в процессе решения задачи;

- динамические системы допускают изменения фреймов.

Системы программирования, основанные на фреймах, относят к объектно-ориентированными. Каждый фрейм соответствует некоторому объекту предметной области, а структурные единицы фреймов (слоты) содержат описывающие этот объект данные, т.е. в слотах находятся значения признаков объектов. Фрейм может быть представлен в виде списка свойств, а если использовать средства базы данных, то и в виде записи.

Основным преимуществом фреймов как модели представления знаний является способность отражать концептуальную основу организации памяти человека, а также гибкость и наглядность.

Формальные логические модели представления знаний основаны на подходе, в котором вся информация, необходимая для решения прикладных задач, рассматривается как совокупность фактов и утверждений, представляемые как формулы в некоторой логике. Знания отображаются совокупностью таких формул, а получение новых знаний сводится к реализации процедур логического вывода.

Эта логическая модель применима в основном в исследовательских системах, так как предъявляет очень высокие требования и ограничения к предметной области. В промышленных же экспертных системах используются различные ее модификации и расширения.

Для создания БЗ разрабатываются соответствующие программные средства, которые позволяют обеспечивать загрузку, актуализацию, поддержание в достоверном состоянии, расширение БЗ, формирование, обработку и включение новых знаний, соответствующих ситуации. Базы знаний составляют основу экспертных систем при подготовке управленческих решений (см. раздел 5.3).