Анализ данных в АИС на предприятии.

Автоматизация анализа массивов данных – одно из основных назначений АИС.

Системы и модули больших КИС предназначенные для автоматизации анализа данных называют СППР (DSS).

Основное предназначение анализа данных на предприятии – поддержка принятия управленческих решений.

Любая система анализа данных должна обеспечивать: ввод данных, хранение данных, анализ данных.

Средствами ввода данных являются интерфейсные средства, в частности, клиентских компонентов OLTP-систем.

Для хранения данных в системах анализа используются базы данных и хранилища данных (ХД, ИХ – инф. хранилища, Data Warehouse). Концепция ХД возникла в начале 90-х гг. Появление этой концепции связано с выявленными противоречиями к системам оперативной обработки данных и к системам анализа.

Противоречия:

1. Сложные аналитические запросы забирают ресурсы системы и могут существенно тормозить обработку оперативных данных.

2. Оперативные базы не приспособлены к длительному хранению больших массивов данных, которые необходимы для анализа.

3. Избыточность данных в оперативных базах должна сводиться к минимуму. Для анализа некоторая избыточность может быть полезной.

4. Ошибки при ручном вводе данных в оперативные базы неизбежны и в принципе могут допускаться. В то же время ошибки в данных, предназначенных для анализа, могут полностью исказить его результаты.

5. Аналитические запросы в отличие от обычных запросов OLTP-систем не могут быть определены заранее.

Для систем оперативной обработки типична средняя постоянная загрузка вычислительной системы. При анаизе данных наблюдается пиковая загрузка при обработке запросов.

Основная идея ХД – принцип разделения оперативных данных и данных для анализа.

 

 

 

Определение ХД (У. Инмон 1993 г.).

ХД – предметно ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, предназначенный для поддержки принятия управленческих решений.

Предметная ориентированность означает, что некоторую предметную область отражают данные, поступающие в ХД из оперативных источников, отражающих отдельные аспекты этой области. Кроме того, для анализа необходимо хранить только содержательные данные.

Интегрированность означает, что данные в ХД поступают из различные внутренних и внешних источников: оперативные базы предприятия, сеть Интернет, электронные СМИ, электронные каталоги, справочники, архивы, статистические отчеты. Данные перед помещением в ХД приводятся к единым форматом – интегрируются.

Неизменяемость – что данные не должны подвергаться изменениям за исключением случаев выявления ошибок.

Хронология – все элементы данных должны иметь временные метки, соответствующие моменту времени появления данных.

Хранилища могут быть централизованными, в этом случае используют единое хранилище на одном компе, или в одном узле сети. Либо хранилище может быть распределенным, в этом случае функции ХД реализуются на нескольких узлах сети.

Хранилища могут быть физическими, в этом случае данные фактически перегружаются из оперативных баз в специальное хранилище, к которому адресуются аналитические запросы. Также хранилища могут быть виртуальными, в этом случае запросы обрабатываются оперативными источниками данных (OLTP). Виртуальное ХД проще в создании и менее затратно, но эффективность анализа невысока. Физическое ХД сложнее и дороже, но его использование более эффективно.

Безопасность данных в ХД можно повысить, используя принцип витрин данных (Data Mart), т.е. упрощенных хранилищ, предоставляющих данные определенным категориям пользователей в соответствии с имеющейся у них необходимостью.

В целом систему для анализа данных можно представить:

 

По степени сложности и интеллектуальности задачи анализа данных можно разделить:

1. Информационно-поисковые задачи. Их решение сводится к поиску и выборке необходимых данных. Для решения таких задач достаточно средств в стандартном СУБД. Например, информационно-поисковая задача – предоставить данные об определенном потребителе продукции.

2. Задачи оперативного анализа. Выполняется группировка и обобщение первичных данных, вычисляются агрегированные показатели и строятся соответствующие зависимости. Такие задачи решаются с помощью технологии OLAP (On-line Analytical Processing). Пример: предоставить информацию о предприятиях-покупателях, задерживающих оплаты отгруженной им продукции на текущий момент.

3. Задачи интеллектуального анализа. Их решение сводится к выявлению закономерностей (шаблонов) в массивах данных. Используется Data Mining (добыча данных, интеллектуальный анализ данных). Пример: Построить информационный портрет типичного предприятия, задерживающего оплату отгруженной ему продукции.