Анализ данных в АИС на предприятии.
Автоматизация анализа массивов данных – одно из основных назначений АИС.
Системы и модули больших КИС предназначенные для автоматизации анализа данных называют СППР (DSS).
Основное предназначение анализа данных на предприятии – поддержка принятия управленческих решений.
Любая система анализа данных должна обеспечивать: ввод данных, хранение данных, анализ данных.
Средствами ввода данных являются интерфейсные средства, в частности, клиентских компонентов OLTP-систем.
Для хранения данных в системах анализа используются базы данных и хранилища данных (ХД, ИХ – инф. хранилища, Data Warehouse). Концепция ХД возникла в начале 90-х гг. Появление этой концепции связано с выявленными противоречиями к системам оперативной обработки данных и к системам анализа.
Противоречия:
1. Сложные аналитические запросы забирают ресурсы системы и могут существенно тормозить обработку оперативных данных.
2. Оперативные базы не приспособлены к длительному хранению больших массивов данных, которые необходимы для анализа.
3. Избыточность данных в оперативных базах должна сводиться к минимуму. Для анализа некоторая избыточность может быть полезной.
4. Ошибки при ручном вводе данных в оперативные базы неизбежны и в принципе могут допускаться. В то же время ошибки в данных, предназначенных для анализа, могут полностью исказить его результаты.
5. Аналитические запросы в отличие от обычных запросов OLTP-систем не могут быть определены заранее.
Для систем оперативной обработки типична средняя постоянная загрузка вычислительной системы. При анаизе данных наблюдается пиковая загрузка при обработке запросов.
Основная идея ХД – принцип разделения оперативных данных и данных для анализа.
Определение ХД (У. Инмон 1993 г.).
ХД – предметно ориентированный, интегрированный, неизменяемый, поддерживающий хронологию набор данных, предназначенный для поддержки принятия управленческих решений.
Предметная ориентированность означает, что некоторую предметную область отражают данные, поступающие в ХД из оперативных источников, отражающих отдельные аспекты этой области. Кроме того, для анализа необходимо хранить только содержательные данные.
Интегрированность означает, что данные в ХД поступают из различные внутренних и внешних источников: оперативные базы предприятия, сеть Интернет, электронные СМИ, электронные каталоги, справочники, архивы, статистические отчеты. Данные перед помещением в ХД приводятся к единым форматом – интегрируются.
Неизменяемость – что данные не должны подвергаться изменениям за исключением случаев выявления ошибок.
Хронология – все элементы данных должны иметь временные метки, соответствующие моменту времени появления данных.
Хранилища могут быть централизованными, в этом случае используют единое хранилище на одном компе, или в одном узле сети. Либо хранилище может быть распределенным, в этом случае функции ХД реализуются на нескольких узлах сети.
Хранилища могут быть физическими, в этом случае данные фактически перегружаются из оперативных баз в специальное хранилище, к которому адресуются аналитические запросы. Также хранилища могут быть виртуальными, в этом случае запросы обрабатываются оперативными источниками данных (OLTP). Виртуальное ХД проще в создании и менее затратно, но эффективность анализа невысока. Физическое ХД сложнее и дороже, но его использование более эффективно.
Безопасность данных в ХД можно повысить, используя принцип витрин данных (Data Mart), т.е. упрощенных хранилищ, предоставляющих данные определенным категориям пользователей в соответствии с имеющейся у них необходимостью.
В целом систему для анализа данных можно представить:
По степени сложности и интеллектуальности задачи анализа данных можно разделить:
1. Информационно-поисковые задачи. Их решение сводится к поиску и выборке необходимых данных. Для решения таких задач достаточно средств в стандартном СУБД. Например, информационно-поисковая задача – предоставить данные об определенном потребителе продукции.
2. Задачи оперативного анализа. Выполняется группировка и обобщение первичных данных, вычисляются агрегированные показатели и строятся соответствующие зависимости. Такие задачи решаются с помощью технологии OLAP (On-line Analytical Processing). Пример: предоставить информацию о предприятиях-покупателях, задерживающих оплаты отгруженной им продукции на текущий момент.
3. Задачи интеллектуального анализа. Их решение сводится к выявлению закономерностей (шаблонов) в массивах данных. Используется Data Mining (добыча данных, интеллектуальный анализ данных). Пример: Построить информационный портрет типичного предприятия, задерживающего оплату отгруженной ему продукции.