Информационное обеспечение анализа данных

Анализ данных является неотъемлемой частью процесса исследования систем любого типа. Все названые выше информационные системы активно используют данные различных типов. Существуют много классических методов анализа, которые базируются на математическом аппарате (математическая статистика, математическое программирование, линейная алгебра, и тому подобное) и замечательно себя зарекомендовали в течение своего существования. Рассмотрим современные программные средства, которые делают возможным проведения полноценного математического и статистического анализа данных.

На рынке программных средств существует чрезвычайно большое количество дополнений, которые предлагают помощь в решении задач анализа данных как в пакетном режиме, так и в виде библиотек функций, которые можно использовать в других программных продуктах. Коротко охарактеризуем самые популярные и функционально полные из них:

— Matlab — компьютерная оболочка для интерактивных и командных вычислений и визуализации. Объединяет численный анализ, операции с матрицами, сигнальные процессы и графику, в удобной для использования среде, где задачи и решения представляются в математической записи без использования традиционного программирования.

— Mathematica— исчерпывающая компьютерная система для численных, символьных и графических вычислений и визуализации. Интерактивный вычислительный и графический инструмент со встроенным языком программирования для быстрых и точных решений. Информацию можно подавать как в обычном математическом представлении, так и в виде функций с использованием встроенного языка программирования.

— S-PLUS — интерактивная программная среда для анализа данных. S-PLUS содержит объектно-ориентированный язык программирования, унифицированную платформу для исследования статистических моделей и встроенных статистических и графических функций.

— SAS — интерактивная и командная программная среда, которая образована из модулей анализа данных, статистики и написания отчетов. SAS также обеспечивает подключение к базам данных ORACLE, анализ временных рядов и прогнозирование, цветную графику, обеспечивает экспертную поддержку.

— SPSS — Один из мощных, но дорогих статистических пакетов. Имеет удобный интерфейс. Содержит достаточно полный набор статистических (всего свыше 60) и графических процедур, а также процедур для создания отчетов. Имеет встроенное средство, которое выполняет интеллектуальную функцию, например, объясняет пользователю, какую статистику лучше применить в каждом конкретном случае.

— Statistica — самый сбалансированный по соотношению «мощность/удобство» пакет. Имеет широкий спектр функциональных алгоритмов и мощную графику, а также соответствующие средства, для редактирования графических материалов. Пользователь должен знать статистическую терминологию, хотя очень объемная справочная система дает возможность достаточно полно знакомиться с алгоритмами, которые используются.

Интеллектуальный анализ данных (Data Mining)

В последнее время все большую популярность приобретает термин «интеллектуальный анализ данных» (Data Mining). Это связано неспособностью классических статистических методов достаточно полно удовлетворять требования, которые относятся сегодня к анализу данных. В частности, специфика данных и современных требований к их обработке такая:

— данные имеют практически неограниченный объем;

— данные являются разнородными (количественными, качественными, текстовыми);

— результаты должны быть конкретными и понятными;

— инструменты для обработки первичных данных должны быть удобными в использовании.

Datamining — это процесс выявления в первичных данных:

— ранее неизвестных;

— нетривиальных;

— практически полезных;

— доступных для интерпретации знаний, необходимых для принятия решений, в разных сферах человеческой деятельности.

Выделяют пять стандартных типов методов, которые являются самыми характерными для Datamining:

— ассоциация;

— последовательность;

— классификация;

— кластеризация;

— прогнозирование.

Ассоциация имеет место в том случае, когда несколько событий связаны друг с другом.

Последовательность — цепь связанных во времени событий.

Классификация обнаруживает признаки, которые характеризуют группу, к которой принадлежат определенные объекты.

Кластеризация отличается от классификации тем, что сами группы сначала не заданы.

Прогнозирование основывается на исторической информации, которая хранится в БД в виде временных рядов.

В целом DataMining является мультидисциплинарной отраслью, которая возникла на пересечении достижений разных наук. Поэтому много действующих систем DataMining объединяют в себе несколько подходов, методов и алгоритмов. Тем не менее, как правило, в каждой системе существует такой ключевой компонент, на котором делается основной акцент. Наиболее часто в DataMining используют:

— предметно ориентированы аналитические системы.

— статистические пакеты;

— нейронные сети;

— деревья решений;

— генетические алгоритмы;

— алгоритмы ограниченного перебора;

— системы для визуализации многомерных данных.