Интеллектуализация процесса анализа выборочных данных в эксперименте

Большинство методов интеллектуального анализа данных было первоначально разработано в рамках теории искусственного интеллекта в 70-80-х годах, но получили распространение только в последние годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных.

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные выборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие, так называемые, скрытые знания. Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (рис. 3.1).

Рис. 3.1. Уровни знаний, извлекаемых из данных

Данная технология применяется конечными пользователями и аналитиками. Конечные пользователи используют системы Data Mining для получения информационных электронных таблиц. Аналитики знают, как интерпретировать данные и сделать необходимые вычисления для анализа информации. Данный класс пользователей выполняет три вида анализа: периодический, стратегический и непрерывный.

Периодический анализ используется для определения зарождающихся тенденций развития. Данные для анализа берутся из определенного периода. Стратегический анализ делается на больших объемах данных для понимания специфики происхождения тех или иных событий. Непрерывный анализ используется для получения факторов, которые оказывают воздействие на течение деловых процессов.

Интеллектуальный анализ данных можно разделить на три стадии: выявление закономерностей; использование выявленных закономерностей для предсказания неизвестных значений; анализ исключений (рис. 3.2).

Существуют два типа статистического анализа: исследовательский анализ и подтверждающий анализ. В подтверждающем анализе имеется гипотеза, и он подтверждает или отвергает её. Исследовательский анализ отыскивает подходящие гипотезы для подтверждения или опровержения, при этом аналитическая система берет инициативу на себя при анализе данных, без участия в этом процессе пользователя (например, OLAP (Online Analytical Processing) система).

Рис. 3.2. Составляющие стадии технологии Data Mining

Задачи интеллектуального анализа данных можно разделить по типу извлекаемой информации: классификация; кластеризация; выявление ассоциаций; выявление последовательностей; прогнозирование (рис. 3.3).

Рис. 3.3. Подходы технологии Data Mining

Основные методики, использующиеся при интеллектуальном анализе данных, могут быть выделены в отдельные группы, каждая из которых имеет свои преимущества и области применения. Современные методики строятся как на выделении шаблонов, так и на сохранении и длительном использовании данных. Выделение шаблонов может быть разделено на три группы методик: логическая, вычислительная и перекрестные таблицы. Гибридные или смешанные подходы считают наилучшими, соединяя в себе логику и уравнения с многомерным анализом.

Контрольные вопросы

1. Что такое человеко-компьютерный интерфейс?

2. Интеллектуализированные пользовательские интерфейсы.

3. Категории согласованности интерфейса.

4. Методы интеллектуального анализа данных.

5. Парадигма Data-Mining в анализе данных. Пример применения.

 

Классификация систем

Классификацией называется разбиение на классы по наиболее существенным признакам. Под классом понимается совокупность объектов, обладающие некоторыми признаками общности. Признак (или совокупность признаков) является основанием (критерием) классификации.

Система может быть охарактеризована одним или несколькими признаками и соответственно ей может быть найдено место в различных классификациях, каждая из которых может быть полезной при выборе методологии исследования. Обычно цель классификации ограничить выбор подходов к отображению систем, выработать язык описания, подходящий для соответствующего класса.

По содержанию различают реальные (материальные), объективно существующие, и абстрактные (концептуальные, идеальные), являющиеся продуктом мышления.

Реальные системы делятся на естественные (природные системы) и искусственные (антропогенные).

Естественные системы: системы неживой (физические, химические) и живой (биологические) природы.

Искусственные системы: создаются человечеством для своих нужд или образуются в результате целенаправленных усилий.

Искусственные делятся на технические (технико-экономические) и социальные (общественные).

Техническая система спроектирована и изготовлена человеком в определённых целях.

К социальным системам относятся различные системы человеческого общества.

Выделение систем, состоящих из одних только технических устройств почти всегда условно, поскольку они не способны вырабатывать своё состояние. Эти системы выступают как части более крупных, включающие людей – организационно-технических систем.

Организационная система, для эффективного функционирование которой существенным фактором является способ организации взаимодействия людей с технической подсистемой, называется человеко-машинной системой.

Примеры человеко-машинных систем: автомобиль – водитель; самолёт – лётчик; ЭВМ – пользователь и т.д.

Таким образом, под техническими системами понимают единую конструктивную совокупность взаимосвязанных и взаимодействующих объектов, предназначенная для целенаправленных действий с задачей достижения в процессе функционирования заданного результата.

Отличительными признаками технических систем по сравнению с произвольной совокупностью объектов или по сравнению с отдельными элементами является конструктивность (практическая осуществляемость отношений между элементами), ориентированность и взаимосвязанность составных элементов и целенаправленность.

Для того чтобы система была устойчивой к воздействию внешних влияний, она должна иметь устойчивую структуру. Выбор структуры практически определяет технический облик как всей системы, так её подсистем, и элементов. Вопрос о целесообразности применения той или иной структуры должен решаться исходя из конкретного назначения системы. От структуры зависит также способность системы к перераспределению функций в случае полного или частичного отхода отдельных элементов, а, следовательно, надёжность и живучесть системы при заданных характеристиках её элементов.

Абстрактные системы являются результатом отражения действительности (реальных систем) в мозге человека.

Их настроение – необходимая ступень обеспечения эффективного взаимодействия человека с окружающим миром. Абстрактные (идеальные) системы объективны по источнику происхождения, поскольку их первоисточником является объективно существующая действительность.

Абстрактные системы разделяют на системы непосредственного отображения (отражающие определённые аспекты реальных систем) и системы генерализирующего (обобщающего) отображения. К первым относятся математические и эвристические модели, а ко вторым – концептуальные системы (теории методологического построения) и языки.

 

Приведем основные способы классификации (возможны и другие критерии классификации систем).

1. По отношению системы к окружающей среде:

o открытые (есть обмен ресурсами с окружающей средой);

o закрытые (нет обмена ресурсами с окружающей средой).

Для закрытой системы, любой её элемент имеет связи только с элементами самой системы.

Разумеется, закрытые системы представляют собой некоторую абстракцию реальной ситуации, так как, строго говоря, изолированных систем не существует. Однако, очевидно, что упрощение описания системы, заключаются в отказе от внешних связей, может привести к полезным результатам, упростить исследование системы.

2. По описанию переменных системы:

o с качественными переменными (имеющие лишь содержательное описание);

o с количественными переменными (имеющие дискретно или непрерывно описываемые количественным образом переменные);

o смешанного (количественно-качественное) описания.

3. По типу описания закона (законов) функционирования системы:

o типа "Черный ящик" (неизвестен полностью закон функционирования системы; известны только входные и выходные сообщения);

o не параметризованные (закон не описан; описываем с помощью хотя бы неизвестных параметров; известны лишь некоторые априорные свойства закона);

o параметризованные (закон известен с точностью до параметров и его возможно отнести к некоторому классу зависимостей);

o типа "Белый (прозрачный) ящик" (полностью известен закон функционирования системы).

4. По способу управления системой (в системе):

o управляемые извне системы (без обратной связи, регулируемые, управляемые структурно, информационно или функционально);

o управляемые изнутри (самоуправляемые или саморегулируемые - программно управляемые, регулируемые автоматически, адаптируемые - приспосабливаемые с помощью управляемых изменений состояний, и самоорганизующиеся - изменяющие во времени и в пространстве свою структуру наиболее оптимально, упорядочивающие свою структуру под воздействием внутренних и внешних факторов);

o с комбинированным управлением (автоматические, полуавтоматические, автоматизированные, организационные).