Аксиоматические методы. 5 страница
2 Интеграция. Различные БД разрабатываются различными коллективами разработчиков, зачастую в разное время и различными средствами разработки. Это приводит к тому, что объекты, отражающие одну сущность, имеют различные наименования и единицы измерения. Обязательная интеграция данных в ХД позволяет решить эту проблему.
Это ключевое свойство ХД реализуется на таких принципах:
- единые правила наименования объектов;
- единые единицы измерения для однотипных объектов;
- единое физическое представление однотипных объектов;
- единые атрибуты представления однотипных объектов.
3 Поддержка хронологии. Требования к эффективности обычной базы данных диктуют достаточно жесткие рамки для временного периода хранения непосредственно доступных данных. Некоторые данные в БД вообще не имеют временной привязки, а хронология данных в различных БД может осуществляться разными способами.
Строгая и однотипная хронология в ХД позволяет решить все эти проблемы за весь временной период существования данных. В результате конечный пользователь всегда имеет точное и единообразное представление о временной привязке всех данных и документов. Образное сравнение: база данных – это супермаркет, где просроченные и старые товары заменяются свежими и новыми, а хранилище данных – это архив, где документы хранятся "вечно".
4 Неизменяемость. Данные в БД могут добавляться, удаляться и модифицироваться, данные в ХД могут только загружаться и читаться. Это свойство ХД позволяет решить две проблемы:
- однажды полученные результаты на основе исходных данных всегда сохраняются;
- скорость доступа к данным повышается.
На рис. 2.4 изображена структура данных в хранилище данных.
Рисунок 2.4 - Структура данных в хранилище данных
Все данные в хранилище данных делятся на три основных категории:
- метаданные (данные о данных);
- детальные данные;
- агрегированные данные.
В отличие от БД хранилище данных имеет хорошо развитую иерархическую структуру метаданных (данных о данных). Наличие метаданных позволяет осуществлять быструю и удобную навигацию по различным уровням данных, а также сильно упрощает реализацию и использование средств анализа. Наличие метаданных позволяет наглядно представлять реализованную структуру ХД, а для всех данных иметь информацию об их источнике и произведенных над исходными данными операциях.
Данные в ХД являются денормализованными, по сравнению с нормализованными данными в большинстве БД, которые обычно реализованы в реляционной модели БД. Это свойство ХД требует значительно большей емкости носителей информации и быстродействия компьютерной системы.
Проведенные исследования показали, что большинство конечных пользователей не работают с детальными данными, а обращаются в основном с агрегированными показателями. Структура ХД отражает эту ситуацию и позволяет конечному пользователю быстро и удобно получать интересующую его агрегированную информацию с последующей навигацией по всем уровням агрегирования. Наличие хорошо развитой иерархии агрегированных данных по уровням агрегации является второй отличительной чертой хранилища данных.
Таблица 3.1 - Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных
Характеристика | Операционные | Аналитические |
Частота обновления | Высокая частота, маленькими порциями | Малая частота, большими порциями |
Источники данных | В основном - внутренние | В основном - внешние |
Объемы хранимых данных | Сотни мегабайт, гигабайты | Гигабайты и терабайты |
Возраст данных | Текущие (за период от нескольких месяцев до одного года) | Текущие и исторические (за период в несколько лет, десятки лет) |
Назначение | Фиксация, оперативный поиск и преобразование данных | Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование |
Таким образом, хранилище данных функционирует по следующему сценарию. По заданному регламенту в него собираются данные из различных источников – баз данных систем оперативной обработки и необходимые данные из внешних источников. Самым распространенным форматом последних является текстовый файл (документ), а средством доступа - файловая операционная система. Эти источники данных называются "внешними данными" (ВД на рис. 2.5). В хранилище поддерживается хронология: наравне с текущими данными хранятся исторические данные с указанием времени, к которому они относятся. В результате необходимые доступные данные об объекте управления собираются в одном месте, приводятся к единому формату, согласовываются и, в ряде случаев, агрегируются до минимально требуемого уровня обобщения.
На рис. 2.5 изображена общая структура данных в информационно-аналитической системе большой организации, построенной по технологии ХД, включающей источники данных, хранилище данных и витрины данных.
Рисунок 2.5 - Общая структура данных в АИС
Под витриной данных (Data Mart) понимается сравнительно небольшое хранилище данных, сконструированное для использования отдельным подразделением с одним существенным отличием от "обычного" хранилища данных: в витрине данных конечный пользователь может создавать свои собственные структуры данных. Есть еще одна особенность у витрины данных - источником для большинства хранящихся там данных является ХД. Это приводит к тому, что при создании витрины данных редко используется инструменты по очистке, денормализации и унификации данных.
Введение промежуточного звена "витрина данных" имеет ряд несомненных достоинств:
- конечный пользователь работает только с теми данными, которые ему нужны;
- повышается информационная безопасность системы;
- структура данных отражает требования конечного пользователя;
- упрощается проектирование данных;
- снижается нагрузка на основное хранилище данных.
Часто хранилище данных используют в качестве единого интегрированного источника для многочисленных витрин данных. В таком варианте корпоративная информационно-аналитическая система имеет трехуровневую структуру:
- общекорпоративное централизованное хранилище данных;
- тематические витрины данных на уровне подразделений;
- рабочие места конечных пользователей, снабженные аналитическим инструментарием.
Структура развитой корпоративной ИАС представлена на рис. 2.6.
Рисунок 2.6 - Структура развитой корпоративной ИАС
Создание и развитие хранилища данных требует следующих компонент программного обеспечения (ПО):
- СУБД хранилища данных. СУБД хранилища данных должна быть ориентирована на особенности технологии ХД - работать с большими объемами данных, обеспечивать необходимую безопасность данных, позволять создавать очень сложные структуры данных (такие как многомерные базы данных), осуществлять быстрый многопользовательский доступ к данным;
- средства управления структурой данных ХД. Для быстрой реализации логической структуры данных необходимо иметь удобное интерактивное средство управления структурой ХД. Качество этого средства определяет скорость разработки и развития ХД, поэтому является очень важным фактором. Средство используется не только разработчиками, но и конечными пользователями (аналитиками) для построения своих структур данных в Витринах данных и должно иметь удобный и понятный интерфейс;
- средства задания источников данных. Они служат для задания источников данных, загружаемых в хранилище, определения связи между структурами ХД и источников, создания процедур трансформации, очистки, автоматического анализа, задания регламента загрузки;
- средства построения витрин данных. Витрины данных - важная часть технологии ХД. С развитием ХД часто бывает необходимо переносить витрины данных на другое техническое оборудование, поэтому средство должно иметь гибкий интерфейс работы с витринами данных.
Система поддержки принятия решений NooTron
Многокритериальный анализ (МКА), называемый также анализом решений, является важнейшим разделом системного анализа. Его методы используются в решении разнообразных практических задач, таких, как выбор лучшей альтернативы, составление рейтингов, классификация, проектирование и других.
Существует ряд СППР на базе многокритериальных методов, которые используют один метод или несколько близких методов (СППР «Император», СВИРЬ-Р, Expert Choice, Super Decisions, ELECTRA). Все СППР работают в интерактивном, диалоговом режиме. Они не заменяют исследователя, проектанта, лицо, принимающее решение (ЛПР), а помогают им.
Система поддержки принятия решений NooTron разработана на кафедре «Информационные технологии и системы» Национальной металлургической акадамии Украины. Она содержит библиотеку программно реализованных количественных методов многокритериального анализа. В библиотеке содержатся как известные, наиболее часто применяемые на практике методы МКА, так и оригинальные интегрированные методы, а также метод, базирующийся на теории искусственных нейронных сетей. В системе также содержится «Справка» с достаточно подробным описанием теоретических основ всех методов, содержащихся в библиотеке СППР NooTron, и примерами решения задач этими методами.
Система поддержки принятия решений NooTron выполнена в виде веб-приложения и находится в свободном доступе (для пользователей категории «Гость») по адресу: http://nootron.net.ua/.
Ниже излагается методика выполнения лабораторных работ по дисциплине «Системный анализ» (раздел «Многокритериальный анализ») с использованием системы поддержки принятия решений NooTron.
NooTron – это система поддержки принятия решений, предназначенная, как для студентов, изучающих методы многокритериального анализа (МКА), так и для исследователей в различных областях науки и практики, требующих проведения сравнительного анализа и принятия решений.
NooTron предоставляет следующие возможности:
1. Изучение и применение таких методов многокритериального анализа:
‒ Метод анализа иерархий (МАИ);
‒ Метод взвешенных сумм (МВС);
‒ Метод матрицы решений (ММР);
‒ Метод анализа сетей (МАС);
‒ Объединённый метод МАИ+ММР.
2. Изучение и применение метода распознавания образов (МРО), основанного на искусственных нейронных сетях.
3. Проведение системного исследования с применением методов, встроенных в СППР NooTron.
4. Получение результата решения задачи в виде таблиц и наглядных диаграмм.
5. Исправление входных данных задачи с последующим обновлением страницы результата.
Контрольные вопросы
1) Классификация информационно-аналитических систем.
2) Классификация систем поддержки принятия решений.
3) Основные технологии прикладного системного анализа.
4) Информационно-аналитические системы и системы поддержки принятия решений.
5) Основные виды современных систем поддержки принятия решений.
6) Схема работы оперативной системы поддержки принятия решений.
7) Схема работы стратегической системы поддержки принятия решений.
8) Хранилища данных и витрины данных.
9) Основные свойства хранилищ данных.
10) Провести сравнение баз данных и хранилищ данных.
11) Структура и работа хранилища данных.
12) Показать структуру системы поддержки принятия решений.
13) Представление результатов анализа в системах поддержки принятия решений.
14) Придумайте структуру системы поддержки принятия решений на основе метода анализа иерархий.
2.4.2. Информационные технологии в системном анализе: OLTP, OLAP, Data Mining
Оперативная обработка данных (OLAP)
Для того чтобы существующие хранилища данных способствовали принятию управленческих решений, информация должна быть представлена аналитику в нужной форме, то есть он должен иметь развитые инструменты для доступа к данным хранилища и их обработки.
Системы поддержки принятия решений (СППР) обычно обладают средствами предоставления пользователю агрегатных данных в виде различных выборок из исходного набора. Причём в удобном для восприятия и анализа виде. Как правило, такие агрегатные функции образуют многомерный набор данных (нередко называемый гиперкубом или метакубом). Оси гиперкуба содержат параметры, а ячейки — зависящие от них агрегатные данные. Вдоль каждой оси данные могут быть организованы в виде иерархии, представляющей различные уровни их детализации. То есть – это иерархическая структура, но многомерная. Благодаря такой модели данных пользователи могут формулировать сложные запросы, генерировать отчеты, получать подмножества данных по выбранным наборам («срезы данных»).
Технология комплексного многомерного анализа данных получила название "процесс онлайнового анализа" (OLAP, On-Line Analytical Processing) [Барсегян и др.]. OLAP — это ключевой компонент организации хранилищ данных. В 1995 году был сформулирован так называемый тест FASMI (Fast Analysis of Shared Multidimensional Information — быстрый анализ разделяемой многомерной информации), включающий такие требования к OLAP- приложениям для многомерного анализа:
- предоставление пользователю результатов анализа за приемлемое время (обычно не более 5 с), пусть даже ценой менее детального анализа;
- возможность осуществления любого логического и статистического анализа, характерного для данного приложения, и его сохранения в доступном для конечного пользователя виде;
- многопользовательский доступ к данным с поддержкой механизмов блокировок и средств авторизованного доступа;
- многомерное концептуальное представление данных, включая полную поддержку для иерархий и множественных иерархий (это — ключевое требование OLAP);
- возможность обращаться к любой нужной информации независимо от ее объема и места хранения.
OLAP является ключевым компонентом построения и применения хранилищ данных. Эта технология основана на построении многомерных наборов данных — OLAP-кубов (гиперкубов), оси которых содержат параметры, а ячейки — зависящие от них агрегатные данные.
Многомерное концептуальное представление (multi-dimensional conceptual view) информации представляет собой множественную перспективу, состоящую из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ. Каждое измерение включает направления консолидации данных, состоящие из серии последовательных уровней обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации данных по соответствующему измерению. Так, измерение "Исполнитель" может определяться направлением консолидации, состоящим из уровней обобщения "предприятие - подразделение - отдел - служащий". Измерение "Время" может даже включать два направления консолидации - "год - квартал - месяц - день" и "неделя - день", поскольку счет времени по месяцам и по неделям несовместим. В этом случае становится возможным произвольный выбор желаемого уровня детализации информации по каждому из измерений. Операция спуска (drilling down) соответствует движению от высших ступеней консолидации к низшим; напротив, операция подъема (rolling up) означает движение от низших уровней к высшим.
Рисунок 2.8 - Уровни детализации информации
OLAP – это часть технологий, направленных на поддержку принятия решений. Многомерный анализ данных в OLAP – технологиях может быть произведен с помощью различных средств, которые условно можно разделить на клиентские и серверные OLAP-средства.
Клиентские OLAP-средства представляют собой приложения, осуществляющие вычисление агрегированных данных (сумм, средних величин, максимальных или минимальных значений) и отображение их, при этом сами агрегатные данные содержатся внутри адресного пространства такого OLAP-средства.
Как правило, OLAP-функциональность реализована в средствах статистической обработки данных (из продуктов этого класса на российском рынке широко распространены продукты компаний StatSoft и SPSS) и в некоторых электронных таблицах. В частности, неплохими средствами многомерного анализа обладает Microsoft Excel 2000. С помощью этого продукта можно создать и сохранить в виде файла небольшой локальный многомерный OLAP-куб и отобразить его двух- или трехмерные сечения.
Необходимо отметить, что клиентские OLAP-средства применяются, как правило, при малом числе измерений (обычно рекомендуется не более шести) и небольшом разнообразии значений параметров, — ведь полученные агрегатные данные должны умещаться в адресном пространстве подобного средства, а их количество растет экспоненциально при увеличении числа измерений. Поэтому клиентские OLAP-средства как правило, позволяют произвести предварительный подсчет объема требуемой оперативной памяти для создания в ней многомерного куба.
Таким образом, главной задачей OLAP-приложений является возможность с заданной функциональностью предоставлять пользователю результаты анализа за приемлемое время, осуществлять логический и статистический анализ, поддерживать многопользовательский доступ к данным, осуществлять многомерное концептуальное представление данных и иметь возможность обращаться к любой нужной информации.
Интеллектуальный анализ данных (Data Mining)
Помимо средств оперативной аналитической обработки данных OLAP появились технологии извлечения из хранилищ данных новой информации («знаний»). Эта технология получила название интеллектуального анализа данных (ИАД или data mining).
Современные требования к такому анализу:
- данные могут иметь "неограниченный" объём;
- данные могут быть разнородными (количественными, качественными, текстовыми);
- инструменты для обработки "сырых" данных должны быть по возможности просты для пользователей (исследователей);
- результаты анализа должны быть конкретны, понятны и наглядны.
Целью технологи интеллектуального анализа данных является производство нового знания, которое пользователь может в дальнейшем применить в своей деятельности. Результат моделирования – это выявление скрытых взаимосвязей и отношений в данных. Data Mining – это процессы обнаружения в "сырых" данных знаний и закономерностей:
- ранее неизвестных;
- нетривиальных (неожиданных);
- практически полезных;
- необходимых для принятия решения.
Можно выделить по крайней мере шесть задач (типов закономерностей) выявления и анализа знаний:
- классификация,
- регрессионный анализ,
- прогнозирование временных последовательностей,
- кластеризация,
- ассоциация,
- последовательность.
Классификация, вероятно, является наиболее распространенной сегодня операцией интеллектуального анализа данных. С ее помощью выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Однажды определенный эффективный классификатор используется для классификации новых записей в базе данных в уже существующие классы и в этом случае он приобретает характер прогноза.
Регрессионный анализ используется в том случае, если отношения между переменными могут быть выражены количественно в виде некоторой комбинации этих переменных. Полученная комбинация далее используется для предсказания значения, которое может принимать целевая (зависимая) переменная, вычисляемая на заданном наборе значений входных (независимых) переменных. Обычно для этого используются стандартные статистические методы, такие как линейная регрессия. К сожалению, большинство реальных моделей не укладываются в рамки линейной регрессии.
Прогнозирование временных последовательностей позволяет на основе анализа поведения временных рядов оценить будущие значения прогнозируемых переменных. Конечно, эти модели должны включать в себя особые свойства времени: иерархия периодов (декада-месяц-год или месяц-квартал-год), особые отрезки времени (пяти- шести- или семидневная рабочая неделя, тринадцатый месяц), сезонность, праздники и др.
Кластеризация распределяет записи в различные группы или сегменты. Кластеризация аналогична классификации, но отличается от нее тем, что для проведения анализа не требуется иметь выделенный набор классов – он определяется как результат кластеризации .
Ассоциация адресована, главным образом, к анализу структуры сделок (транзакций), например, покупок товаров, услуг, акций.
Большое количество покупок совершается в супермаркетах, где покупатели для удобства используют корзины или тележки, поэтому наиболее известный метод исследования ассоциаций назван «анализ корзины» покупки (market-basket analysis). Целью этого подхода является нахождение трендов среди большого числа транзакций, которые можно использовать для объяснения поведения покупателей. Эта информация может быть использована для регулирования запасов, для продвижения определенного вида продукции. В банковском деле - для анализа портфеля ценных бумаг и нахождения наборов финансовых услуг, которые клиенты часто приобретают вместе. Другими словами, ассоциация имеет место в том случае, если несколько событий как-то связаны друг с другом.
Последовательность.Традиционный анализ структуры покупок имеет дело с набором товаров или услуг, представляющим одну транзакцию. Последовательность - вариант такого анализа, когда существует дополнительная информация для связи различных покупок в единую временную серию. Правила, которые устанавливают отношения структура покупки - время, могут быть использованы для определения изменения во времени типичного набора продаж для целей прогнозирования.
Эти основные типы задач используются для нахождения нового знания в хранилище данных.
В интеллектуальных средствах анализа данных используются такие методы для решения указанных выше задач (только перечислим):
- статистические пакеты;
- искусственные нейронные сети;
- деревья решений;
- системы индукции правил.
- системы рассуждения на основе аналогичных случаев;
- системы с нечеткой логикой;
- генетические алгоритмы;
- алгоритмы определения ассоциаций и последовательностей;
- анализ с избирательным действием;
- логическая регрессия (обнаружение логических закономерностей);
- эволюционное программирование;
- методы визуализации данных.
Часто применяется комбинация нескольких методов.
Арсенал методов постоянно пополняется, разрабатываются пакеты программ. Это – развивающаяся область информационных технологий, информационной деятельности.
По каждому из направлений существует большая литература. Можно рекомендовать учебные курсы [Дюк и Самойленко], и [Барсегян и др.].
Сфера применений технологий Data Mining ничем не ограничена – она везде, где имеются данные, но – в достаточном количестве. Вот некоторые примеры. Сейчас эти технологии применяются:
- в банковском деле (выявление мошенничества с кредитками, сегментация клиентов по категориям, прогнозирование изменений клиентуры);
- в инвестициях и на биржах (прогнозирование курсов акций и валют, прогнозирование цен на биржевые товары);
- в страховании (анализ рисков, выявление мошенничества);
- в прогнозировании спроса на товары и услуги;
- в медицине, генетике, генной инженерии;
Начинается применение в социологии и политологии.
То есть сфера приложений технологий Data Mining расширяется.
Нахождение нового знания – это процесс, который включает в себя несколько шагов:
- определение проблемы (постановка задачи);
- подготовка данных;
- сбор данных: оценка данных, объединение и очистка данных, отбор данных, преобразование данных;
- построение модели: оценка и интерпретация, внешняя проверка;
- использование модели;
- наблюдение за моделью;
- анализ результатов.
Все шаги – в диалоговом, интерактивном режиме. То есть нахождение нового знания с использованием технологий Data Mining также содержит все основные этапы системного исследования, как и многокритериальные методы.
Основное различие состоит в том, что в многокритериальных методах исследователь (группа) формирует и держит под контролем весь процесс системного исследования (кроме расчётов), а в технологиях Data Mining часть этапов исследования компьютер выполняет самостоятельно. Он моделирует работу самоорганизующейся и самообучающейся системы, например, нейронной сети. Поэтому технологии Data Mining можно назвать синергетическими (часть 1).
Контрольные вопросы
1) Оперативный анализ данных (OLAP): основные технологии.
2) Многомерное представление данных: гиперкубы и проекции («срезы»).
3) Задачи OLAP-технологий.
4) Интеллектуальный анализ данных (Data Mining): основные задачи.
5) Интеллектуальный анализ данных (Data Mining): основные методы.
6) Интеллектуальный анализ данных (Data Mining): основные сферы практического применения.
7) Статистический анализ в Data Mining.
8) Эволюционные алгоритмы в Data Mining.
9) Провести сравнение методов интеллектуального анализа данных с многокритериальным анализом.
10) Прикладной системный анализ и информационные технологии
11) Провести сравнение задач, технологий и систем оперативного и интеллектуального анализа данных.
12) Процесс нахождения нового знания с использованием методов системного анализа.
13) Провести сравнение многокритериальных методов и методов Data Mining.
14) Роль Интернета в известных Вам технологиях прикладного системного анализа.
3. КОНТРОЛЬНАЯ РАБОТА
Тема работи: Теоретические основы и методы системного анализа.Инфорнационные технологии в системном анализе.
Задание должно быть оформлено в соответствии с требованиями заочного факультета.
Ответы должны быть развёрнутыми, с пояснениями и, желательно, с примерами.
Задание состоит из теоретической части и решения задач. При решении задач рекомендуется пользоваться системой поддержки принятия решений NooTron (http://nootron.net.ua).
3.1. Теоретическая часть
Методические указания состоят из четырёх разделов (2.1-2.4). В конце каждого подраздела (например, 2.1.1, 2.1.2) приведены контрольные вопросы. Из каждого раздела надо кратко, но содержательно ответить на один или два вопроса. Общее количество ответов – не менее шести. Поскольку проблема рационального выбора – одна из центральных в системном анализе, студенту предоставляется возможность самостоятельно выбрать наиболее важные или интересные (по его мнению) вопросы. Желательно кратко обосновать свой выбор.
3.2. Практическая часть
Необходимо решить тризадачи методами количественного анализа решений (в СППР NooTron: http://nootron.net.ua) и одну – вербальным методом.
Поскольку в системном анализе постановка проблемы является не менее важным этапом исследования, нежели её решение, студентам необходимо самостоятельно сформулировать задачу выбора лучшей альтернативы и решить её указанным в задании методом..
Пояснения к задачам
1. Решить задачу многокритериального выбора лучшей альтернативы методом анализа иерархий (подраздел 2.2.2). Количество критериев – 3 или 4. Количество альтернатив – 2 или 3.
Комментарий. Проблемой выбора может быть, например, покупка некоторого объекта – компьютера, автомобиля и т.п. Критерии – некоторые важные для выбора характеристики (с точки зрения покупателя). Например, для ноутбука – это цена, быстродействие процессора, время работы батареи, дизайн. Альтернативы – несколько (2 или 3) сравниваемых моделей ноутбуков. Проблемой может быть и выбор места работы, там будут свои критерии: зарплата, график работы, перспективы карьеры. Альтернативы – несколько сравниваемых мест работы. Проблему, критерии и альтернативы необходимо сформировать самостоятельно. Желательно дать краткое вербальное (словесное) описание альтернатив.
При проведении парных сравнений использовать шкалу Саати (шкалу 1-9). Необходимо также учитывать ситуации «меньше – лучше» (например, в критерии «цена») и «больше – лучше» (например, в критерии «время работы батареи» или в критерии «зарплата»).
2. Составить рейтинг 2-х или 3-х объектов методом взвешенных сумм (подраздел 2.2.3).
Комментарий. Рейтинг (порядок мест) надо составить для однородных объектов. Например: потенциальных мест работы, учебных заведений (с точки зрения абитуриента), мест отдыха. Рейтинг потенциальных невест (женихов) не составлять! Дерево критериев должно иметь не менее 3-х уровней. Шкала оценок объектов (альтернатив) – 10-ти или 100-балльная.