DM - Data Mining - является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории БД и др. (см. рисунок). Отсюда обилие методов, алгоритмов и математических правил, реализованных в различных действующих системах DM , среди них можно выделить:
- Регрессионный, дисперсионный и корреляционный анализ
Реализован в большинстве современных статистических пакетов, в частности в продуктах компаний SAS Institute, StatSoft и др.;
Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений, устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.
- Анализ эмпирических моделей
Анализ эмпирических моделей конкретной предметной области, часто применяемые, например, в недорогих средствах финансового анализа;
Кластерный анализ подразделяет гетерогенные данные на гомогенные или полугомогенные группы для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования. Кластерные модели (иногда также называемые моделями сегментации) весьма популярны при создании систем прогнозирования
Нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Здесь для предсказания значения целевого показателя используется наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Нейронные сети реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных.
Ассоциативные правила выявляют причинно следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Их можно использовать для прогнозирования или оценки неизвестных параметров (значений). Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом рыночной корзины (market basket analysis).
Иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет». Позволяют представлять правила в последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если... то...". Определяют естественные "разбивки" в данных, основанные на целевых переменных. Деревья решений применяются при решении задач поиска оптимальных решенийна основе описанной модели поведения.
- Алгоритмы сопоставления/прецедентов
(Memory-based Reasoning, MBR/ Case-Based Reasoning, CBR) — выбор близкого аналога исходных данных из уже имеющихся исторических данных. Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты (последствия)Называются также методом «ближайшего соседа»;
- Алгоритмы ограниченного перебора
Алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных;
Этот метод использует итеративный процесс эволюции последовательности поколений моделей, включающий операции отбора, мутации и скрещивания. Генетические алгоритмы применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Для отбора определенных особей и отклонения других используется "функция приспособленности" (fitness function).
- Эволюционное программирование
Поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, по линомов).
Каждый из методов имеет свои преимущества и недостатки. Преимущество деревьев решений и ассоциативных правил состоит в их читабельности - они похожи на предложения на естественном языке. Однако при большом количестве факторов данных бывает очень сложно понять смысл такого представления. Недостаток: они не предназначены для широких числовых интервалов. Это связано с тем, что каждое правило или узел в дереве решений представляет одну связь (зависимость, отношение). Чтобы представить зависимости для большого интервала значений потребуется слишком много правил или узлов. Преимущество нейронных сетей в компактном представлении числовых отношений для широкого диапазона значений. А недостаток - в сложности интерпретации.
|