Вопрос 18. Поиск аномалий. Простейшие методы.

Есть некая предметная область и ее модель. Существуют различные методы исследования.

Если говорим об аномалиях, то ест некоторый набор данных, который мы называем аномалией. Техника поиска выбросов делится на поиск аномалий и поиск интересных особенностей. Интересная особенность после того, как обнаружена, включается в область нормальных данных. Аномалия может быть пространственно (относительно остальных данны) и временной.

Снимаемые данных. Можно отнести к непрерывным данным и категориальным (например, доступ к файлам). Надо объединять атрибуты из отдельных характеристик.

Данные надо нормализовывать для того, чтобы иметь возможность учитывать величины разных порядков – клометры и миллиметры.

Можно смотреть частотные характеристики данных. Когда мы переходим от атрибутов данных к их характеристикам, отбрасываем структуру данных, мы теряем информацию.

Что делать с категоримальными данными?

По частоте обращения к каждой категории. Если всегда обращался к своим документам, а полез в system – то это аномалия.

Если количество категорий конечно, то каждой категории мы приписываем ось пространства. Если атрибут присутствует в образце данных, то координата. Между двумя токами будет вносить вклад в соответствующее расстояние.

Расстояние между двумя точками, принадлежащих разным образцам.

Самый простой способ – операционная модель. Каждое новое наблюдение должн укладываться в определенные рамки.

Адрес среднего значения из СКО. Эти две величины показывают рассеивание случайной величины относительно ее мат ожидания. Оценки эти для нормального распределения. Около 60% всех значения величины будет попадать в один СКО. 95% значений будут попадать в диапазон двух СКО. Есть правило трех сигм – почти все значения попадают в интервал +- 3 сигмы.

На обучающих данных оцениваем мю и сигма, а потом просто проверяем, попали ли в этот диапазон.

Есть набор образцов, каждый из которых имеет определенны набор значений. Кажды образец данных состоит из определенного количества атрибутов.

Критерий Хателлинга хорош тем, что борется с зависимостями переменных. Зависимость не хороша к тому, что одна и та же аномалия будет учтена много раз. Одна аномальность потянет аномальность в другом признаке. По этому аномальности лучше устранять.

Критерий хи квадрат не учитывает зависимостей.

Оценка т квадрат (Хателлинга) нивелирует зависимости между атрибутами. Чем больше значение оценки т квадрат, тем…

Sназывается матрицей вариаций-ковариаций.

 

Выявление аномалий:

· Основаны на сравнении ожидаемой активности в ВС с текущей активностью

· Предполагается, что отклонение от нормального поведения является подозрительным и может быть оценено как признак вторжения

· Основаны на статистических методах анализа активности

Группы свойств событий:

· Частотные свойства

· Временные свойства

· Свойства порядка