Вопрос 18. Поиск аномалий. Простейшие методы.
Есть некая предметная область и ее модель. Существуют различные методы исследования.
Если говорим об аномалиях, то ест некоторый набор данных, который мы называем аномалией. Техника поиска выбросов делится на поиск аномалий и поиск интересных особенностей. Интересная особенность после того, как обнаружена, включается в область нормальных данных. Аномалия может быть пространственно (относительно остальных данны) и временной.
Снимаемые данных. Можно отнести к непрерывным данным и категориальным (например, доступ к файлам). Надо объединять атрибуты из отдельных характеристик.
Данные надо нормализовывать для того, чтобы иметь возможность учитывать величины разных порядков – клометры и миллиметры.
Можно смотреть частотные характеристики данных. Когда мы переходим от атрибутов данных к их характеристикам, отбрасываем структуру данных, мы теряем информацию.
Что делать с категоримальными данными?
По частоте обращения к каждой категории. Если всегда обращался к своим документам, а полез в system – то это аномалия.
Если количество категорий конечно, то каждой категории мы приписываем ось пространства. Если атрибут присутствует в образце данных, то координата. Между двумя токами будет вносить вклад в соответствующее расстояние.
Расстояние между двумя точками, принадлежащих разным образцам.
Самый простой способ – операционная модель. Каждое новое наблюдение должн укладываться в определенные рамки.
Адрес среднего значения из СКО. Эти две величины показывают рассеивание случайной величины относительно ее мат ожидания. Оценки эти для нормального распределения. Около 60% всех значения величины будет попадать в один СКО. 95% значений будут попадать в диапазон двух СКО. Есть правило трех сигм – почти все значения попадают в интервал +- 3 сигмы.
На обучающих данных оцениваем мю и сигма, а потом просто проверяем, попали ли в этот диапазон.
Есть набор образцов, каждый из которых имеет определенны набор значений. Кажды образец данных состоит из определенного количества атрибутов.
Критерий Хателлинга хорош тем, что борется с зависимостями переменных. Зависимость не хороша к тому, что одна и та же аномалия будет учтена много раз. Одна аномальность потянет аномальность в другом признаке. По этому аномальности лучше устранять.
Критерий хи квадрат не учитывает зависимостей.
Оценка т квадрат (Хателлинга) нивелирует зависимости между атрибутами. Чем больше значение оценки т квадрат, тем…
Sназывается матрицей вариаций-ковариаций.
Выявление аномалий:
· Основаны на сравнении ожидаемой активности в ВС с текущей активностью
· Предполагается, что отклонение от нормального поведения является подозрительным и может быть оценено как признак вторжения
· Основаны на статистических методах анализа активности
Группы свойств событий:
· Частотные свойства
· Временные свойства
· Свойства порядка