Дерево решений 2 страница
Для непрерывных и дискретных данных рассчитываются различные статистические показатели.
Для непрерывных данных рассчитывается:
• количество значений - количество значений, присутствующих
в исходной выборке,
• минимальное значение - минимальное значение,
присутствующее в исходной выборке,
• максимальное значение - максимальное значение,
присутствующее в исходной выборке,
450
Использование основных объектов конфигурации
Анализ и прогнозирование данных
•
среднее значение - среднее арифметическое значений
выборки,
• размах - разность между максимальным и минимальным
значением выборки,
• стандартное отклонение - среднее квадратичное отклонение
равное корню квадратному из дисперсии выборки,
• медиана - значение, лежащее в середине выборки
упорядоченной по возрастанию или убыванию. Другими
словами медиана делит выборку пополам; одна половина
выборки имеет значения меньше медианы, другая - больше. В
случае четного числа значений выборки, медиана
рассчитывается как среднее арифметическое двух значений
ближайших к центру выборки.
Для дискретных данных рассчитывается:
• количество значений - общее количество значений,
присутствующих в исходной выборке,
• количество уникальных значений - количество уникальных
значений, присутствующих в исходной выборке,
• мода - значение, наиболее часто встречающееся в исходной
выборке. В выборке могут быть два или более значения, с
максимальной частотой (би- или мультимодальная выборка).
В этом случае в качестве моды будет взято первое найденное
значение с максимальной частотой.
Кроме того, для дискретных значений рассчитывается таблица частот, содержащая следующие показатели:
• частота - количество вхождений уникального значения в
выборку,
• относительная частота - частота, выраженная в процентах
от общего количества значений выборки,
• накопленная частота - сумма частоты значения и частот всех
предыдущих значений выборки,
• накопленная относительная частота - сумма относительной
частоты и относительных частот всех предыдущих значении
выборки.
При выводе отчета при помощи построителя отчета анализа данных, будет создана круговая диаграмма по относительной частоте значений в выборке.
Типы колонок источника данных:
• Не используется - колонка не участвует в анализе,
• Входная - содержит исходные данные для анализа.
Параметры анализа данных при общестатистическом анализе не задаются.
Пример
В |
качестве примера общестатистического анализа рассмотрим анализ данных, содержащихся в регистре накопления «Продажи». Для анализа выберем все записи регистра, в которых нас будут интересовать значение ресурсов «Сумма», «Количество» и значение измерения «Контрагент».
Допустим, мы будем иметь следующие исходные данные для
анализа:
452
Использование основных объектов конфигурации
Анализ и прогнозирование данных
![]() | |||
![]() |
![]() |
![]() |
Результат анализа будет выглядеть следующим образом:
Общая статистика
Информация о данных
Количествообьектов: 20
Непрерывные поля
Дискретные поля Контрагент
Количество значений: 20
Количествоуникальных значений; 6
Мода: Федоров Д.Е.
![]() |
Диаграмма частот |
Таблица частот
Поиск ассоциаций
Т |
ип анализа АнализДанныхПоискАссоциаций предназначен для поиска часто встречаемых вместе групп объектов или значений характеристик, а также выполняет поиск правил ассоциаций. Этот тип анализа может использоваться для определения часто приобретаемых вместе товаров или услуг.
Типы колонок источника данных:
• Не используется - колонка не используется в анализе.
• Объект - колонка содержит объект, например документ
«Оказание услуги».
• Элемент - колонка содержит элемент, например
номенклатуру из документа «Оказание услуги».
Параметры:
• МинимальныйПроцентСлучаев - (Число) - минимальный
процент случаев, в которых наблюдается группа элементов.
Найденные группы, у которых процент случаев меньше, в
отчет включены не будут.
• МинимальнаяДостоверностъ - (Число) - минимальная
достоверность правила. Найденные правила, у которых
достоверность меньше, в отчет включены не будут.
• МинималънаяЗначимостъ - (Число) - минимальная
значимость правила. Найденные правила, значимость которых
меньше, в отчет включены не будут. Значимость правила -
величина, характеризующая насколько правило важно. Чем
выше значимость, тем интересней правило.
• ПоискПоИерархии - (Булево)- необходимость поиска по
иерархии. При помощи этого параметра можно указать
анализу, что необходимо искать ассоциации не только среди
элементов, но и среди групп.
• ТипОтсеченияПравил - (избыточные, покрытые) - тип
отсечения найденных правил. Избыточные - отсекать
избыточные правила, покрытые - отсекать правила, покрытые
другими правилами.
• ТипИсточникаДанных - (объектный, событийный) - тип
источника данных. Анализ работает с двумя типами
источника. Объектный - каждая строка источника содержит
454
Использование основных объектов конфигурации
Анализ и прогнозирование данных
![]() |
В |
объект с его характеристиками. Событийный - источник данных содержит список событий. Например, состав документа «Оказание услуги».
ИспользованиеЧисловыхЗначений ~ (как булево, как число) как интерпретировать числовые значения. Можно интерпретировать числовые значения как числа или как логические значения, т.е. рассматривать ноль как Ложь,а все остальные ненулевые значения как Истина.ИгнорироватьНезаполненныеЗначения ~ (Булево)- Как использовать незаполненные значения. Т.е. игнорировать их
или нет.
Порядок - (по достоверности, по значимости, по количеству случаев) - определяет порядок отображения данных в результате анализа.
Пример
качестве примера возьмем данные регистра «Продажи»: поле «Регистратор» и измерение «Номенклатура»:
456
Использование основных объектов конфигурации
Анализ и прогнозирование
данных
![]() | |||
![]() |
![]() |
Результат анализа будет выглядеть следующим образом:
Поиск ассоциативных правил
Параметры анализа
Минимальный процент случаев:
Минимальнаядостоверность: 60
Минимальная значимость: 0
Отсечениеправил: Избыточные
Колонки источника данных Входныеколонки
Информация о данньк
Количество элементов: 12
Количество обьектов: 11
Средиее количество элементов в объекте: 1,82
Результат анализа
Найдено часто встречаемых групп: 4
Найдено ассоциативных правил: 5
![]() |
Часто встречаемые группы
Поиск последовательностей
Т |
ип анализа АнализДанныхПоискПоследовательностей предназначен для выявления в источнике данных последовательных цепочек событий. Например, это может быть цепочка услуг, которые часто последовательно заказывают клиенты.
Поддерживается поиск по иерархии, что позволяет отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.
Набор параметров анализа позволяет ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.
Типы колонок источника данных:
• Не используется - колонка не используется в анализе.
• Элемент - колонка содержит исследуемый элемент.
Например, в случае исследования продаж, это может быть
колонка, содержащая товар.
• Последовательность - колонка содержащая
последовательности. Например, это может быть контрагент.
• Время - время события.
Параметры:
• МинимальныйПроцентСлучаев - (Число)- минимальное
число последовательностей, в которых должен наблюдаться
шаблон последовательности.
• ПоискПоИерархии - (Булево)- необходимо ли осуществлять
поиск по иерархии.
• МинимальныйИнтервал - (Булево)- признак того, что
установлен минимальный интервал между наблюдаемыми
событиями. Установка минимального интервала означает, что
для того, чтобы элементы попали в искомую
последовательность необходимо, чтобы временной интервал
между элементами был не менее установленного.
• ЕдиницаМинимальногоИнтервала - единица минимального
интервала
458
Использование основных объектов конфигурации
Анализ и прогнозирование данных
![]() | |||||
![]() | |||||
![]() |
В |
КратностъМинималъногоИнтервала - (Число)- кратность минимального интервала
МаксималъныйИнтервал - (Булево)- признак того, что установлен максимальный интервал между наблюдаемыми событиями. Установка максимального интервала означает, что для того, чтобы элементы попали в искомую последовательность необходимо, чтобы временной интервал между элементами был не более установленного. ЕдиницаМаксималъногоИнтервала - единица максимального интервала
КратностъМаксималъногоИнтервала - (Число)- кратность максимального интервала
ИнтервапЭквивалентностиВремени - (Булево)- признак того, что установлен интервал эквивалентности времени между наблюдаемыми событиями. Если установлен интервал эквивалентности времени, то события, временной интервал
между которыми меньше интервала эквивалентности времени
считаются произошедшими в одно время.
ЕдиницаИнтервалаЭквталентностиВремени — единица
интервала эквивалентности времени
КратностьИнтервалаЭквталентностиВремени - (Число)-
кратность интервала эквивалентности времени
Минимальная длина - (Число)- минимальная длина
последовательности.
Порядок - (по длине, по количеству случаев) - определяет
порядок отображения данных в результате анализа.
Пример
качестве примера снова возьмем данные регистра «Продажи»: измерения «Номенклатура», «Контрагент» и поле «Период»:
460
Использование основных объектов конфигурации
Анализ и прогнозирование данных
Результат анализа будет выглядеть следующим образом:
Поиск последовательностей
Параметры анализа
Минимальный процент случаев: 10
Минимальный интервал:
Максимальный интервал:
Интервал эквивалентности времени:
Минимальная длина последовательности: 2
Информация о данных
Количество элементов: 12
Количество последовательностей: 6
Результат анализа
Найдено последовательностей: 2
Последовательности
Дерево решений
Т |
ип анализа АнализДанныхДеревоРешениидерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.
Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и рядвходных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.
Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения к
какому классу следует отнести некий новый объект, необходимо отвечая на вопросы в узлах пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.
Набор параметров анализа позволяет регулировать точность полученного дерева.
Типы колонок источника данных:
• Неиспользуемая - колонка не используется в анализе,
• Входная - колонка будет использоваться как атрибут для
создания узлов дерева, содержит характеристику
исследуемого объекта.
• Прогнозируемая - колонка, содержащая классификацию.
Например - признак того, что контрагент перешел к другому
поставщику.
Параметры:
• МинимальноеКоличествоСлучаев - (Число)- минимальное
количество случаев в узле.
• МаксимальнаяГлубина - (Число)- максимальная глубина
дерева.
• ТипУпрощения - (не упрощать, упрощать) - тип упрощения
дерева решений. Упрощать или не упрощать построенное
дерево решений.
462
Использование основных объектов конфигурации
Анализ и прогнозирование данных
Пример
Н |
а этот раз мы проанализируем данные справочника
«Контрагенты». В качестве входных колонок мы используем
поля реквизитов справочника
«КоличествоРозничныхТочек», «КоличествоАвтомобилей»
«ВремяРаботыОрганизации» и «ВремяЗаключенияДоговора»' Прогнозируемой колонкой будет поле реквизита справочника «Контрагенты» - «ПрекращениеОтношений».
Результат анализа будет иметь следующий вид:
Параметры анализа
Минимальноеколичествоэлементов вузле: 0
Максимальная глубина дерева: 1 000
Тип упрощения дерева решений: Упрошать
Колонки источника данных Входные колонки
Имя колонки | Тип данных |
Количест в оРозничныхТочек | Непреры в ный |
Количест во А в томобилей | Непрерывный |
ВремяРаботыОрганизации | Дискретный |
ВремяЗаключенияДоговора | Дискретный |
Прогнозируемые колонки
Имя колонки | Тип данных |
ПрекрашениеОтношений | Дискретный |
Информация о данных
Количество объектов Количество классов:
Результат анализа
Глубина дерева решений: Количество внутренних узлов: Количество листьев' Ошибка, %: