Дерево решений 2 страница

Для непрерывных и дискретных данных рассчитываются различные статистические показатели.

Для непрерывных данных рассчитывается:

• количество значений - количество значений, присутствующих
в исходной выборке,

• минимальное значение - минимальное значение,
присутствующее в исходной выборке,

• максимальное значение - максимальное значение,
присутствующее в исходной выборке,

450

Использование основных объектов конфигурации

Анализ и прогнозирование данных

• среднее значение - среднее арифметическое значений
выборки,

• размах - разность между максимальным и минимальным
значением выборки,

• стандартное отклонение - среднее квадратичное отклонение
равное корню квадратному из дисперсии выборки,

• медиана - значение, лежащее в середине выборки
упорядоченной по возрастанию или убыванию. Другими
словами медиана делит выборку пополам; одна половина
выборки имеет значения меньше медианы, другая - больше. В
случае четного числа значений выборки, медиана
рассчитывается как среднее арифметическое двух значений
ближайших к центру выборки.

Для дискретных данных рассчитывается:

• количество значений - общее количество значений,
присутствующих в исходной выборке,

• количество уникальных значений - количество уникальных
значений, присутствующих в исходной выборке,

• мода - значение, наиболее часто встречающееся в исходной
выборке. В выборке могут быть два или более значения, с
максимальной частотой (би- или мультимодальная выборка).
В этом случае в качестве моды будет взято первое найденное
значение с максимальной частотой.

Кроме того, для дискретных значений рассчитывается таблица частот, содержащая следующие показатели:

• частота - количество вхождений уникального значения в
выборку,

• относительная частота - частота, выраженная в процентах
от общего количества значений выборки,

• накопленная частота - сумма частоты значения и частот всех
предыдущих значений выборки,

• накопленная относительная частота - сумма относительной
частоты и относительных частот всех предыдущих значении
выборки.

При выводе отчета при помощи построителя отчета анализа данных, будет создана круговая диаграмма по относительной частоте значений в выборке.

Типы колонок источника данных:

• Не используется - колонка не участвует в анализе,

• Входная - содержит исходные данные для анализа.

Параметры анализа данных при общестатистическом анализе не задаются.

Пример

качестве примера общестатистического анализа рассмотрим анализ данных, содержащихся в регистре накопления «Продажи». Для анализа выберем все записи регистра, в которых нас будут интересовать значение ресурсов «Сумма», «Количество» и значение измерения «Контрагент».

Допустим, мы будем иметь следующие исходные данные для

анализа:

452

Использование основных объектов конфигурации

Анализ и прогнозирование данных

Результат анализа будет выглядеть следующим образом:

Общая статистика

Информация о данных

Количествообьектов: 20

Непрерывные поля

Дискретные поля Контрагент

Количество значений: 20

Количествоуникальных значений; 6

Мода: Федоров Д.Е.

Диаграмма частот

Таблица частот

Поиск ассоциаций

ип анализа АнализДанныхПоискАссоциаций предназначен для поиска часто встречаемых вместе групп объектов или значений характеристик, а также выполняет поиск правил ассоциаций. Этот тип анализа может использоваться для определения часто приобретаемых вместе товаров или услуг.

Типы колонок источника данных:

• Не используется - колонка не используется в анализе.

• Объект - колонка содержит объект, например документ
«Оказание услуги».

• Элемент - колонка содержит элемент, например
номенклатуру из документа «Оказание услуги».

Параметры:

• МинимальныйПроцентСлучаев - (Число) - минимальный
процент случаев, в которых наблюдается группа элементов.
Найденные группы, у которых процент случаев меньше, в
отчет включены не будут.

• МинимальнаяДостоверностъ - (Число) - минимальная
достоверность правила. Найденные правила, у которых
достоверность меньше, в отчет включены не будут.

• МинималънаяЗначимостъ - (Число) - минимальная
значимость правила. Найденные правила, значимость которых
меньше, в отчет включены не будут. Значимость правила -
величина, характеризующая насколько правило важно. Чем
выше значимость, тем интересней правило.

• ПоискПоИерархии - (Булево)- необходимость поиска по
иерархии. При помощи этого параметра можно указать
анализу, что необходимо искать ассоциации не только среди
элементов, но и среди групп.

• ТипОтсеченияПравил - (избыточные, покрытые) - тип
отсечения найденных правил. Избыточные - отсекать
избыточные правила, покрытые - отсекать правила, покрытые
другими правилами.

• ТипИсточникаДанных - (объектный, событийный) - тип
источника данных. Анализ работает с двумя типами
источника. Объектный - каждая строка источника содержит

454

Использование основных объектов конфигурации

Анализ и прогнозирование данных

объект с его характеристиками. Событийный - источник данных содержит список событий. Например, состав документа «Оказание услуги».

ИспользованиеЧисловыхЗначений ~ (как булево, как число) как интерпретировать числовые значения. Можно интерпретировать числовые значения как числа или как логические значения, т.е. рассматривать ноль как Ложь,а все остальные ненулевые значения как Истина.ИгнорироватьНезаполненныеЗначения ~ (Булево)- _Как использовать незаполненные значения. Т.е. игнорировать их

или нет.

Порядок - (по достоверности, по значимости, по количеству случаев) - определяет порядок отображения данных в результате анализа.

Пример

качестве примера возьмем данные регистра «Продажи»: поле «Регистратор» и измерение «Номенклатура»:

456

Использование основных объектов конфигурации

Анализ и прогнозирование

данных

Результат анализа будет выглядеть следующим образом:

Поиск ассоциативных правил

Параметры анализа

Минимальный процент случаев:

Минимальнаядостоверность: 60

Минимальная значимость: 0

Отсечениеправил: Избыточные

Колонки источника данных Входныеколонки

Информация о данньк

Количество элементов: 12

Количество обьектов: 11

Средиее количество элементов в объекте: 1,82

Результат анализа

Найдено часто встречаемых групп: 4

Найдено ассоциативных правил: 5

Часто встречаемые группы

Поиск последовательностей

ип анализа АнализДанныхПоискПоследовательностей предназначен для выявления в источнике данных последовательных цепочек событий. Например, это может быть цепочка услуг, которые часто последовательно заказывают клиенты.

Поддерживается поиск по иерархии, что позволяет отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.

Набор параметров анализа позволяет ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Типы колонок источника данных:

• Не используется - колонка не используется в анализе.

• Элемент - колонка содержит исследуемый элемент.
Например, в случае исследования продаж, это может быть
колонка, содержащая товар.

• Последовательность - колонка содержащая
последовательности. Например, это может быть контрагент.

• Время - время события.

Параметры:

• МинимальныйПроцентСлучаев - (Число)- минимальное
число последовательностей, в которых должен наблюдаться
шаблон последовательности.

• ПоискПоИерархии - (Булево)- необходимо ли осуществлять
поиск по иерархии.

• МинимальныйИнтервал - (Булево)- признак того, что
установлен минимальный интервал между наблюдаемыми
событиями. Установка минимального интервала означает, что
для того, чтобы элементы попали в искомую
последовательность необходимо, чтобы временной интервал
между элементами был не менее установленного.

• ЕдиницаМинимальногоИнтервала - единица минимального
интервала

458

Использование основных объектов конфигурации

Анализ и прогнозирование данных

КратностъМинималъногоИнтервала - (Число)- кратность минимального интервала

МаксималъныйИнтервал - (Булево)- признак того, что установлен максимальный интервал между наблюдаемыми событиями. Установка максимального интервала означает, что для того, чтобы элементы попали в искомую последовательность необходимо, чтобы временной интервал между элементами был не более установленного. ЕдиницаМаксималъногоИнтервала - единица максимального интервала

КратностъМаксималъногоИнтервала - (Число)- кратность максимального интервала

ИнтервапЭквивалентностиВремени - (Булево)- признак того, что установлен интервал эквивалентности времени между наблюдаемыми событиями. Если установлен интервал эквивалентности времени, то события, временной интервал

между которыми меньше интервала эквивалентности времени

считаются произошедшими в одно время.

ЕдиницаИнтервалаЭквталентностиВремени — единица

интервала эквивалентности времени

КратностьИнтервалаЭквталентностиВремени - (Число)-

кратность интервала эквивалентности времени

Минимальная длина - (Число)- минимальная длина

последовательности.

Порядок - (по длине, по количеству случаев) - определяет

порядок отображения данных в результате анализа.

Пример

качестве примера снова возьмем данные регистра «Продажи»: измерения «Номенклатура», «Контрагент» и поле «Период»:

460

Использование основных объектов конфигурации

Анализ и прогнозирование данных

Результат анализа будет выглядеть следующим образом:

Поиск последовательностей

Параметры анализа

Минимальный процент случаев: 10

Минимальный интервал:

Максимальный интервал:

Интервал эквивалентности времени:

Минимальная длина последовательности: 2

Информация о данных

Количество элементов: 12

Количество последовательностей: 6

Результат анализа

Найдено последовательностей: 2

Последовательности

Дерево решений

ип анализа АнализДанныхДеревоРешениидерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.

Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и рядвходных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.

Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения к

какому классу следует отнести некий новый объект, необходимо отвечая на вопросы в узлах пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.

Набор параметров анализа позволяет регулировать точность полученного дерева.

Типы колонок источника данных:

• Неиспользуемая - колонка не используется в анализе,

• Входная - колонка будет использоваться как атрибут для
создания узлов дерева, содержит характеристику
исследуемого объекта.

• Прогнозируемая - колонка, содержащая классификацию.
Например - признак того, что контрагент перешел к другому
поставщику.

Параметры:

• МинимальноеКоличествоСлучаев - (Число)- минимальное
количество случаев в узле.

• МаксимальнаяГлубина - (Число)- максимальная глубина
дерева.

• ТипУпрощения - (не упрощать, упрощать) - тип упрощения
дерева решений. Упрощать или не упрощать построенное
дерево решений.

462

Использование основных объектов конфигурации

Анализ и прогнозирование данных

Пример

а этот раз мы проанализируем данные справочника
«Контрагенты». В качестве входных колонок мы использу_емполя реквизитов ^справочник_а

«КоличествоРозничныхТочек», «КоличествоАвтомобилей»

«ВремяРаботыОрганизации» и «ВремяЗаключенияДоговора»' Прогнозируемой колонкой будет поле реквизита справочника «Контрагенты» - «ПрекращениеОтношений».

Результат анализа будет иметь следующий вид:

Параметры анализа

Минимальноеколичествоэлементов вузле: 0

Максимальная глубина дерева: 1 000

Тип упрощения дерева решений: Упрошать

Колонки источника данных Входные колонки

Имя колонки	Тип данных
Количест в оРозничныхТочек	Непреры в ный
Количест во А в томобилей	Непрерывный
ВремяРаботыОрганизации	Дискретный
ВремяЗаключенияДоговора	Дискретный

Прогнозируемые колонки

Имя колонки	Тип данных
ПрекрашениеОтношений	Дискретный

Информация о данных

Количество объектов Количество классов:

Результат анализа

Глубина дерева решений: Количество внутренних узлов: Количество листьев' Ошибка, %:

5rik.ru

Материалы для учебы и работы

Дерево решений 2 страница