Дерево решений 2 страница

Для непрерывных и дискретных данных рассчитываются различные статистические показатели.

Для непрерывных данных рассчитывается:

количество значений - количество значений, присутствующих
в исходной выборке,

минимальное значение - минимальное значение,
присутствующее в исходной выборке,

максимальное значение - максимальное значение,
присутствующее в исходной выборке,


 


450



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


среднее значение - среднее арифметическое значений
выборки,

размах - разность между максимальным и минимальным
значением выборки,

стандартное отклонение - среднее квадратичное отклонение
равное корню квадратному из дисперсии выборки,

медиана - значение, лежащее в середине выборки
упорядоченной по возрастанию или убыванию. Другими
словами медиана делит выборку пополам; одна половина
выборки имеет значения меньше медианы, другая - больше. В
случае четного числа значений выборки, медиана
рассчитывается как среднее арифметическое двух значений
ближайших к центру выборки.

Для дискретных данных рассчитывается:

количество значений - общее количество значений,
присутствующих в исходной выборке,

количество уникальных значений - количество уникальных
значений, присутствующих в исходной выборке,

мода - значение, наиболее часто встречающееся в исходной
выборке. В выборке могут быть два или более значения, с
максимальной частотой (би- или мультимодальная выборка).
В этом случае в качестве моды будет взято первое найденное
значение с максимальной частотой.

Кроме того, для дискретных значений рассчитывается таблица частот, содержащая следующие показатели:

частота - количество вхождений уникального значения в
выборку,

относительная частота - частота, выраженная в процентах
от общего количества значений выборки,

накопленная частота - сумма частоты значения и частот всех
предыдущих значений выборки,

накопленная относительная частота - сумма относительной
частоты и относительных частот всех предыдущих значении
выборки.


При выводе отчета при помощи построителя отчета анализа данных, будет создана круговая диаграмма по относительной частоте значений в выборке.

Типы колонок источника данных:

Не используется - колонка не участвует в анализе,

Входная - содержит исходные данные для анализа.

Параметры анализа данных при общестатистическом анализе не задаются.

Пример

В

качестве примера общестатистического анализа рассмотрим анализ данных, содержащихся в регистре накопления «Продажи». Для анализа выберем все записи регистра, в которых нас будут интересовать значение ресурсов «Сумма», «Количество» и значение измерения «Контрагент».

Допустим, мы будем иметь следующие исходные данные для

анализа:


 


452



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


       
 
 
   



Результат анализа будет выглядеть следующим образом:

Общая статистика

Информация о данных

Количествообьектов: 20

Непрерывные поля

Дискретные поля Контрагент

Количество значений: 20

Количествоуникальных значений; 6

Мода: Федоров Д.Е.


Диаграмма частот

Таблица частот


Поиск ассоциаций

Т

ип анализа АнализДанныхПоискАссоциаций предназначен для поиска часто встречаемых вместе групп объектов или значений характеристик, а также выполняет поиск правил ассоциаций. Этот тип анализа может использоваться для определения часто приобретаемых вместе товаров или услуг.

Типы колонок источника данных:

Не используется - колонка не используется в анализе.

Объект - колонка содержит объект, например документ
«Оказание услуги».

Элемент - колонка содержит элемент, например
номенклатуру из документа «Оказание услуги».

Параметры:

МинимальныйПроцентСлучаев - (Число) - минимальный
процент случаев, в которых наблюдается группа элементов.
Найденные группы, у которых процент случаев меньше, в
отчет включены не будут.

МинимальнаяДостоверностъ - (Число) - минимальная
достоверность правила. Найденные правила, у которых
достоверность меньше, в отчет включены не будут.

МинималънаяЗначимостъ - (Число) - минимальная
значимость правила. Найденные правила, значимость которых
меньше, в отчет включены не будут. Значимость правила -
величина, характеризующая насколько правило важно. Чем
выше значимость, тем интересней правило.

ПоискПоИерархии - (Булево)- необходимость поиска по
иерархии. При помощи этого параметра можно указать
анализу, что необходимо искать ассоциации не только среди
элементов, но и среди групп.

ТипОтсеченияПравил - (избыточные, покрытые) - тип
отсечения найденных правил. Избыточные - отсекать
избыточные правила, покрытые - отсекать правила, покрытые
другими правилами.

ТипИсточникаДанных - (объектный, событийный) - тип
источника данных. Анализ работает с двумя типами
источника. Объектный - каждая строка источника содержит


 


454



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


 
 

В

объект с его характеристиками. Событийный - источник данных содержит список событий. Например, состав документа «Оказание услуги».

ИспользованиеЧисловыхЗначений ~ (как булево, как число) как интерпретировать числовые значения. Можно интерпретировать числовые значения как числа или как логические значения, т.е. рассматривать ноль как Ложь,а все остальные ненулевые значения как Истина.ИгнорироватьНезаполненныеЗначения ~ (Булево)- Как использовать незаполненные значения. Т.е. игнорировать их

или нет.

Порядок - (по достоверности, по значимости, по количеству случаев) - определяет порядок отображения данных в результате анализа.


Пример

качестве примера возьмем данные регистра «Продажи»: поле «Регистратор» и измерение «Номенклатура»:


 


456



Использование основных объектов конфигурации


Анализ и прогнозирование


данных


 


       
 
 
   


Результат анализа будет выглядеть следующим образом:

Поиск ассоциативных правил

Параметры анализа

Минимальный процент случаев:

Минимальнаядостоверность: 60

Минимальная значимость: 0

Отсечениеправил: Избыточные

Колонки источника данных Входныеколонки

Информация о данньк

Количество элементов: 12

Количество обьектов: 11

Средиее количество элементов в объекте: 1,82

Результат анализа

Найдено часто встречаемых групп: 4

Найдено ассоциативных правил: 5


Часто встречаемые группы


Поиск последовательностей

Т

ип анализа АнализДанныхПоискПоследовательностей предназначен для выявления в источнике данных последовательных цепочек событий. Например, это может быть цепочка услуг, которые часто последовательно заказывают клиенты.

Поддерживается поиск по иерархии, что позволяет отслеживать не только последовательности конкретных событий, но и последовательности родительских групп.

Набор параметров анализа позволяет ограничивать временные расстояния между элементами искомых последовательностей, а также регулировать точность получаемых результатов.

Типы колонок источника данных:

Не используется - колонка не используется в анализе.

Элемент - колонка содержит исследуемый элемент.
Например, в случае исследования продаж, это может быть
колонка, содержащая товар.

Последовательность - колонка содержащая
последовательности. Например, это может быть контрагент.

Время - время события.

Параметры:

МинимальныйПроцентСлучаев - (Число)- минимальное
число последовательностей, в которых должен наблюдаться
шаблон последовательности.

ПоискПоИерархии - (Булево)- необходимо ли осуществлять
поиск по иерархии.

МинимальныйИнтервал - (Булево)- признак того, что
установлен минимальный интервал между наблюдаемыми
событиями. Установка минимального интервала означает, что
для того, чтобы элементы попали в искомую
последовательность необходимо, чтобы временной интервал
между элементами был не менее установленного.

ЕдиницаМинимальногоИнтервала - единица минимального
интервала


 


458



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


           
   
 
 
 
   

В

КратностъМинималъногоИнтервала - (Число)- кратность минимального интервала

МаксималъныйИнтервал - (Булево)- признак того, что установлен максимальный интервал между наблюдаемыми событиями. Установка максимального интервала означает, что для того, чтобы элементы попали в искомую последовательность необходимо, чтобы временной интервал между элементами был не более установленного. ЕдиницаМаксималъногоИнтервала - единица максимального интервала

КратностъМаксималъногоИнтервала - (Число)- кратность максимального интервала

ИнтервапЭквивалентностиВремени - (Булево)- признак того, что установлен интервал эквивалентности времени между наблюдаемыми событиями. Если установлен интервал эквивалентности времени, то события, временной интервал

между которыми меньше интервала эквивалентности времени

считаются произошедшими в одно время.

ЕдиницаИнтервалаЭквталентностиВремени — единица

интервала эквивалентности времени

КратностьИнтервалаЭквталентностиВремени - (Число)-

кратность интервала эквивалентности времени

Минимальная длина - (Число)- минимальная длина

последовательности.

Порядок - (по длине, по количеству случаев) - определяет

порядок отображения данных в результате анализа.


Пример

качестве примера снова возьмем данные регистра «Продажи»: измерения «Номенклатура», «Контрагент» и поле «Период»:


 


460



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


Результат анализа будет выглядеть следующим образом:

Поиск последовательностей

Параметры анализа

Минимальный процент случаев: 10

Минимальный интервал:

Максимальный интервал:

Интервал эквивалентности времени:

Минимальная длина последовательности: 2

Информация о данных

Количество элементов: 12

Количество последовательностей: 6

Результат анализа

Найдено последовательностей: 2

Последовательности

Дерево решений

Т

ип анализа АнализДанныхДеревоРешениидерево решений позволяет построить иерархическую структуру классифицирующих правил, представленную в виде дерева.

Для построения дерева решений необходимо выбрать целевой атрибут, по которому будет строиться классификатор и рядвходных атрибутов, которые будут использоваться для создания правил. Целевой атрибут может содержать, например информацию о том, перешел ли клиент к другому поставщику услуг, удачна ли была сделка, качественно ли была выполнена работа и т.д. Входными атрибутами, для примера, могут выступать возраст сотрудника, стаж его работы, материальное состояние клиента, количество сотрудников в компании и т.п.

Результат работы анализа представляется в виде дерева, каждый узел которого содержит некоторое условие. Для принятия решения к


какому классу следует отнести некий новый объект, необходимо отвечая на вопросы в узлах пройти цепочку от корня до листа дерева, переходя к дочерним узлам в случае утвердительного ответа и к соседнему узлу в случае отрицательного.

Набор параметров анализа позволяет регулировать точность полученного дерева.

Типы колонок источника данных:

• Неиспользуемая - колонка не используется в анализе,

• Входная - колонка будет использоваться как атрибут для
создания узлов дерева, содержит характеристику
исследуемого объекта.

• Прогнозируемая - колонка, содержащая классификацию.
Например - признак того, что контрагент перешел к другому
поставщику.

Параметры:

• МинимальноеКоличествоСлучаев - (Число)- минимальное
количество случаев в узле.

• МаксимальнаяГлубина - (Число)- максимальная глубина
дерева.

• ТипУпрощения - (не упрощать, упрощать) - тип упрощения
дерева решений. Упрощать или не упрощать построенное
дерево решений.


 


462



Использование основных объектов конфигурации


Анализ и прогнозирование данных


 


Пример

Н

а этот раз мы проанализируем данные справочника
«Контрагенты». В качестве входных колонок мы используем
поля реквизитов справочника

«КоличествоРозничныхТочек», «КоличествоАвтомобилей»

«ВремяРаботыОрганизации» и «ВремяЗаключенияДоговора»' Прогнозируемой колонкой будет поле реквизита справочника «Контрагенты» - «ПрекращениеОтношений».


Результат анализа будет иметь следующий вид:

Параметры анализа

Минимальноеколичествоэлементов вузле: 0

Максимальная глубина дерева: 1 000

Тип упрощения дерева решений: Упрошать

Колонки источника данных Входные колонки

 

Имя колонки Тип данных
Количест в оРозничныхТочек Непреры в ный
Количест во А в томобилей Непрерывный
ВремяРаботыОрганизации Дискретный
ВремяЗаключенияДоговора Дискретный

Прогнозируемые колонки

 

Имя колонки Тип данных
ПрекрашениеОтношений Дискретный

 


Информация о данных

Количество объектов Количество классов:

Результат анализа

Глубина дерева решений: Количество внутренних узлов: Количество листьев' Ошибка, %: