Согласование оценок

 

Значимость полученной групповой оценки в большой степени определяется согласованностью индивидуальных оценок экспертов. В связи с этим встает вопрос об определении приемлемой меры согласованности, а также о разработке методов и процедур повышения согласованности мнений экспертов, если она недостаточна.

 

Для оценок, полученных в номинальной шкале, вопрос об оценке согласованности можно решить достаточно просто, например, путем различных модификаций правила большинства (если данное мнение принято большинством менее чем в 2/3 голосов, то такая согласованность считается недостаточной, соответственно, оценка не является значимой, необходимо провести повторную экспертизу).

 

Для оценки согласованности численных оценок рассчитываются различные статистические величины - дисперсия, СКО, коэффициент вариации. При этом, как правило, рассчитывается несмещенная оценка дисперсии, т.е. оценки экспертов рассматриваются, как случайная выборка*:

где - дисперсия,

xj – оценка, данная j–м экспертом,

– среднее арифметическое оценок, данных различными экспертами,

m - число экспертов.

Среднее квадратическое отклонение, в отличие от дисперсии, является величиной, имеющей те же единицы измерения, что и сама оценка (дисперсия измеряется в квадратах этих единиц):

где - среднее квадратическое отклонение.

Коэффициент вариации представляет собой относительный показатель, не имеющий единиц измерения, позволяющий сравнивать среднеквадратическое отклонение со средней оценкой (оценить, велико это отклонение или мало в масштабах данных оценок):

где - коэффициент вариации.

 

Если подходить к оценкам, как к случайной выборке, учитывать компетентность экспертов бессмысленно. Ее можно учесть, если рассматривать экспертов, как генеральную совокупность, и соответственно, рассчитывать дисперсию для генеральной совокупности (причем относительно не простого, а взвешенного среднего)*, а через нее СКО и коэффициент вариации.

 

Мнения экспертов можно считать согласованными, если значения этих показателей не выходят за рамки предварительно заданных граничных значений, например, коэффициент вариации составляет не более 0.1.

 

Например, пусть трем экспертам предложено оценить по трехбалльной шкале экономическую эффективность одного из методов реорганизации (например, метода Д). Граничное значение коэффициента вариации примем равным 0.25.

Эксперт Оценка
Петров 1/3 1/9
Сидоров 1/3 1/9
Кузнецов - 2/3 4/9
Сумма   2/3

= 7/3 = 2 1/3; = (2/3) / 2 = 1/3; 0.58; 0.25. Поскольку граничное значение не превышено, будем считать оценки согласованными (хотя стоит отметить, что само это значение не так уж мало).

 

Другой метод оценки согласованности – использование статистического критерия (“хи-квадрат”).

Предполагается, что полностью несогласованные оценки распределены равномерно по всей шкале, т.е. на каждую градацию приходится равное количество оценок m/L, где m – число экспертов, L - число градаций в используемой шкале. В рассмотренном примере равномерное распределение соответствовало бы одной оценке в каждой градации (3/3 = 1), т.е. оно имело бы место, если бы каждый балл – 1, 2 и 3 – поставило бы по одному эксперту из трех.

На самом деле в каждую j–ю градацию попало mj оценок (). В данном примере m1=0 (никто не поставил 1 балл), m2=2 (2 балла поставили 2 эксперта), m3=1 (3 балла поставил 1 эксперт).

Подсчитаем сумму квадратов относительных отклонений частот m/L от частот mj - . Чем эта величина больше, тем с большей уверенностью можно утверждать, что оценки согласованы (их частоты отличаются от частот при равномерном распределении). Данная величина подчиняется - распределению с числом степеней свободы L-1.

На самом деле, данный критерий считается приемлемым в том случае, если значения ожидаемых при нулевой гипотезе о равномерном распределении частот не менее 5, а не 1, как в данном примере; тем не менее, для упрощения вычислений, рассмотрим тот же самый пример с данной оговоркой.

С некоторой вероятностью рассчитанная величина может оказаться больше реальной случайно, и тогда мы сделаем неправильный вывод о согласованности оценок. Поэтому задают малое значение этой вероятности, т.е. уровень значимости. Обычно его берут равным 0.05, 0.01 или 0.001, но допустимы и более высокие значения в зависимости от ситуации.

Затем по статистическим таблицам определяют значение при заданном уровне значимости и числе степеней свободы. В данном примере при двух степенях свободы =5.991. Если полученное расчетное значение будет больше табличного, то гипотеза о равномерном распределении оценок будет отвергнута, и оценки можно считать согласованными. В противном случае оценки считают несогласованными.

В данном примере = ((0-1)2 + (2-1)2 + (1-1)2)/1 = 1 + 1 + 0 = 2 < 5.991. Более того, в статистической таблице для -распределения с двумя степенями свободы значение 2 находится примерно в середине таблицы, т.е. соответствует уровню значимости 0.5. К сожалению, это не дает возможности отвергнуть гипотезу о равномерном распределении – она может оказаться верной или неверной почти с равной вероятностью. Чтобы сделать более уверенный вывод, необходимо увеличить согласованность оценок.

 

Оба рассмотренных выше метода могут быть использованы только при оценке объекта по одному фактору. Если объект оценивается по нескольким факторам (по n факторам), то для измерения согласованности между оценками ДВУХ экспертов (или между отдельным экспертом и групповым мнением) рассчитывают евклидово расстояние между ними, рассматривая каждую оценку, как точку в n–мерном пространстве:

где r – расстояние между оценками двух экспертов;

n – число факторов;

xi – оценка i–го фактора одним из экспертов;

yi - оценка i–го фактора другим экспертом.

Предположим, например, что эксперты оценивают не только экономическую эффективность метода, но также и его социальную эффективность:

Эксперт Оценка экономической эффективности Оценка социальной эффективности Расстояние между оценками
Петров Сидоров Кузнецов
Петров  
Сидоров   2,2
Кузнецов 2,2  
Групповая оценка* 2.36 2.36** 0.7 1.4 0.9

Расстояние между оценками Петрова и Сидорова составляет = 2. Расстояния между оценками Петрова и Кузнецова, Сидорова и Кузнецова, а также каждого из них и групповой оценкой рассчитаны аналогично.

Из данного примера видно, что мнение Сидорова наиболее значительно отличается от мнений двух других экспертов и от группового, особенно от мнения Кузнецова, мнения же Кузнецова и Петрова наиболее близки друг к другу. Петров ближе всех к групповому мнению. Поскольку оцениваются всего два фактора, данный пример можно пояснить рисунком, на котором расстояния между оценками представлены наглядно.

ЛЕКЦИЯ 13
Если факторов более 2-3, оценить близость оценок визуально становится невозможно, и без расчета расстояний обойтись уже не удается. Для таких расчетов рекомендуется использовать программные средства, так как с ростом числа экспертов (m) число расстояний, которые необходимо подсчитать, существенно увеличивается (m*(m-1)/2).

С использованием данного показателя экспертов можно разбивать на группы, мнения внутри которых отличаются более высокой согласованностью по сравнению со всей групповой оценкой. Изучением таких групп занимается кластерный анализ (здесь подробно не рассматривается).

 

Отметим, что при использовании евклидова расстояния для измерения согласованности различные показатели будет лучше перевести в балльные шкалы с равным числом градаций, в противном случае разница в масштабе может существенно повлиять на величину расстояния. Измерить согласованность индивидуальных оценок через расстояние можно различными способами, например, путем вычисления среднего попарного расстояния, либо среднего расстояния до групповой оценки (их значения должны быть не больше заранее заданных).

 

Будем считать оценки в данном примере согласованными, если среднее попарное расстояние не превысит 2, а до групповой оценки – 1. Среднее попарное расстояние равно (2 + 1 +2.2) / 3= 1.73 < 2. Среднее расстояние до групповой оценки подсчитаем, как среднее взвешенное, чтобы с большими весами учесть отклонения от группового мнения наиболее квалифицированных экспертов: 0.7*0.32 + 1.4*0.32 + 0.9*0.36 = 0.996 » 1. Следовательно, оценки можно считать согласованными.

Для оценок, полученных в ранговой шкале, используются другие методы. Рассмотрим некоторые из них.

Для измерения согласованности полного ранжирования можно использовать коэффициент конкордации. В основе его расчета лежит идея о том, что при полной согласованности мнений экспертов дисперсия сумм рангов будет максимальной (т.е. все m экспертов дали одним и тем же объектам ранги от 1 до n, суммы рангов для каждого объекта составляют от m до m*n). Коэффициент конкордации W представляет собой соотношение двух дисперсий – дисперсию сумм рангов, которая имеет место на самом деле, делят на максимальную дисперсию. Поэтому всегда , и чем ближе коэффициент к единице, тем более высокой является согласованность мнений экспертов. Если W=0, мнения полностью рассогласованы*, при W=1 мнение экспертов является единогласным. Обычно мнения считают согласованными, если W>0.5. После всех математических преобразований (здесь не приводятся) формула для этого коэффициента принимет следующий вид (автор лекций не считает ее запоминание обязательным):

где W – коэффициент конкордации,

n - число ранжируемых объектов,

m - число экспертов,

- сумма рангов, присвоенных всеми экспертами j–му объекту (аij – ранг, который i–й эксперт приписывает j–му объекту),

– среднее арифметическое таких сумм.

 

Использовать эту формулу можно только если каждому эксперту удалось дифференцировать по предпочтительности все объекты, т.е. стандартизированные ранги не используются.

 

Например, пусть эксперты предложили следующее упорядочение:


 

Способы Эксперты А Б В Г Д
  Индивидуальное ранжирование
Петров
Сидоров
Кузнецов
Сумма рангов Sj
= Sj - 9 -1 -3 -2

 

Средняя сумма рангов равна m * (n + 1) / 2 = 3 * (5 + 1) / 2 = 9; сумма квадратов отклонений сумм рангов от нее равна 0 + 1 + 9 + 36 + 4 = 50. W = 50*12 / (32 * (53 – 5)) = 0.56 > 0.5, следовательно, мнения можно считать согласованными.

 

Если в оценках экспертов присутствуют стандартизированные ранги, вид формулы для коэффициента конкордации несколько изменяется (обратите внимание на знаменатель формулы; автор лекций также не считает ее запоминание обязательным):

где L – число групп стандартизированных рангов;

ti – число повторяющихся рангов в i–й группе.

 

Пример снова рассмотрим в виде таблицы.

Способы Эксперты А Б В Г Д
  Индивидуальное ранжирование
Петров 3.5 3.5
Сидоров 1.5 1.5
Кузнецов
Сумма рангов 8.5 9.5 6.5 6.5
= Sj - 9 -0.5 0.5 -2.5 -2.5
0.25 0.25 6.25 6.25

 

Сумма квадратов отклонений сумм рангов от средней суммы равна 0.25 + 0.25 + 6.25 + 25 + 6.25 = 38. В оценках Петрова имеется одна группа из двух совпадающих рангов (ранг 3.5 имеют объекты А и Б), а в оценках Сидорова – две группы из двух (В и Д имеют ранг 1.5) и трех (А, Б и Г имеют ранг 4) рангов, поэтому W = 38*12 / (32 * (53 – 5) – 3 * (23 – 2 + 23 – 2 + 33 – 3)) = 0.47 < 0.5, следовательно, мнения нельзя считать согласованными.

Рассчитанные коэффициенты также должны быть проверены на статистическую значимость, поскольку их значения могут быть результатом случайного совпадения. Для проверки используется критерий Пирсона (рассчитывается по формуле W*m(n-1)), который при n>7 имеет –распределение c n-1 степенями свободы. Если его значение больше табличного, коэффициент конкордации можно считать значимым (уровень значимости обычно задают 0.05 или 0.01).

Для иллюстрации расчетов проверим значимость W=0.56 (хотя n и менее 7). Зададим уровень значимости 0.05. Число степеней свободы равно 4. Табличное значение =9.5, а для нашего примера 3*4*0.56 = 6.72 < 9.5, что означает, что и в этом случае мнения нельзя считать согласованными (коэффициент конкордации не является значимым*).

 

Для оценки согласованности ранговых оценок двух экспертов используют коэффициенты ранговой корреляции Спирмена или Кендалла. Формулы для расчетов здесь не приводятся, рекомендуется изучить их самостоятельно, используя учебники по статистике и экспертным оценкам, например, [5, 9].

 

В результате оценки согласованности мнений экспертов можно прийти к одному из трех выводов:

 

1) Мнения экспертов полностью рассогласованы (оценка согласованности низкая, и нельзя выделить никаких групп экспертов, близких по своим мнениям).

В этом случае результаты экспертизы не пригодны для принятия решения (в самом деле, если один из метеорологов считает, что погода будет солнечной, а другой – что будет проливной дождь, нелепо рассчитывать на некий усредненный вариант, например, легкую облачность). В зависимости от конкретной ситуации следует либо констатировать факт, признать экспертизу неудавшейся, и отказаться от проведения исследования, либо провести повторную экспертизу с учетом причин неудачи. Они могут быть следующими:

а) недостаточно корректно сформулированы цели и задачи исследования;

б) неудачно выбраны методы экспертизы;

в) неудачно построены шкалы;

г) для участников экспертизы не удалось создать подходящую обстановку (возможно, как в психологическом плане, так и в материальном);

д) время, выделенное для обсуждения, оказалось недостаточным для того, чтобы эксперты согласовали свои мнения (если метод экспертизы это предусматривает);

е) неудачно подобраны эксперты (по своим качественным и количественным характеристикам, совместимости).

Можно выявить и другие причины.

 

2) Оценки экспертов обособлены в несколько групп, внутри которых согласованность достаточно высока, а в целом по экспертной группе она низкая.

В этом случае логично предположить, что речь идет о различных научных школах или о различных социальных группах населения. Их мнения не всегда можно согласовать между собой даже в ходе длительной дискуссии. Целесообразно предоставить ЛПР несколько групповых оценок с соответствующими комментариями.

 

3) Групповая оценка характеризуется высокой согласованностью.

Такую оценку можно представить ЛПР, но в любом случае имеет смысл проанализировать наличие крайних мнений (выяснить, какой процент экспертов их придерживается, чем они обосновывают свои точки зрения, какой будет оценка согласованности, если их не учитывать). Результаты такого анализа также обычно представляют ЛПР.

 

Как следует из всего изложенного, ситуации, с которыми сталкивается рабочая группа при обработке групповых экспертных оценок, являются достаточно разнообразными. Поэтому при проведении экспертизы необходимо в зависимости от конкретной ситуации (целей исследования, наличия ресурсов) заранее обдумать, каким образом будет обрабатываться полученная от экспертов информация, соответствующим образом поставить перед ними задачу и обеспечить себя источниками теоретической и справочной информации для расчетов и анализа.

Рассмотрим кратко некоторые другие МАИС.

 

Сценарный метод [3]

 

Сценарный метод представляет собой описание гипотетической (предполагаемой) логической последовательности событий с целью показать, как из существующей ситуации может поэтапно развиваться будущее состояние системы управления.

Довольно часто сценарием называют просто изложение содержательного анализа рассматриваемой проблемы и предложений по ее решению, даже если оно не включает описание последовательности развития системы во времени.

 

Тем не менее, чаще всего сценарии используются в прогнозировании.

Прогнозирование представляет собой процесс получения научно-обоснованного вероятностного суждения о состоянии системы в будущем или о способах и сроках достижения определенного состояния. Такое определение данного понятия не позволяет отнести к нему всевозможные псевдонаучные доводы, предсказания, не имеющие научного обоснования. Кроме того, следует всегда помнить о вероятностном характере прогнозирования, поскольку точно предсказать будущее невозможно, и любой прогноз подразумевает некоторую вероятность ошибки. Прогноз, отвечающий на вопрос, что именно будет иметь место в будущем (например, какая завтра будет погода), является прогнозом о будущем состоянии объекта исследования (так называемый генетический, поисковый прогноз). Кроме того, прогноз может отвечать на вопрос, когда и/или как будет достигнуто некоторое заранее заданное состояние, норматив (например, когда наступит ясная погода), и называется при этом целевым, или нормативным, прогнозом.

 

Частью сценарного метода является определение гарантированного прогноза, т.е. построение трубки прогноза – тех границ, за которые по объективным причинам развитие системы выйти не может. Для этого задаются максимально возможные значения благоприятных для развития системы параметров и минимальные - для неблагоприятных. Таким образом определяется идеальное, наилучшее состояние системы в будущем, т.е. потенциал системы управления. Для нахождения нижнего предела развития системы положительные факторы, напротив, фиксируются на самом низком уровне, а отрицательные максимизируются. Считается, что вероятность нахождения системы в любом из этих состояний (наилучшем и наихудшем) невелика, наиболее же вероятное состояние системы находится в трубке прогноза между ними.

 

Достоинством сценария является то, что он позволяет создать пред­ставление об объекте исследования в тех случаях, когда ее формальная модель еще не построена (или не может быть построена с достаточной адекватностью). Это представление можно использовать, как предварительное, и в дальнейшем на его основе применять другие методы. Можно сказать, что сценарный метод относится к наименее формализованным. Но отсюда же вытекают и его недостатки:

1) возможность неоднозначного толкования и логической противоречивости неформально изложенного сценария;

2) вероятностный характер суждений (всегда присутствует вероятность ошибки, при чем чем уже трубка прогноза, тем она выше, а если трубка слишком широка, то такой сценарий бесполезен для ЛПР).

 

ЛЕКЦИЯ 14
Например, с вероятностью 1 (т.е. точно) можно построить для системы управления трубку прогноза, нижней границей для которой будет ситуация, когда эта система вообще не сможет функционировать, а верхней – когда результаты ее функционирования по всем критериям примут наилучшие значения. Бесполезность такого прогноза достаточно очевидна. Однако, более детальный прогноз можно получить только с меньшей точностью, т.е. с меньшей вероятностью, например, 0.9. Даже при такой высокой вероятности попадания в трубку прогноза возможно все же, что сценарий не будет осуществлен (с вероятностью 0.1 = 1 – 0.9).

 
 
ЛЕКЦИЯ 14


Морфологический подход [3]

 

Слово «морфология» имеет греческое происхождение (morphe – форма, logos – учение).

Морфологический анализ (или морфологический подход) состоит в том, что исследователь находит как можно большее число или даже все возможные варианты (формы) решения поставленной проблемы, комбинируя основ­ные параметры системы во всем их многообразии.

В зависимости от способов, которыми исследователь определяет эти разлинчные параметры, их возможные значения и комбинирует их, выделяют различные методы в рамках даного подхода.

В общем виде можно выделить следующие этапы реализации морфологического метода:

1) точная формулировка подлежащей решению проблемы;

2) изучение всех важнейших параметров – морфологических признаков, от которых зависит решение;

3) изучение всех возможных вариантов для каждого параметра путем составления морфологической схемы или морфологической карты. Если параметров всего два, ее можно построить в виде морфологической матрицы. Иногда используется также термин морфологического ящика, который можно построить и в трехмерном варианте;

Например, пусть при приеме на работу сотрудника имеют значения три параметра – образование, стаж и возраст (пример упрощенный). Параметр Р1 - «образование» - может принять одно из следующих значений: среднее специальное, высшее, наличие ученой степени; для параметра Р2 - «стаж» - примем значения «не имеет» и «имеет»; а для параметра Р3 - «возраст» - примем четыре значения: до 20, от 20 до 30, от 30 до 45 и старше 45. Морфологическая схема примет следующий вид (нижний индекс – номер параметра, верхний – номер варианта):

 
 


Р11 Р12 Р13  
Р21 Р22    
Р31 Р32 Р33 Р34

 

Любая цепочка в этой схеме, проходящая через все параметры, описывает вариант решения. Изображенная цепочка означает, что на работу будет принят человек с высшим образованием в возрасте от 20 до 30 лет, без стажа работы.

Если учитывать только образование и стаж, можно построить морфологическую матрицу, описывающую все возможные варианты решений:

  не имеет имеет
среднее специальное Р11; Р21 Р11; Р22
высшее Р12; Р21 Р12; Р22
ученая степень Р13; Р21 Р13; Р22

 

4) определение критериев ценности полученных вариантов;

5) выбор наиболее рациональных конкретных решений.

Достоинством данного метода является то, что он обеспечивает системный учет всех возможных решений, а также пробелов в знаниях. Недостатки связаны с большим объемом работ и трудностью построения критериев. Следует отметить, что данный метод является наиболее формализованным из МАИС, и некоторые авторы [4] вообще относят его к формальным методам.

 

Деловые игры [3]

 

Деловые игры представляют собой модели принятия управленческих ре­шений путем имитации различных ситуаций в форме игры по заданным правилам между отдельными людьми (группами людей) людей, возможно, с участием компьютера. Они способствуют наиболее эффективному овладению но­выми знаниями и методами решения слож­ных практических задач. Например, проведение студентами экспертизы на практических занятиях осуществлялось в форме деловой игры.