Теория игр и принятие решений
Теория игр и принятие решений.
В зависимости от условий внешней среды и степени информативности лица принимающего решение (ЛПР) производится следующая классификация задач принятия решений:
а) в условиях риска;
б) в условиях неопределённости;
в) в условиях конфликта или противодействия (активного противника).
Часть 1. Теория полезности и принятия решений.
Глава 1. Принятие решений в условиях риска.
§1. Критерий ожидаемого значения.
Использование критерия ожидаемого значения обусловлено стремлением максимизировать ожидаемую прибыль (или минимизировать ожидаемые затраты). Использование ожидаемых величин предполагает возможность многократного решения одной и той же задачи, пока не будут получены достаточно точные расчётные формулы. Математически это выглядит так: пусть Х– случайная величина с математическим ожиданием MX и дисперсией DX. Если x1,x2,...,xn – значения случайной величины (с.в.) X, то среднее арифметическое их (выборочное среднее) значений имеет дисперсию n ® ¥
® 0 и ® MX.
Другими словами при достаточно большом объёме выборки разница между средним арифметическим и математическим ожиданием стремится к нулю (так называемая предельная теорема теории вероятности). Следовательно, использование критерия ожидаемое значение справедливо только в случае, когда одно и тоже решение приходится применять достаточно большое число раз. Верно и обратное: ориентация на ожидания будет приводить к неверным результатам, для решений, которые приходится принимать небольшое число раз.
Пример 1. Требуется принять решение о том, когда необходимо проводить профилактический ремонт ПЭВМ, чтобы минимизировать потери из-за неисправности. В случае если ремонт будет производится слишком часто, затраты на обслуживание будут большими при малых потерях из-за случайных поломок.
Так как невозможно предсказать заранее, когда возникнет неисправность, необходимо найти вероятность того, что ПЭВМ выйдет из строя в период времени t. В этом и состоит элемент ”риска”.
Математически это выглядит так: ПЭВМ ремонтируется индивидуально, если она остановилась из-за поломки. Через T интервалов времени выполняется профилактический ремонт всех n ПЭВМ. Необходимо определить оптимальное значение Т, при котором минимизируются общие затраты на ремонт неисправных ПЭВМ и проведение профилактического ремонта в расчёте на один интервал времени.
Пусть рt – вероятность выхода из строя одной ПЭВМ в момент t, а nt – случайная величина, равная числу всех вышедших из строя ПЭВМ в тот же момент. Пусть далее С1 – затраты на ремонт неисправной ПЭВМ и С2 – затраты на профилактический ремонт одной машины.
Применение критерия ожидаемого значения в данном случае оправдано, если ПЭВМ работают в течение большого периода времени. При этом ожидаемые затраты на один интервал составят
ОЗ = ,
где M(nt) – математическое ожидание числа вышедших из строя ПЭВМ в момент t. Так как nt имеет биномиальное распределение с параметрами (n, pt), то M(nt) = npt . Таким образом
ОЗ =
Необходимые условия оптимальности T* имеют вид:
ОЗ (T*-1) ³ ОЗ (T*),
ОЗ (T*+1) ³ ОЗ (T*).
Следовательно, начиная с малого значения T, вычисляют ОЗ(T), пока не будут удовлетворены необходимые условия оптимальности.
Пусть С1 = 100; С2 = 10; n = 50. Значения pt имеют вид:
T |
рt |
ОЗ(Т) |
|
1 |
0.05 |
0 |
|
2 |
0.07 |
0.05 |
375 |
3 |
0.10 |
0.12 |
366.7 |
4 |
0.13 |
0.22 |
400 |
5 |
0.18 |
0.35 |
450 |
T*® 3 , ОЗ(Т*) ® 366.7
Следовательно профилактический ремонт необходимо делать через T*=3 интервала времени.
§2. Критерий “ожидаемое значение – дисперсия”.
Критерий ожидаемого значения можно модифицировать так, что его можно будет применить и для редко повторяющихся ситуаций .
Если х – с. в. с дисперсией DX, то среднее арифметическое имеет дисперсию где n – число слогаемых в . Следовательно, если DX уменьшается, и вероятность того, что близко к MX, увеличивается. Следовательно, целесообразно ввести критерий, в котором максимизация ожидаемого значения прибыли сочетается с минимизацией её дисперсии.
Пример 2. Применим критерий “ожидаемое значение – дисперсия” для примера 1. Для этого необходимо найти дисперсию затрат за один интервал времени, т.е. дисперсию
зТ =
Т.к. nt, t = – с.в., то зТ также с.в. С.в. nt имеет биномиальное распределение с M(nt) = npt и D(nt) = npt(1–pt). Следовательно,
D(зТ) = D() = D() =
= = = n {– },
где С2n = const.
Из примера 1 следует, что
М(зТ) = М(з(Т)).
Следовательно искомым критерием будет минимум выражения
М(з(Т)) + к D(зТ).
Замечание. Константу “к” можно рассматривать как уровень не склонности к риску, т.к. “к” определяет “степень возможности” дисперсии Д(зТ) по отношению к математическому ожиданию. Например, если предприниматель, особенно остро реагирует на большие отрицательные отклонения прибыли вниз от М(з(Т)), то он может выбрать “к” много больше 1. Это придаёт больший вес дисперсии и приводит к решению, уменьшающему вероятность больших потерь прибыли.
При к =1 получаем задачу
По данным из примера 1 можно составить следующую таблицу
Т |
pt |
pt2 |
М(з(Т))+D(з(Т)) |
||
1 |
0.05 |
0.0025 |
0 |
0 |
500.00 |
2 |
0.07 |
0.0049 |
0.05 |
0.0025 |
6312.50 |
3 |
0.10 |
0.0100 |
0.12 |
0.0074 |
6622.22 |
4 |
0.13 |
0.0169 |
0.22 |
0.0174 |
6731.25 |
5 |
0.18 |
0.0324 |
0.35 |
0.0343 |
6764.00 |
Из таблицы видно, что профилактический ремонт необходимо делать в течение каждого интервала Т*=1.
§3. Критерий предельного уровня.
Критерий предельного уровня не дает оптимального решения, максимизирующего, например, прибыль или минимизирующего затраты. Скорее он соответствует определению приемлемого способа действий.
Пример 3. Предположим, что величина спроса x в единицу времени (интенсивность спроса) на некоторый товар задаётся непрерывной функцией распределения f(x). Если запасы в начальный момент невелики, в дальнейшем возможен дефицит товара. В противном случае к концу рассматриваемого периода запасы нереализованного товара могут оказаться очень большими. В обоих случаях возможны потери.
Т.к. определить потери от дефицита очень трудно, ЛПР может установить необходимый уровень запасов таким образом, чтобы величина ожидаемого дефицита не превышала А1 единиц, а величина ожидаемых излишков не превышала А2 единиц. Иными словами, пусть I – искомый уровень запасов. Тогда
ожидаемый дефицит =
ожидаемые излишки =
При произвольном выборе А1 и А2 указанные условия могут оказаться противоречивыми. В этом случае необходимо ослабить одно из ограничений, чтобы обеспечить допустимость.
Пусть, например,
Тогда
= = 20(ln – 1)
= = 20(ln – 1)
Применение критерия предельного уровня приводит к неравенствам
ln I – ³ ln 20 – – 1 = 1.996 –
ln I – ³ ln 10 – – 1 = 1.302 –
Предельные значения А1 и А2 должны быть выбраны так, что бы оба неравенства выполнялись хотя бы для одного значения I.
Например, если А1 = 2 и А2 = 4, неравенства принимают вид
ln I – ³ 1.896
ln I – ³ 1.102
Значение I должно находиться между 10 и 20, т.к. именно в этих пределах изменяется спрос. Из таблицы видно, что оба условия выполняются для I, из интервала (13,17)
I |
10 |
11 |
12 |
13 |
14 |
15 |
16 |
17 |
18 |
19 |
20 |
ln I – |
1.8 |
1.84 |
1.88 |
1.91 |
1.94 |
1.96 |
1.97 |
1.98 |
1.99 |
1.99 |
1.99 |
ln I – |
1.3 |
1.29 |
1.28 |
1.26 |
1.24 |
1.21 |
1.17 |
1.13 |
1.09 |
1.04 |
0.99 |
Любое из этих значений удовлетворяет условиям задачи.
Глава 2. Принятие решений в условиях неопределённости.
Будем предполагать, что лицу, принимающему решение не противостоит разумный противник.
Данные, необходимо для принятия решения в условии неопределенности, обычно задаются в форме матрицы, строки которой соответствуют возможным действиям, а столбцы – возможным состояниям системы.
Пусть, например, из некоторого материала требуется изготовить изделие, долговечность которого при допустимых затратах невозможно определить. Нагрузки считаются известными. Требуется решить, какие размеры должно иметь изделие из данного материала.
Варианты решения таковы:[DK1]
Е1 – выбор размеров из соображений максимальной долговечности ;
Еm– выбор размеров из соображений минимальной долговечности ;
Ei – промежуточные решения.
Условия требующие рассмотрения таковы :
F1 – условия, обеспечивающие максимальной долговечность;
Fn – условия, обеспечивающие min долговечность;
Fi – промежуточные условия.
Под результатом решения eij = е(Ei ; Fj ) здесь можно понимать оценку, соответствующую варианту Ei и условиям Fj и характеризующие прибыль, полезность или надёжность. Обычно мы будем называть такой результат полезностью решения.
Тогда семейство (матрица) решений имеет вид :
F1 |
F2 |
. . . |
Fn |
|
E1 |
e11 |
e12 |
. . . |
e1n |
E2 |
e21 |
e22 |
. . . |
e2n |
. . . |
. . . . . . . . . . . . . . . . |
|||
Em |
em1 |
em2 |
. . . |
emn |
Чтобы прийти к однозначному и по возможности наивыгоднейшему варианту решению необходимо ввести оценочную (целевую) функцию. При этом матрица решений сводится к одному столбцу. Каждому варианту Ei приписывается, т.о., некоторый результат eir, характеризующий, в целом, все последствия этого решения. Такой результат мы будем в дальнейшем обозначать тем же символом eir.
§1. Классические критерии принятия решений .
1о. Минимаксный критерий .
Правило выбора решения в соответствии с минимаксным критерием (ММ-критерием) можно интерпретировать следующим образом:
матрица решений дополняется ещё одним столбцом из наименьших результатов eir каждой строки. Необходимо выбрать те варианты в строках которых стоят наибольшее значение eir этого столбца.
Выбранные т.о. варианты полностью исключают риск. Это означает, что принимающий решение не может столкнуться с худшим результатом, чем тот, на который он ориентируется. Это свойство позволяет считать ММ-критерий одним из фундаментальных.
Применение ММ-критерия бывает оправдано, если ситуация, в которой принимается решение следующая:
1o. О возможности появления внешних состояний Fj ничего не известно;
2o. Приходится считаться с появлением различных внешних состояний Fj;
3o. Решение реализуется только один раз;
4o. Необходимо исключить какой бы то ни было риск.
2o. Критерий Байеса – Лапласа.
Обозначим через qi – вероятность появления внешнего состояния Fj.
Соответствующее правило выбора можно интерпретировать следующим образом:
матрица решений дополняется ещё одним столбцом содержащим математическое ожидание значений каждой из строк. Выбираются те варианты, в строках которых стоит наибольшее значение eir этого столбца.
При этом предполагается, что ситуация, в которой принимается решение, характеризуется следующими обстоятельствами:
1о. Вероятности появления состояния Fj известны и не зависят от времени.
2о. Решение реализуется (теоретически) бесконечно много раз.
3о. Для малого числа реализаций решения допускается некоторый риск.
При достаточно большом количестве реализаций среднее значение постепенно стабилизируется. Поэтому при полной (бесконечной) реализации какой-либо риск практически исключён.
Т.о. критерий Байеса-Лапласа (B-L-критерий) более оптимистичен, чем минимаксный критерий, однако он предполагает большую информированность и достаточно длительную реализацию.
3о. Критерий Сэвиджа.
Величину aij можно трактовать как максимальный дополнительный выигрыш, который достигается, если в состоянии Fj вместо варианта Ei выбирать другой, оптимальный для этого внешнего состояния вариант. Величину aij можно интерпретировать и как потери (штрафы) возникающие в состоянии Fj при замене оптимального для него варианта на вариант Ei. В последнем случае eir представляет собой максимально возможные (по всем внешним состояниям Fj , j =) потери в случае выбора варианта Ei.
Соответствующее критерию Сэвиджа правило выбора теперь трактуется так:
1). Каждый элемент матрицы решений вычитается из наибольшего результата max eij соответствующего столбца.
2). Разности aij образуют матрицу остатковeir. Выбирают те варианты, в строках которых стоит наименьшее для этого столбца значение.
Требования, предъявляемые к ситуации, в которой принимается решение, совпадают с требованием к ММ-критерию.
4о. Пример и выводы.
Из требований, предъявляемых к рассмотренным критериям становится ясно, что в следствии их жёстких исходных позиций они применимы только для идеализированных практических решений. В случае, когда возможна слишком сильная идеализация, можно применять одновременно поочерёдно различные критерии. После этого среди нескольких вариантов ЛПР волевым методом выбирает окончательное решение. Такой подход позволяет, во-первых, лучше проникнуть во все внутренние связи проблемы принятия решений и, во-вторых, ослабляет влияние субъективного фактора.
Пример. При работе ЭВМ необходимо периодически приостанавливать обработку информации и проверять ЭВМ на наличие в ней вирусов. Приостановка в обработке информации приводит к определённым экономическим издержкам. В случае же если вирус вовремя обнаружен не будет, возможна потеря и некоторой части информации, что приведёт и ещё к большим убыткам.
Варианты решения таковы:
Е1– полная проверка;
Е2– минимальная проверка;
Е3– отказ от проверки.
ЭВМ может находиться в следующих состояниях:
F1– вирус отсутствует;
F2– вирус есть, но он не успел повредить информацию;
F3– есть файлы, нуждающиеся в восстановлении.
Результаты, включающие затраты на поиск вируса и его ликвидацию, а также затраты, связанные с восстановлением информации имеют вид:
Таблица 1.
ММ-критерий |
критерий B-L |
||||||
F1 |
F2 |
F3 |
eir=ij |
eir |
eir = |
eir |
|
E1 |
-20.0 |
-22.0 |
-25.0 |
-25.0 |
-25.0 |
-22.33 |
|
E2 |
-14.0 |
-23.0 |
-31.0 |
-31.0 |
-22.67 |
||
E3 |
0 |
-24.0 |
-40.0 |
-40.0 |
-21.33 |
-21.33 |
Согласно ММ-критерию следует проводить полную проверку. Критерий Байеса-Лапласа, в предположении, что все состояния машины равновероятны.
P(Fj) = qj = 0.33,
рекомендуется отказаться от проверки. Матрица остатков для этого примера и их оценка (в тысячах) согласно критерию Сэвиджа имеет вид:
Критерий Сэвиджа |
|||||
F1 |
F2 |
F3 |
eir=ij |
ir |
|
E1 |
+20.0 |
0 |
0 |
+20.0 |
|
E2 |
+14.0 |
+1.0 |
+6.0 |
+14.0 |
+14.0 |
E3 |
0 |
+2.0 |
+15.0 |
+15.0 |
Пример специально подобран так, что каждый критерий предлагает новое решение. Неопределённость состояния, в котором проверка застаёт ЭВМ, превращается в неясность, какому критерию следовать.
Поскольку различные критерии связаны с различными условиями, в которых принимается решение, лучшее всего для сравнительной оценки рекомендации тех или иных критериев получить дополнительную информацию о самой ситуации. В частности, если принимаемое решение относится к сотням машин с одинаковыми параметрами, то рекомендуется применять критерий Байеса-Лапласа. Если же число машин не велико, лучше пользоваться критериями минимакса или Севиджа.
§2. Производные критерии.
1о. Критерий Гурвица.
Стараясь занять наиболее уравновешенную позицию, Гурвиц предположил оценочную функцию, которая находится где-то между точкой зрения крайнего оптимизма и крайнего пессимизма:
eir = {Cij + (1- C) eij },
где С– весовой множитель.
Правило выбора согласно критерию Гурвица, формируется следующим образом:
матрица решений дополняется столбцом, содержащим среднее взвешенное наименьшего и наибольшего результатов для каждой строки. Выбираются только те варианты, в строках которых стоят наибольшие элементы eir этого столбца.
При С=1 критерий Гурвица превращается в ММ-критерий. При С = 0 он превращается в критерий “азартного игрока”
eir = eij ,
т.е. мы становимся на точку зрения азартного игрока, делающего ставку на то, что «выпадет» наивыгоднейший случай.
В технических приложениях сложно выбрать весовой множитель С, т.к. трудно найти количественную характеристику для тех долей оптимизма и пессимизма, которые присутствуют при принятии решения. Поэтому чаще всего С := 1/2.
Критерий Гурвица применяется в случае, когда :
1) о вероятностях появления состояния Fj ничего не известно;
2) с появлением состояния Fj необходимо считаться;
3) реализуется только малое количество решений;
4) допускается некоторый риск.
2о. Критерий Ходжа–Лемана.
Этот критерий опирается одновременно на ММ-критерий и критерий Баеса-Лапласа. С помощью параметра n выражается степень доверия к используемому распределений вероятностей. Если доверие велико, то доминирует критерий Баеса-Лапласа, в противном случае – ММ-критерий, т.е. мы ищем
eir = {n + (1-n) ir}, 0 £ n £ 1.
Правило выбора, соответствующее критерию Ходжа-Лемана формируется следующим образом:
матрица решений дополняется столбцом, составленным из средних взвешенных (с весом n º const) математическое ожиданиями и наименьшего результата каждой строки (*). Отбираются те варианты решений в строках которого стоит набольшее значение этого столбца.
При n = 1 критерий Ходжа-Лемана переходит в критерий Байеса-Лапласа, а при n = 0 становится минимаксным.
Выбор n субъективен т. к. Степень достоверности какой-либо функции распределения – дело тёмное.
Для применения критерия Ходжа-Лемана желательно, чтобы ситуация в которой принимается решение, удовлетворяла свойствам:
1) вероятности появления состояния Fj неизвестны, но некоторые предположения о распределении вероятностей возможны;
2) принятое решение теоретически допускает бесконечно много реализаций;
3) при малых числах реализации допускается некоторый риск.
3о. Критерий Гермейера.
Этот критерий ориентирован на величину потерь, т.е. на отрицательные значения всех eij. При этом
eir = ij qj.
Т.к. в хозяйственных задачах преимущественно имеют дело с ценами и затратами, условие eij<0 обычно выполняется. В случае же, когда среди величин eij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования eij - a при подходящем образом подобранном a > 0. При этом оптимальный вариант решения зависит от а.
Правило выбора согласно критерию Гермейера формулируется следующим образом :
матрица решений Fj. Выбираются те варианты в строках которых находится наибольшее значение eij этого столбца.
В каком-то смысле критерий Гермейера обобщает ММ-критерий: в случае равномерного распределения qj = , j =, они становятся идентичными.
Условия его применимости таковы :
1) вероятности появления состояния Fj неизвестны;
2) с появлением тех или иных состояний, отдельно или в комплексе, необходимо считаться;
3) допускается некоторый риск;
4) решение может реализоваться один или несколько раз.
Если функция распределения известна не очень надёжно, а числа реализации малы, то, следуя критерию Гермейера, получают, вообще говоря, неоправданно большой риск.
4о. BL (MM) - критерий.
Стремление получить критерии, которые бы лучше приспосабливались к имеющейся ситуации, чем все до сих пор рассмотренные, привело к построению так называемых составных критериев. В качестве примера рассмотрим критерий, полученный путем объединения критериев Байеса-Лапласа и минимакса.
Правило выбора для этого критерия формулируется следующим образом:
матрица решений дополняется еще тремя столбцами. В первом из них записываются математические ожидания каждой из строк, во втором - разность между опорным значением
и наименьшим значением
соответствующей строки. В третьем столбце помещаются разности между наибольшим значением
каждой строки и наибольшим значением той строки, в которой находится значение . Выбираются те варианты, строки которых (при соблюдении приводимых ниже соотношений между элементами второго и третьего столбцов) дают наибольшее математическое ожидание. А именно, соответствующее значение
из второго столбца должно быть или равно некоторому заранее заданному уровню риска
Применение этого критерия обусловлено следующими признаками ситуации, в которой принимается решение:
1) вероятности появления состояний Fj неизвестны, однако имеется некоторая априорная информация в пользу какого-либо определенного распределения;
2) необходимо считаться с появлением различных состояний как по отдельности, так и в комплексе;
3) допускается ограниченный риск;
4) принятое решение реализуется один раз или многократно.
BL(MM)-критерий хорошо приспособлен для построения практических решений прежде всего в области техники и может считаться достаточно надежным. Однако заданные границы риска и, соответственно, оценок риска не учитывает ни число применения решения, ни иную подобную информацию. Влияние субъективного фактора хотя и ослаблено, но не исключено полностью.
Условие
существенно в тех случаях, когда решение реализуется только один или малое число раз. В этих условиях недостаточно ориентироваться на риск, связанный только с невыгодными внешними состояниями и средними значениями. Из-за этого, правда, можно понести некоторые потери в удачных внешних состояниях. При большом числе реализаций это условие перестает быть таким уж важным. Оно даже допускает разумные альтернативы. При этом не известно, однако, четких количественных указаний, в каких случаях это условие следовало бы опускать.
5о. Критерий произведений.
eir: = eij
Правило выбора в этом случае формулируется так :
Матрица решений дополняется новым столбцом, содержащим произведения всех результатов каждой строки. Выбираются те варианты, в строках которых находятся наибольшие значения этого столбца.
Применение этого критерия обусловлено следующими обстоятельствами :
1) вероятности появления состояния Fj неизвестны;
2) с появлением каждого из состояний Fj по отдельности необходимо считаться;
3) критерий применим и при малом числе реализаций решения;
4) некоторый риск допускается.
Критерий произведений приспособлен в первую очередь для случаев, когда все eij положительны. Если условие положительности нарушается, то следует выполнять некоторый сдвиг eij + а с некоторой константой а > ïeijï. Результат при этом будет, естественно зависеть от а. На практике чаще всего
а := ïeijï+1.
Если же никакая константа не может быть признана имеющей смысл, то критерий произведений не применим.
5о. Пример.
Рассмотрим тот же пример (табл. 1).
Построение оптимального решения для матрицы решений о проверках по критерию Гурвица имеет вид (при С =0.5, в 103):
Сij |
(1-С)ij |
eir |
eir |
|||
-20.0 |
-22.0 |
-25.0 |
-12.5 |
-10.0 |
-22.5 |
|
-14.0 |
-23.0 |
-31.0 |
-15.5 |
-7.0 |
-22.5 |
|
0 |
-24.0 |
-40.0 |
-20.0 |
0 |
-20.0 |
-20.0 |
В данном примере у решения имеется поворотная точка относительно весового множителя С : до С = 0.57 в качестве оптимального выбирается Е3, а при больших значениях – Е1.
Применение критерия Ходжа-Лемана (q = 0.33, n = 0.5, в 103) :
ij |
n |
(1-n)ij |
eir |
eir |
|
-22.33 |
-25.0 |
-11.17 |
-12.5 |
-23.67 |
-23.67 |
-22.67 |
-31.0 |
-11.34 |
-15.5 |
-26.84 |
|
-21.33 |
-40.0 |
-10.67 |
-20.0 |
-30.76 |
Критерий Ходжа-Лемана рекомендует вариант Е1 (полная проверка) – так же как и ММ-критерий. Смена рекомендуемого варианта происходит только при n = 0.94. Поэтому равномерное распределение состояний рассматриваемой машины должно распознаваться с очень высокой вероятностью, чтобы его можно было выбрать по большему математическому ожиданию. При этом число реализаций решения всегда остаётся произвольным.
Критерий Гермейера при qj = 0.33 даёт следующий результат (в
eir =ijqj |
eir |
||||||
-20.0 |
-22.0 |
-25.0 |
-6.67 |
-7.33 |
-8.33 |
-8.33 |
-8.33 |
-14.0 |
-23.0 |
-31.0 |
-4.67 |
-7.67 |
-10.33 |
-10.33 |
|
0 |
-24.0 |
-40.0 |
0 |
-8.0 |
-13.33 |
-13.33 |
В качестве оптимального выбирается вариант Е1. Сравнение вариантов с помощью величин eir показывает, что способ действия критерия Гермейера является даже более гибким, чем у ММ-критерия.
В таблице, приведенной ниже, решение выбирается в соответствии с BL(MM)-критерием при q1=q2=q3=1/2 (данные в 103).
-20.0 |
-22.0 |
-25.0 |
-23.33 |
0 |
-20.0 |
0 |
-14.0 |
-23.0 |
-31.0 |
-22.67 |
+6.0 |
-14.0 |
+6.0 |
0 |
-24.0 |
-40.0 |
-21.33 |
+15.0 |
0 |
+20.0 |
Вариант Е3 (отказ от проверки) принимается этим критерием только тогда, когда риск приближается к Е1. Во многих технических и хозяйственных задачах допустимый риск бывает намного ниже, составляя обычно только незначительный процент от общих затрат. В подобных случаях бывает особенно ценно, если неточное значение распределения вероятностей сказывается не очень сильно. Если при этом оказывается невозможным установить допустимый риск
Результаты применения критерия произведения при а = 41×103 и а = 200×103 имеют вид :
eir =eij |
eir |
||||
+21 |
+19 |
+16 |
6384 |
6384 |
|
а=41 |
+27 |
+18 |
+10 |
4860 |
|
+41 |
+17 |
+1 |
697 |
||
+180 |
+178 |
+175 |
5607 |
||
а=200 |
+186 |
+177 |
+169 |
5563 |
|
+200 |
+176 |
+160 |
5632 |
5632 |
Условие eij > 0 для данной матрицы не выполнимо. Поэтому к элементам матрицы добавляется (по внешнему произволу) сначала а = 41×103, а затем а = 200×103.
Для а = 41×103 оптимальным оказывается вариант Е1, а для а = 200×103 – вариант Е3, так что зависимость оптимального варианта от а очевидна.
Часть 2. Теория игр.
КЛАССИФИКАЦИЯ ИГР.
Классификацию игр можно проводить: по количеству игроков, количеству стратегий, характеру взаимодействия игроков, характеру выигрыша, количеству ходов, состоянию информации и т.д.
В зависимости от количества игроков различают игры двух и n игроков. Первые из них наиболее изучены. Игры трёх и более игроков менее исследованы из-за возникающих принципиальных трудностей и технических возможностей получения решения. Чем больше игроков - тем больше проблем.
По количеству стратегий игры делятся на конечные и бесконечные. Если в игре все игроки имеют конечное число возможных стратегий, то она называется конечной. Если же хотя бы один из игроков имеет бесконечное количество возможных стратегий игра называется бесконечной.
По характеру взаимодействия игры делятся на:
1) бескоалиционные: игроки не имеют права вступать в соглашения, образовывать коалиции;
2) коалиционные (кооперативные) – могут вступать в коалиции.
В кооперативных играх коалиции наперёд определены.
По характеру выигрышей игры делятся на: игры с нулевой суммой (общий капитал всех игроков не меняется, а перераспределяется между игроками; сумма выигрышей всех игроков равна нулю) и игры с ненулевой суммой.
По виду функций выигрыша игры делятся на: матричные, биматричные, непрерывные, выпуклые, сепарабельные, типа дуэлей и др.
Матричная игра – это конечная игра двух игроков с нулевой суммой, в которой задаётся выигрыш игрока 1 в виде матрицы (строка матрицы соответствует номеру применяемой стратегии игрока 2, столбец – номеру применяемой стратегии игрока 2; на пересечении строки и столбца матрицы находится выигрыш игрока 1, соответствующий применяемым стратегиям).
Для матричных игр доказано, что любая из них имеет решение и оно может быть легко найдено путём сведения игры к задаче линейного программирования.
Биматричная игра – это конечная игра двух игроков с ненулевой суммой, в которой выигрыши каждого игрока задаются матрицами отдельно для соответствующего игрока (в каждой матрице строка соответствует стратегии игрока 1, столбец – стратегии игрока 2, на пересечении строки и столбца в первой матрице находится выигрыш игрока 1, во второй матрице – выигрыш игрока 2.)
Для биматричных игр также разработана теория оптимального поведения игроков, однако решать такие игры сложнее, чем обычные матричные.
Непрерывной считается игра, в которой функция выигрышей каждого игрока является непрерывной в зависимости от стратегий. Доказано, что игры этого класса имеют решения, однако не разработано практически приемлемых методов их нахождения.
Если функция выигрышей является выпуклой, то такая игра называется выпуклой. Для них разработаны приемлемые методы решения, состоящие в отыскании чистой оптимальной стратегии (определённого числа) для одного игрока и вероятностей применения чистых оптимальных стратегий другого игрока. Такая задача решается сравнительно легко.
ГЛАВА 1. МАТРИЧНЫЕ ИГРЫ.
§ 1. РЕШЕНИЕ МАТРИЧНЫХ ИГР В ЧИСТЫХ СТРАТЕГИЯХ.
Матричная игра двух игроков с нулевой суммой может рассматриваться как следующая абстрактная игра двух игроков.
Первый игрок имеет m стратегий i = 1,2,...,m, второй имеет n стратегий j = 1,2,...,n. Каждой паре стратегий (i,j) поставлено в соответствие число аij, выражающее выигрыш игрока 1 за счёт игрока 2, если первый игрок примет свою i-ю стратегию, а 2 – свою j-ю стратегию.
Каждый из игроков делает один ход: игрок 1 выбирает свою i-ю стратегию (i=), 2 – свою j-ю стратегию (j=аij за счёт игрока 2 (если аij< 0, то это значит, что игрок 1 платит второму сумму | аij | ). На этом игра заканчивается.
Каждая стратегия игрока i= j = часто называется чистой стратегией.
Если рассмотреть матрицу
А =
то проведение каждой партии матричной игры с матрицей А сводится к выбору игроком 1 i-й строки, а игроком 2 j-го столбца и получения игроком 1 (за счёт игрока 2) выигрыша аij.
Главным в исследовании игр является понятие оптимальных стратегий игроков. В это понятие интуитивно вкладывается такой смысл: стратегия игрока является оптимальной, если применение этой стратегии обеспечивает ему наибольший гарантированный выигрыш при всевозможных стратегиях другого игрока. Исходя из этих позиций, игрок 1 исследует матрицу выигрышей А следующим образом: для каждого значения i (i =) определяется минимальное значение выигрыша в зависимости от применяемых стратегий игрока 2
аij (i =
т.е. определяется минимальный выигрыш для игрока 1 при условии, что он примет свою i-ю чистую стратегию, затем из этих минимальных выигрышей отыскивается такая стратегия i = iо, при которой этот минимальный выигрыш будет максимальным, т.е. находится
аij = (1).
Определение. Число нижней чистой ценой игры и показывает, какой минимальный выигрыш может гарантировать себе игрок 1, применяя свои чистые стратегии при всевозможных действиях игрока 2.
Игрок 2 при оптимальном своём поведении должен стремится по возможности за счёт своих стратегий максимально уменьшить выигрыш игрока 1. Поэтому для игрока 2 отыскивается
аij
т.е. определяется max выигрыш игрока 1, при условии, что игрок 2 применит свою j-ю чистую стратегию, затем игрок 2 отыскивает такую свою j = j1 стратегию, при которой игрок 1 получит min выигрыш, т.е. находит
aij = (2).
Определение. Число чистой верхней ценой игры и показывает, какой максимальный выигрыш за счёт своих стратегий может себе гарантировать игрок 1.
Другими словами, применяя свои чистые стратегии игрок 1 может обеспечить себе выигрыш не меньше
Определение. Если в игре с матрицей А седловую точку в чистых стратегиях и чистую цену игры
u =
Седловая точка – это пара чистых стратегий (iо,jо) соответственно игроков 1 и 2, при которых достигается равенство =
где i, j – любые чистые стратегии соответственно игроков 1 и 2; (iо,jо) – стратегии, образующие седловую точку.
Таким образом, исходя из (3), седловой элемент является минимальным в iо-й строке и максимальным в jо-м столбце в матрице А. Отыскание седловой точки матрицы А происходит следующим образом: в матрице А последовательно в каждой строке находят минимальный элемент и проверяют, является ли этот элемент максимальным в своём столбце. Если да, то он и есть седловой элемент, а пара стратегий, ему соответствующая, образует седловую точку. Пара чистых стратегий (iо,jо) игроков 1 и 2, образующая седловую точку и седловой элемент решением игры. При этом iо и jо называются оптимальными чистыми стратегиями соответственно игроков 1 и 2.
Пример 1
Седловой точкой является пара (iо = 3; jо = 1), при которой u = = 2.
Заметим, что хотя выигрыш в ситуации (3;3) также равен 2 =
Пример 2
Из анализа матрицы выигрышей видно, что i = 2, то игрок 2, выбрав свою минимаксную j = 2, проиграет только 20. В этом случае игроку 1 выгодно выбрать стратегию i = 1, т.е. отклониться от своей чистой максиминной стратегии и выиграть 30. Тогда игроку 2 будет выгодно выбрать стратегию j = 1, т.е. отклониться от своей чистой минимаксной стратегии и проиграть 10. В свою очередь игрок 1 должен выбрать свою 2-ю стратегию, чтобы выиграть 40, а игрок 2 ответит выбором 2-й стратегии и т.д.
§ 2. СМЕШАННОЕ РАСШИРЕНИЕ МАТРИЧНОЙ ИГРЫ.
Исследование в матричных играх начинается с нахождения её седловой точки в чистых стратегиях. Если матричная игра имеет седловую точку в чистых стратегиях, то нахождением этой седловой точки заканчивается исследование игры. Если же в игре нет седловой точки в чистых стратегиях, то можно найти нижнюю и верхнюю чистые цены этой игры, которые указывают, что игрок 1 не должен надеяться на выигрыш больший, чем верхняя цена игры, и может быть уверен в получении выигрыша не меньше нижней цены игры. Улучшение решений матричных игр следует искать в использовании секретности применения чистых стратегий и возможности многократного повторения игр в виде партии. Этот результат достигается путём применения чистых стратегий случайно, с определённой вероятностью.
Определение. Смешанной стратегией игрока называется полный набор вероятностей применения его чистых стратегий.
Таким образом, если игрок 1 имеет m чистых стратегий 1,2,...,m, то его смешанная стратегия x – это набор чисел x = (x1, ..., xm) удовлетворяющих соотношениям
xi ³ 0 (i = 1,m), 1.
Аналогично для игрока 2, который имеет n чистых стратегий, смешанная стратегия y – это набор чисел
y = (y1, ..., yn), yj ³ 0, (j = 1,n),
Так как каждый раз применение игроком одной чистой стратегии исключает применение другой, то чистые стратегии являются несовместными событиями. Кроме того, они являются единственными возможными событиями.
Чистая стратегия есть частный случай смешанной стратегии. Действительно, если в смешанной стратегии какая-либо i-я чистая стратегия применяется с вероятностью 1, то все остальные чистые стратегии не применяются. И эта i-я чистая стратегия является частным случаем смешанной стратегии. Для соблюдения секретности каждый игрок применяет свои стратегии независимо от выбора другого игрока.
Определение. Средний выигрыш игрока 1 в матричной игре с матрицей А выражается в виде математического ожидания его выигрышей
E (A, x, y) =x A yT
Первый игрок имеет целью за счёт изменения своих смешанных стратегий х максимально увеличить свой средний выигрыш Е (А, х, y), а второй – за счёт своих смешанных стратегий стремится сделать Е (А, х, y) минимальным, т.е. для решения игры необходимо найти такие х и y, при которых достигается верхняя цена игры
Е (А, х, y).
Аналогичной должна быть ситуация и для игрока 2, т.е. нижняя цена игры должна быть
Е (А, х, y).
Подобно играм, имеющим седловые точки в чистых стратегиях, вводится следующее определение: оптимальными смешанными стратегиями игроков 1 и 2 называются такие наборы хо, уо соответственно, которые удовлетворяют равенству
Е (А, х, y) = Е (А, х, y) = Е (А, хо, уо).
Величина Е (А, хо ,уо) называется при этом ценой игры и обозначается через u.
Имеется и другое определение оптимальных смешанных стратегий: хо, уо называются оптимальными смешанными стратегиями соответственно игроков 1 и 2, если они образуют седловую точку:
Е (А, х, уо) £ Е (А, хо, уо) £ Е (А, хо, у)
Оптимальные смешанные стратегии и цена игры называются решением матричной игры.
Основная теорема матричных игр имеет вид :
Теорема (о минимаксе). Для матричной игры с любой матрицей А величины
Е (А, х, y) и Е (А, х, y)
существуют и равны между собой.
§ 3. СВОЙСТВА РЕШЕНИЙ МАТРИЧНЫХ ИГР.
Обозначим через G (Х,Y,А) игру двух лиц с нулевой суммой, в которой игрок 1 выбирает стратегию х Î Х, игрок 2 – y Î U, после чего игрок 1 получает выигрыш А = А (х, y) за счёт игрока 2.
Определение. Стратегия х1 игрока 1 доминирует (строго доминирует) над стратегией х2, если
А (х1, y) ³ А (х2, y) (А (х1, y) > А (х2, y)), y Î U.
Стратегия y1 игрока 2 доминирует (строго доминирует) над стратегией y2, если
А (х, y1) £ А (х, y2) (А (х, y1) < А (х, y2)), х Î Х.
При этом стратегии х2 и y2 называются доминируемыми (строго доминируемыми).
Спектром смешанной стратегии игрока в конечной антагонистической игре называется множество всех его чистых стратегий, вероятность которых согласно этой стратегии положительна.
Свойство 1. Если чистая стратегия одного из игроков содержится в спектре некоторой его оптимальной стратегии, то выигрыш этого игрока в ситуации, образованной данной чистой стратегией и любой оптимальной стратегией другого игрока, равен значению конечной антагонистической игры.
Свойство 2. Ни одна строго доминируемая чистая стратегия игрока не содержится в спектре его оптимальной стратегии.
Игра G¢ = (Х¢,Y¢,А¢) называется подыгрой игры G (Х,Y,А), если Х¢Ì Х, U¢Ì U, а матрица А¢ является подматрицей матрицы А. Матрица А¢ при этом строится следующим образом. В матрице А остаются строки и столбцы, соответствующие стратегиям Х¢ и U¢, а остальные “вычеркиваются”. Всё то что “останется” после этого в матрице А и будет матрицей А¢.
Свойство 3. Пусть G = (Х,Y,А) – конечная антагонистическая игра, G¢ = (Х \ х¢,Y,А) – подыгра игры G, а х¢ – чистая стратегия игрока 1 в игре G, доминируемая некоторой стратегией х¢. Тогда всякое решение (хо, yо, u) игры G¢ является решением игры G.
Свойство 4. Пусть G = (Х,Y,А) – конечная антагонистическая игра, G¢ = (Х,Y \ y¢,А) – подыгра игры G, а y¢ – чистая стратегия игрока 2 в игре G, доминируемая некоторой стратегией y¢.Тогда всякое решение игры G¢ является решением G.
Свойство 5. Если для чистой стратегии х¢ игрока 1 выполнены условия свойства 3, а для чистой стратегии y¢ игрока 2 выполнены условия свойства 4, то всякое решение игры G¢ = (Х \ х¢,Y \ y¢,А) является решением игры G = (Х,Y,А).
Свойство 6. Тройка (хо, yо, u) является решением игры G = (Х,Y,А) тогда и только тогда, когда (хо, yо, кu +а) является решением игры G(Х,Y,кА+а), где а – любое вещественное число, к > 0.
Свойство 7. Для того, чтобы хо = () была оптимальной смешанной стратегией матричной игры с матрицей А и ценой игры u, необходимо и достаточно выполнение следующих неравенств
(j = )
Аналогично для игрока 2 : чтобы yо = () была оптимальной смешанной стратегией игрока 2 необходимо и достаточно выполнение следующих неравенств:
(i =
Из последнего свойства вытекает: чтобы установить, является ли предполагаемые (х, y) и u решением матричной игры, достаточно проверить, удовлетворяют ли они неравенствам (*) и (**). С другой стороны, найдя неотрицательные решения неравенств (*) и (**) совместно со следующими уравнениями
получим решение матричной игры.
Таким образом, решение матричной игры сводится к нахождению неотрицательных параметров решений линейных неравенств (*) (**) и линейных уравнений (***). Однако это требует большого объёма вычислений, которое растёт с увеличением числа чистых стратегий игроков. (Например для матрицы 3 имеем систему из 6 неравенств и 2 уравнений). Поэтому в первую очередь следует, по возможности используя свойства 2 и 3, уменьшить число чистых стратегий игроков. Затем следует во всех случаях проверить выполнение неравенства
=
Если оно выполняется, то игроки имеют чистые оптимальные стратегии (игрок 1 – чистую максиминная, а игрок 2 – чистую минимаксная). В противном случае хотя бы у одного игрока оптимальные стратегии будут смешанные. Для матричных игр небольшого размера эти решения можно найти, применяя свойства 1 – 5.
Замечание. Отметим, что исключение доминируемых (не строго) стратегий может привести к потере некоторых решений. Если же исключаются только строго доминируемые стратегии, то множество решений игры не изменится.
Пример 3. Пусть G = (Х,Y,А), где Х = {1, 2, 3, 4}; Y = {1, 2, 3, 4}, а функция выигрыша А задана следующим образом :
где С > 0.
Решение. Прежде всего заметим, что по свойству 6 достаточно решить игру G1 = (Х,Y,А), где А1 =А . В матричной форме игра G1 определяется матрицей выигрышей
Элементы четвёртой строки этой матрицы “ £ ” соответствующих элементов третьей строки и поэтому третья стратегия игрока 1 доминирует над четвёртой. Кроме того, элементы первого столбца матрицы А1 “ ³ ” соответствующих элементов второго столбца, Следовательно, вторая стратегия игрока 2 доминирует над его первой стратегией.
Далее, из свойства 5 следует, что всякое решение игры G2 = (Х \ {4}, Y \ {1}, А1) является решением игры G1. В матричной форме игру G2 можно представить матрицей
Очевидно, что элементы второй строки “ ³” полусуммы соответствующих элементов первой и третьей строк. Кроме того, элементы третьего столбца матрицы А2 “ ³“ соответствующих элементов второго столбца. Применяя свойство 5 получим, что всякое решение игры G3 = (Х \ {4,2}, Y \ {1,4}, А2) является решением игры G2, а следовательно и игры G1. Игра G3 определяется матрицей
Матрица А3 не имеет седловой точки, т.к. не выполнено равенство
=
а игра G3 не имеет решения в чистых стратегиях, т.е. оптимальные стратегии игроков являются смешанными. Эти стратегии (в данном случае) легко найти из анализа структуры матрицы А3. Поскольку матрица А3 симметрична, можно предположить, что игроки в оптимальной стратегии используют свои чистые стратегии с равными вероятностями.
Действительно, если игрок 1 выбирает с равными вероятностями стратегии 1 и 3, то при применении любой из двух чистых стратегий игроком 2 математическое ожидание выигрыша игрока 1 будет равным либо
либо
Аналогично, если игрок 2 использует свои чистые стратегии 2 и 3 с равными вероятностями, то математическое ожидание его проигрыша будет равно G3, а величины – значением игры G3. Из предыдущего следует, что эти стратегии оптимальны и в G1.
Таким образом, стратегия Х = (Y = (0,– оптимальной стратегией игрока 2 в игре G1, а значение игры G1 равно G будет тройка (Х,Y,).
§ 4. ИГРЫ ПОРЯДКА 2 х 2.
В общем случае игра 2 определяется матрицей
Прежде всего необходимо проверить, есть ли у данной игры седловая точка. Если да, то игра имеет решение в чистых стратегиях, причём оптимальными стратегиями игроков 1 и 2 соответственно будут чистая максиминная и чистая минимаксная стратегии. Если же игра с матрицей выигрышей А не имеет чистых стратегий, то оба игрока имеют только такие оптимальные стратегии, которые используют все свои чистые стратегии с положительными вероятностями. В противном случае один из игроков (например 1) имеет чистую оптимальную стратегию, а другой – только смешанные. Не ограничивая общности, можно считать, что оптимальной стратегией игрока 1 является выбор с вероятностью 1 первой строки. Далее, по свойству 1 следует, что а11 = а12 = u и матрица имеет вид
Легко видеть, что для матриц такого вида одна из стратегий игрока 2 является доминируемой. Следовательно, по свойству 4 этот игрок имеет чистую стратегию, что противоречит предположению.
Пусть Х = (x, 1 - x) – оптимальная стратегия игрока 1. Так как игрок 2 имеет смешанную оптимальную стратегию, из свойства 1 получим, что (см. также свойство 7)
Отсюда следует, что при u ¹ 0 столбцы матрицы А не могут быть пропорциональны с коэффициентом пропорциональности, отличным от единицы. Если же коэффициент пропорциональности равен единице, то матрица А принимает вид
и игрок 1 имеет чистую оптимальную стратегию (он выбирает с вероятностью 1 ту из строк, элементы которой не меньше соответствующих элементов другой), что противоречит предположению. Следовательно, если u ¹ 0 и игроки имеют только смешанные оптимальные стратегии, то определитель матрицы А отличен от нуля. Из этого следует, что последняя система уравнений имеет единственное решение. Решая её, находим
Аналогичные рассуждения приводят нас к тому, что оптимальная стратегия игрока 2 Y = (h, 1 - h) удовлетворяет системе уравнений
откуда
§ 5. ГРАФИЧЕСКИЙ МЕТОД РЕШЕНИЯ ИГР 2 х n И m х 2.
Поясним метод на примерах.
Пример 1.
Рассмотрим игру, заданную платёжной матрицей.
На плоскости хОy введём систему координат и на оси Ох отложим отрезок единичной длины А1, А2, каждой точке которого поставим в соответствие некоторую смешанную стратегию игрока 1 (х, 1 - х). В частности, точке А1 (0;0) отвечает стратегия А1, точке А2 (1;0) – стратегия А2 и т.д.
y
11
7
М N 5
3
2 u 2
B¢1 |
B¢2 |
B¢3 |
B3 |
B2 |
B1 |
A1 |
A2 |
0 |
В точках А1 и А2 восстановим перпендикуляр и на полученных прямых будем откладывать выигрыш игроков. На первом перпендикуляре (в данном случае он совпадает с осью 0y) отложим выигрыш игрока 1 при стратегии А1, а на втором – при стратегии А2. Если игрок 1 применит стратегию А1, то выиграет при стратегии В1 игрока 2 – 2, при стратегии В2 – 3, а при стратегии В3 – 11. Числам 2, 3, 11 на оси 0х соответствуют точки В1, В2 и В3.
Если же игрок 1 применит стратегию А2, то его выигрыш при стратегии В1 равен 7, при В2 – 5, а при В3 – 2. Эти числа определяют точки В¢1, В2¢, В3¢ на перпендикуляре, восстановленном в точке А2.Соединяя между собой точки В1 и В¢1, В2 и В¢2, В3 и В¢3 получим три прямые, расстояние до которых от оси 0х определяет средний выигрыш при любом сочетании соответствующих стратегий. Например, расстояние от любой точки отрезка В1В¢1 до оси 0х определяет средний выигрыш u1 при любом сочетании стратегий А1 А2 (с частотами х и 1–х) и стратегией В1 игрока 2. Это расстояние равно
2х1 + 6(1 - х2) = u1
(Вспомните планиметрию и рассмотрите трапецию А1 B1 B¢1 A2). Таким образом, ординаты точек, принадлежащих ломанной В1 M N В¢3 определяют минимальный выигрыш игрока 1 при применении им любых смешанных стратегий. Эта минимальная величина является максимальной в точке N; следовательно этой точке соответствует оптимальная стратегия Х* = (х, 1-х), а её ордината равна цене игры u. Координаты точки N находим как точку пересечения прямых В2 B¢2 и В3 B¢3.
Соответствующие два уравнения имеют вид
Следовательно Х = ( u =
Оптимальные стратегии для игрока 2 можно найти из системы
и, следовательно, Y = (0; B1 не войдёт в оптимальную стратегию.
Пример 2. Найти решение игры, заданной матрицей
|
x 8
|
7
|
|
||||
6 К 6
|
|
4
|
2
|
|
|
Решение. Матрица имеет размерность 2 х 4. Строим прямые, соответствующие стратегиям игрока 1. Ломанная А1 K А¢4 соответствует верхней границе выигрыша игрока 1, а отрезок N K –цене игры. Решение игры таково
U = ( Х = ( u =
§6. СВЕДЕНИЕ МАТРИЧНОЙ ИГРЫ К ЗАДАЧЕ
ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
Предположим, что цена игры положительна (u > 0). Если это не так, то согласно свойству 6 всегда можно подобрать такое число с, прибавление которого ко всем элементам матрицы выигрышей даёт матрицу с положительными элементами, и следовательно, с положительным значением цены игры. При этом оптимальные смешанные стратегии обоих игроков не изменяются.
Итак, пусть дана матричная игра с матрицей А порядка m х n. Согласно свойству 7 оптимальные смешанные стратегии х = (х1, ..., хm), y = (y1, ..., yn) соответственно игроков 1 и 2 и цена игры u должны удовлетворять соотношениям.
Разделим все уравнения и неравенства в (1) и (2) на u (это можно сделать, т.к. по предположению u > 0) и введём обозначения :
, ,
Тогда (1) и (2) перепишется в виде :
,
.
Поскольку первый игрок стремится найти такие значения хi и, следовательно, pi , чтобы цена игры u была максимальной, то решение первой задачи сводится к нахождению таких неотрицательных значений pi , при которых
Поскольку второй игрок стремится найти такие значения yj и, следовательно, qj, чтобы цена игры u была наименьшей, то решение второй задачи сводится к нахождению таких неотрицательных значений qj, , при которых
Формулы (3) и (4) выражают двойственные друг другу задачи линейного программирования (ЛП).
Решив эти задачи, получим значения pi , qj и u.Тогда смешанные стратегии, т.е. xi и yj получаются по формулам :
Пример. Найти решение игры, определяемой матрицей.
Решение. При решении этой игры к каждому элементу матрицы А прибавим 1 и получим следующую матрицу
Составим теперь пару взаимно-двойственных задач :
Решим вторую из них
q1 |
q2 |
q3 |
q4 |
q5 |
q6 |
Решение |
å |
Отношение |
|
-1 |
-1 |
-1 |
0 |
0 |
0 |
0 |
-3 |
||
q4 |
1 |
2 |
0 |
1 |
0 |
0 |
1 |
5 |
— |
q5 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
4 |
|
q6 |
2 |
1 |
0 |
0 |
0 |
1 |
1 |
5 |
— |
Б.п. |
q1 |
q2 |
q3 |
q4 |
q5 |
q6 |
Решение |
å |
Отношение |
0 |
-1 |
0 |
0 |
1 |
0 |
1 |
1 |
||
q4 |
1 |
2 |
0 |
1 |
0 |
0 |
1 |
5 |
|
q3 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
4 |
— |
q6 |
2 |
1 |
0 |
0 |
0 |
1 |
1 |
5 |
|
Б.п. |
q1 |
q2 |
q3 |
q4 |
q5 |
q6 |
Решение |
å |
Отношение |
|
0 |
0 |
|
1 |
0 |
|
|
||
q2 |
|
1 |
0 |
|
0 |
0 |
|
|
|
q3 |
1 |
0 |
1 |
0 |
1 |
0 |
1 |
4 |
|
q6 |
|
0 |
0 |
0 |
1 |
|
|
Из оптимальной симплекс-таблицы следует, что
(q1, q2, q3) = (0;
а из соотношений двойственности следует, что
( p1, p2, p3) = (
Следовательно, цена игры с платёжной матрицей А1 равна
а игры с платёжной матрицей А :
При этом оптимальные стратегии игроков имеют вид:
Х = (х1, х2, х3) = (uр1; uр2; uр3) =
Y = (y1, y2, y3) = (uq1; uq2; uq3) =
ГЛАВА 2. БЕСКОНЕЧНЫЕ АНТАГОНИСТИЧЕСКИЕ ИГРЫ.
§1. ОПРЕДЕЛЕНИЕ БЕСКОНЕЧНОЙ АНТАГОНИСТИЧЕСКОЙ ИГРЫ
Естественным обобщением матричных игр являются бесконечные антагонистические игры (БАИ), в которых хотя бы один из игроков имеет бесконечное количество возможных стратегий. Мы будем рассматривать игры двух игроков, делающих по одному ходу, и после этого происходит распределение выигрышей. При формализации реальной ситуации с бесконечным числом выборов можно каждую стратегию сопоставить определённому числу из единичного интервала, т.к. всегда можно простым преобразованием любой интервал перевести в единичный и наоборот.
Напоминание. Пусть Е – некоторое множество вещественных чисел. Если существует число y, такое, что x £ y при всех хÎЕ (при этом y не обязательно принадлежит Е), то множество Е называется ограниченным сверху, а число y называется верхней границей множества Е. Аналогично определяется ограниченность снизу и нижняя граница множества Е. Обозначаются верхняя и нижняя границы соответственно через sup Е и inf Е соответственно.
Пример. Пусть множество Е состоит из всех чисел вида n = 1,2, ... Тогда множество Е ограничено, его верхняя грань равна 1, а нижняя 0, причём 0ÏЕ , а 1ÎЕ.
Для дальнейшего изложения теории игр этого класса введём определения и обозначения : [0; 1] – единичный промежуток, из которого игрок может сделать выбор; х – число (стратегия), выбираемое игроком 1; y – число (стратегия), выбираемое игроком 2; Мi(x,y) – выигрыш i-го игрока; G (X,Y,M1,M2) – игра двух игроков, с ненулевой суммой, в которой игрок 1 выбирает число х из множества Х, игрок 2 выбирает число y из множества Y, и после этого игроки 1 и 2 получают соответственно выигрыши M1(x, y) и M2(x, y). Пусть, далее, G (X,Y,M) – игра двух игроков с нулевой суммой, в которой игрок 1 выбирает число х, игрок 2 – число y, после чего игрок 1 получает выигрыш М(x, y) за счёт второго игрока.
Большое значение в теории БАИ имеет вид функции выигрышей M(x, y). Так, в отличии от матричных игр, не для всякой функции M(x, y) существует решение. Будем считать, что выбор определённого числа игроком означает применение его чистой стратегии, соответствующей этому числу. По аналогии с матричными играми назовём чистой нижней ценой игры величину
V1 = (x, y) или V1 = (x, y),
а чистой верхней ценой игры величину
V2 = (x, y) или V2 = (x, y),
Для матричных игр величины V1 и V2 всегда существуют, а в бесконечных играх они могут не существовать.
Естественно считать, что, если для какой-либо бесконечной игры величины V1 и V2 существуют и равны между собой (V1 = V2 = V), то такая игра имеет решение в чистых стратегиях, т.е. оптимальной стратегией игрока 1 есть выбор числа xoÎX и игрока 2 – числа yoÎY, при которых M(xo, yo) = V, в этом случае V называется ценой игры, а (xo, yo) – седловой точкой в чистых стратегиях.
Пример 1. Игрок 1 выбирает число х из множества Х = [0; 1], игрок 2 выбирает число y из множества Y = [0; 1]. После этого игрок 2 платит игроку 1 сумму
M(x, y) = 2х2 - y2.
Поскольку игрок 2 хочет минимизировать выигрыш игрока 1, то он определяет
(2x2 - y2) = 2х2 - 1,
т.е. при этом y = 1. Игрок 1 желает максимизировать свой выигрыш, и поэтому определяет
(M(x, y)) = (2х2 - 1) = 2-1 = 1,
который достигается при х = 1.
Итак, нижняя цена игры равна V1 = 1. Верхняя цена игры
V2 = ((2х2 - y2)) = (2 - y2) = 2-1 = 1,
т.е. в этой игре V1 = V2 = 1. Поэтому цена игры V = 1, а седловая точка (1;1).
Пример 2. Игрок 1 выбирает хÎX = (0; 1), игрок 2 выбирает yÎY = (0; 1). После этого игрок 1 получает сумму
M(x, y) = x + y
за счёт игрока 2. Поскольку Х и Y - открытые интервалы, то на них V1 и V2 не существуют. Если бы Х и Y были замкнутые интервалы, то, очевидно, было бы следующее :
V1 = V2 = 1 при xo = 1, yo = 0.
С другой стороны, ясно, что, выбирая х достаточно близкое к 1, игрок 1 будет уверен, что он получит выигрыш не меньше, чем число, близкое к цене игры V = 1; выбирая y близкое к нулю, игрок 2 не допустит, чтобы выигрыш игрока 1 значительно отличался от цены игры V = 1.
Степень близости к цене игры может характеризоваться числом e > 0. Поэтому в описываемой игре можно говорить об оптимальности чистых стратегий хo = 1, yo = 0 соответственно игроков 1 и 2 с точностью до произвольного числа e > 0. В связи с этим введём следующие определения.
Точка (,ÎX, ÎY, в антагонистической непрерывной игре G называется точкой e-равновесия , если для любых стратегий xÎX игрока 1, yÎY игрока 2 имеет место неравенство
М(х,) - e £ M(,£ М(, y) + e.
Точка e-равновесия (,e-седловой точкой функции М(x, y), а стратегии и называются e-оптимальными стратегиями. Эти стратегии являются оптимальными с точностью до e в том смысле, что, если отклонение от оптимальной стратегии никакой пользы игроку принести не может, то его отклонение от e-оптимальной стратегии может увеличить его выигрыш не более, чем на e.
Можно доказать, что для того, чтобы функция М имела e-седловые точки для любого e > 0 необходимо и достаточно чтобы
M(x, y) = M(x, y).
Если игра G не имеет седловой точки (e-седловой точки) в чистых стратегиях, то оптимальные стратегии можно искать среди смешанных стратегий. Однако, в качестве вероятностной меры здесь вводятся функции распределения вероятностей применения игроками чистых стратегий.
Пусть F(х) – функция распределения вероятностей применения чистых стратегий игроком 1. Если число x - чистая стратегия игрока 1, то
F(х) = P(x £ х),
где P(x £ х) означает вероятность того, что случайно выбранная чистая стратегия x не будет превосходить числа х. Аналогично рассматривается функция распределения вероятностей применения чистых стратегий h игроком 2
Q(y) = P(h £ y).
Функции F(х) и Q(y) называются смешанными стратегиями соответственно игроков 1 и 2. Если F(х) и Q(y) дифференцируемы, то существуют их производные, обозначаемые соответственно через f(x) и q(y) (функции плотности распределения).
В общем случае дифференциал функции распределения dF(х) выражает вероятность того, что стратегия x находится в промежутке
х £ x £ х + dх.
Аналогично для игрока 2: dQ(y) означает вероятность того, что его стратегия h находится в интервале
y £ h £ y + dy.
Тогда выигрыш игрока 1 составит
М(х, y) dF(х),
а выигрыш игрока 2 равен
М(х, y) dQ(y).
Средний выигрыш игрока 1 при условии, что игрок 2 применяет свою чистую стратегию y, получим, если проинтегрируем выигрыш по всем возможным значениям х, т.е.
E(F, y) =
Напомним, что множество Y для y является замкнутым промежутком [0; 1].
Если игрок 1 применяет свою чистую стратегию х, а игрок 2 - y, то выигрыш игрока 1 составит
М(х, y) dP(х) dQ(y).
Средний выигрыш игрока 1 при условии, что оба игрока применяют свои смешанные стратегии F(х) и Q(y), будет равен
E(F,Q) =
По аналогии с матричными играми определяются оптимальные смешанные стратегии игроков и цена игры: в антагонистической непрерывной игре G(Х,Y,М) пара смешанных стратегий F*(х) и Q*(y) соответственно для игроков 1 и 2 образует седловую точку в смешанных стратегиях, если для любых смешанных стратегий F(х) и Q(y) справедливы соотношения
Е(F,Q*) £ Е(F*,Q*) £ Е (F*,Q).
Из левой части последнего неравенства следует, что если игрок 1 отступает от своей стратегии F*(х), то его средний выигрыш не может увеличиться, но может уменьшиться за счёт лучших действий игрока 2, поэтому F*(х) называется оптимальной смешанной стратегией игрока 1.
Из правой части последнего неравенства следует, что если игрок 2 отступит от своей смешанной стратегии Q*(y), то средний выигрыш игрока 1 может увеличиться, а не уменьшиться, за счёт более разумных действий игрока 1, поэтому Q*(y) называется оптимальной смешанной стратегией игрока 2. Средний выигрыш Е(F*,Q*), получаемый игроком 1 при применении игроками оптимальных смешанных стратегий, называется ценой игры.
По аналогии с матричными играми рассматривается нижняя цена непрерывной игры в смешанных стратегиях
V1 = E(F,Q)
и верхняя цена игры
V2 = E(F,Q).
Если существуют такие смешанные стратегии F*(х) и Q*(y) соответственно для игроков 1 и 2, при которых нижняя и верхняя цены непрерывной игры совпадают, то F*(х) и Q*(y) естественно назвать оптимальными смешанными стратегиями соответствующих игроков, а V1 = V2 = V – ценой игры.
Можно доказать, что существование седловой точки в смешанных стратегиях игры G(Х,Y,М) равносильно существованию верхней V2 и нижней V1 цен игры в смешанных стратегиях и их равенству V1 = V2 = V.
Таким образом, решить игру G(Х,Y,М) – означает найти седловую точку или такие смешанные стратегии, при которых нижняя и верхняя цены игры совпадают.
Теорема 1 (существования). Всякая антагонистическая бесконечная игра двух игроков G с непрерывной функцией выигрышей М(х,y) на единичном квадрате имеет решение (игроки имеют оптимальные смешанные стратегии).
Теорема 2. Пусть – бесконечная антагонистическая игра с непрерывной функцией выигрышей М(х, y) на единичном квадрате и ценой игры V. Тогда, если Q(y) – оптимальная стратегия игрока 2 и для некоторого xo
то xo не может входить в точки спектра оптимальной стратегии игрока 1; если F(х) – оптимальная стратегия игрока 1и для некоторого yo
то yo не может быть точкой спектра оптимальной стратегии игрока 2.
Из теоремы 2 следует, что если один из игроков применяет оптимальную стратегию, а другой – чистую, притом что средний выигрыш игрока 1 отличается от цены игры, то эта чистая стратегия не может войти в его оптимальную стратегию (или она входит в неё с вероятностью нуль).
Теорема 3. Пусть в бесконечной антагонистической игре функция выигрышей М(х,y) непрерывная для хÎ[0; 1], yÎ[0; 1] и
М(х, y) = -М(y, х),
тогда цена игры равна нулю и любая оптимальная стратегия одного игрока будет также оптимальной стратегией другого игрока.
Сформулированные свойства оптимальных смешанных стратегий и цены игры помогают находить или проверять решения, но они ещё не дают в общем виде приемлемых методов решения игры. Более того, не существует общих методов для точного нахождения решения БАИ, и в том числе непрерывных игр на единичном квадрате. Поэтому рассматриваются частные виды антагонистических бесконечных игр.
§2. ИГРЫ С ВЫПУКЛЫМИ ФУНКЦИЯМИ ВЫИГРЫШЕЙ.
Игры с выпуклыми непрерывными функциями выигрышей, называемые часто ядром, называются выпуклыми.
Напомним, что выпуклой функцией f действительной переменной х на интервале (а,b) называется такая функция, для которой выполняется неравенство
f(a1 х1 + a2 х2) £ a1 f(х1) + a2 f(х2),
где х1 и х2 – любые две точки из интервала (а,b); a1, a2 ³ 0, причём a1 + a2 = 1.
Если для a1 ¹ 0, a2 ¹ 0 всегда имеет место строгое неравенство
f(a1 х1 + a2 х2) < a1 f(х1) + a2 f(х2),
то функция f называется строго выпуклой на (а;b). Геометрически выпуклая функция изображает дугу, график которой расположен ниже стягивающей её хорды (см. рис.)
· |
· |
· |
F(x) |
x2 |
x1 |
x |
b |
a |
a1 х1 + a2 х2 |
Напомним, также, что непрерывная и строго выпуклая функция f на замкнутом интервале принимает минимальное значение только в одной точке интервала.
Для нахождения решения выпуклой игры можно воспользоваться следующей теоремой.
Теорема 4. Пусть М(х, y) – непрерывная функция выигрышей игрока 1, на единичном квадрате и строго выпуклая по y для любого х. Тогда имеется единственная оптимальная чистая стратегия y = yo Î[0;1] для игрока 2, цена игры определяется по формуле
V = M(x, y),
значение yo определяется как решение следующего уравнения
M(x, yo) = V.
Замечание. Если в теореме 4 не предполагать строгую выпуклость функции М(х, y) по y, а просто выпуклость, то теорема остаётся в силе с тем отличием, что у игрока 2 оптимальная чистая стратегия не будет единственной.
Замечание. Выпуклые игры называют часто выпукло-вогнутыми, т.к. игра в них имеет седлообразное ядро, а так как ядро седлообразное, то игра имеет седловую точку в чистых стратегиях.
Таким образом, если М(х, y) непрерывна и выпукла по y, то цена игры определяется по формуле (1), и игрок 2 имеет оптимальную чистую стратегию, определяемую из уравнения (2).
Аналогично и для игрока 1: если функция выигрышей М(х, y) непрерывна по обоим аргументам и строго вогнута по х при любом y, то в этом случае игрок 1 имеет единственную оптимальную стратегию.
Цена игры определяется по формуле
V = M(x,y),
а чистая оптимальная стратегия хo игрока 1 определяется из уравнения
M(xo, y) = V.
Пример. Пусть на квадрате [0;1] задана функция
М(х, y) = .
Так как
для x Î[0; 1], y Î(0;1),
то М(х, y) строго вогнута по х для любого y Î(0;1). Следовательно, цена игры находится по формуле (3)
V = .
Отметим, что при 0 £ х £ справедливо равенство
=
а при 0,5 < х £ 1
=
Поэтому
V = max [; ] =
= max [; ] =
= max [] =
При этом значение х получается равным хo = . Это же значение получается из решения уравнения
=
т.к. минимум достигается при y = 0, и это уравнение превращается в следующее
=
откуда следует, что х = .
Заметим, что если в функции выигрышей (5) поменять местами х и y, то она не изменится, а следовательно, эта функция выпукла и по y при всех х Î[0;1]. Поэтому к ней применима та же теория, т.е. у игрока 2 существует оптимальная чистая стратегия yo, определяемая из уравнения (4)
=
Очевидно, максимум по х достигается при х = , и последнее уравнение примет вид
=
Решением последнего уравнения будет yo = 0. Следовательно, игрок 2 имеет оптимальную чистую стратегию yo = 0.
Замечание. В приведённом выше примере мы могли определить оптимальную стратегию игрока 1, а игрока 2 - только случайно, в силу “удачного” вида М(х, y).
Рассмотрим теперь метод определения оптимальных стратегий того игрока, для которого функция выигрышей не обязательно выпукла. Пусть непрерывная функция М(х, y), заданная на единичном квадрате, выпукла по y. Нас будет интересовать вопрос нахождения оптимальных стратегий 1 игрока. Предположим также, что для х Î[0; 1], y Î[0; 1] существует частная производная функции М(х, y) по y, причём в точках y = 0 и y = 1 х, y) = понимается как правая и левая производная соответственно. Обозначим через yo одну из оптимальных чистых стратегий игрока 2 (эта стратегия существует в соответствии с теоремой 4).
Согласно теореме 2 чистые стратегии х игрока 1 могут входить в его оптимальную стратегию с положительной вероятностью, если для них выполняется равенство
М(х, yo) = V.
Такие чистые стратегии х называются существенными.
Теорема 5. Пусть дана бесконечная антагонистическая игра с непрерывной и дифференцируемой по y на единичном квадрате при любом х функцией выигрышей М(х, y), с оптимальной чистой стратегией yo игрока 2 и ценой игры V, тогда :
1) если yo = 1, то среди оптимальных стратегий игрока 1 имеется существенная чистая стратегия х1, для которой
х1, 1) £ 1;
2) если yo = 0, то среди оптимальных стратегий игрока 1 имеется существенная чистая стратегия х2, для которой
х2, 0) ³ 0;
3) если 0 £ yo £ 1, то среди оптимальных стратегий игрока 1 найдётся такая, которая является смесью двух существенных стратегий х1 и х2. Для этих стратегий
х1, yo) £ 0, х2, yo) ³ 0,
стратегия х1 употребляется с вероятностью a, стратегия х2 – с вероятностью (1 - a), где a находится из уравнения
a1, yo) + (1 - a)2, yo) = 0.
Пример. Пусть функция выигрышей в бесконечной антагонистической игре задана на единичном квадрате и равна
М(х, y) = (х - y)2 = х2 - 2хy + y2.
Эта функция непрерывна по х и y, и поэтому эта игра имеет решение. Кроме того
= 2 > 0.
Следовательно, М(х, y) выпукла по y, и поэтому согласно теореме 4 цена игры определяется по формуле (1), игрок 2 имеет чистую оптимальную стратегию yo, определяемую из уравнения (2). Таким образом, имеем
V = x - y)2;
Для определения x2 - 2xy + y2) последовательно найдём
= 2x - 2y := 0 Þ x = y
= 2 > 0 Þ при x = y функция M имеет минимум для любого y.
Þ максимум достигается в одной из крайних точек x = 0 и (или) x = 1
M(0; y) = y2
M(1; y) = 1 - 2y + y2 = (y - 1)2
Þ V= max {y2; (1 - y)2}
Данный max {...} достигается в том случае, если y2 = (1 - y)2, т.е. y =
Следовательно V = при yo =
Определим теперь оптимальные стратегии для игрока 1. Поскольку yo = yo < 1. Согласно теореме 5 рассмотрим третий случай.
Определим х из уравнения
М(х, yo) = V,
то есть
(х -2 =
Решая последнее уравнение, получим х1 = 0, х2 = 1. Теперь необходимо определить величину a – вероятность применения чистой стратегии х1 = 0. С этой целью используем уравнение (*).
a0, (1 - a)1, 0.
Нетрудно найти
Тогда уравнение для a примет вид :
a - (1 - a) = 0,
откуда a =
F(х) = Jo(х) + J1(х),
а игрока 2
Q(y) = y).
Здесь через (x) обозначена ступенчатая функция
(x) = .