Динамическая модель принятия решений с непрерывным временем

 

Рассмотрим повторяющуюся игру с непрерывным временем

 

проистекающую на отрезке t [0,1].

Множество выборов игроков содержат функции (t):[0,1] → ,

а функции выигрыша определяются сверткой по времени следующего вида:

 

Здесь, как и ранее

 

На функции накладываются условия измеримости (интегрируемости) так, что интегралы (2) существуют.

 

Построим и изучим свойства ситуаций равновесия на классе стратегий

 

где

 

По определению положим при то есть в начальной момент, когда нет предыстории, может быть выбрана любая точка из исходного множества

Содержательно использование такой стратегии соответствует следующей информированности игроков: каждый игрок в момент времени знает предысторию – действия партнеров до этого момента.

Замечание 4. Здесь информированность игроков друг о друге соответствует в статике нереализуемой паре

 

но в динамике противоречие снимается тем, что речь идет о взаимной информированности в предшествующий принятию решения момент времени.

 

Итак, будем изучать ситуацию равновесия в информационном расширении исходной динамической игры, а именно, в игре

 

где множества определяются функциями , пара стратегий проектируется в пару управлений ( (t), (t)):

( (t), (t)),

а выигрыши вычисляются по правилу:

 

Выберем элемент и построим стратегии вида:

 

 

 

Теорема. Набор образуют ситуацию равновесия в игре .

Доказательство. Набор таких стратегий очевидно реализует (проектируется) ситуацию , следовательно, каждый игрок получает выигрыш

 

 

Пусть теперь , а , то есть игрок 2 пытается получить больший выигрыш, отклонившись от равновесной стратегии. Пусть - время начала отступления игрока 2 от выбранной стратегии

 

 

Тогда выигрыш игрока 2 при любой стратегии оценивается следующей цепочкой неравенств:

 

,

то есть отклонение не увеличивает выигрыш игрока 2.

 

Аналогично показывается, что игроку 1 также не выгодно отклоняться от равновесной стратегии. Теорема доказана.

 

Следствие.Необходимым и достаточным условием существования ситуации равновесия в изучаемой игре является условие (взаимовыгодное множество не пусто).

Упражнение. Показать, что , если в статической антагонистической игре с функцией выигрыша или существует седловая точка.

 

Замечание 5. Седловая точка всегда существует на классе смешанных стратегий. При этом равновесные стратегии можно выбрать таким образом, что стохастика проявится только в стратегиях наказания, которые никогда не реализуются в силу предположений о рациональном поведении игроков.

 

Замечание 6. Можно вместо стационарных стратегий использовать нестационарные траектории удовлетворяющие условию

 

Это позволяет, например, в игре “семейный спор” супругам по очереди использовать разновыгодные ситуации равновесия.

Замечание 7. Всегда где P – множество Парето, следовательно эффективные точки могут быть реализованы как исходы равновесных стратегий, то есть всегда можно выбрать паретовскую точку и сделать из неё ситуацию равновесия.

 

Таким образом, в динамических моделях принятия решений всегда с использованием необходимой информации можно построить компромиссные – равновесные решения.

В иерархической игре игрок 1 (начальник) всегда может выбрать для себя наилучшую равновесную ситуацию. Более того, начальник может выбрать наилучшую для себя точку из множества , то есть, как и в статической игре начальник реализует максимум своей функции выигрыша с учетом интересов подчиненного, который получит не менее своего минимаксного выигрыша.

Однако используемый класс стратегий предполагает непрерывное наблюдение, а, следовательно, анализ большого объема поступаемой информации.

Несколько смягчает ситуацию тот факт, что необходимо знать только, нарушил партнер (подчинённый) договоренность или нет.

Тем не менее, задача более экономного использования информации остается актуальной.

Оптимизация процесса контроля (наблюдения)

Ранее была построена равновесная стратегия на классе стратегий, при использовании которых предполагается постоянное наблюдение и контроль над действиями партнеров (или подчиненных). Оказывается, что такое постоянное наблюдение не обязательно.

Поставим перед собой задачу определить такие моменты времени контроля (наблюдения) , что контролируемому игроку не удастся избежать наказания за отклонение, что сделает это отклонение нецелесообразным. При этом будем предполагать, что в момент времени будет известно о нарушении обязательств на интервале [0, ). Далее аналогичную информацию о поведении наблюдаемого игрока на [ ) необходимо знать в момент времени и т. д.

Итак, пусть выигрыш в равновесной ситуации игроков определяется величиной

( ) = > ,

где – минимаксный выигрыш игрока i и

Как и ранее обозначим:

 

 

Тогда момент первого наблюдения за игроком i мы получим из условия:

+ (1 ) ,

здесь максимальный выигрыш игрока i при условии того, что его партнёр придерживается договорённости.

Смысл последнего равенства заключается в том, что, отклонившись от намеченного решения до момента , игрок i будет наказан после этого момента до окончания игры. Тогда левая часть равенства определяет его максимально возможный выигрыш при отклонении от равновесной ситуации.

Из этого равенства получаем:

 

Аналогично для следующего момента времени наблюдения имеем:

 

Отсюда:

 

Обозначим:

 

 

Очевидно, что

Так как , то 0 , 0

Итак, = =1

= ∙ +

Окончательно, для произвольного момента получаем:

 

Так как , то при

.

Таким образом, точки наблюдения расположены на отрезке неравномерно и сгущаются к концу этого отрезка, поэтому, задаваясь некоторой точностью, можно провести конечное число проверок.

Более того, если игроки имеют возможность выплачивать в конце «планового периода» побочный платёж (премии), то в этом случае также можно ограничиться конечным числом проверок.

Полученным результатам можно дать и другую содержательную интерпретацию. Игроки могут создать некоторый организационно-информационный центр наблюдения, основная задача которого заключается в контроле над действиями игроков и своевременном сообщении о «нарушителе». В частности, игроки могут образовать запас побочных платежей, который потом возвращается им (за исключением расходов по содержанию центра) в случае, если они придерживаются выбранного решения. При этом возникает задача минимизации расходов центра на проведение наблюдений.

В одном из вариантов возможных постановок такая задача выглядит следующим образом. Пусть наблюдение можно проводить как непрерывным, так и дискретным образом. Будем считать, что каждое дискретное наблюдение и начало непрерывного обходится центру в временных единиц (i–номер контролируемого игрока), а непрерывное наблюдение оценивается величиной отрезка наблюдения. Требуется так организовать наблюдение, чтобы расходы времени (и связанные с ними финансовые расходы) были минимальными.

Раньше момента времени наблюдение за игроком i проводить не нужно. Очевидно также, что непрерывное наблюдение требуется проводить только после последнего момента «включения» наблюдения. Следовательно, в данной модели расходы на наблюдение за игроком i можно определить следующим образом:

 

где

- число «включений» наблюдений, после которых остаётся отрезок длины для непрерывного наблюдения;

- стоимость «включения» наблюдения;

- стоимость непрерывной проверки.

Таким образом, расходы на наблюдение определяются числом дискретных проверок и последующего непрерывного наблюдения.

Оптимальное значение при должно удовлетворять системе неравенств:

,

тогда

и

Отсюда получаем соотношение для определения целого положительного числа :

 

Действительно, из неравенства последовательно получим:

,

 

Пусть

 

то есть ,

Тогда по правилам логарифмирования имеем:

 

то есть

 

Аналогично доказывается оценка сверху.

В случае (включение очень дорогое) имеем 1, т.е. необходимо один раз провести фиксированное наблюдение, после которого следует непрерывно наблюдать за игроком i.

Заметим, что суммарные затраты центра по наблюдению за всеми игроками можно определить, например, следующим образом:

 

Если игроку обещана премия за выполнение обязательств, то последняя проверка проводится при , а предпоследняя определяется из равенства:

 

Отсюда получаем

 

при .

При нарушать и соответственно наблюдать нет смысла.