"Принцип Максимума" Понтрягина
Постановка задачи оптимального управления.
Состояние объекта управления характеризуется n -мерной вектор функцией, например, функцией времени
Так, шестимерная вектор-функция времени полностью определяет положение самолета как твердого тела в пространстве. Три координаты определяют положение центра масс, а три - вращение вокруг центра масс.
От управляющего органа к объекту управления поступает вектор-функция
И так, пусть движение управляемого объекта описывается системой дифференциальных уравнений
где управлений или просто управление.
В уравнении (1.1) векторы t, обозначающей время, причем На управление обычно накладывается условие
где U(t) - заданное множество в Будем называть далее управлением кусочно-непрерывную на отрезке Т. Управление и называется допустимым, если оно удовлетворяет ограничению (1.2). Заметим, что ограничиться рассмотрением непрерывных управлений оказывается невозможным, так как с их помощью трудно моделировать моменты переключения управления такие, как, например, включение и отключение двигателей, отделение ступеней ракеты, поворот рулей и т. д. Иногда рассматривают и более широкие классы допустимых управлений, например, класс всех ограниченных измеримых управлений, удовлетворяющих условию (1.2). Покажем, как при произвольном начальном положении
(1.3)
Поскольку при разрывных правых частях классическое понятие решения системы дифференциальных уравнений неприменимо, поясним, что понимается в данном случае под решением задачи (1.3). Для этого поступим следующим образом.
Пусть функция и имеет скачки в точкахх, определенное на всем отрезке [to,
Предполагая, что она имеет решение на отрезке [
Если функцию х удалось определить указанным способом на всем отрезке [to. Т], то будем называть ее решением задачи (1.3) или фазовой траекторией (иногда просто траекторией), соответствующей управлению и. Отметим, что x - непрерывная по построению функция, удовлетворяющая на отрезке
При выполнении определенных условий на f решение задачи (1.3), соответствующее управлению и, существует и единственно при произвольном начальном положении
Помимо ограничения на управление могут существовать ограничения и на фазовые координаты
Ограничения на концах траектории целесообразно рассматривать отдельно:
здесь R, причем inf o<.T.
Таким образом, начальный и конечный моменты времени не обязательно фиксированы. Случаю фиксированных to, Т соответствуют множества закрепленным временем.
Если So (to) = {закрепленным. Если же So (to) == R" при всех свободным. Во всех остальных случаях левый конец называют подвижным. В аналогичных ситуациях говорят о закрепленном, свободном или подвижном правом конце траектории.
Цель управления в задаче оптимального управления состоит в минимизации некоторого функционала на множестве допустимых наборов.
Если каждой функции y=f(x) определенного класса ставится в соответствии по некоторому закону определенное числовое значение переменной I, то эту переменную называют функционалом от одной функциональной переменной I=I[y]=I[y(x)]=I[f(x)].
Наиболее часто под задачами управления понимаются задачи, в которых роль функционала выполняет интегральный функционал
Мы будем рассматривать задачу с целевым функционалом
представляющим собой сумму интегрального функционала
и терминального
функционала Ф(х(Т), Т). Эта задача называется задачей Больца. Ее частными случаями являются задача с интегральным функционалом, называемая задачей Лагранжа, и задача с терминальным функционалом, называемая задачей Майера. Задача с интегральным функционалом при оптимального быстродействия.
Набор (to, Т, хрешением задачи оптимального управления, управление и - оптимальным управлением, а траектория х - оптимальной траекторией. Часто решением задачи оптимального управления называют пару (ц, х).
Принцип максимума Понтрягина.
Эффективным средством исследования задач оптимального управления является принцип максимума Понтрягина, представляющий собой необходимое условие оптимальности в таких задачах.
Формулировка принципа максимума.
Рассмотрим задачу оптимального управления, являющуюся частным случаем задачи, сформулированной выше
, где (2.2)
При этом предполагается, что моменты to, Т фиксированы, т. е. рассматривается задача с закрепленным временем; множество U не зависит от времени, фазовые ограничения отсутствуют. Положим
где
Функция Н называется функцией Гамильтона. Система линейных дифференциальных уравнений сопряженной системой, соответствующей управлению и и траектории х. Здесь
>В более подробной покоординатной записи сопряженная система принимает вид
Система (2.3) имеет при любых начальных условиях единственное решение
Следующая теорема выражает необходимые условия оптимальности в задаче (2.1).
Теорема (принцип максимума Понтрягина).
Пусть функции1, ..., gm имеют частные производные по переменным х1, ..., Хn и непрерывны вместе с этими производными по совокупности аргументов х, и
|
а) (условие максимума) при каждом t
H(x(t), u(t),=max H(x(t), v(t), (2.4)
б)(условие трансверсальности на левом конце траектории) существуют числа
в) (условие трансверсальности на правом конце траектории) существуют числа
Центральным в теореме является условие максимума -(2.4). Если отказаться от предположения о том, что конечный момент времени Т фиксирован, то теорема останется справедливой за исключением условия трансверсальности на правом конце траектории. Условие (2.6) заменим условием
и добавить еще одно условие трансверсальности на правом конце траектории:
Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
где х - координата. Требуется найти управление и, переводящее точку из начального положения в начало координат за минимальное время Т (задача оптимального быстродействия). При этом скорость точки в конце траектории должна быть нулевой, а управление - удовлетворять условию
Применим к сформулированной задаче принцип максимума Понтрягина . Введем фазовые переменные . Тогда движение управляемого объекта описывается системой двух дифференциальных уравнений первого порядка:
Начальное положение
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция Гамильтона имеет вид
Общее решение сопряженной системы
легко выписывается в явном виде
где С, D - постоянные.
Очевидно, что максимум функции Н по и U достигается при
Таким образом, оптимальное управление и может принимать лишь два значения +1 .
2.Определить управление u(t) , которое дает минимум интегралу
Решение. Введем дополнительную переменную
Для этой переменной имеем дифференциальное уравнение
с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий функционал, используя (2), можно записать в виде I[T]=x2(T).
Построим функцию Гамильтона
Запишем сопряженную систему
Запишем
Y1(Т)=0 (т.к. с1=0)
Y2(Т)=-1
Из Y2(е)=-1. Теперь функция Гамильтона запишется в виде H=-aY1x1+Y1u-0,5x12-0,5u2 .
По принципу максимума функция Н при фиксированных х1 и Y1 достигает максимума по u :
Осталось решить систему уравнений (2) и (3) при условии Y2(Т)=-1,
Сведем данную систему к одному уравнению относительно U.
Добавим к этому уравнению граничные условия 2 - (а2+1) =0, к1,2=+(-)
Найдем С1 и С2. С2=-с2е. Тогда
Используя граничные условия найдем С2
Таким образом, определено оптимальное решение
Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
где х - координата. Требуется найти управление и, переводящее точку из начального положения в начало координат за минимальное время Т (задача оптимального быстродействия). При этом скорость точки в конце траектории должна быть нулевой, а управление - удовлетворять условию
Применим к сформулированной задаче принцип максимума Понтрягина . Введем фазовые переменные . Тогда движение управляемого объекта описывается системой двух дифференциальных уравнений первого порядка:
Начальное положение
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция Гамильтона имеет вид
Общее решение сопряженной системы
легко выписывается в явном виде
где С, D - постоянные.
Очевидно, что максимум функции Н по и U достигается при
Таким образом, оптимальное управление и может принимать лишь два значения +1 .
2.Определить управление u(t) , которое дает минимум интегралу
Решение. Введем дополнительную переменную
Для этой переменной имеем дифференциальное уравнение
с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий функционал, используя (2), можно записать в виде I[T]=x2(T).
Построим функцию Гамильтона
Запишем сопряженную систему
Запишем
Y1(Т)=0 (т.к. с1=0)
Y2(Т)=-1
Из Y2(е)=-1. Теперь функция Гамильтона запишется в виде H=-aY1x1+Y1u-0,5x12-0,5u2 .
По принципу максимума функция Н при фиксированных х1 и Y1 достигает максимума по u :
Осталось решить систему уравнений (2) и (3) при условии Y2(Т)=-1,
Сведем данную систему к одному уравнению относительно U.
Добавим к этому уравнению граничные условия 2 - (а2+1) =0, к1,2=+(-)
Найдем С1 и С2. С2=-с2е. Тогда
Используя граничные условия найдем С2
Таким образом, определено оптимальное решение
О методах решения задач оптимального управления
Убедимся вначале, что необходимые условия оптимальности в форме принципа максимума дают, вообще говоря, достаточную информацию для решения задачи оптимального управления (2.1), (2.2).
Условие максимума (2.4) позволяет, в принципе, найти управление и как функцию параметров х, t,
(2.7)
Рассмотрим систему дифференциальных уравнений
объединяющюю систему уравнений движения объекта и сопряженную систему.
Как известно, общее решение системы (2.8), состоящей из 2n обыкновенных дифференциальных уравнений первого порядка, зависит от 2п параметров. Кроме того, система необходимых условий оптимальности содержит т параметровy0. Таким образом, общее число неизвестных равно 2n+m+1.
Для их определения мы имеем 2п условий (2.5), (2.6) и т условий (2.2). Еще одно условие определяется из следующих соображений.
Легко понять, что, в силу линейности функции Н по переменным принцип максимума Понтрягина определяет вектор () с точностью до положительного постоянного множителя. Поэтому если в конкретной задаче удается показать, что
Таким образом, общее число условий равно 2n+m+1 и совпадает с числом неизвестных параметров, что, в принципе, позволяет определить эти параметры. Изложенные соображения дают возможность в простейших случаях решить задачу оптимального управления в явном виде.
Опишем численный метод, основанный на тех же соображениях. Для этого рассмотрим краевую задачу для системы дифференциальных уравнений (2.8) с краевыми условиями (2.5), (2.6), а также выписанными на основе (2.2) краевыми условиями
Эта задача называется краевой задачей принципа максимума.
Задав произвольные начальные условиях(Т),(Т). При этом на каждом шаге численного интегрирования значение
Значения х (Г), Ь:
Эта система содержит 2п+т неизвестных а, Ь,и состоит из 2п+т уравнений. Ее решение можно находить известными численными методами, например методом Ньютона.
Отметим, что вычисление значений
При реализации на ЭВМ методов решения задач оптимального управления, основанных на необходимых условиях экстремума, могут встретиться также значительные трудности, вызванные некорректностью постановки исходной и вспомогательных задач и некоторыми особенностями краевой задачи принципа максимума. Это приводит к необходимости применения методов регуляризации, учета специфики конкретной решаемой задачи, ее физического смысла и т. п.
Другие численные методы, не связанные непосредственно с принципом максимума, основаны на редукции исходной задачи к некоторой конечномерной задаче математического программирования. Их называют иногда прямыми методами (впрочем, разделение вычислительных методов на прямые и непрямые довольно условно). Конечномерные аналоги задач оптимального управления имеют особенности, позволяющие эффективно применять некоторые методы нелинейного, динамического программирования и т. д]. Продемонстрируем пример такого подхода.
Рассмотрим следующую задачу оптимального управления
где моменты времени, Т фиксированы. Это задача более общего вида, чем (2.1), ибо в (2.10) U зависит от времени и имеются фазовые ограничения произвольного вида, которые, в частности, могут содержать ограничения на концах траектории вида (2.2).
Зафиксируем моменты времени
Положив
Мы получили задачу математического программирования с переменными
Задав начальное состояние х0 и управление (u0, u1, ..., uN-1), по формулам 1, ..., хN). Тем самым (2.12) сводится к задаче с переменными х0, u0 , u1, ..., uN-1, и ее размерность, таким образом, оказывается равной n+Nr.
Для решения задачи (2.11) часто применяют метод динамического программирования. В данном случае этот метод выглядит следующим образом. Ввелем функцию к, ..., uN-1) пусто, то значение
где минимум берется по таким
Положив
Действительно, пусть
При численной реализации данного метода задаются сеточные аппроксимации множеств
Далее по формулам (2.12) вычисляются значения
Заключение:
Отметим, что дискретные задачи оптимального управления встречаются на практике ( например, при описании импульсных систем) и потому представляют интерес не только как конечноразностные аналоги непрерывных задач.
Задачи оптимизации управляемых процессов, или как они будут в дальнейшем называться, задачи оптимального управления, составляют один из широких классов экстремальных задач и имеют важное прикладное значение.
Структурная схема задачи управления состоит из двух звеньев: управляющего органа и объекта управления . В качестве объекта управления может служить, например, космический эксперимент, экономика отрасли промышленности, система машин, семейный бюджет и т. д. Управляющее звено со времени возникновения задач управления претерпело эволюции от простейшего регулятора до современной ЭВМ.
Кыргызско - Российская Академия образования
Доклад
По дисциплине:
ТУТС
Тема: Принцип максимума Понтрягина.
Выполнил: Бахарев Д. В.ИВТ-1-98.
Проверила: Жданова С. В.
г. Бишкек 2001