Метод Ньютона минимизации функции многих переменных
До сих пор мы рассматривали методы безусловной минимизации первого порядка, для реализации которых использовались лишь первые производные минимизируемой функции. В этих методах для определения направления убывания функции использовалась лишь линейная часть разложения функции в ряд Тэйлора. Если же минимизируемая функция дважды непрерывно дифференцируема, то возможно применение методов минимизации второго порядка, которые используют квадратичную часть разложения этой функции в ряд Тэйлора. Поскольку квадратичная аппроксимация гораздо точнее линейной, естественно ожидать, что методы второго порядка сходятся быстрее, чем методы первого порядка.
Опишем метод Ньютона для задачи
,
где - дважды непрерывно дифференцируемая функция. Пусть известно
-е приближение
. Разложение функции
по формуле Тейлора в окрестности точки
можно представить в виде
Отсюда видно, что поведение функции с точностью до величин порядка
описывается квадратичной функцией
(7.1)
Очередное -е приближение к точке минимума функции
найдем минимизируя ее квадратичную аппроксимацию
, т.е. точку
найдем как точку минимума функции
из условия
(7.2)
Пусть матрица Гессе положительно определена при всех
, следовательно, невырождена
). Тогда существует обратная матрица
. Отметим, что квадратичная функция с положительно определенной матрицей
сильно выпукла и уравнение (7.2) определяет единственную точку глобального минимума функции
. Умножим слева обе части равенства (7.2) на матрицу
и найдем точку минимума
квадратичной функции (7.1), аппроксимирующей
в окрестности точки
:
(7.3)
Итерационный процесс (7.3), начатый из произвольной точки , называется методом Ньютона минимизации функции многих переменных и является обобщением метода Ньютона в одномерном случае.
Очевидно, для квадратичной функции с положительно определенной матрицей применение метода Ньютона обеспечивает получение точки глобального минимума ровно за один шаг из любой точки
.
Для выпуклой функции, отличной от квадратичной, применение этого метода обеспечивает, как правило, быструю сходимость. Дело в том, что на каждом шаге итерационного процесса (7.3) используется информация о поведении функции в окрестности точки
, содержащаяся не только в значениях первых, но и вторых ее частных производных. Поэтому при прочих равных условиях следует ожидать более быструю сходимость метода Ньютона по сравнению с градиентными методами.
При выборе достаточно хорошего начального приближения минимизирующая последовательность
для сильно выпуклой дважды дифференцируемой функции
сходится к точке минимума с квадратичной скоростью
. Если же точка
выбрана недостаточно близкой к точке
, то последовательность (7.3) может расходиться.
Отметим, что даже сходящаяся последовательность метода Ньютона не всегда обеспечивает монотонное убывание
, т.е. неравенство
для некоторых
может нарушаться. Этот недостаток устранен в обобщенном методе Ньютона:
,
где величина находится на каждом шаге из условия исчерпывающего спуска по направлению
.
Недостатком метода Ньютона является необходимость вычисления и обращения матрицы Гессе на каждой итерации.
Пример 7.1. Методом Ньютона решить задачу
,
Градиент , матрица Гессе
Найдем обратную матрицу . С помощью формулы (7.3) получаем
Так как
, то задача решена:
. Целевая функция квадратична, поэтому решение задачи получено за одну итерацию.
Описанный метод Ньютона может применяться лишь для минимизации функций, у которых матрица вторых частных производных обратима. При этом, как оказывается, обратная матрица должна быть ограничена. Этими свойствами обладают сильно выпуклые дважды непрерывно дифференцируемые функции. Они, как известно, ограничены снизу и у них существует единственная точка минимума
. Для таких функций имеет место следующая теорема.
Теорема 7.1. Если - дважды непрерывно дифференцируемая функция, удовлетворяющая условиям
(7.4)
при любых и в методе
,
выбирается из условия
, (7.5)
то независимо от выбора начальной точки последовательность
сходиться к точке минимума
.
Д о к а з а т е л ь с т в о. Если
,
то по теореме о среднем с учетом условия (7.4) получаем
Следовательно,
Воспользуемся выражением . Умножая это равенство слева на матрицу
, получим
, следовательно,
. Тогда, умножая скалярно обе части последнего равенства на
получим
.
Далее в силу (7.4) имеем
и, следовательно, .
Нетрудно видеть, что неравенство (7.5) будет обязательно выполняться, если , т.е. если
. Тем самым показана обоснованность выбора
из условия (7.5). Так как
при
, то из неравенства
(7.6)
следует, что при любом
. Отсюда с учетом ограниченности
снизу вытекает, что
при
. Теперь из (7.6) нетрудно установить, что
при
, а в силу того что
это означает, что при
. Из условия сильной выпуклости
следует сходимость последовательности
к решению
.
Контрольные вопросы
1. К методам какого порядка относится метод Ньютона минимизации функции многих переменных?
2. Дайте определение матрицы Гессе.
3. Что лежит в основе метода Ньютона минимизации функции многих переменных?
4. Опишите метод Ньютона минимизации функции многих переменных?
5. Какой итерационный процесс лежит в основе метода Ньютона минимизации функции многих переменных?
6. Что можно сказать о сходимости минимизирующей последовательности , построенной с помощью метода Ньютона для сильно выпуклой дважды дифференцируемой функции
?
7. В каких случаях последовательность , построенная с помощью метода Ньютона, может расходиться?
8. Опишите обобщенный метод Ньютона минимизации функции многих переменных?
9. Перечислите достоинства и недостатки метода Ньютона минимизации функции многих переменных