Одномерная оптимизация
Все пошаговые методы оптимизации состоят из двух важнейших частей:
- выбора направления,
- выбора шага в данном направлении (подбор коэффициента обучения).
Методы одномерной оптимизации дают эффективный способ для выбора шага.
В простейшем случае коэффициент обучения фиксируется на весь период оптимизации. Этот способ практически используется только совместно с методом наискорейшего спуска. Величина подбирается раздельно для каждого слоя сети по формуле
где обозначает количество входов
-го нейрона в слое.
Более эффективный метод основан на адаптивном подборе коэффициента с учетом фактической динамики величины целевой функции. Стратегия изменения значения
определяется путем сравнения суммарной погрешности
на
-й итерации с ее предыдущим значением, причем рассчитывается по формуле
Для ускорения процесса обучения следует стремиться к непрерывному увеличению при одновременном контроле прироста погрешности
по сравнению с ее значением на предыдущем шаге. Незначительный рост погрешности считается допустимым.
Если погрешности на -1-й и
-й итерациях обозначить соответственно
и
, а коэффициенты обучения на этих же итерациях —
и
, то значение
следует рассчитывать по формуле
где - коэффициент допустимого прироста погрешности,
- коэффициент уменьшения
- коэффициент увеличения
.
Наиболее эффективный, хотя и наиболее сложный, метод подбора коэффициентов обучения связан с направленной минимизацией целевой функции в выбранном направлении . Необходимо так подобрать значение
, чтобы новое решение
соответствовало минимуму целевой функции в данном направлении
.
Поиск минимума основан на полиномиальной аппроксимации целевой функции. Выберем для аппроксимации многочлен второго порядка
где ,
и
— коэффициенты, определяемые в цикле оптимизации. Для расчета этих коэффициентов используем три произвольные точки
, лежащие в направлении
, т.е.
Соответствующие этим точкам значения целевой функции обозначим как
(5)
Коэффициенты ,
и
рассчитываются в соответствии с решением системы уравнений (5). Для определения минимума многочлена
его производная
приравнивается к нулю, что позволяет получить
. После подстановки выражений для
в формулу для
получаем