Выбор оптимальной модели идентификации

Принцип наименьших квадратов позволяет найти наилучшую модель идентификации для описания исследуемой экспериментальной выборки заданным уравнением регрессии. Если имеются достаточно веские основания для выборки формы этого уравнения, то никаких проблем не возникает. Однако в большинстве случаев при исследовании конкретная форма модели заранее неизвестна.

На первый взгляд может показаться, что более сложная модель (увеличении степени полинома) всегда обеспечивает получение большей точности. На самом деле это не так. Дело в том, что экспериментальные данные представляют собой случайные величины и содержат лишь ограниченную информацию о характере . Увеличение степени полинома целесообразно лишь до тех пор, пока из экспериментальной выборки извлекается надежная информация. С другой стороны, увеличение степени полинома при заданном объеме экспериментальной выборки приводит к сокращению числа степеней свободы. Таким образом, возникает проблема оптимального выбора формы модели.

В настоящее время имеются несколько подходов к решению этой проблемы.

а) метод группового учета аргументов (МГУА)

В МГУА можно выделить два направления: комбинаторные и селективные.

Комбинаторный алгоритм основан на последовательном изучении всевозможных моделей. При этом все модели разбиваются на серии в зависимости от числа введенных переменных (в табл.2 представлено несколько первых серий таких моделей). Для каждой из серий отбирается лучшая модель, причем в качестве критерия используется так называемый множественный коэффициент детерминации:

,

характеризующий полноту использования информации в регрессионной модели . Лучшей модели соответствует большее значение R. Лучшие модели серий сравниваются между собой.

 

 

Таблица 2.2

Полиномы серий

 

1-й 2-й 3-й
Количество полиномов

 

В селективном алгоритме на первом шаге осуществляют перебор возможных функциональных описаний объекта.

При этом полное описание объекта , где f – некоторая функция, например степенной полином, заменяется рядом описаний:

1-й ряд селекции –

.

Затем по некоторому критерию

из них отбирается подмножество из V наиболее значимых частных описаний, которые в следующем ряду алгоритма играют роль входных переменных и так до тех пор, пока улучшается качество модели.

б) метод исключений

Метод предполагает исследование наиболее полной (в пределах разумного) модели и последовательную проверку на значимость всех ее членов. При этом для каждого из членов модели вычисляется величина критерия Фишера F. На основе полученного множества выбирается член уравнения регрессии, соответствующий минимальному значению критерия . Если это минимальное меньше критического при выбранном уровне значимости , то соответствующий член исключается из регрессионного уравнения как несущественный, после чего все коэффициенты регрессии пересчитываются заново и вновь осуществляется проверка их значимости.

Если , то все члены модели существенны и уравнение регрессии остается в первоначальном виде. Однако, если это произошло на первом шаге исследования, стоит рассмотреть целесообразность усложнения первоначальной модели.

Трудоемкость метода исключений меньше, чем метода всех возможных регрессий.

б) метод включения

Этот метод по существу противоположен методу включения и предусматривает последовательное включение в модель новых членов с проверкой их статистической значимости. Конкретная процедура включения рассмотрена в лабораторной работе 1.

Для сравнения точности двух (или нескольких) конкурирующих моделей используется критерий Фишера.

Для каждой из моделей составляется остаточная сумма квадратов

и подсчитываются остаточные дисперсии этих сумм

Для сравнения моделей рассчитывается дополнительная сумма квадратов, связанная с дополнительными данными, веденными в модель

,

а также число степеней свободы этой дополнительной суммы

Остаточная дисперсия дополнительной суммы определяется соотношением

Роль дополнительной информации, содержащейся в модели М2 оценивается путем сравнения с известной дисперсией экспериментальных данных с помощью критерия Фишера:

Если дисперсия экспериментальных данных неизвестна, сравнение производят с оценкой дисперсии для упрощенной модели

Если полученное значение критерия Фишера

дополнительная информация, заложенная в модели существенна, модель действительно отличается от модели . В противном случае уточнения, вносимые моделью , неразличимы на фоне шума. С точки зрения точности модели равноценны и предпочтение должно быть отдано более простой модели .