Проверка адекватности линейного уравнения регрессии

 

Пусть по результатам экспериментов построена эмпирическая регрессионная линейная зависимость величины y от x

Требуется определить, насколько правильно (адекватно) эта эмпирическая зависимость описывает экспериментальные данные. Для этого нужно сопоставить экспериментальную погрешность (дисперсию), которую назовём дисперсией воспроизводимости и погрешность (дисперсию), возникающую за счёт подгонки уравнения регрессии под экспериментальные данные, которую назовём дисперсией адекватности . Сопоставление производится при помощи статистического критерия Фишера.

Перейдём к расчётудисперсией воспроизводимости. Поскольку величина y включает в себя случайную компоненту, при каждом значении x величину y нужно измерить несколько раз для того, чтобы оценить среднеквадратическое отклонение соответствующее конкретному значению x. Пусть измерения производятся в точках , где изменяется от 1 до L. При каждом величина y измеряется K раз и принимает значения , где - номер повторного измерения (= 1, 2, 3…. K). Тогда при каждом вычисляется среднее значение yср.i по формуле

и дисперсия

Корень квадратный из дисперсии является среднеквадратическим отклонением и характеризует статистический разброс относительно среднего при каждом значении (см.рис.4.10) Чтобы характеризовать статистический разброс в среднем по всем опытам, вычисляется дисперсия

(см. рис.4.11), которая носит название дисперсия воспроизводимости. Величина . Величина называется числом степеней свободы при дисперсии воспроизводимости. Итак, − экспериментальная погрешность измерений.

Второй тип погрешностей связан с отклонениями за счёт некоторого различия между средними экспериментальными значениями и расчётными значениями , которые обозначим, как . Как бы хорошо уравнение регрессии ни описывало экспериментальные данные, такая погрешность всегда существует (см. рис .4.11).

 

 

Далее вычисляется дисперсия адекватности , которая в среднем по всем точкам характеризует отклонение экспериментальных данных от расчётных значений , где называется числом степеней свободы при дисперсии адекватности и вычисляется по формуле, где b − число независимых переменных. В рассматриваемом случае число независимых переменных равно 1. Это переменная x.

Далее нужно выяснить вопрос: какая из погрешностей больше − экспериментальный разброс данных ( дисперсия воспроизводимости) или погрешность, связанная с отклонением расчётных значений от экспериментальных (дисперсия адекватности). Для этого находят критерий Фишера F, как отношение дисперсий

. (4.55)

и сопоставляют его с табличным значением , которое находится из таблиц статистического распределения Фишера (таблица 4.12).

 

 

Таблица 4.11

Доверительная вероятность Р= 0.95

  f1 для числителя
f2
161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 245,95
18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,43
10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,70
7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,86
6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,62
5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 3,94
5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,51
5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,22
5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,01
4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,85
4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,72
4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,62
4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,53
4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,46
4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,40
4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,35
4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,31
4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,27
4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,23
4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,20

 

 

Структура таблицы имеет следующий вид. В заголовке таблицы указывается доверительная вероятность. В данном случае эта вероятность равна Р=0.95. В первой строке расположены значения числа степеней свободы для числителя выражения (4.55), то есть значения f1 , в первом столбце − значения числа степеней свободы для знаменателя, то есть значения f2 Например, если f1 = 10, а f2 = 4, то =5.96.

Если выполняется неравенство ,то это означает , что дисперсия адекватности с вероятностью 95% меньше дисперсии воспроизводимости. Другими словами, погрешность, связанная с «подгонкой» уравнения регрессии под экспериментальные данные меньше погрешности эксперимента. Но тогда следует, что данное уравнение регрессии адекватно описывает экспериментальные данные

Отметим, что выводы, которые делаются при помощи критерий Фишера F, носят вероятностный характер (с вероятностью 95%). И сама проверка − адекватно ли уравнение регрессии описывает экспериментальные данные − также носит вероятностный характер. Это объясняется следующими обстоятельствами. Коэффициенты и вычислены на основе использования экспериментальных значений y. Но каждое из этих значений содержит в себе некоторую случайную составляющую. Поэтому и тоже содержат в себе некоторый элемент случайности. Говорить, что эти коэффициенты принимают то или иное значение можно только с той или иной вероятностью. Дисперсия адекватности и воспроизводимости также рассчитаны на основе значений y, поэтому тоже несут в себе элемент случайности.