Оценка значимости результатов множественной регрессии и корреляции
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:
(3.32)
где s2факт – факторная дисперсия на одну степень свободы; R2 – коэффициент (индекс) множественной детерминации; n – число наблюдений; m – число параметров при переменных x (в линейной регрессии совпадает с числом включенных в модель факторов); s2ост – остаточная дисперсия на одну степень свободы.
Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и то го же фактора может быть разной в зависимости от последовательности введения в модель. Мерой для оценки включения фактора в модель служит частный F-критерий, т.е. Fxi.
Частный F-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Предположим, что оцениваем влияние xi как дополнительно включенного в модель фактора. Используем следующую формулу:
, (3.33)
где R2yx1x2…xp – коэффициент множественной детерминации для модели с полным набором факторов; R2yx2…xp – тот же показатель, но без включения в модель фактора x1; n – число наблюдений; m – число параметров в модели (без свободного члена).
В общем виде для фактора xi частный F-критерий определится как
. (3.35)
С помощью частного F-критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор xi был введен в уравнение множественной регрессии последним.
Для проверки значимости коэффициентов регрессии определяется средняя квадратическая ошибка каждого коэффициента регрессии по формуле:
.
Затем определяется значение t-критерия Стьюдента по известной формуле:
.
Оценка значимости коэффициентов чистой регрессии по t-критерию Стьюдента может быть проведена и без расчета частных F-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула
, (3.37)
где bi – коэффициент чистой регрессии при факторе xi; mbi – средняя квадратическая ошибка коэффициента регрессии bi.
Для уравнения множественной регрессии
y = a + b1 × x1 + b2 × x2 + … bp × xp
средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле:
, (3.38)
где sy – среднее квадратическое отклонение для признака y; R2yx1…xp – коэффициент детерминации для уравнения множественной регрессии; sxi – среднее квадратическое отклонение для признака xi; R2xix1…xp – коэффициент детерминации для зависимости фактора xi со всеми другими факторами уравнения множественной регрессии, равный коэффициенту их корреляции; (n – m ) – число степеней свободы для остаточной суммы квадратов отклонений.
На основе соотношения bi и mbi получим:
Взаимосвязь показателей частного коэффициента корреляции, частного F-критерия и t-критерия Стьюдента для коэффициентов чистой регрессии может использоваться в процедуре отбора факторов. Отбор факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам tbi и Fxi. Частный F-критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.