Оценка значимости результатов множественной регрессии и корреляции

Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью F-критерия Фишера:

(3.32)

где s2факт – факторная дисперсия на одну степень свободы; R2 – коэффициент (индекс) множественной детерминации; n – число наблюдений; m – число параметров при переменных x (в линейной регрессии совпадает с числом включенных в модель факторов); s2ост – остаточная дисперсия на одну степень свободы.

Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и то го же фактора может быть разной в зависимости от последовательности введения в модель. Мерой для оценки включения фактора в модель служит частный F-критерий, т.е. Fxi.

Частный F-критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом. Предположим, что оцениваем влияние xi как дополнительно включенного в модель фактора. Используем следующую формулу:

, (3.33)

где R2yx1x2…xp – коэффициент множественной детерминации для модели с полным набором факторов; R2yx2…xp – тот же показатель, но без включения в модель фактора x1; n – число наблюдений; m – число параметров в модели (без свободного члена).

В общем виде для фактора xi частный F-критерий определится как

. (3.35)

С помощью частного F-критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор xi был введен в уравнение множественной регрессии последним.

Для проверки значимости коэффициентов регрессии определяется средняя квадратическая ошибка каждого коэффициента регрессии по формуле:

.

Затем определяется значение t-критерия Стьюдента по известной формуле:

.

Оценка значимости коэффициентов чистой регрессии по t-критерию Стьюдента может быть проведена и без расчета частных F-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула

, (3.37)

где bi – коэффициент чистой регрессии при факторе xi; mbi – средняя квадратическая ошибка коэффициента регрессии bi.

Для уравнения множественной регрессии

y = a + b1 × x1 + b2 × x2 + … bp × xp

средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле:

, (3.38)

где sy – среднее квадратическое отклонение для признака y; R2yx1xp – коэффициент детерминации для уравнения множественной регрессии; sxi – среднее квадратическое отклонение для признака xi; R2xix1xp – коэффициент детерминации для зависимости фактора xi со всеми другими факторами уравнения множественной регрессии, равный коэффициенту их корреляции; (nm ) – число степеней свободы для остаточной суммы квадратов отклонений.

На основе соотношения bi и mbi получим:

Взаимосвязь показателей частного коэффициента корреляции, частного F-критерия и t-критерия Стьюдента для коэффициентов чистой регрессии может использоваться в процедуре отбора факторов. Отбор факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам tbi и Fxi. Частный F-критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.