Сухопутные войска 1 страница

.

В качестве примера модели множественной линейной регрессии рассмотрим обобщение предыдущей задачи. Имеются следующие данные (условные) о сменной добыче угля на одного рабочего (т), мощности пласта (ранее обозначалась ) и уровне механизации работ (%), характеризующие процесс добычи угля в 10 шахтах:

В предположении, что между переменными , и существует линейная регрессионная зависимость:

1) найти ее аналитическое выражение (уравнение регрессии по и ),

2) найти 95%-ные доверительные интервалы для индивидуального и среднего значений сменной добычи угля на 1 рабочего для таких же шахт,

3) проверить значимость коэффициентов регрессии и построить для них 95%-ные доверительные интервалы,

4) найти интервальную оценку для дисперсии .

1) Модель множественной линейной регрессии можно представить в виде:

,

где

е наблюдение зависимой переменной ( ),

объясняющие переменные,

я случайная составляющая, характеризующая отклонение от функции регрессии.

Введем обозначения: матрица-столбец, или вектор, значений зависимой переменной размера ; матрица-столбец, или вектор,параметров размера ; матрица-столбец, или вектор, возмущений (случайных ошибок, остатков) размера ;

- матрица-столбец, или вектор, значений объясняющих переменных размера ; в матрицу дополнительно введен столбец, все элементы которого равны 1, т.е. предполагается, что свободный член умножается на фиктивную переменную , принимающую значение 1 для всех : .

Тогда в матричной формемодель множественной линейной регрессии примет вид:

.

Оценкой этой модели по выборке является уравнение

,

где , .

Для оценки вектора неизвестных параметров применим метод наименьших квадратов, согласно которому вектор неизвестных параметров выбирается таким образом, чтобы сумма квадратов отклонений эмпирических значений от значений , найденных по уравнению регрессии, была минимальной:

,

при этом используется свойство произведения . С учетом свойства транспонирования произведения матриц после раскрытия скобок условие минимизации примет вид:

.

Можно доказать, что задача минимизации функции сводится к определению вектора неизвестных параметровиз следующего матричного уравнения:

,

при этом матрица сумм первых степеней, квадратов и попарных произведений наблюдений и вектор произведений наблюдений объясняющих и зависимой переменных имеют вид:

, .

Решением матричного уравнения является вектор

,

где матрица, обратная матрице коэффициентов , матрица-столбец, или вектор, ее свободных членов.

Зная вектор , выборочное уравнение множественной регрессии можно представить в виде:

,

где групповая (условная) средняя переменной при заданном векторе значений объясняющей переменной .

Для заданного примера

, .

Для удобства вычислений составляем вспомогательную таблицу.

5,13 0,016
8,79 1,464
9,64 0,130
5,98 1,038
5,86 0,741
6,23 0,052
6,35 0,121
5,61 0,377
5,13 0,762
9,28 1,631
4,701

 

Вычислим матрицу сумм первых степеней, квадратов и попарных произведений наблюдений и вектор произведений наблюдений объясняющих и зависимой переменных:

, .

Матрицу определим по формуле , где определитель матрицы ; матрица, присоединенная к матрице . В результате получим:

.

Умножая эту матрицу на вектор , получим:

.

С учетом равенства уравнение множественной регрессии имеет вид:

.

Оно показывает, что при увеличении только мощности пласта (при неизменном ) на 1 м добыча угля на одного рабочего увеличивается в среднем на 0,854 т, а при увеличении только уровня механизации работ (при неизменном ) – в среднем на 0б367 т.

Добавление в регрессионную модель объясняющей переменной изменило коэффициент регрессии с 1,016 для парной регрессии до 0,854 – для множественной регрессии. Это объясняется тем, что во втором случае коэффициент регрессии позволяет оценить прирост зависимой переменной при изменении на единицу объясняющей переменной в чистом виде, независимо от . В случае парной регрессии учитывает воздействие на не только переменной , но и косвенно корреляционно связанной с ней переменной .

2) Формулы, используемые при построении доверительных интервалов для индивидуального и среднего значений, можно получить из аналогичных формул парной модели, изменив число степеней свободы на . Так, 95%-ный доверительный интервал для индивидуального значения можно рассчитать по формуле:

,

где . С учетом того, что и (т) окончательно получим:

или (т).

Итак, с надежностью 0,95 индивидуальная сменная добыча угля на одного рабочего в шахтах с мощностью пласта 8 м и уровнем механизации 6% находится в пределах от 3,05 до 7,93 т.

3) Проверим значимость коэффициентов регрессии и . Коэффициент значимо отличается от нуля (иначе – гипотеза о равенстве параметра нулю, т.е. : , отвергается) на уровне значимости , если

,

где табличное значение критерия Стьюдента, определенное на уровне значимости при числе степеней свободы . Отсюда следует соотношение для построения доверительного интервала для параметра :

.

Итак, значимость коэффициентов регрессии проверяется путем расчета средних квадратичных отклонений (стандартных ошибок) этих коэффициентов по формуле

(где диагональный элемент матрицы ) и использования табличного значения :

, ;

, .

Из неравенств и следует, что коэффициент значим, а коэффициент незначим.

Доверительный интервал имеет смысл построить только для значимого коэффициента . Подстановка числовых данных в соотношение

дает:

или .

Итак, с надежностью 0,95 за счет изменения на 1 м мощности пласта (при неизменном ) сменная добыча угля на одного рабочего будет изменяться в пределах от 0,322 до 1,376 (т).

4) Найдем 95%-ный доверительный интервал для дисперсии , который в множественной регрессии строится аналогично парной модели по формуле

с соответствующим изменением числа степеней свободы критерия :

.

С учетом соотношения возьмем из таблицы распределения , и по этой формуле найдем 95%-ный интервал для параметра :

или и .

Таким образом, с надежностью 0,95 дисперсия возмущений заключена в пределах от 0,565 до 5,349, а их стандартное отклонение – от 0,751 до 2,313 (т).

 

2.2. Свойства оценок, полученных методом наименьших квадратов (МНК)

Зависимая переменная в теоретической модели регрессии

имеет две составляющие: неслучайную составляющую

и случайную составляющую . Получаемые с помощью МНК оценки коэффициентов регрессии также можно представить в виде двух составляющих – неслучайной и случайной.

Неслучайные составляющие оценок равны параметрам , тогда как случайные составляющие этих оценок зависят от случайной составляющей теоретической модели регрессии .

На практике разложить коэффициенты регрессии на составляющие довольно затруднительно, так как значения и неизвестны.

Регрессионный анализ, основанный на применении метода наименьших квадратов (МНК), дает наилучшие из всех возможных результаты, если выполняются следующие условия (называемые условиями Гаусса-Маркова):

1. Математическое ожидание случайного слагаемого в любом м наблюдении должно быть равно нулю – .

2. Дисперсия случайного слагаемого должна быть постоянной для всех наблюдений – , где теоретическое значение среднеквадратической ошибки.

3. Случайные слагаемые должны быть статистически независимы, т.е. должно выполняться свойство некоррелированности их между собой.

4. Объясняющие переменные должны быть величинами неслучайными.

При выполнении условий Гаусса-Маркова модель

называется классической нормальной линейной регрессионной моделью. Наряду с условиями Гаусса-Маркова предполагается, что случайное слагаемое имеет нормальное распределение. При этом предположении требование некоррелированности значений случайного слагаемого эквивалентно их независимости.

Первое условие означает, что нет постоянно действующего фактора, не включенного в модель, но оказывающего влияние на результативный фактор . Другими словами, случайное слагаемое не должно иметь систематического смещения. Если постоянное слагаемое включено в уравнение регрессии, то можно считать, что это условие выполняется автоматически, так как роль постоянного слагаемого как раз и заключается в том, чтобы учитывать постоянную тенденцию показателя , не учтенную в уравнении регрессии.

Если не выполнено это условие, то оценки параметров уравнения регрессии, поученное с помощью МНК, будут неэффективными и смещенными.

Второе условие означает, что дисперсия случайного слагаемого в каждом наблюдении имеет только одно значение. Другими словами, не должно быть априорной причины для того, чтобы в одних наблюдениях величина была больше, чем в других, хотя на практике величина остатков уравнения регрессии в разных наблюдениях будет разной. Но ее величина заранее неизвестна, и одна из первоочередных задач регрессионного анализа состоит в ее оценке.

Если дисперсии случайного слагаемого зависят от номера наблюдения (т.е. выполняется условие гетероскедастичности), то оценки коэффициентов регрессии, полученные с помощью МНК, будут неэффективными и смещенными. Поэтому (по крайней мере, формально) можно получить более надежные оценки с использованием других методов.

Так как условия Гаусса-Маркова предполагают независимость дисперсии случайного слагаемого от номера наблюдения (т.е. предполагает выполнение условия гомоскедастичности), то разработаны специальные методы диагностирования и устранения гетероскедастичности. Характерная диаграмма рассеяния для одного из возможных вариантов гетероскедастичности показана на рис. 2.

 

 


Рис. 2. Случай гетероскедастичности остатков

 

Третье условие указывает, что между значениями случайного слагаемого в разных наблюдениях нет систематической связи, т.е. указывает на некоррелированность (на независимость) случайных слагаемых для разных наблюдений. Если это условие нарушается (например, для временных рядов), то имеет место автокорреляция остатков, оценки коэффициентов регрессии, полученные МНК, оказываются неэффективными. Существуют методы диагностирования и устранения автокорреляции.

Если четвертое условие (о том, что объясняющие переменные должны быть неслучайными) не выполняется, то оценки коэффициентов регрессии оказываются смещенными и несостоятельными.

 

Теорема Гаусса-Маркова

Если перечисленные четыре условия выполняются, то оценки, сделанные с помощью МНК, являются наилучшими оценками, так как они обладают свойствами:

1) несмещенности, что означает отсутствие систематической ошибки в положении линии регрессии;

2) эффективности – имеют наименьшую дисперсию в классе всех линейных несмещенных оценок;

3) состоятельности – при достаточно большом объеме данных оценки приближаются к истинным значениям.

Если условия Гаусса-Маркова не выполнены, то можно найти другие оценки параметров уравнения регрессии, которые будут более эффективными по сравнению с оценками, найденными методом МНК.

Кроме того, если не выполнены условия Гаусса-Маркова, то становятся неприменимы t-тесты и тест Фишера на качество оценивания и адекватность уравнения регрессии.