Сухопутные войска 2 страница

 

2.3. Анализ вариации зависимой переменной. Качество оценивания в модели множественной линейной регрессии

Пусть в уравнении регрессии содержится объясняющих переменных. Дисперсию зависимой переменной можно представить в виде суммы объясненной и необъясненной составляющих:

,

где:

остаток в м варианте реализации событий;

значение зависимой переменной в м варианте реализации событий;

среднее значение зависимой переменной;

расчетное значение зависимой переменной в м варианте реализации событий, определяемое уравнением регрессии;

число реализации событий, в каждом из которых при сочетании значений независимых переменных было получено значение зависимой переменной.

Каждая сумма в этом разложении имеет собственное название:

· общий разброс зависимой переменной (обозначается );

· разброс, объясненный регрессией (обозначается );

· разброс, не объясненный регрессией (обозначается ).

Используя введенные обозначения, разложение дисперсии зависимой переменной можно записать в виде суммы:

.

Мерой объясняющего качества уравнения регрессии по сравнению с оценкой в виде среднего значения является коэффициент детерминации , который измеряет долю дисперсии, совместно объясненной всеми независимыми переменными:

.

В случае коррелированности независимых переменных объясняющие способности этих переменных могут перекрываться. Для компенсации такого увеличения вводится приведенный (скорректированный) коэффициент детерминации с поправкой на число независимых переменных, которым можно варьировать (называемое иначе числом степеней свободы):

.

Если при добавлении новой переменной (при этом уменьшается на 1 число степеней свободы) увеличение доли объясненной регрессии мало, то скорректированный коэффициент детерминации может уменьшаться, следовательно, добавлять новую переменную не следует.

Качество оценок для модели множественной линейной регрессии предполагает определение статистической значимости полученных коэффициентов уравнения регрессии и коэффициента детерминации .

Значимость коэффициентов уравнения регрессии оценивается с помощью критерия :

,

где стандартные ошибки коэффициентов регрессии.

Величина имеет распределение Стьюдента с степенями свободы, где:

число пар данных в выборке, использованных для получения уравнения регрессии;

количество коэффициентов в уравнении регрессии.

Алгоритм оценки значимости для коэффициентов уравнения регрессии состоит в следующем:

1) вычисляется наблюдаемое значение критерия ;

2) по таблице распределения Стьюдента по заданному уровню значимости и числу степеней свободы находится критическое значение ;

3) вычисленные критерии и сравниваются с критическим значением .

Если , то соответствующий коэффициент уравнения регрессии значим и принимается. Если , то соответствующий коэффициент уравнения регрессии незначим, не отличается от нуля и не принимается.

В эконометрике проверку гипотез осуществляют при 5%-м, реже на 10%-м уровне значимости. В первом случае стандартная ошибка оценки коэффициента регрессии составляет примерно до половины его величины. Последовательное исключение несущественных факторов (переменных), коэффициенты при которых оказались незначимы, составляют основу пошагового регрессионного анализа.

Для определения статистической значимости коэффициента детерминации используется статистика:

,

где:

число пар данных в выборке, использованных для получения уравнения регрессии;

количество коэффициентов в уравнении регрессии.

Величина имеет распределение Фишера с степенями свободы. Вычисленный критерий сравнивается с критической величиной следующим образом:

если , то считается незначимым, он не отличим от нуля;

если , то считается значимым, и уравнение регрессии может использоваться для объяснения изменения переменной под влиянием изменения переменных .

Величины критических значений критериев оценки значимости принимаются при 5%-м, реже при 10%-м уровне значимости. Указанные уровни значимости соответствуют 95%-му и 90%-му доверительным интервалам соответственно.

 

2.4. Дополнительные аспекты использования метода наименьших квадратов (МНК)

 

2.4.1. Влияние мультиколлинеарности

Мультиколлинеарность – это коррелированность двух или нескольких объясняющих переменных в уравнении множественной линейной регрессии. При наличии мультиколлинеарности оценки, формально полученные методом наименьших квадратов (МНК), обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (при больших коэффициентах детерминации ).

Если при оценке уравнения регрессии несколько факторов оказались незначимыми, то нужно выяснить наличие среди них факторов, сильно коррелированных между собой. При наличии корреляции один из пары связанных между собой факторов исключается. Если статистически незначим лишь один фактор, то он должен быть исключен или заменен другим показателем. В модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

 

2.4.2. Спецификация переменных в уравнениях множественной линейной регрессии

Построение эконометрической модели включает в себя обоснование решения о том, какие объясняющие переменные необходимо включить в уравнение множественной линейной регрессии, т.е. как правильно составить спецификацию модели, от которой в значительной степени зависят свойства оценок коэффициентов регрессии. Здесь возможны две ситуации.

1) В модели отсутствует переменная, которая должна быть включена.

Предположим, что переменная зависит от двух переменных. Однако в модель включена только одна независимая переменная :

.

В этом случае оценка и ее дисперсия являются смещенными. Смещенность оценки связана с тем, что при отсутствии второй переменной в регрессии переменная играет двойную роль: отражает свое прямое влияние и заменяет переменную в описании ее влияния. Для данной регрессии коэффициент детерминации , отражающий общую объясняющую способность переменной в обеих ролях, завышен.

2) В модели включена переменная, которая не должна быть включена.

В этом случае оценки коэффициентов регрессии и их дисперсии являются несмещенными, но не эффективными. Если обнаруживается, что коэффициенты при излишних переменных статистически незначимы, то эти переменные исключаются из модели.

 

2.4.3. Фиктивные переменные

При исследовании влияния качественных признаков на объясняемую (зависимую) переменную в модель множественной линейной регрессии следует вводить фиктивные переменные, принимающие, как правило, два значения: 1, если данный признак присутствует в наблюдении; 0 – при его отсутствии.

Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то используют несколько фиктивных переменных, число которых должно быть на единицу меньше числа значений признака. При назначении фиктивных переменных исследуемая совокупность по числу значений качественного признака разбивается на группы. Одну из групп выбирают как эталонную и определяют фиктивные переменные для остальных.

Если качественный признак имеет два значения, то достаточно ввести одну фиктивную переменную. Например, строится модель, характеризующая показатели предприятий двух отраслей промышленности: электроэнергетики и газовой промышленности. Вводится фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям электроэнергетики, и значение 1, если данные относятся к предприятиям газовой промышленности.

При трех значениях качественного признака следует вводить две фиктивные переменные. Например, строится модель, характеризующая показатели предприятий трех регионов. Вводится одна фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям первого региона, и значение 1, если данные относятся к предприятиям двух других регионов. Второй фиктивной переменной присваивается значение 0, если данные относятся ко второму региону, и значение 1, если данные относятся к первому и третьему регионам.

Введение в регрессию фиктивных переменных существенно улучшает качество оценивания.

 

2.4.4. Сведение нелинейных регрессий к линейным моделям

Нелинейность регрессии может иметь место в части как переменных, так и параметров. Нелинейность по переменной можно устранить заменой переменных. Например, нелинейные уравнения

и

заменами переменных и соответственно сводятся к линейным уравнениям:

и .

Нелинейность по параметру может устраняться различными способами. Наиболее часто нелинейность этого типа устраняется путем логарифмического преобразования уравнения. Например, нелинейные уравнения

и

после логарифмирования сводится к линейным уравнениям относительно новых переменных и параметров и :

и .

В общем случае параметры нелинейных уравнений регрессии оцениваются с использованием алгоритмов и программ, реализующих численные методы. Современные статистические пакеты программ для ПЭВМ позволяют оценивать параметры нелинейных уравнений регрессии любого типа.

 

2.5. Прогнозирование с помощью регрессионных уравнений

Прогнозирование – это получение оценок зависимой переменной для некоторого набора независимых переменных, отсутствующего в исходных данных. Различают точечное прогнозирование (с получением точечной оценки) и интервальное прогнозирование. В первом случае оценкой является некоторое число, во втором – интервал, в котором находится истинное значение зависимой переменной с заданным уровнем вероятности (значимости).

Точечная оценка может быть наиболее просто представлена в случае линейной модели парной регрессии:

,

где:

и коэффициенты уравнения регрессии;

значение зависимой переменной , предсказанное с использованием уравнения регрессии;

значение независимой переменной , для которого необходимо предсказать величину зависимой переменной.

Ошибка предсказания представляет собой разность между предсказанным и действительным значениями. Для оценки этой ошибки определяется стандартная ошибка предсказания, которая для случая линейной регрессии определяется выражением:

,

где:

стандартная ошибка предсказания;

стандартная ошибка регрессии;

число пар данных, используемых для регрессионного анализа;

значение независимой переменной, для которого дается прогноз;

выборочное среднее переменной ;

вариация переменной в выборке.

Чем больше значение отклоняется от выборочного среднего , тем больше дисперсия ошибки предсказания; чем больше объем выборки , тем меньше дисперсия этой ошибки.

Доверительный интервал для прогнозируемого значения зависимой переменной определяется по формуле:

,

где:

критическое значение статистики Стьюдента при заданном уровне значимости и числе степеней свободы (для парной линейной регрессии );

число пар данных в выборке, использованных для получения уравнения регрессии.

 

ГЛАВА 3. ВРЕМЕННЫЕ РЯДЫ. ГЕТЕРОСКЕДАСТИЧНОСТЬ И АВТОКОРРЕЛИРОВАННОСТЬ

3.1. Временные ряды и их моделирование с применением фиктивных переменных

Временной ряд – это совокупность значений какого-либо показателя за несколько последовательных моментов времени. Значение временного ряда формируется под влиянием сочетания длительных, кратковременных и случайных факторов. Факторы, действующие в течение длительного времени, оказывают определяющее влияние на изучаемое явление и формируют основную тенденцию ряда – тренд . Периодические факторы формируют сезонные колебания ряда . Случайные факторы отражаются случайными изменениями уровней ряда .

Аддитивнаямодель, в которой ряд представлен как сумма перечисленных компонент, имеет вид:

.

Модель, в которой ряд представлен как произведение перечисленных компонент, называется мультипликативной:

.

Из двух моделей указанного типа на основе анализа сезонных колебаний выбирается та, которая наиболее соответствует исходным статистическим данным.

Основная задача экономического исследования временного ряда состоит в том, чтобы выявить каждую из перечисленных компонент ряда. Так, при постоянной (или близкой к ней) амплитуде сезонных колебаний используется аддитивную модель; при существенно меняющейся (возрастающей или убывающей) амплитуде сезонных колебаний используется мультипликативную модель.

Для моделирования временных рядов используют модели парной линейной и нелинейной регрессии, множественной линейной и нелинейной регрессии и другие, специально разработанные модели.

 

3.2. Моделирование временных рядов с применением фиктивных переменных

Методические особенности построения модели временного ряда рассмотрим на примере ряда, учитывающую основную его тенденцию – тренд – и сезонные колебания с использованием фиктивных переменных.

Предположим, что сезонность можно учесть колебаниями моделируемой переменной по кварталам. Первый квартал каждого года будем считать эталонным кварталом, а для оценки различия между ним и другими кварталами будем использовать три фиктивные переменные. Тогда модель временного ряда представима в виде уравнения множественной линейной регрессии:

,

где:

зависимая – объясняемая переменная;

время;

и фиктивные переменные;

и параметры уравнения регрессии;

случайное слагаемое.

Фиктивные переменные, введенные в уравнение, определяются следующим образом:

Переменная 1 квартал 2 квартал 3 квартал 4 квартал
z1
z2
z3

 

3.3. Автокорреляция уровней временного ряда

Между значениями временного ряда на отдельных его участках может иметь место корреляционная связь. Корреляционная зависимость между последовательными уровнями коэффициента автокорреляции временного ряда называется автокорреляцией уровней ряда.

Коэффициент автокорреляциипорядка определяется как коэффициент корреляции между рядом и рядом его смещенных значений :

,

где:

ковариация переменных и ;

и вариации переменных и .

Число периодов , для которого рассчитывается коэффициент автокорреляции, называется лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается или остается постоянным в зависимости от используемой методики оценки.

Последовательность коэффициентов автокорреляции первого, второго и более высоких порядков (называемая автокорреляционной функциейвременного ряда) обычно используется для того, чтобы выявить во временном ряде наличие трендовой и сезонных компонент или обосновать отсутствие этих компонент. При явном преобладании коэффициента автокорреляции первого порядка в исследуемом ряде главную роль играет основная тенденция – тренд. При явном преобладании коэффициентов автокорреляции порядка ряд содержит также сезонные колебания с периодом .

 

3.4. Обнаружение гетероскедастичности. Метод Голдфельда-Квандта

Важнейшей предпосылкой регрессионного анализа является предположение о постоянстве дисперсии случайного слагаемого для всех наблюдений, т.е. гомоскедастичность. Это значит, что для каждого значения объясняющей переменной случайные слагаемые имеют одинаковые дисперсии. Если это условие не соблюдается, то имеет место гетероскедастичность.

Разработаны различные методы обнаружения гетероскедастичности, в которых делаются различные предположения о зависимости между дисперсией случайного слагаемого и величиной объясняющих переменных (например, тест Голдфельда-Квандта).

 

Метод Голдфельда-Квандта

Обнаружение гетероскедастичности с использованием этого метода основывается на предположении о том, что стандартное отклонение случайного слагаемого пропорционально значению независимой переменной .

Этапы проверки:

1. Все наблюдений в выборке упорядочиваются по возрастанию переменной .

2. Оцениваются отдельно регрессия для первых и регрессия для последних наблюдений. Средние наблюдений отбрасываются.

3. Составляется статистика:

,

где и суммы квадратов остатков для первых и последних наблюдений соответственно.

Если верна гипотеза об отсутствии гетероскедастичности, то имеет распределение Фишера с степенями свободы, где число объясняющих переменных в уравнении регрессии.

По таблице распределения Фишера определяется критическое значение критерия . Если , то гипотеза об отсутствии гетероскедастичности отклоняется.

Метод Голдфельда-Квандта можно также использовать для обнаружения гетероскедастичности и в том случае, если стандартное отклонение случайного слагаемого обратно пропорционально значениям независимой переменной. В этом случае тестовой статистикой является величина

.