Класична модель лінійної регресії
Загальна модель множинної лінійної регресії має вигляд :
, ( )
а для нормальної регресії
, ( )
де уі – екзогенні змінні;
хі – ендогенні змінні;
иі – регресійний залишок або просто залишок. Він відображає інтегральний вплив всіх факторів (всього їх «р») на результуючий показник (у).
, де n – об’єм вибірки.
Логіка регресійного аналізу полягає в наступному:
1. За фактичними даними оцінюємо параметри «a» та «b» (знаходимо оцінки ).
2. Розраховуємо очікуване (модельне, розрахункове) значення .
3. Знаходимо залишок: .
4. Для статистичної перевірки взаємозв’язку необхідно знайти значення a, b, u.
Будуємо розглядати не стохастичну, а функціональну залежність (1). Щоб називатися класичною модель (1) повинна задовольняти ряду припущень.
3. Передумови застосування методу найменших квадратів (1 МНК) (Гауса-Маркова умови)
1) Дійсна форма взаємозв’язку між пояснювальною та незалежними змінними лінійна.
2) Величина залишку є випадковою.
3) Математичне сподівання залишків дорівнює нулю:
.
4) Дисперсія залишків обмежена і постійна (умова гомоскедастичності)
для всіх i, j.
5. Залишки статистично незалежні між собою
6. Регресійні залишки та незалежні змінні також статистично незалежні один від одного .
Умова порушується, коли модель будується на базі одночасних структурних рівнянь або має лагові змінні. Тоді оцінювати параметри моделі необхідно за дво- або три крокові МНК.
При множинній регресії додається ще одне припущення: відсутність мультиколінеарності між незалежними змінними, тобто ні єдина змінна не може бути представлена у вигляді лінійної комбінації інших.
Одночасно з умовами Гауса-Маркова також роблять припущення про нормальний розподіл випадкової складової. Якщо це виконується, то коефіцієнти регресії також будуть розподілені за нормальним законом, що потребується при перевірці гіпотез та побудові довірчих інтервалів.
4. «Метод найменших квадратів (1МНК)
Нехай ми маємо результати статистичного спостереження (рис. 1) і повинні побудувати регресійну модель залежності, наприклад, витрат споживання (у) від доходів сімей(х).
Рис. 1. Кореляційне поле точок
На рис. 1 представлено кореляційне поле результатів дослідження або діаграму розсіювання (до пояснення терміну «кореляційне поле» поверне коефіцієнта кореляції). Нехай дані спостереження відповідають умовам Гауса-Маркова. Тоді модель можна представити у вигляді
y=а+bx (1)
Невідомими в цьому рівнянні є параметри а, b. Так, як маємо вибіркову сукупність, то можемо зробити тільки оцінку значень цих параметрів , тобто із множини можливих прямих вибрати одну (І, ІІ, ІІІ) за певним критерієм. Можна розглядати такі критерії:
Критерій не є зручним, так як його значення буде дорівнювати нулю, а пряма при цьому не проходить через всі точки (помилки, зазвичай, накопичуються; нова помилка не може виправити попередню). Критерій може використовуватися для визначення оцінки параметрів, але частіше застосовують критерій . Однією із переваг цього методу є те, що кількість рівнянь в побудованій системі буде дорівнювати кількості невідомих.
Метод найменших квадратів тому і має таку назву, що за критерієм необхідно знайти такі значення оцінок параметрів, щоби сума квадратів відхилень була мінімальною.
Необхідною умовою екстремума функції (мінімума або максимума) є рівність частинних похідних цієї функції нулю за кожним параметром. Тоді маємо систему зх. Двох рівнянь з двома невідомими.
(3)
Розв’жемо цю систему відносно
(4)
(5)
(7)
(8)
(9)
(10)
Значення оцінок (6а, 10) можна записати і в другому вигляді
; (11)
; (12)