Лінійна множинна регресія. Математична модель.

Тема 3. Побудова лінійної множинної регресійної моделі

У багатьох випадках на результативну ознаку впливає не один, а кілька факторів. Між факторами існують складні взаємозв'язки, тому їхній вплив на результативну ознаку є комплексним, а не просто сумою ізольованих впливів.

Багатофакторний аналіз дає змогу оцінити міру впливу на досліджуваний результативний показник кожного із введених у модель факторів при фіксованому положенні на середньому рівні інших факторів. Важливою умовою є відсутність функціонального зв'язку між факторами.

Математично завдання зводиться до знаходження аналітичного виразу, який якнайкраще відображував би зв'язок факторних ознак з результативною, тобто знайти функцію:

=f(X1,X2,X3,... ,Хk).

Найскладнішою проблемою є вибір форми зв'язку аналітичного виразу. На підставі чого за наявними факторами визначають результативну ознаку-функцію. Ця функція має краще за інші відображати реальні зв'язки між досліджуваним показником і факторами. Емпіричне обґрунтування типу функції за допомогою графічного аналізу зв'язків для багатофакторних моделей майже непридатне. Форму зв'язку можна визначати добиранням функцій різних типів, але це пов'язане з великою кількістю зайвих розрахунків. Зважаючи на те, що будь-яку функцію багатьох змінних шляхом логарифмування або заміни змінних можна звести до лінійного вигляду, рівняння множинної регресії можна виразити у лінійній формі:

Y= b0 + b1X1 +b2X2 + …+bkXk.

Інформація про значення Y, X1,..., Xn міститься у відповідних статистичних даних, n спостереженнях (вимірюваннях) кожного показника.

Кожний коефіцієнт рівняння вказує на ступінь впливу відповідного фактора на результативний показник при фіксованому положенні решти факторів, тобто як зі зміною окремого фактора на одиницю змінюється результативний показник Вільний член рівняння множинної регресії економічного змісту не має.

Запишемо математичну модель множинної лінійної регресії, основану на незалежності ВВ (факторів) Xj, j=1…k, які мають нормальний розподіл і за припущенням впливають на залежну змінну Y. Це дозволяє провести статистичний аналіз, тобто записати інтервальні оцінки для параметрів bk множинної функції регресії і перевірку статистичних гіпотез про значення цих параметрів, основану на t – розподілі Стьюдента.

 

Номер досліду Результати досліду
X1 X2 ... Xk Y
1 x11 x12 ... x1k y1
2 X21 X22 ... X2k y2
... ... ... ... ... ...
n Xn1 Xn2 ... Xnk yn

Позначимо X (n´(k+1)) - мірна таблиця незалежних змінних (X0º1 – змінна при b0).

X= ; y= ; b= ; .

де Y – n - мірний вектор – стовпець спостережень залежної змінної, b - (k+1)-мірний стовпець параметрів, e - n – мірний випадковий вектор, складові якого є випадковими похибками.

Припустимо:

1 Y= Xb+e , де X – матриця спостережень незалежних змінних.

2 Випадковий вектор – стовпець похибок (n – мірна ВВ) визначається густиною ймовірності:

f(e)= ,

тобто має нормальний розподіл з нульовим вектором математичних очікувань і ковариційно – дисперсійною матрицею , де Е – одинична матриця порядку n.

3 Матриця спостережень X незалежних змінних має ранг rang(X)=k+1£ n.

Умова 1означає лінійну залежність між змінною Y і змінними (факторами) X, які впливають на розсіювання Y. Дана лінійна залежність справедлива з точністю до випадкового ej.

Умова 2 означає, що випадкові похибки ej є незалежними випадковими величинами, які мають нормальний розподіл N(0,s) з нульовим математичним очікуванням і одним і тим же середнім квадратичним відхиленням s. Як правило, дисперсія s2 випадкового ej невідома, то залишається невідомою і ковариційно – дисперсійна матриця випадковго вектора похибки ej. Тому її необхідно оцінити.

Умова 3 означає, що матриця спостережень X не є випадковою. Її стовпці складають систему (k+1) лінійно – незалежних векторів, причому число стрічок матриці не менше числа її стовпців, тобто не менше числа параметрів bj.

Із умов 1-3 слідує: M(e|X)=0, M(Y|X)=Xb, å(Y|X)=s2E,

де M(e|X) – умовне математичне очікування доданку e при фіксованому векторі спостережень незалежних змінних.

Необхідно оцінити вектор b параметрів лінійного рівняння регресії і дисперсію s ВВ e, побудувати довірчі інтервали для параметрів bj, j =0…k, гіперплощини регресії, перевірити адекватність моделі (множинна лінійна регресія) даним експерименту.

Параметри bj, j =0…k, оцінюються за МНК, при умові, що сума квадратів відхилень спостережуваних значень залежної змінної Y від гіперплощини регресії Xb мінімальна. Тобто необхідно підібрати вектор оцінок b, при якому функція S, яка визначається рівністю S= досягала б мінімуму; e=Y- - емпіричне рівняння регресії.

Формули для обчислення оцінок параметрів множинної лінійної регресії:

1 .

Обернена симетрична матриця існує в силу умови 3 математичної моделі.

2 Незміщена оцінка дисперсії s2 ВВ e:

s2= .

3 Ковариційно – дисперсійна матриця вектора оцінок : å(b)= s2(XTX)-1.

4 Довірчий інтервал для довільного коефіцієнта bj:

,

де - квантиль розподілу Стьюдента, відповідний довірчій ймовірності P=1-a і числу степеней вільності n=n-k-1; bj – точкова оцінка j - складової вектора ; sbj=s , – -j-ий діагональний елемент ковариційно-дисперсійної матриці .

5 Коефіцієнт множинної кореляції R, який вимірює степінь тісноти лінійної залежності ВВ Y від факторів Xj:

R= , де =s2/D(Y), - коефіцієнт сходження; s2дисперсія випадкового доданку e, D(Y) – дисперсія ВВ Y. 0£R£1. Якщо R=0, то змінна Y лінійно незалежна від змінних X, якщо R=1, то змінна Y знаходиться в лінійній функціональній залежності від X.

Оцінка множинного коефіцієнта кореляції називається емпіричним коефіцієнтом множинної кореляції:

В матричній формі:

6 Щоб перевірити, який з факторів Xj, j=1…k не має суттєвого впливу на Y, перевіряють нульову гіпотезу про те, що коефіцієнт регресії bj при факторі Xj рівний нулю, тобто гіпотезу H0: bj=0 проти гіпотези H1: bj¹0. Якщо гіпотеза H0 відхиляється, то вважається, що фактор Xj має вплив на Y. Якщо гіпотеза H0 приймається, то вважається, що фактор Xj не має суттєвого впливу на Y.

Перевірка гіпотези H0 проти гіпотези H основана на обчисленні статистики (критерію Стьюдента): t=bj/sbj. Статистика t при умові справедливості гіпотези H0: bj=0 має розподіл Стьюдента з v=n-k-1 степенями вільності. Із таблиць Стьюдента по заданому рівні значущості a (як правило a=0,05) і числу степенем вільності v=n-k-1 знаходять критичне значення статистики t табл. Якщо |tнабл|>tтабл, H0 гіпотеза відхиляється, якщо |tнаблtтабл, то приймається. Незначні фактори Xj, при яких коефіцієнти bj несуттєво відрізняються від нуля, необхідно із моделі виключити, тобто побудувати заново лінійну множинну регресій ну модель з меншим числом факторів.

Як правило модель вважається адекватною, якщо , тобто, . Якщо отримаємо , має зміст побудувати нелінійну модель.