Діаграма розсіювання регресійної функції

Для аналізу залежності між двома змінними використовують діаграму розсіювання, яка є графічною формою представлення інформації у прямокутній системі координат.

Діаграма розсіювання є геометричною формою систематизації інформаційної бази процесу дослідження.

За шириною розкиду точок можна зробити висновок про тісноту зв’язку сукупності: якщо точки розміщені близько одна до одної (у вигляді вузької смужки), то можна стверджувати про наявність відносно тісного зв’язку; якщо точки на діаграмі розкидані широко, то має місце слабкий зв’язок між змінними

- кожному значенню пояснювальної змінної відповідає розподіл значень залежної змінної і навпаки;

- з’ясувати якою буде дія головних факторів-аргументів на залежну змінну, якщо б інші (другорядні, побічні) не змінювались і знаходились на одному й тому середньому рівні. Для цього визначають функцію регресії у вигляді математичного рівняннятого чи іншого вигляду.

Процес знаходження функції регресії називають вирівнюванням окремих значень залежної змінної.

Побудова регресії та визначення впливу пояснювальних змінних на залежну змінну – друга задача регресійного аналізу.


Припустимо, що за виглядом діаграми розсіювання встановимо лінійний характер залежності усереднених значень результативної змінної. Ця залежність опишемо за допомогою оціночної функції лінійної регресії:

, (2)

де a та b відповідно є оцінками параметрів α та β рівняння (1).

Знак «^» над у означає оцінку залежної змінної, отриману з рівняння (2) при деяких усереднених умовах.

 

Під простою регресією розуміється одностороння стохастична залежність результативної змінної від однієї пояснювальної змінної.

 

Рис. 4. Регресійна пряма та її параметри


При лінійній функції сукупність розрахункових значень утворює пряму регресії.

Значення функції регресії таким чином є оцінками середніх значень змінної у для кожного фіксованого значення змінної х.

- економічна інтерпретація : значення регресії показують середнє значення залежної змінної у при заданому хі пояснювальної змінної у припущенні, що єдиною причиною зміни у є змінна х, а випадкова збурена змінна u набула значення, рівне нулю.

- чим менше значення еі, тим більш вдало вибрана пряма.

 


3. Метод найменших квадратів

- зведення до мінімуму помилок специфікації форм зв’язку між змінними. Ці помилки визначаються через відхилення емпіричних даних від значень регресії , тобто вони формують значення збуреної змінної .

(3)

Вимога:(4)

- означає, що сума додатних відхилень повинна бути рівною сумі від’ємних.

Рис. 5. Пучок регресійних прямих (через координату ( хі; уі))

Вибіркова дисперсія – характеризує міру розсіювання дослідних значень довкола значень регресії, тобто дисперсію залишків еі (залишкову дисперсію):

(5)

Ступень вільності v: v=nm–1,

де n – обсяг вибірки; m – число параметрів регресії.

 

- для простої лінійної регресії існує тільки одна пояснювальна змінна (m=1), то число ступенів вільності буде: v=n–1–1 = n–2.

Врахування числа ступенів вільності дає можливість отримати незміщену оцінку дисперсії.

Корінь квадратний із виразу (5) є стандартною помилкою оцінки регресії.


Вимогу про те, що міра розсіювання дослідних точок від гіпотетичної лінії повинна бути мінімальною з врахуванням (5), можна представити таким чином:

(6)

- тобто сума квадратів відхилень емпіричних значень змінної у від значень, обчислених за рівнянням прямої, повинна бути мінімальною.

Рис. 6. Графічне представлення МНК