Кореляційно-регресійний аналіз.

Кореляційний метод аналізу зв’язків.

Основні положення комплексного статистичного аналізу даних у правовій статистиці

1) в результаті економічного аналізу встановити форму зв'язку і дати його математичне вираження за допомогою кореляційних рівнянь;

2) встановити щільність зв'язку між факторною х і результатив­ною у ознаками.

 

 

Парна (однофакторна) кореляція дозволяє відносно адекватно виміряти виявлений зв’язок, чого не дають інші методи статистичного аналізу.

Кореляційний аналіз зв’язку, як правило, здійснюють після встановлення його наявності і характеру (прямий чи обернений) в процесі інших видів статистичного аналізу.

 

Найважливішою характеристикою кореляційного зв'язку є лінії регресії,тобто функція, котра пов'язує середні значення факторної та результативної ознаки (Х та Y). Кореляційно-регресійна модель взаємозв'язку являє собою рівняння регресії, яке у загальному вигляді записується наступним чином:

,

де ух – теоретичні значення Y;

- лінія регресії;

- залишкова компонента.

У парному кореляційно-регресійному аналізі переважно використовуються наступні функції (рівняння регресії):

 

лінійна

параболічна

кубічна

степенева

гіперболічна .

На першому етапі доцільно застосувати графічний метод для формування гіпотези про наявність саме лінійного взаємозв'язку між ознаками.

На другому етапі визначаються параметри рівняння регресії:

.

Для цього використовується метод найменших квадратів та розв'язується система рівнянь відносно а0 і а1 :

З наведеної системи параметри рівняння регресії розраховуються різними способами, в тому числі за формулами:

 

Параметри а0 і а1 мають певний економічний зміст, зокрема, а1 називається коефіцієнтом регресії,що показує, на скільки одиниць змінюється Y при збільшенні Х на одну одиницю. Якщо цей коефіцієнт додатний – зв'язок прямий, а якщо від'ємний – зв'язок між показниками обернений.

На третьому етапі за одержаним рівнянням регресії розраховуються теоретичні значення результативної ознаки Yх та показники рівня апроксимації (наближення), які показують розбіжність між фактичними і теоретичними значеннями Y :

- середня квадратична (стандартна) помилка:

(11)

- коефіцієнт апроксимації:

. (12)

Чим меншими є значення S та V, тим краще рівняння регресії описує (апроксимує) взаємозв'язок між Х та Y .

На четвертому етапі оцінюється тіснота зв'язку за допомогою лінійного коефіцієнта кореляції (r):

 

. (13)

 

Значення коефіцієнта кореляції r знаходиться в межах від -1 до +1. При r>0 зв'язок між показниками прямий, а при r<0 – обернений. Якщо : вважається, що зв'язок між Х та Y практично відсутній; - зв'язок слабкий; - зв'язок середній; - зв'язок сильний; - зв'язок дуже сильний.

Коефіцієнт детермінації D=r2 показує, на скільки відсотків варіація Y обумовлюється варіацією Х.

Часто також визначається коефіцієнт еластичності (Е) за формулою:

 

Е=. (14)

 

Цей коефіцієнт показує, на скільки процентів змінюється Y при збільшенні Х на 1%.

На п'ятому етапі здійснюється перевірка суттєвості (невипадковості) взаємозв'язку між показниками за допомогою F-критерія Фішера:

 

F=, (15)

де К1=m-1; K2=n-m; n – кількість одиниць у сукупності; m - кількість параметрів у рівнянні регресії.

 

 

Як відомо, більшість соціально-економічних показників формується під впливом не одного, а багатьох факторів. Метод побудови моделі такого зв'язку має назву багатофакторного кореляційно-регресійного аналізу. В цьому випадку результативна ознака (Y ) пов'язується з допомогою рівняння множинної регресії з двома або більше факторними ознаками (Х1, Х2, Х3, . . . , Хm).

Найважливішими умовами побудови багатофакторної моделі зв'язку є достатня кількість одиниць у сукупності ( як мінімум у 8 разів більше, ніж число факторів) та відсутність мультиколінеарності факторів (близького до функціонального зв'язку між ними). В тому випадку, якщо два факторних показники мультиколінеарні, один з них повинен бути виключений з моделі.

На практиці використовуються два види рівнянь множинної регресії:

- лінійне (адитивне):

(16)

- нелінійне (мультиплікативне):

, (17)

де а0, а1, а2, ... , аm – параметри рівняння множинної регресії;

Х1, Х23,. . ., Хm - факторні ознаки.

 

Оцінка параметрів рівняння множинної регресії здійснюється методом найменших квадратів. Параметри а1, а2 , . . . , аm називаються коефіцієнтами регресії та показують, на скільки одиниць змінюється у при збільшенні х на одиницю, при умові, що інші фактори є сталими. Наприклад, рівняння залежності ціни (Y) від рівня продуктивності праці (X1) та якості сировини (X2):

Ух = 10,2+12,6х1+0,7 х2 .

Для вимірювання тісноти взаємозв'язку між двома ознаками, що включені у модель, визначають парні коефіцієнти кореляції (ryx1, ryx2, rx1x2). Тісноту зв'язку між результативною ознакою (Y) та факторною (при спільному впливі всіх факторів) характеризують часткові коефіцієнти кореляції (Ryx1, Ryx2).

Тісноту взаємозв'язку між результативною ознакою та сукупністю всіх факторних ознак визначають на основі коефіцієнта множинної кореляції R. Величина D = R2 називається коефіцієнтом детермінації, що показує, на скільки процентів варіація Y обумовлюється варіацією всіх факторних ознак, включених у модель.