Статистичні методи вимірювання взаємозв'язків.

План.

1. Види взаємозв 'язків між явищами

2. Метод аналітичного групування. Дисперсійний аналіз.

3. Кореляційно-регресійний аналіз.

4. Багатофакторна кореляція.

5. Непараметричні методи вивчення взаємозв 'язків між явищами

6. Рангова кореляція

 

1. Всі явища та процеси, що існують в природі та суспільстві, взаємопов'язані, тому вивчення взаємозв'язків та причинних залежностей є одним із найваж­ливіших завдань статистики. Причинна залежність є головною формою закономірних зв'язків, проте при­чина сама по собі ще не визначає повною мірою наслідок; останній залежить також від умов, у яких діє причина. Умови і причини являють собою фактори. Ознака, що характеризує наслідок, називаєтьсярезультативною, а та, що характеризує фактор, — факторною.

Зв'язки між явищами поділяють на функціональні та стохастичні. Прифункціональному зв'язку кожному можливому значенню факторної ознаки х відповідає чітко визначене значення результативної ознаки у. Таку залежність ми маємо, наприклад, у фізичних, хімічних процесах та ін. Графічно вона має такий вигляд (рис. 1).

Рис.1. Схематичне зображення функціонального зв'язку.

У суспільних процесах — це переважно зв'язок між елементами розрахункових формул, наприклад, залежність валового збору від урожайності та посівної площі.

Пристохастичному зв'язку кожному значенню ознаки х відповідає певна множина ознаки у, які варіюють і утворюють ряд розподілу, який нази­ваєтьсяумовним. Стохастичний зв'язок проявля­ється зміною умовних розподілів. Графічно її можна представити на (рис. 2).

Рис. 2. Схематичне зображення стохастичного зв'язку.

Прикладом такого зв'язку можна навести залежність між рівнем кваліфікації та продуктивністю праці або залежність між кольором очей та кольором волосся.

Різновидом стохастичного зв'язку єкореляційний зв'язок, коли зі зміною факторної ознаки змінюється середнє значення результативної ознаки.

2. У загальних рисах про метод аналітичних групу­вань вже йшлося в лекції 2, пункті 3. Він полягає в тому, що всі елементи сукупності групують за факторною ознакою і в кожній групі обчислюють середні значення результативної ознаки.

Проте було зазначено, що коли, наприклад, ми виділили групи робітників за розрядом, для кожної з яких обчислили середню заробітну плату, і побачили, що групам з більшим рівнем кваліфікації відповідає і більша середня місячна платня, то це нам дало підставу припустити, що між цими двома факторами («фах» — «заробіток») є прямий зв'язок. Припустити, але не стверджувати. Стверджувати, зрозуміло з певною імовірністю, ми зможемо лише тоді, коли доведемо невипадковість,істотність відмінності (різниці) середніх, а тим самимістотність зв'язку. Це можна зробити, наприклад, за допомогою критерію Стьюдента. Таким чином можна визначити наявність зв'язку та його напрям.

Але на середній заробіток робітників певного розряду, крім фаху, впливають і інші фактори: захворюваність робітників, характер продукції, вік, стать та ін. Визначити внесок кожного з факторів, а також тісноту зв'язку дозволяє метод дисперсійного аналізу, суть якого розглянемо на такому прикладі (табл. 5.1).

Приклад 1

Маємо такі дані про годинний виробіток деталей робітниками двох груп, які пройшли перепідготовку (N1) і не пройшли (N2), чисельністю 5 чол. кожна.

Таблиця .1

Годинний виробіток робітників, які пройшли і не пройшли перепідготовку

№ п/п     Годинний виробіток деталей Індивідуальне відхилення від загальної середньої Квадрат індивідуального відхилення  
група1 група2 група 3 група4 група 5 група 6  
   
    -14        
      -6          
    -11          
    -9        
      -10          
Разом       -50          

Дисперсійний аналіз дає можливість визначити роль систематичної та випадкової варіації у загальній варіації і тим самим визначити роль фактора, покла­деного в основу групування, в зміні результативної ознаки. Для цього використовують правило складання дисперсії, згідно з яким загальна дисперсія дорівнює сумі двох дисперсій: середньої із групових і між-групової:

Тісноту зв'язку характеризує співставлення міжгрупової дисперсії із загальною. Це відношення називаєтьсякореляційним відношенням:

Обчислимо ці параметри для наведеного прикладу. Спочатку обчислимо групові та загальні середні. Графи 4—7 табл. 1 є розрахунковими. Загальна дисперсія, яка характеризує загальну варіацію під впливом усіх факторів, дорівнює

 

 

Загальна середня дорівнює

Міжгрупова дисперсія, яка характеризує факторну варіацію, тобто відмінності у виробітку, обумовлені тим, що частина робітників пройшла перепідготовку, становить:

де /. — число одиниць у групі, і — число груп. Таким чином, кореляційне відношення становить

Це треба розуміти так, що 93,1 % всієї варіації обу­мовлено фактором, який покладено в основу групування, і тільки 6,9 % варіації є результатом дії інших. Такими, наприклад, можуть бути вік робітника, його стать та ін.

Кореляційне відношення змінюється від 0 до 1. Коли міжгрупова дисперсія дорівнює нулю, що мож­ливо лише тоді, коли всі групові середні однакові, тобто коли кореляційний зв'язок між середніми відсутній. Причому міжгрупова дисперсія дорівнює загальній, а середня з групових — нулю. Це означає, що кожному значенню факторної ознаки відповідає єдине значення результативної ознаки, тобто зв'язок між ознаками функціональний.

Припустимо, що ми поділили робітників на дві групи за ознакою числа літер у прізвищі (парне чи непарне) і обчислені групові середні відрізняються. Але в цьому випадку різниця є випадковістю.

Перевірку істотності (невипадковості) відхилень групових середніх здійснюють за допомогою статистичних критеріїв. У даному випадку можна викори­стати критерій Фішера, або порівняти фактичне значення х2 з критичним (табличним).

У таблиці розподіл залежить від числа ступенів вільності факторної К1 та випадкової К2 дисперсій.

К1 = т — 1, К2 = n — т;

де т — число груп;

п — загальний обсяг сукупності.

«Входами» в таблицю критичних значень є числа ступенів вільності К1К2 та рівень значимості а, який задається дослідником і характеризує, в якій мірі він ризикує помилитися в своєму припущенні (про «невипадковість»).

Для нашого прикладу

К1=2- 1= 1, К2= 10 - 2 = 8, а а обернимо на рівні 5 %.

За таблицею критичних значень (див. додаток 1) для рівня істотності а == 0,05 знаходимо η2(0,05) = 0,399.

Це означає, що тільки в 5 випадках із 100 може випадково виникнути кореляційне відношення, яке пе­ревищує значення 0,399. Тепер треба порівняти фактичне значення з критичним. Якщо воно більше критичного, то зв'язок між факторною і результативною ознакою вважається істотним:

0,931 > 0,399 →η22(0,05)

Тобто, зв'язок між фактом проходження робітником перепідготовки та зростанням продуктивності праці слід вважати істотним.

При перевірці істотності зв'язку частіше використовують Р-критерій Фішера, тому що при великих значеннях ступенів вільності його табличні значення мало змінюються, а таблиці менш громіздкі. За прикладами використання F-критерію при дисперсійному аналізі посилаємо до літератури [14, 17] (також див. додаток 2).

Як бачимо, при дисперсійному аналізі факторна ознака може бути як кількісною, так і якісною. Маючи названі переваги порівняно з методом аналітичних групувань, дисперсійний аналіз не дає змоги вивчити форму зв'язку.

Якщо ми маємо достатню кількість груп і кількісну факторну ознаку, то, довівши істотність зв'язку, мо­жемо на координатах Х та У знайти певні точки, об'єднати їх ламаною і отримати певну модель форми зв'язку.

3. Головною характеристикою кореляційного зв'язку є лінія регресії. Лінія регресії х на у — це функція, яка зв'язує середні значення ознаки у зі значеннями ознаки х. Залежно від форми лінії регресії розрізняють лінійний і нелінійний зв'язки. Лінія регресії може бути представлена таблично, графічно, ана­літичне. У кореляційно-регресійному аналізі (КРА) оцінка лінії регресії здійснюється не в окремих точках, як в аналітичному групуванні, а в кожній точці інтервалу зміни фактичної ознаки х. Лінія регресії при цьому безперервна і зображується у вигляді певної функції У = f(х), яка зветься рівнянням регресії, а У — це теоретичні значення результативної ознаки.

Пояснимо суть КРА на простому прикладі (всі числові значення умовні). Якщо ми знаємо, що відрізок металевої рейки певного правильного профілю довжиною 1 м важить 10 кг, то можемо назвати точну вагу, а точніше, масу будь-якого відрізку того ж профілю. Якщо ж ми маємо кілька відрізків, тобто стати­стичну сукупність, то можемо виміряти довжину кожного відрізка і обчислити його масу за формулою

у = тх, де т — маса відрізку довжиною 1 метр; х -довжина відрізку в метрах. Якщо нанести на графік точки з відповідними для кожного відрізка рейки координатами, то вони будуть знаходитися на одній прямій - зв'язок функціональний, лінійний (рис. 5.3).

Рис. 5.3. Точки графіка залежності маси рейки від її довжини.

Візьмемо другу сукупність - велику групу чоловіків у віці 20-45 років, про яких можна сказати, що вони мають звичайну, нормальну фігуру, тобто не дуже низькі або високі; товсті або худі (тобто являють со­бою однорідну сукупність). Тепер знайдемо для кож­ного з них відповідну точку в системі координат «зріст — маса»(рис.5.4).

Рис. 5.4. Кореляційне поле ознак «зріст — маса».

Якщо при збільшенні чисельності сукупності рейок на рис. 5.3 все виразніше буде вимальовуватись пряма лінія, то на рис. 5.4 з'являється так зване «кореляційне поле» — щось витягнуте, схоже на еліпс. При цьому цілком очевидно, що для певного значення оз­наки «зріст» (назвемо її факторною), скажімо в 180 см відповідаємножина значень результативної ознаки «Маса». Ці точки на рис. 5.4 ми виділили.

Виявилось, що всі хлопці, які мають однаковий зріст (наприклад, 180 см), мають різну масу, в нашому прикладі від 65 кг до 95 кг, або десь 80 ± 15 кг; можна і доцільно вести мову просереднє значення їх маси. Тут ми маємоумовний розподіл результатив­ної ознаки «маса». Він, як і будь-який ряд розподілу кількісної ознаки, характеризується параметрами та ін. Деякі з них ми вже визначили візуально, інші можемо обчислити. Припустимо: х = 80 кг; σ == 5 кг.

Цікаво відмітити, що коли компанія хлопців буде досить великою, то їх розподіл за масою буде близь­ким до нормального. В природі масових явищ нор­мальний розподіл дуже поширений. Багато прикладів можна навести з біології, коли мова йдеться про нор­му, а не патологію. Нормально розвинені люди, наприклад, нормально розподілені за зростом, масою, артеріальним тиском, життєвим об'ємом легень і т. д. Навпаки, в соціально-економічних явищах нормаль­ний розподіл зустрічається значно рідше. Можна уяви­ти собі розподіл населення України за рівнем доходів, який має довгий «правий хвіст». Слід пам'ятати, що від форми розподілу залежить вибір методів стати­стичного аналізу, особливо коли йдеться про пере­вірку гіпотез та вивчення зв'язку. Але повернемось до нашого прикладу і зробимо наступний висновок.

Між ознаками «зріст — маса» існує статистичний, кореляційний прямий зв'язок: при збільшенні значення результативної ознаки «зріст» зростає середнє імовірне значення ознаки «маса». Таким чином, за­даючи конкретне значення фактора, ми можемо визначитиімовірне значення результата.

Якщо кореляційне поле досить витягнуте, його можна уявити і змоделювати у вигляді певної функції, в нашому прикладі лінійного рівняння (рівняння рег­ресії):

У=f(x)

де У— теоретичні значення результативної ознаки.

Тепер спробуємо собі уявити кореляційне поле, якщо раптом ми розглядаємо взаємозв'язок між ознаками «зріст—поверх». Мабуть, воно буде подібне до того, що зображене на рис. 5.5. Неважко дійти вис­новку: при відсутності зв'язку між ознаками кореля­ційне поле не має певної форми. По мірі зростання тісноти зв'язку окремі точки стягуються ближче до деякої уявної лінії - лінії регресії (див. рис.5.4)

Рис. 5.5. Кореляційне поле прикладу «зріст—поверх».

Кореляційно-регресійний аналіз складається із таких етапів:

• вибір форми регресії;

• визначення параметрів рівняння;

• оцінка тісноти зв'язку;

• перевірка істотності зв'язку.

При виборі функції використовують графіки, аналітичні групування, теоретичне обгрунтування. Можливий перебір функцій, коли обчислюють рівняння регресії різних видів і з них вибирають найкраще.

Найбільш поширена у статистичному аналізі лінійна функція

Параметр Ь називають коефіцієнтом регресії. Він показує, на скільки одиниць власного виміру в середньому змінюється значення ознаки У при збільшенні значення ознаки х на одиницю. Параметр а—це значення Упри х = 0.

Якщо х не може приймати нульового значення, то а економічно не інтерпретується і як вільний член рівняння регресії має тільки розрахункове значення.

Ми пропонуємо читачеві, спираючись на свій життєвий досвід, певні реальні значення параметрів для рівняння залежності маси людини від зросту. Іноді суть явища, яке вивчається, приводить до необхідності використання нелінійних рівнянь регресії. При цьому переважно використовують степеневу функцію:

У =axb; або гіперболу: У=а+b/x. .

 

Визначення параметрів рівняння регресії прово­диться методом найменших квадратів, основною умо­вою якого є мінімізація суми квадратів відхилень ем­піричних значень від теоретичних; це дає можливість отримати найкращі оцінки параметрів а і Ь:

Для їх обчислення складають і розв'язують систему нормальних рівнянь:

Для рішення системи використовують метод детермінантів:

Визначення тісноти зв'язку в КРА, як і в методі дисперсійного аналізу, грунтується на правилі скла­дання дисперсій, але якщо оцінками лінії регресії в першому методі були значення середніх групових, результативної ознаки, то в КРА — теоретичні значення останньої.

Дисперсію теоретичних значень називають факторною і обчислюють за формулою

Вона характеризує варіацію результативної ознаки, пов'язану з варіацією факторної ознаки. Замість середньої з групових дисперсій обчислюють залишкову, випадкову дисперсію:

Тоді загальна дисперсія розраховується за форму­лою

або

де yi фактичне значення результативної ознаки; Yiтеоретичне значення результативної ознаки; п — кількість рівней.

Вона характеризує варіацію результативної ознаки, не пов'язану з варіацією факторної ознаки. Мірою тісноти зв'язку в КРА є коефіцієнт детермінації, ана­логічний кореляційному відношенню:

де К2 коефіцієнт детермінації, σ2y — загальна дис­персія, σ2Y факторна дисперсія.

Він приймає значення від 0 (при відсутності лінійного зв'язку) до 1 (зв'язок між ознаками функціональний). Тіснота зв'язку характеризує також ін­декс кореляції:

Коли зв'язок між ознаками лінійний, використовують лінійний коефіцієнт кореляції, який, приймаючи значення від —1 до +1, характеризує не тільки тісноту зв'язку, а і його напрям. Його абсолютна величина збігається з індексом кореляції.

Його розраховують за наступною формулою:

Перевірку істотності зв'язку в КРА здійснюють за допомогою Р-критерія Фішера:

де т — число параметрів рівняння регресії.

Залежність між собівартістю одиниці продукції та обсягом її виробництва може приблизно бути представлена рівнянням двочленної гіперболічної регресії

виду У=а+b/x . Вона відрізняється від лінійної тільки

 

тим, що замість величини х там присутня 1/х. Тоді система нормальних рівнянь буде мати вигляд:

Для розв'язання цієї системи також використовують метод детермінантів:

Для розрахунку параметрів рівняння регресії, яка має форму степеневої функції, потрібно привести цю функцію до лінійного виду шляхом логарифмування:

1gУ=1gа+b1gx.

Отримане рівняння відрізняється від рівняння звичайної лінійної регресії тим, що замість У, х, а існують їхні логарифми.