Формулюються статистичні гіпотези.

Порівняння емпіричних розподілів.

Під час проведення соціологічного опитування старшокласникам було запропоновано відповісти, якому з трьох можливих напрямків навчання (математичне, природно-наукове або гуманітарне) вони віддадуть перевагу надалі. Серед опитаних були і юнаки і дівчата. Дані зведені в таблицю крос-табуляції. Чи можна сказати, що перевага того чи іншого напряму навчання якось пов'язано з гендерним фактором?

Вихідні дані

 

  математика Природничі науки Гуманітарні науки
Юнаки
Дівчата

 

Взагалі візуальний аналіз таблиці дозволяє припустити, що юнаки більше бажають спеціальності, пов'язані з математикою, а дівчата - гуманітарні. Але як це довести за допомогою результатів статистичної обробки? Для цього треба порівняти чоловічий і жіночий розподіл переваг напрямків навчання.

До речі, не з усякими зведеними в таблицю даними можна здійснювати подібне порівняння. Вся справа в тому, що для застосування даного критерію є обмеження:

1) загальна сума частот по всім клітинкам повинна бути не менше 30 (n>30);

2) показники теоретичних частот (не емпіричних, а тільки теоретичних!) повинні бути не менше 5 (fT >5). Рішення нашої задачі будується за наступним алгоритмом.

Н0: розподіли переваг напрямів навчання в юнаків і у дівчат значно не відрізняються від випадкових.

Н1: розподіли переваг напрямів навчання в юнаків і у дівчат значно відрізняються від випадкових.

2. У таблиці підраховуються суми частот по рядках і по стовпцях.

  Математика Природничі науки Гуманітарні науки Сума частот по рядках
Юнаки
Дівчата
Сума частот по стовпцях Загальна сума частот=65

3. Складається таблиця вирахування емпіричного значення χ.2 У нульовому стовпці представлені дані по статі та вибору профілю навчання. У перший стовпець (fе) заносяться значення емпіричних частот з попередньої таблиці. У другому стовпці (fT) – похідні суми рядків на суму стовпців для відповідної клітинки, поділені на загальну суму частот (у нашому випадку–65). Це так звані теоретичні частоти, тобто значення, які могли вийти, якщо б не було значимих переваг у виборі (якщо б розподіли частот були незалежними). На цьому етапі ми відзначаємо, що таблиця відповідає вимогам щодо використання даного критерію (n > 30 і fT >5). Третій стовпець містить результати обчислення виразів попереднього стовпця. Четвертий – різниця емпіричної та теоретичної частот. Потім отримані різниці зводяться в квадрат, діляться на теоретичні частоти і додаються.

  fе fT fT fе fT (fе fT)2 (fе fT)2/ fT
Юнаки-математики 31·28/65 13,35 4,65 21,59 1,62
Юнаки-природничі науки 31·19/65 9,06 0,94 0,88 0,10
Юнаки-гуманітарні науки 31·18/65 8,58 -5,58 31,19 3,64
Дівчата-математики 34·28/65 14,65 -4,65 21,59 1,47
Дівчата-природничі науки 34·19/65 9,94 -0,94 0,88 0,09
Дівчата-гуманітарні науки 34·18/65 9,42 5,58 31,19 3,31
  10,23

Як і в попередньому випадку, емпіричний показник розраховується за формулою:

 

4. Визначаємо ступінь свободи. Для таблиці крос-табуляції з числом рядків, від двох і більше, формула виглядає дещо іншою ніж в попередніх випадках:

df=(k–1)(c–1)

df=(21)(31)=2

 

де k– кількість розрядів ознаки (рядків в таблиці емпіричних частот)

с – кількість розподілів для порівняння (стовпчиків в таблиці емпіричних частот)

За допомогою таблиці критичних значень порівнюємо отримане емпіричне значення з критичним (Табл. 4.6).

 

df p=0,05 p=0,01
5,991 9,210

 

Будуємо «вісь значимості»

Емпіричне значення (χ2емп=10,22) в необхідному рядку знаходиться правіше значення 9,210, відповідного р=0,01. Тобто р-рівень менше 0,01. Таким чином, емпіричне значення перевищує необхідне критичне для рівня р <0,01 (висока статистична значимість): χ2емп ˃ χ2кр. (р≤0,01) приймаємо Н1. Ми довели залежність переваги у виборі профілю подальшого навчання від статі респондента на рівні високої статистичної значущості. Таким чином, представники різних статей значно частіше бажають різні напрями навчання.