Сравнение эмпирического и равномерного распределений

Тема 8 Сравнение распределений

Использование критерия c2 позволяет ответить на вопрос: с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в нескольких эмпирических распределениях. Этот критерий можно применять, если были зафиксированы частоты встречаемости признака. Алгоритм расчета c2 можно пояснить на приведенных ниже примерах.

Исследовался вопрос о предпочтении в группе студентов одного из 4 видов напитков (было предложено назвать только один предпочитаемый из четырех). Данные опроса были сведены в следующую таблицу.

 

Pepsi cola Coca cola Sprite Seven up

 

Можно ли сказать, что все эти напитки одинаково предпочитаемы, или один из них является более популярным? В принципе, из таблицы видно, что кока-кола имеет самый высокий рейтинг, а спрайт – самый низкий. Но насколько достоверно это различие? Для ответа на вопрос необходимо сравнить полученное эмпирическое распределение с теоретическим равномерным.

Решение задачи строится по следующему алгоритму.

1. Статистические гипотезы предлагается сформулировать следующим образом:

Н0: Распределение предпочтений различных напитков значимо не отличается от равномерного распределения.

Н1: Распределение предпочтений различных напитков значимо отличается от равномерного.

2. Для решения задачи необходимо подсчитать общее количество выборов.

 

Pepsi cola Coca cola Sprite Seven up Σ

 

3. Следующий этап – составление таблицы для вычисления эмпирического значения c2

Первый столбец (fэ) содержит значения полученных при опросе эмпирических частот. Во втором столбце (fт) представлены значения, которые получились бы, если бы предпочтения были распределены поровну. То есть во все ячейки заносятся значения полученные делением общего количества выборов на количество выбираемых напитков (38 / 4 = 9,5). Следующий столбец содержит разницу эмпирической и теоретической частот. Затем полученные разницы возводятся в квадрат, делятся на значения теоретических частот и суммируются.

 

fэ fт fэ- fт (fэ- fт)2 (fэ- fт) 2/ fт
9,5 0,5 0,25 0,03
9,5 2,5 6,25 0,66
9,5 -3,5 12,25 1,29
9,5 -1,5 2,25 0,24
        c2 эмп =1,22

Таким образом, эмпирический показатель рассчитывается по формуле:

4. Определяется степень свободы. Для таблиц такого типа формула имеет вид:

df = c – 1 , где c – это количество разрядов

В нашем случае df = 4 - 1 = 3.

5. При помощи таблицы критических значений сравниваем полученное эмпирическое значение с критическими.

 

df р = 0,1 р = 0,05 р = 0,01 р = 0,001
4,605 5,992 9,211 13,817
6,251 7,815 11,346 16,269
7,779 9,488 13,278 18,470

 

Эмпирический показатель (c2 эмп = 1,22) в строке df = 3 находится левее значения 6,251. Это значит, что р-уровень результата находится левее уровня тенденции (р = 0,1). Таким образом, эмпирическое значение ниже критического при p ≤ 0,1:
c2эмп < c2кр (p ≤ 0,1) Þ Н0!. Таким образом, нам необходимо принять нулевую гипотезу, мы доказали отсутствие значимых различий между распределением предпочтений различных напитков и равномерным распределением.