Сравнение эмпирического и равномерного распределений

Тема 8 Сравнение распределений

Использование критерия c²позволяет ответить на вопрос: с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в нескольких эмпирических распределениях. Этот критерий можно применять, если были зафиксированы частоты встречаемости признака. Алгоритм расчета c²можно пояснить на приведенных ниже примерах.

Исследовался вопрос о предпочтении в группе студентов одного из 4 видов напитков (было предложено назвать только один предпочитаемый из четырех). Данные опроса были сведены в следующую таблицу.

Pepsi cola	Coca cola	Sprite	Seven up

Можно ли сказать, что все эти напитки одинаково предпочитаемы, или один из них является более популярным? В принципе, из таблицы видно, что кока-кола имеет самый высокий рейтинг, а спрайт – самый низкий. Но насколько достоверно это различие? Для ответа на вопрос необходимо сравнить полученное эмпирическое распределение с теоретическим равномерным.

Решение задачи строится по следующему алгоритму.

1. Статистические гипотезы предлагается сформулировать следующим образом:

Н₀: Распределение предпочтений различных напитков значимо не отличается от равномерного распределения.

Н₁: Распределение предпочтений различных напитков значимо отличается от равномерного.

2. Для решения задачи необходимо подсчитать общее количество выборов.

Pepsi cola	Coca cola	Sprite	Seven up	Σ

^3.Следующий этап – составление таблицы для вычисления эмпирического значения c²

Первый столбец (f_э) содержит значения полученных при опросе эмпирических частот. Во втором столбце (f_т) представлены значения, которые получились бы, если бы предпочтения были распределены поровну. То есть во все ячейки заносятся значения полученные делением общего количества выборов на количество выбираемых напитков (38 / 4 = 9,5). Следующий столбец содержит разницу эмпирической и теоретической частот. Затем полученные разницы возводятся в квадрат, делятся на значения теоретических частот и суммируются.

f_э	f_т	f_э- f_т	(f_э- f_т)²	(f_э- f_т)²/ f_т
	9,5	0,5	0,25	0,03
	9,5	2,5	6,25	0,66
	9,5	-3,5	12,25	1,29
	9,5	-1,5	2,25	0,24
				c²_эмп =1,22

Таким образом, эмпирический показатель рассчитывается по формуле:

4. Определяется степень свободы. Для таблиц такого типа формула имеет вид:

df = c – 1 , где c – это количество разрядов

В нашем случае df = 4 - 1 = 3.

5. При помощи таблицы критических значений сравниваем полученное эмпирическое значение с критическими.

df	р = 0,1	р = 0,05	р = 0,01	р = 0,001
	4,605	5,992	9,211	13,817
	6,251	7,815	11,346	16,269
	7,779	9,488	13,278	18,470

Эмпирический показатель (c²_эмп =1,22) в строке df = 3 находится левее значения 6,251. Это значит, что р-уровень результата находится левее уровня тенденции (р = 0,1). Таким образом, эмпирическое значение ниже критического при p ≤ 0,1:
c²_эмп < c²_кр (p ≤ 0,1) Þ Н₀!. Таким образом, нам необходимо принять нулевую гипотезу, мы доказали отсутствие значимых различий между распределением предпочтений различных напитков и равномерным распределением.

5rik.ru

Материалы для учебы и работы

Сравнение эмпирического и равномерного распределений