Сравнение выборок

 

При предварительном анализе данных наблюдений часто возникает необходимость сравнения двух или нескольких выборок данных, полученных в относительно разных условиях, чтобы решить одинаковы ли они, принадлежат ли одной генеральной совокупности, и тогда эти выборки при необходимости можно объединять для последующего анализа более мощного массива данных; или же выборки неодинаковы, а значит разница между ними не случайна и выборки не могут быть объединены.

Сравнивают выборки по их средним значениям [ 2 ]. Однако это сравнение производится по-разному в зависимости от того, как соотносятся между собой дисперсии этих выборок. Поэтому вначале определяют равны или не равны эти дисперсии.

 

 

а) Сравнение двух дисперсий

 

В качестве характеристики проверки гипотезы о равенстве дисперсий используется частное несмещённых оценок дисперсий генеральной совокупности:

,

 

где в числителе должна быть бо'льшая из двух оценок рассеяния (для того, чтобы значение Fрасч всегда было больше 1).

Доказано, что характеристика F имеет F-распределение с (n 1 – 1) и (n 2 – 1) степенями свободы. Критическая область для проверяемой гипотезы при уровне значимости α является односторонней и определяется соотношением F расч и F α . Величину F α определяем при уровне значимости α = 0,05 или α = 0,01 из Приложения 1.

Если F расч < F α , значит дисперсии равны (при этом не значит, чтобы были одинаковыми их численные выражения); если же F расч > F α , то дисперсии считаются не равными, и значит разница между выборками не случайна, и существуют какие-то для этого причины.

Например, сравним работу за месяц двух смен цеха флоут-стекла по производительности (съёму) процесса. Показатели работы смены № 1 – 1 = 101,29 т/сут; S21 = 0,0729 т/сут; n 1 = 16 смен; соответственно у смены № 2 - 2 = 101,69; S22 = 0,1369; n 2 = 14. Каждую группу можем считать случайной выборкой из нормальной генеральной совокупности.

По таблице F-распределения найдём при уровне значимости α = 0,05 и 16-1=15 и 14-1=13 степенях свободы F 0,05 = 2,53. Подсчитаем величину F расч = 14ּ15ּ0,1369 / 16ּ13ּ0,0729 = 1,896. Поскольку F расч < F 0.05 , то делаем вывод: существенной разницы между дисперсиями генеральных совокупностей не обнаружено и, следовательно, для сравнения средних арифметических можно применить t-критерий

 

б) Сравнение среднеарифметических при равных дисперсиях.

 

В качестве характеристики сравнения рассчитывают величину

 

.

 

Выборки считаются равными, если расчётная величина t оказывается больше, чем (- t α ), и меньше, чем ( t α ), т.е. находится внутри диапазона: - t α < t расч < t α .

Величина t α находится по таблице для t – распределения (см. Приложение 2) при уровне значимости α и числе степеней свободы

n 1 + n 2 – 2.

Продолжим сравнение выборок из предыдущего примера. По таблице t-распределения при α = 0,05 и 16 + 14 – 2 = 28 степенях свободы

t 0.05 = 2,048. Следовательно, критическая область определяется t < -2,048 и t >2,048. На основании данных выборок рассчитаем величину характеристики -1,353. Поскольку эта величина попадает в критическую область ( t = -1,353 < -2,048 ), значит сравниваемые выборки равны по своим средним арифметическим, разница между ними случайна и причины её не существенны.

 

в) Сравнение среднеарифметических при неравных дисперсиях.

 

При неравных дисперсиях среднеарифметические двух выборок сравнивают способом, также основанном на t – распределении, для которого двусторонняя симметричная критическая область определяется следующим образом.

Сначала рассчитывают величину t' по формуле:

 

,

 

которую сравнивают с величиной t", определяющей критическую область и рассчитываемой по формуле:

 

,

 

где t α (n 1 – 1) – значение при n 1 – 1 степенях свободы и уровне значимо-

сти α ; t α (n 2 – 1) – значение при n 2 – 1 степенях свобо-

ды и уровне значимости α . Эти значения находят в таб-

лице (см. Приложение 2).

В результате, если расчётная величина t' < t" , то с полным основанием можно говорить о равенстве сравниваемых среднеарифметических.

В качестве примера сравним выработки листового стекла марки М-1 дневной (с 8-00 до 20-00 час) и ночной (с 20-00 до 8-00 час) смен в течении месяца. Параметр выражается в процентах полученного сортового стекла от сформованного. Характеристики работы дневной смены: 1= 48,35 %; S21 = 289; n 1 = 31; соответственно у ночной - 2 = 50,63 %; S22 = 150; n 2 = 31.

Сначала сравним выборки по дисперсиям. По таблице F-распреде –

ления находим при уровне значимости α = 0,05 и 31-1=30 и 31-1=30 степенях свободы F 0,05 = 1,84. F расч = . Поскольку F расч > F α , то дисперсии считаются неравными и сравнение средних арифметических производят по приближённому t- критерию.

По таблице t – распределения при 5%-ном уровне значимости t 0,05 для обоих выборок одинакова и равна 2,042. Определим критическую область:

t" = , а t' = , то есть

t' < t" и значит средние арифметические сравниваемых выборок одинаковы.

Общий вывод: хотя в дневную смену есть причины для большей вариации технологического процесса, в среднем за данный месяц практически не отстала от ночной смены.

Примером анализа работы цеха можно взять сравнение выборок результатов работы смен и бригад (пример 4 из «Практикума»).

Сравнение результатов работы бригад показывает

 

Бригада Ср. знач. съёма, % Станд.отклон.
71.286 9.619
69.8 17.827
63.344 19.772
68.714 16,504

 

что хуже всех работает 3 бригада.

Среди других версий была сделана попытка оценить, каковы результаты работы 3 бригады после приёма смены от 1, 2 и 4 бригад. В нижеприведённой таблице представлены данные работы цеха за 2 месяца:

 

 

После 1 бр. 20,5   Сред.
После 2 бр. 70,2
После 4 бр.     65,2

 

Таким образом, 3 бригада работает хуже после 1 бригады. Причины этого следует искать дальше, в том числе в социальной сфере.