Выборочный метод

ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Г

ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

БОГДАНОВ А. Е.

( лекции )

( МК 2 )

( Математическая статистика )

Задача математической статистики – создание методов сбора и обработки статистических данных для получения научных и практических выводов.

 

 

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.

Пример.□ Если имеется партия деталей, то качественным признаком может быть стандартность детали, а количественным признаком – контролируемый размер детали. ■

Выборочной совокупностью или просто выборкой называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которой произведена выборка.

Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности.

Пример. □ Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки п = 100. ■

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект не возвращается в генеральную совокупность.

Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли, т.е. выборка должна быть репрезентативной (представительной).

Способы отбора:

1. отбор, не требующий расчленения генеральной совокупности на части:

а) простой (объекты извлекают по одному из всей генеральной совокупности) случайный бесповторный отбор;

б) простой случайный повторный отбор;

2. отбор, при котором генеральная совокупность разбивается на части:

а) типический отбор, при котором объекты отбираются не из всей генеральной совокупности, а из каждой ее “типической” части;

б) механический отбор, при котором генеральную совокупность “механически” делят на столько групп, сколько объектов должно войти в выборку, а из каждой группы отбирают один объект;

в) серийный отбор, при котором объекты отбирают из генеральной совокупности не по одному, а “сериями”, которые подвергают сплошному обследованию.

На практике часто используют комбинированный отбор, при котором сочетаются перечисленные ранее отборы.

 

Статистическое распределение выборки

 

Пусть из генеральной совокупности извлечена выборка, при этом значение х1 наблюдалось п1 раз, х2п2 раз, …, хkпk раз и = п – объем выборки.

Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом.

Числа наблюдений пi называют частотами, а их отношения к объему выборки = wiотносительными частотами.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Пример. На телефонной станции исследовался дискретный количественный признак Х – число неправильных соединений за четверть часа (15 мин.). Наблюдения в течение двух часов дали следующие результаты:

3, 1, 3, 1, 0, 2, 4, 2.

Составить распределения частот и относительных частот полученной выборки.

Запишем вариационный ряд

0, 1, 1, 2, 2, 3, 3, 4.

Распределение частот выборки имеет вид

хi 0 1 2 3 4

ni 1 2 2 2 1.

 

Найдем распределение относительных частот.

Известно, что wi = . Найдем объем выборки п == 1 + 2 + 2 + 2 + 1= 8. Тогда

w1 = = 0,125; w2 = = 0,25; w3 = = 0,25; w4 = = 0,25; w5 = = 0,125.

 

Распределение относительных частот:

хi 0 1 2 3 4

wi 0,125 0,25 0,25 0,25 0,125.

 

К о н т р о л ь:

=0,125+0,25+0,25+0,25+0,125 = 1.

Объем генеральной совокупности: так как в течение часа проводится четыре наблюдения, то за сутки (24 час.) имеем

N = 4·24 = 96.

 

Если количество вариант х слишком велико или близко к объему выборки, хmaxхmin ≥ 20 или рассматривается непрерывный признак генеральной совокупности, то статистическое распределение можно задать в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал). Все интервалы выбирают одинаковой длины таким образом, чтобы хmin вошло в первый, а хmax – в последний интервал. Обычно начало интервала входит в интервал, а его конец – не входит.

 

 

Эмпирическая функция распределения

Пусть известно статистическое распределение частот количественного признака Х. Введем обозначения: пх – число наблюдений, при которых наблюдалось значение признака, меньшее х; п – общее число наблюдений (объем выборки).

Тогда относительная частота события Х < x будет равна . Если х изменяется, то и частота изменяется, т.е. она является функцией : = . Так как эта функция находится эмпирическим (опытным, экспериментальным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения х относительную частоту события Х < x :

= ,

где пх – число вариант, меньших х; п – объем выборки.

Функцию распределения генеральной совокупности называют теоретической функцией распределения.

Эмпирическая функция распределения выборки служит оценкой (приближенным значением) теоретической функции распределения генеральной совокупности .

Функция обладает всеми свойствами функции :

1). значения функции принадлежат отрезку [0, 1];

2). − неубывающая функция;

3). если х1 – наименьшая варианта, то = 0 при хх1; если хk − наибольшая варианта, то = 1 при х > хk.

Эмпирическую функцию распределения можно вычислить по формуле:

 

Пример. Построить эмпирическую функцию по данному распределению выборки

 

хi 2 6 10

ni 12 18 30.

Найдем объем выборки п = :

п = 12 + 18 + 30 = 60.

 

Найдем значения искомой функции на всех интервалах:

х ≤ 2: = 0;

2 < x ≤ 6: = = 0,2;

6 < x ≤ 10: = = = 0,5;

x > 10: = 1

 

или

 

Построим график эмпирической функции распределения:

Полигон и гистограмма

 

Для наглядности строят графики статистического распределения: полигон и гистограмму.

Полигоном частот называют ломаную, отрезки которой соединяют точки (х1, п1), (х2, п2), …, (хk, пk).

Для построения полигона частот на оси абсцисс откладываются варианты хi, а на оси ординат – соответствующие им частоты ni. Точки (хi, пi) соединяются отрезками прямых и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки которой соединяют точки (х1, w1), (х2, w2), …, (хk, wk).

Построение аналогичное.

Пример. Построить полигон относительных частот по заданному распределению

хi 1,5 3,5 5,5 7,5

wi 0,1 0,2 0,4 0,3.

Полигон относительных частот имеет вид

 

В случае непрерывного признака целесообразно строить гистограмму. Для этого интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала пi – сумму частот вариант, попавших в i-й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии .

Площадь i-го частичного прямоугольника равна h·= пi, т.е. равна сумме частот вариант i-го интервала. Следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению (плотность относительной частоты).

Построение аналогичное.

Площадь i-го частичного прямоугольника равна h·= wi, т.е. равна относительной частоте вариант, попавших в i-й интервал.

Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. равна единице.

Пример. Построить гистограмму относительных частот по данному распределению выборки непрерывного признака

хi 0 1 2 3 4 5

ni 7 8 10 15 20 20

Разобьем интервал 0 – 5 на частичные интервалы [хi, хi+1); i = 1, 2,…, т.

Пусть h = 2, тогда получим интервалы 0 – 2, 2 – 4, 4 – 6.

Построим таблицу

 

Номер интервала, i Частичный интервал, [xi, xi+1) Сумма частот вариант частичного интервала, пi
0 – 2 2 – 4 4 – 6

 

Найдем объем выборки:

п = = 15 + 25 + 40 = 80.

 

Найдем относительные частоты для каждого частичного интервала, учитывая, что wi = :

w1 = = 0,1875; w2 = = 0,3125; w3 = = 0,5.

Найдем плотность относительной частоты, учитывая, что h = 2 и :

 

= = 0,09375; = = 0,15625; = = 0,25.

 

Строим гистограмму