Дисперсию, размах ряда распределения.


 
 

Пусть среди n событий случайная величина хi повторяется ni раз, величина х2 – n2 раза и т.д. Тогда среднеарифметическое значение х имеет вид

Размах можно использовать для ориентировочной оценки вариации ряда событий:

 

R = хmax – xmin ,

где xmax, хmin — максимальное и минимальное значения измеренной величины или погрешности.

 
 

Если вместо эмпирических частот у1, ..., уn принять их вероятности p1, …, рn, то это даст важную характеристику распределения - математическое ожидание:

Пусть, например, имеется пять измерений одной выборки: x1 = l; x2 = 2; х3 = 3; x4 = 4; х5 = 5 с вероятностями p1 = 0,10; р2 = 0,15; р3 = 0,45; p4 = 0,30; p5 = 0. В этом случае среднее значение х = 15/5 = 3,0, а математическое ожидание составит m(х) 1·0,10 +2·0,15 +3·0,45 +4·0,30+5·0=2,95.

 
 

Для непрерывных случайных величин математическое ожидание определяется интегралом

т. е. оно равно действительному значению хд наблюдаемых событий. Таким образом, если систематические погрешности измерении полностью исключены, то истинное значение измеряемой величины равно математическому ожиданию, а соответствующая ему абсцисса называется центром распределения. Площадь, расположенная под кривой распределения (рис. 6.10), соответствует единице вследствие того, что кривая охватывает все результаты измерений. Для одной и той же площади можно построить большое количество кривых распределения, т. е. они могут иметь различное рассеяние. Мерой рассеяния (точности измерений) является дисперсия и среднеквадратичное отклонение. Таким образом, дисперсия характеризует рассеивание случайной величины по отношению к

 
 

математическому ожиданию и вычисляется с помощью формулы

 

Для рассмотренного выше примера D(x) = (1 — 2,95)2 • 0,10 + (2 — 2,95)2 • 0,15 + (3 — 2,95)2 · 0,45 + (4 — 2,95)2 • 0,30 + (5 — 2,95)2 • 0 = 0,83.

 
 

Важной характеристикой теоретической кривой распределения является среднеквадратичное отклонение:

 

 
 

Коэффициент вариации

применяется для сравнения интенсивности рассеяния в различных совокупностях, определяется в относительных единицах (kв<1).

Выше были рассмотрены основные характеристики теоретической кривой распределения, которые анализирует теория вероятностей. В статистике оперируют с эмпирическими распределениями. Основной задачей статистики является подбор теоретических кривых по имеющемуся эмпирическому закону распределения. Пусть

 
 

в результате n измерений случайной величины получен ряд ее значений х1, х2, х3, .., хn. При первичной обработке таких рядов их вначале группируют в интервалы и устанавливают для каждого из них частоты у1 и y*0i. По значениям x1 и y0i строят ступенчатую гистограмму частот и вычисляют характеристики эмпирической кривой распределения. Основными характеристиками эмпирического распределения являются среднеарифметическое значение

 
 

дисперсия

 

и среднеквадратичное отклонение σ = D1/2. Значения этих величин соответствуют величинам х*, D(x) и σ(х) теоретического распределения.

В исследованиях наиболее часто применяется закон нормального распределения (рис. 6.11)

Это уравнение соответствует функции нормального распределения (рис. 6.11, а). Если совместить ось ординат с точкой т, т. е. m0(х)=0 (рис 6.11,б), и принять 1/σ = 1, то нормальное распределение описываются зависимостью

 

Специальные статистические методы обнаружения и устранения систематических погрешностей. К ним относятся способ последовательных разностей, дисперсионный анализ, и др. Рассмотрим подробнее некоторые из них.

Способ последовательных разностей (критерий Аббе). Применяется для обнаружения изменяющейся во времени систематической погрешности и состоит в следующем. Дисперсию результатов наблюдений можно оценить двумя способами: обычным

и вычислением суммы квадратов последовательных (в порядке проведения измерений) разностей (xi +1 - xi)2

Если в процессе измерений происходило смещение центра группирования результатов наблюдений, т.е. имела место переменная систематическая погрешность, то σ2 [x] дает преувеличенную оценку дисперсии результатов наблюдений. Это объясняется тем, что на σ2 [x] влияют вариации x*. В то же время изменения центра группирования х* весьма мало сказываются на значениях последовательных разностей di = (xi + 1 - xi), поэтому смещения х* почти не отразятся на значении Q2[x].

Отношение v = Q2[x]/σ2[x] является критерием для обнаружения систематических смещений центра группирования результатов наблюдений. Критическая область для этого критерия (критерия Аббе) определяется как P(v < vq) = q, где q = 1 - Р — уровень значимости, Р — доверительная вероятность. Значения v, для различных уровней значимости q и числа наблюдений n приведены в табл. 5.1. Если полученное значение критерия Аббе меньше vqпри заданных q и n, то гипотеза о постоянстве центра группирования результатов наблюдений отвергается, т.е. обнаруживается переменная систематическая погрешность результатов измерений.

 

Таблица 5.1 - Значение критерия Аббе

  n vq при q, равном   n vq при q, равном
0,001 0,01 0,05 0,001 0,01 0,05
0,295 0,313 0,390 0,295 0,431 0,578
0,208 0,269 0,410 0,311 0,447 0,591
0,182 0,281 0,445 0,327 0,461 0,603
0,185 0,307 0,468 0,341 0,474 0,614
0,202 0,331 0,491 0,355 0,487 0,624
0,221 0.354 0,512 0,368 0.499 0,633
0,241 0,376 0,531 0,381 0,510 0,642
0.260 0,396 0,548 0,393 0,520 0,650
0,278 0,414 0,564        
                 

Пример. Используя способ последовательных разностей, определить, присутствует ли систематическая погрешность в ряду результатов наблюдений, приведенных во втором столбце табл. 5.2.

Для приведенного ряда результатов вычисляем: среднее арифметическое х* = 154,0/11 = 14; оценку дисперсии σ2[х] = 2,58/10 = 0,258; значение Q2[x] = 412/(2 ·10) = 0,206; критерий Аббе v = 0,206/0,258 = 0,8.

Как видно из табл. 5.1, для всех уровней значимости (q = 0,001; 0,01 и 0,05) при n = 11 имеем v > vq, т.е. подтверждается нулевая гипотеза о постоянстве центра группирования. Следовательно, условия измерений для приведенного ряда оставались неизменными и систематических расхождений между результатами наблюдений нет.

 

Таблица 5.2 - Результаты наблюдений

 

n xi di = xi +1 – xi di 2 vi = xi – x* vi 2
13,4 - - -0,6 0,36
13,3 -0,1 0,01 -0,7 0,49
14,5 + 1,2 1,44 +0,5 0,25
13,8 -0,7 0,49 -0,2 0,04
14,5 +0,7 0,49 +0,5 0,25
14,6 +0,1 0,01 +0,6 0,36
14,1 -0,5 0,25 +0,1 0,01
14,3 +0,2 0,04 +0,3 0,09
14,0 +0,3 0,09 0,0 0,0
14,3 +0,3 0,09 +0,3 0,09
13,2 -1,1 1,21 -0,8 0,64
Σ 154,0 -0,2 4,12 0,0 2,58

 

Дисперсионный анализ (критерий Фишера). В практике измерений часто бывает необходимо выяснить наличие систематической погрешности результатов наблюдений, обусловленной влиянием какого-либо постоянно действующего фактора, или определить, вызывают ли изменения этого фактора систематическое смещение результатов измерений. В данном случае проводят многократные измерения, состоящие из достаточного числа серий, каждая из которых соответствует определенным (пусть неизвестным, но различным) значениям влияющего фактора. Влияющими факторами, по которым производится объединение результатов наблюдений по сериям, могут быть внешние условия (температура, давление и т.д.), временная последовательность проведения измерений и т.п.

После проведения N измерений их разбивают на s серий (s > 3) по ni результатов наблюдений (snj, = N) в каждой серии и затем устанавливают, имеется или отсутствует систематическое расхождение между результатами наблюдений в различных сериях. При этом должно быть установлено, что результаты в сериях распределены нормально. Рассеяние результатов наблюдений в пределах каждой серии отражает только случайные влияния, характеризует лишь случайные погрешности измерений в пределах этой серии.

Характеристикой совокупности случайных внутрисерийных погрешностей будет средняя сумма дисперсий результатов наблюдений, вычисленных раздельно для каждой серии, т.е.

Внутрисерийная дисперсия σ2 вс характеризует случайные погрешности измерений, так как только случайные влияния обусловливают те различия (отклонения результатов наблюдений), на которых она основана. В то же время рассеяние хj *, различных серий обусловливается не только случайными погрешностями измерений, но и систематическими различиями (если они существуют) между результатами наблюдений, сгруппированными по сериям. Следовательно, усредненная межсерийная дисперсия

где выражает силу действия фактора, вызывающего систематические различия между сериями.

Таким образом, σвс2/(σвс2 + σмс2) характеризует долю дисперсии всех результатов наблюдений, обусловленную наличием случайных погрешностей измерений, а σмс2/(σвс2 + σмс2) — долю дисперсии, обусловленную межсерийными различиями результатов наблюдений. Первую из них называют коэффициентом ошибки, вторую — показателем дифференциации. Чем больше отношение показателя дифференциации к коэффициенту ошибки, тем сильнее действие фактора, по которому группировались серии, и тем больше систематическое различие между ними.

Критерием оценки наличия систематических погрешностей в данном случае является дисперсионный критерий Фишера F = σмс2вс2. Критическая область для критерия Фишера соответствует P(F > Fq) = q.

Значения Fq для различных уровней значимости q, числа измерений N и числа серий s приведены в приложении 1, где k2 = N-s, k1= s — 1. Если полученное значение критерия Фишера больше Fq (при заданных q, N и s), то гипотеза об отсутствии систематических смещений результатов наблюдений по сериям отвергается,т.е. обнаруживается систематическая погрешность, вызываемая тем фактором, по которому группировались результаты наблюдений.

Пример 5.4. Было сделано 38 измерений диаметра детали восемью различными штангенциркулями. Каждым из них проводились по пять измерений. Внутрисерийная дисперсия равна 0,054 мм2, межсерийная — 0,2052 мм2. Определить наличие систематической погрешности измерения диаметра детали. Расчетное значение критерия Фишера F = 0,2052/0,054 = 3,8. Для s-1 = 7, N-s = 30 по таблице значений критерия Фишера имеем при q = 0,05 F0,05 = 2,3 и при q = 0,01 F0,01 = 3,3. Полученное значение F больше, чем 2,3 и 3,3. Следовательно, в результатах наблюдений обнаруживается наличие систематических погрешностей.

Из всех рассмотренных способов обнаружения систематических погрешностей дисперсионный анализ является наиболее эффективным и достоверным, так как позволяет не только установить факт наличия погрешности, но и дает возможность проанализировать источники ее возникновения.

Критерий Вилкоксона. Если закон распределения результатов измерений неизвестен, то для обнаружения систематической погрешности применяют статистический критерий Вилкоксона.

Из двух групп результатов измерений х1, х2,..., хn и у1 у2,…, уm, где n ≥ m ≥ 5, составляется вариационный ряд, в котором все n + m значений х1, х2,..., хn; у1, у2,...,ym располагают в порядке их возрастания и приписывают им ранги — порядковые номера членов вариационного ряда. Различие средних значений каждого из рядов можно считать допустимым, если выполняется неравенство

где R1 — ранг (номер) члена хi, равный его номеру в вариационном ряду; Тq- и Tq+—нижнее и верхнее критические значения для выбранного уровня значимости q. При m < 15 эти критические значения определяются по табл. 5.3. При m >15 они рассчитываются по формулам:

где zp— квантиль нормированной функции Лапласа.

Более полная таблица значений критических значений Тq- и Тq+ приведена в рекомендации МИ 2091-90 ГСИ. Измерения физических величин. Общие требования".

Исключение систематических погрешностей путем введения поправок. В ряде случаев систематические погрешности могут быть вычислены и исключены из результата измерения. Для этого используются поправки. Поправка Сj — величина, одноименная измеряемой, которая

Таблица5.3

 

Критические значения Тq- и Тq+ при q = 0,05 и 0,01.

 

n   m   q = 0,05 q = 0,01
Tq- Tq+ Tq- Tq+

 

 

вводится в результат измерения хi = xi` + Qj + Сj с целью исключения составляющих систематической погрешности Qj. При СJ = - Qj j-я составляющая систематической погрешности полностью устраняется из результата измерения. Поправки определяются экспериментально или в результате специальных теоретических исследований. Они задаются в виде таблиц, графиков или формул.

Введением одной поправки устраняется влияние только одной составляющей систематической погрешности. Для устранения всех составляющих в результат измерения приходится вводить множество поправок. При этом вследствие ограниченной точности определения поправок случайные погрешности результата измерения накапливаются и его дисперсия увеличивается. Так как поправка известна с определенной точностью, то она характеризуется статистически — средним значением поправки С и СКО Sc. При исправлении результата хi` путем введения поправок Сj где j = l, 2,..., m, по формуле

дисперсия исправленного результата

где Sн2 — оценка дисперсии неисправленного результата; Scj2 —оценка дисперсии j-й поправки. Как видно, с одной стороны, уточняется результат измерения, а с другой — увеличивается разброс за счет роста дисперсии. Следовательно, необходимо найти оптимум.

 
 

Пусть при измерении постоянной величины Q получено (рис.5.1) значение Q = х*' ± tpS, где х*'— оценка среднего арифметического неисправленного результата измерений; tp — коэффициент Стьюдента.

После введения поправки С ± tpSc результат измерения

 

Максимальные доверительные значения погрешности результата измерения до и после введения поправки равны соответственно

Поправку имеет смысл вводить до тех пор, пока Δ1 < Δ2. Отсюда следует, что

Если Sс/S << 1, то, раскладывая уравнение в степенной ряд, получим С > 0,5 S2c / S2 . Из этого неравенства видно, что если оценка среднего квадратического отклонения поправки Sc → 0, то поправку имеет смысл вводить всегда.

В практических расчетах погрешность результата обычно выражается не более чем двумя значащими цифрами, поэтому поправка, если она меньше пяти единиц младшего разряда, следующего за последним десятичным разрядом погрешности результата, все равно будет потеряна при округлении и вводить ее не имеет смысла.

Пример. Напряжение источника ЭДС Ux с внутренним сопротивлением Ri = 60±10 Ом измерено вольтметром класса точности 0,5. Сопротивление вольтметра Rv = 5 кОм и известно с погрешностью +0,5%. Показание вольтметра Uv = 12,35 В. Найти поправку, которую нужно внести в показание прибора для определения действительного значения напряжения источника ЭДС.

Показания вольтметра соответствуют падению напряжения на нем:

Относительная систематическая методическая погрешность, обусловленная ограниченным значением сопротивления Rv,

Поправка равна абсолютной погрешности, взятой с обратным знаком: Δс= 0,012·12,35 = 0,146 В. Погрешность полученного значения поправки определяется погрешностью, с которой известно сопротивление Ri. Ее предельное значение составит 10/60 = 0,167. Погрешностью из-за неточности оценки Rv, равной 0,005, можно пренебречь. Следовательно, погрешность определения поправки Δ = ±0,167-0,146 ≈ 0,03 В.

Таким образом, поправка, которую необходимо ввести в показания вольтметра с учетом округления ΔU = +0,15 В. Тогда исправленное значение U'x = 12,35+0,15 = 12,50 В. Этот результат имеет определенную погрешность, в том числе неисключенный остаток систематической погрешности Δ = ± 0,03 В или δ = + 0,24% из-за потребления некоторой

мощности вольтметром.

Суммирование систематических погрешностей. Независимо от того, к какому виду относится измерение, является ли оно прямым, косвенным, совместным или совокупным, систематическая погрешность результата измерения оценивается, как правило, по ее известным составляющим. Поскольку в каждом конкретном случае каждая систематическая состав­ляющая получает конкретную реализацию (она либо постоянная, либо известен закон ее изменения), то результирующая, суммарная система­тическая погрешность представляет собой алгебраическую сумму со­ставляющих.

 

6. Обработка результатов экспериментальных исследований

 

6.1 Основы теории случайных ошибок и методов оценки случайных погрешностей в измерениях

 

Анализ случайных погрешностей основывается на тео­рии случайных ошибок, дающей возможность с опреде­ленной гарантией вычислить действительное значение измеренной величины и оценить возможные ошибки.

Основу теории случайных ошибок составляют пред­положения о том, что при большом числе измерений слу­чайные погрешности одинаковой величины, но разного знака встречаются одинаково часто; большие погрешно­сти встречаются реже, чем малые (вероятность появления погрешности уменьшается с ростом ее величины); при бесконечно большом числе измерений истинное зна­чение измеряемой величины равно среднеарифметичес­кому значению всех результатов измерений, а появление того или иного результата измерения как случайного со­бытия описывается нормальным законом распределения.

Различают генеральную и выборочную совокупность измерений. Под генеральной совокупностью подразуме­вают все множество возможных значений измерений xi или возможных значений погрешностей Δxi. Для выбо­рочной совокупности число измерений n ограничено, и в каждом конкретном случае строго определяется. Обычно считают, если n > 30, то среднее значение дан­ной совокупности измерений х достаточно приближается к его истинному значению.

Теория случайных ошибок позволяет оценить точ­ность и надежность измерения при данном количестве замеров или определить минимальное количество заме­ров, гарантирующее требуемую (заданную) точность и надежность измерений. Наряду с этим возникает необходимость исключить грубые ошибки ряда, определить достоверность полученных данных и др.

Интервальная оценка с помощью доверительной веро­ятности.Для большой выборки и нормального закона распределения общей оценочной характеристикой изме­рения являются дисперсия D и коэффициент вариа­ции kB:

D = σ2 =Σ(xi –x)2/(n-1); kB = σ/x. (1)

Дисперсия характеризует однородность измерения. Чем выше D, тем больше разброс измерений. Коэффици­ент вариации характеризует изменчивость. Чем выше kB, тем больше изменчивость измерений относительно сред­них значений, kB оценивает также разброс при оценке нескольких выборок.

Доверительным называется интервал значений xi, в который попадает истинное значение хд измеряемой величины с заданной вероятностью. Доверительной ве­роятностью (достоверностью) измерения называется вероятность того, что истинное значение измеряемой ве­личины попадает в данный доверительный интервал, т. е. в зону a ≤ xд ≤ b. Эта величина определяется в долях еди­ницы или в процентах. Доверительная вероятность рд описывается выражением

Рд = р[а ≤ хд ≤ b] = (1/2) [φ (b - х)/σ - φ(а - х)/ σ],

где φ(t) - интегральная функция Лапласа (табл. 1), определяемая выражением

φ(t) = .

Аргументом этой функции является отношение µ к сред­неквадратичному отклонению σ, т.е.

t =µ/σ, (2)

где t - гарантийный коэффициент;

µ = b - х, µ = а - х.

Если же на основе определенных данных установлена доверительная вероятность рд (часто ее принимают рав­ной 0,90; 0,95; 0,9973), то устанавливается точность из­мерений (доверительный интервал 2µ) на основе соот­ношения рд = φ(µ/σ). Половина доверительного интерва­ла равна

µ= σ arg φ(рд) = σt, (3)

где arg φ(рд) - аргумент функции Лапласа, а при n < 30 — функции Стьюдента (табл. 2). Доверительный интервал характеризует точность измерения данной вы­борки, а доверительная вероятность - достоверность из­мерения. Пусть, например, выполнено 30 измерений проч­ности покрытия участка автомобильной дороги при среднем модуле упругости покрытия Е=170 МПа и вычисленном значении среднеквадратического откло­нения σ = 3,1 МПа.

 

Таблица 1. Интегральная функция Лапласа

  t   pд   t   pд   t   pд
0,00 0,0000 0,75 0,5467 1,50 0,8664
0,05 0,0399 0,80 0,5763 1,55 0,8789
0,10 0,0797 0,85 0,6047 1,60 0,8904
0,15 0,1192 0,90 0,6319 1,65 0,9011
0,20 0,1585 0,95 0,6579 1,70 0,9109
0,25 0,1974 1,00 0,6827 1,75 0,9199
0,30 0,2357 1,05 0,7063 1,80 0,9281
0,35 0,2737 1,10 0,7287 1,85 0,9357
0,40 0,3108 1,15 0,7419 1,90 0,9426
0,45 0,3473 1,20 0,7699 1,95 O.P488
0,50 0,3829 1,25 0,7887 2,00 0,9545
0,55 0,4177 1,30 0,8064 2,25 0,9756
0,60 0,4515 1,35 0,8230 2,50 0,9876
0,65 0,4843 1,40 0,8385 3,00 0,9973
0,70 0,5161 1,45 0,8529 4,00 0,9999

Требуемую точность измерений можно определить для разных уровней доверительной вероятности (рд = 0,9; 0,95; 0,9973), приняв значения t по табл.1. В этом случае соответственно µ = ±3,1 · 1,65 = 5,1; ±3,1 · 2,0 = 6,2; ±3,1 · 3,0 = 9,3 МПа. Следовательно, для данного сред­ства и метода доверительный интервал возрастает при­мерно в два раза, если увеличить рд только на 10%.

Если необходимо определить достоверность измерений для установленного доверительного интервала, напри­мер µ = ±7 МПа, то по формуле t =µ/σ = 7/3,1 = = 2,26. По табл.1 для t =2,26 определяем рд=0,97. Это означает, что в заданный доверительный интервал из 100 измерений не попадают только три.

Значение (1 - рд) называют уровнем значимости. Из него следует, что при нормальном законе распреде­ления погрешность, превышающая доверительный интер­вал, будет встречаться один раз из nи измерений, где

nи = рд /(1 – рд) (4)

или иначе приходится браковать одно из nи измерений.

По данным приведенного выше примера можно вы­числить количество измерений, из которых одно изме­рение превышает доверительный интервал. По формуле (4) при рд = 0,9; определяется nи = 0,9/(1 - 0,9) = 9 из­мерений. При рд, равной 0,95 и 0,9973, соответственно 19 и 367 измерениий