9.2. Примеры статистического анализа интервальных данных
К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101
102 103 104 105 106 107 108 109 110 111
Поясним теоретические концепции статистики интервальных данных на простых примерах.
Пример 1. Оценивание математического ожидания. Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки (см. главу 4) - среднего арифметического результатов наблюдений, т.е.
Тогда Таким образом, нотна полностью известна и не зависит от многомерной точки, в которой берется. Вполне естественно: если каждый результат наблюдения известен с точностью до , то и среднее арифметическое известно с той же точностью. Ведь возможна систематическая ошибка - если к каждому результату наблюдению добавить , то и среднее арифметическое увеличится на .
Поскольку
то в обозначениях предыдущего пункта
Следовательно, рациональный объем выборки равен
Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку мало, это можно сделать обычным способом, например, с помощью несмещенной выборочной оценки дисперсии
Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют нам использовать s2(y) как оценку D(x1).
Итак, выборочной оценкой рационального объема выборки является
Уже на этом первом рассматриваемом примере видим, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий эконометрик. Например, если статистик знает, что то nrat = 36. А именно такова погрешность контрольных шаблонов во многих технологических процессах! Поэтому, занимаясь эконометрикой качества (см. главу 13), обратите внимание и на действующую на предприятии систему измерений.
По сравнению с главой 4 доверительный интервал для математического ожидания (для заданной доверительной вероятности ) имеет другой вид:
(4)
где - квантиль порядка (1+ )/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1..
По поводу формулы (4) была довольно жаркая дискуссия среди специалистов. Отмечалось, что она получена на основе Центральной Предельной Теоремы теории вероятностей и может быть использована при любом распределении результатов наблюдений (с конечной дисперсией). Если же имеется дополнительная информация, то, по мнению отдельных специалистов, формула (4) может быть уточнена. Например, если известно, что распределение xi является нормальным, в качестве u() целесообразно использовать квантиль распределения Стьюдента. К этому надо добавить, что по небольшому числу наблюдений нельзя надежно установить нормальность, а при росте объема выборки квантили распределения Стьюдента приближаются к квантилям нормального распределения. Вопрос о том, часто ли результаты наблюдений имеют нормальное распределение, подробно обсуждался в начале главы 4.
Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), имеем
Можно показать, что нотна Nf(y) сходится к
по вероятности с точностью до , когда n стремится к бесконечности. Это же предельное соотношение верно и для нотны Nf(х), вычисленной для исходных данных. Таким образом, в данном случае справедлива формула (2) с
Известно что случайная величина
является асимптотически нормальной с математическим ожиданием 0 и дисперсией Этот факт использовался в главе 4 для построения асимптотического доверительного интервала для дисперсии.
Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии (соответствующий доверительной вероятности ) имеет вид
где
где обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания математического ожидания.
Рациональный объем выборки для дисперсии равен
а выборочную оценку рационального объема выборки можно вычислить, заменяя теоретические моменты на соответствующие выборочные и используя доступные эконометрику результаты наблюдений, содержащие погрешности.
Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений является нормальным с математическим ожиданием 0 и дисперсией , то в результате вычисления моментов случайных величин в предыдущей формуле получаем, что
Например, если то Это меньше, чем при оценивании математического ожидания в предыдущем примере.
Поясним теоретические концепции статистики интервальных данных на простых примерах.
Пример 1. Оценивание математического ожидания. Пусть необходимо оценить математическое ожидание случайной величины с помощью обычной оценки (см. главу 4) - среднего арифметического результатов наблюдений, т.е.
Тогда Таким образом, нотна полностью известна и не зависит от многомерной точки, в которой берется. Вполне естественно: если каждый результат наблюдения известен с точностью до , то и среднее арифметическое известно с той же точностью. Ведь возможна систематическая ошибка - если к каждому результату наблюдению добавить , то и среднее арифметическое увеличится на .
Поскольку
то в обозначениях предыдущего пункта
Следовательно, рациональный объем выборки равен
Для практического использования полученной формулы надо оценить дисперсию результатов наблюдений. Можно доказать, что, поскольку мало, это можно сделать обычным способом, например, с помощью несмещенной выборочной оценки дисперсии
Здесь и далее рассуждения часто идут на двух уровнях. Первый - это уровень "истинных" случайных величин, обозначаемых "х", описывающих реальность, но неизвестных эконометрику. Второй - уровень известных эконометрику величин "у", отличающихся погрешностями от истинных. Погрешности малы, поэтому функции от х отличаются от функций от у на некоторые бесконечно малые величины. Эти соображения и позволяют нам использовать s2(y) как оценку D(x1).
Итак, выборочной оценкой рационального объема выборки является
Уже на этом первом рассматриваемом примере видим, что рациональный объем выборки находится не где-то вдали, а непосредственно рядом с теми объемами, с которыми имеет дело любой практически работающий эконометрик. Например, если статистик знает, что то nrat = 36. А именно такова погрешность контрольных шаблонов во многих технологических процессах! Поэтому, занимаясь эконометрикой качества (см. главу 13), обратите внимание и на действующую на предприятии систему измерений.
По сравнению с главой 4 доверительный интервал для математического ожидания (для заданной доверительной вероятности ) имеет другой вид:
(4)
где - квантиль порядка (1+ )/2 стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1..
По поводу формулы (4) была довольно жаркая дискуссия среди специалистов. Отмечалось, что она получена на основе Центральной Предельной Теоремы теории вероятностей и может быть использована при любом распределении результатов наблюдений (с конечной дисперсией). Если же имеется дополнительная информация, то, по мнению отдельных специалистов, формула (4) может быть уточнена. Например, если известно, что распределение xi является нормальным, в качестве u() целесообразно использовать квантиль распределения Стьюдента. К этому надо добавить, что по небольшому числу наблюдений нельзя надежно установить нормальность, а при росте объема выборки квантили распределения Стьюдента приближаются к квантилям нормального распределения. Вопрос о том, часто ли результаты наблюдений имеют нормальное распределение, подробно обсуждался в начале главы 4.
Пример 2. Оценивание дисперсии. Для статистики f(y) = s2(y), где s2(y) - выборочная дисперсия (несмещенная оценка теоретической дисперсии), имеем
Можно показать, что нотна Nf(y) сходится к
по вероятности с точностью до , когда n стремится к бесконечности. Это же предельное соотношение верно и для нотны Nf(х), вычисленной для исходных данных. Таким образом, в данном случае справедлива формула (2) с
Известно что случайная величина
является асимптотически нормальной с математическим ожиданием 0 и дисперсией Этот факт использовался в главе 4 для построения асимптотического доверительного интервала для дисперсии.
Из сказанного вытекает, что в статистике интервальных данных асимптотический доверительный интервал для дисперсии (соответствующий доверительной вероятности ) имеет вид
где
где обозначает тот же самый квантиль стандартного нормального распределения, что и выше в случае оценивания математического ожидания.
Рациональный объем выборки для дисперсии равен
а выборочную оценку рационального объема выборки можно вычислить, заменяя теоретические моменты на соответствующие выборочные и используя доступные эконометрику результаты наблюдений, содержащие погрешности.
Что можно сказать о численной величине рационального объема выборки? Как и в случае оценивания математического ожидания, она отнюдь не выходит за пределы обычно используемых объемов выборок. Так, если распределение результатов наблюдений является нормальным с математическим ожиданием 0 и дисперсией , то в результате вычисления моментов случайных величин в предыдущей формуле получаем, что
Например, если то Это меньше, чем при оценивании математического ожидания в предыдущем примере.