4.3. Непараметрическое доверительное оценивание  характеристик распределения

К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 

 

                Пусть исходные данные –это выборка x1, x2, … , xn , где n – объем выборки. Выборочные значения x1, x2, … , xn рассматриваются как реализации независимых одинаково распределенных случайных величин X1, X2, … , Xn с общей функцией распределения F(x) = P (Xi < x), i = 1,2, …, n. Поскольку функция распределения произвольна (с точностью до условий регулярности типа существования моментов), то рассматриваемые задачи доверительного оценивания характеристик распределения являются непараметрическими. Существование моментов является скорее математическим ограничением, чем реальным, поскольку практически все реальные статистические данные финитны (ограничены сверху и снизу, например, шкалой прибора). 

В расчетах будут использоваться выборочное среднее арифметическое

M = (X1 + X2  +… + X n ) / n,

выборочная дисперсия

S2  = { (X1 – M)2 + (X2 – M)2  +… + (X n – M)2 } / (n-1)

и некоторые другие выборочные  характеристики, которые мы введем позже.

                Точечное и интервальное оценивание математического ожидания. Точечной оценкой для математического ожидания в силу закона больших чисел является выборочное среднее арифметическое М.

Нижняя доверительная граница для математического ожидания имеет вид

M – U(p) S / n1/2 ,

где:

M – выборочное среднее арифметическое,

p – доверительная вероятность (истинное значение математического ожидания находится между нижней доверительной границей и верхней доверительной границей с вероятностью, равной доверительной);

U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p =  95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [8]);

S – выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).

Верхняя доверительная граница для математического ожидания имеет вид

M + U(p) S / n1/2 .

Выражения для верхней и нижней доверительных границ получены с помощью Центральной Предельной Теоремы теории вероятностей. Они являются асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. В частности, вероятность попадания истинного значения математического ожидания между нижней и верхней доверительными границами асимптотически приближается к доверительной вероятности, но, вообще говоря, может отличаться от нее. Это – недостатки непараметрического подхода. Достоинством же является то, что его можно применять всегда, когда случайная величина имеет математическое ожидание и дисперсию, что в силу финитности (ограниченности шкал) имеет быть практически всегда в реальных ситуациях.

Интересно сопоставить с параметрическим подходом. Обычно в таких случаях предполагают нормальность результатов наблюдений (которой, как уже было обосновано в первом пункте настоящей главы, практически никогда нет). Тогда формулы для нижней и верхней доверительных границ для математического ожидания имеют похожий вид, только вместо U(p) стоят квантили распределению Стьюдента (а не нормального распределения, как в приведенных выше формулах), соответствующие объему выборки. Как известно, при росте объема выборки квантили распределения Стьюдента сходятся к соответствующим квантилям стандартного нормального распределения, так что при больших объемах выборок оба подхода дают близкие результаты. Отметим, что классические доверительные интервалы несколько длиннее, поскольку квантили распределения Стьюдента больше квантилей стандартного нормального распределения, хотя это различие, на наш взгляд, и невелико.

Точечное и интервальное оценивание медианы. В случае медианы по доверительной вероятности р находят U(p), как разъяснено выше. Затем вычисляют натуральное число

С(р) = [n/2 – U(p)n1/2 /2] ,

где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид

Х (С(р)),

где Х(i) – член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид

Х (n + 1 - С(р)).

Теоретическое основание для приведенных доверительных границ содержится в литературе по порядковым статистикам (см., например, монографию [9, с.68]).

                Поскольку в случае нормального распределения медиана совпадает с математическим ожиданием, то каких-либо специальных способов ее оценивания в классическом случае нет.

Точечное и интервальное оценивание дисперсии. Точечной оценкой дисперсии является выборочная дисперсия S2. Доверительные границы находятся с помощью величины

d2 = (m 4  - ((n – 1) /n ) 4  S 4 ) / n ,

где m 4  - выборочный четвертый центральный момент, т.е.

m 4  =  { (X1 – M) 4 + (X2 – M)  4  +… + (X n – M) 4 } / n .

Нижняя доверительная граница для дисперсии случайной величины имеет вид

S2 - U(p)d ,

где       S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

 d – положительный квадратный корень из величины d2, введенной выше.

Верхняя доверительная граница для дисперсии случайной величины имеет вид

S2 + U(p)d ,

где все составляющие имеют тот же смысл, что и выше.

                При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в [10, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d2 как (2 S 4 ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.

                Точечное и интервальное оценивание среднего квадратического отклонения. Дисперсия рассматриваемой случайной величины - выборочного среднего квадратического отклонения S – оценивается как дробь

d2 / (4 S2 ) .

Нижняя доверительная граница для среднего квадратического отклонения  исходной случайной величины имеет вид

S - U(p)d / (2S) ,

где       S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

 d – положительный квадратный корень из величины d2, введенной выше.

Верхняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид

S + U(p)d / (2S) ,

где все составляющие имеют тот же смысл, что и выше.

                Правила расчетов настоящего подпункта получены из правил предыдущего подпункта с помощью метода линеаризации (см., например, [11, п.2.4]). В рассматриваемом случае доверительный интервал также является непараметрическим и асимптотическим, а классический подход связан с использованием распределения хи-квадрат.

Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации широко используется при анализе конкретных экономических данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков. Дисперсия выборочного коэффициента вариации 

Vn = S / M

оценивается с помощью вспомогательной величины

D2 = (Vn4 - Vn 2 / 4 +  m 4 / (4 S 2 M 2) - m 3 /M 3 ) / n ,

где      М – выборочное среднее арифметическое,

                S 2 – выборочная дисперсия,

                m 3  - выборочный третий центральный момент, т.е.

m 3  =  { (X1 – M) 3 + (X2 – M)  3  +… + (X n – M) 3 } / n ,

m 4  - выборочный четвертый центральный момент (см. выше),

                Vn – выборочный коэффициент вариации,

                n  - объем выборки.

Нижняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

Vn  - U(p) D,

где      Vn – выборочный коэффициент вариации,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и ранее),

 D – положительный квадратный корень из величины D2, введенной выше.

Верхняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

Vn  + U(p) D,

где все составляющие имеют тот же смысл, что и выше.

Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно оказывается необходимым использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [11, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.

 

 

                Пусть исходные данные –это выборка x1, x2, … , xn , где n – объем выборки. Выборочные значения x1, x2, … , xn рассматриваются как реализации независимых одинаково распределенных случайных величин X1, X2, … , Xn с общей функцией распределения F(x) = P (Xi < x), i = 1,2, …, n. Поскольку функция распределения произвольна (с точностью до условий регулярности типа существования моментов), то рассматриваемые задачи доверительного оценивания характеристик распределения являются непараметрическими. Существование моментов является скорее математическим ограничением, чем реальным, поскольку практически все реальные статистические данные финитны (ограничены сверху и снизу, например, шкалой прибора). 

В расчетах будут использоваться выборочное среднее арифметическое

M = (X1 + X2  +… + X n ) / n,

выборочная дисперсия

S2  = { (X1 – M)2 + (X2 – M)2  +… + (X n – M)2 } / (n-1)

и некоторые другие выборочные  характеристики, которые мы введем позже.

                Точечное и интервальное оценивание математического ожидания. Точечной оценкой для математического ожидания в силу закона больших чисел является выборочное среднее арифметическое М.

Нижняя доверительная граница для математического ожидания имеет вид

M – U(p) S / n1/2 ,

где:

M – выборочное среднее арифметическое,

p – доверительная вероятность (истинное значение математического ожидания находится между нижней доверительной границей и верхней доверительной границей с вероятностью, равной доверительной);

U(p) – число, заданное равенством Ф(U(p)) = (1+ p)/2, где Ф(х) – функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Например, при p =  95% (т.е. при р = 0,95) имеем U(p) = 1,96. Функция U(p) имеется в большинстве литературных источников по теории вероятностей и математической статистике (см., например, [8]);

S – выборочное среднее квадратическое отклонение (квадратный корень из описанной выше выборочной дисперсии).

Верхняя доверительная граница для математического ожидания имеет вид

M + U(p) S / n1/2 .

Выражения для верхней и нижней доверительных границ получены с помощью Центральной Предельной Теоремы теории вероятностей. Они являются асимптотическими, т.е. становятся тем точнее, чем больше объем выборки. В частности, вероятность попадания истинного значения математического ожидания между нижней и верхней доверительными границами асимптотически приближается к доверительной вероятности, но, вообще говоря, может отличаться от нее. Это – недостатки непараметрического подхода. Достоинством же является то, что его можно применять всегда, когда случайная величина имеет математическое ожидание и дисперсию, что в силу финитности (ограниченности шкал) имеет быть практически всегда в реальных ситуациях.

Интересно сопоставить с параметрическим подходом. Обычно в таких случаях предполагают нормальность результатов наблюдений (которой, как уже было обосновано в первом пункте настоящей главы, практически никогда нет). Тогда формулы для нижней и верхней доверительных границ для математического ожидания имеют похожий вид, только вместо U(p) стоят квантили распределению Стьюдента (а не нормального распределения, как в приведенных выше формулах), соответствующие объему выборки. Как известно, при росте объема выборки квантили распределения Стьюдента сходятся к соответствующим квантилям стандартного нормального распределения, так что при больших объемах выборок оба подхода дают близкие результаты. Отметим, что классические доверительные интервалы несколько длиннее, поскольку квантили распределения Стьюдента больше квантилей стандартного нормального распределения, хотя это различие, на наш взгляд, и невелико.

Точечное и интервальное оценивание медианы. В случае медианы по доверительной вероятности р находят U(p), как разъяснено выше. Затем вычисляют натуральное число

С(р) = [n/2 – U(p)n1/2 /2] ,

где [.] – знак целой части числа. Нижняя доверительная граница для медианы имеет вид

Х (С(р)),

где Х(i) – член вариационного ряда с номером i, построенного по исходной выборке (т.е. i-я порядковая статистика). Верхняя доверительная граница для медианы имеет вид

Х (n + 1 - С(р)).

Теоретическое основание для приведенных доверительных границ содержится в литературе по порядковым статистикам (см., например, монографию [9, с.68]).

                Поскольку в случае нормального распределения медиана совпадает с математическим ожиданием, то каких-либо специальных способов ее оценивания в классическом случае нет.

Точечное и интервальное оценивание дисперсии. Точечной оценкой дисперсии является выборочная дисперсия S2. Доверительные границы находятся с помощью величины

d2 = (m 4  - ((n – 1) /n ) 4  S 4 ) / n ,

где m 4  - выборочный четвертый центральный момент, т.е.

m 4  =  { (X1 – M) 4 + (X2 – M)  4  +… + (X n – M) 4 } / n .

Нижняя доверительная граница для дисперсии случайной величины имеет вид

S2 - U(p)d ,

где       S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

 d – положительный квадратный корень из величины d2, введенной выше.

Верхняя доверительная граница для дисперсии случайной величины имеет вид

S2 + U(p)d ,

где все составляющие имеют тот же смысл, что и выше.

                При выводе приведенных соотношений используется асимптотическая нормальность выборочной дисперсии, установленная, например, в [10, с.419]. Соответственно доверительный интервал является непараметрическим и асимптотическим. В классическом случае точечная оценка имеет тот же вид, а вот доверительные границы находят с помощью квантилей распределения хи-квадрат с числом степеней свободы, на 1 меньшим объема выборки. Отметим, что в случае нормального распределения четвертый момент в 3 раза больше квадрата дисперсии, а потому можно оценить d2 как (2 S 4 ) / n . Это дает быстрый способ для интервальной оценки дисперсии в нормальном случае.

                Точечное и интервальное оценивание среднего квадратического отклонения. Дисперсия рассматриваемой случайной величины - выборочного среднего квадратического отклонения S – оценивается как дробь

d2 / (4 S2 ) .

Нижняя доверительная граница для среднего квадратического отклонения  исходной случайной величины имеет вид

S - U(p)d / (2S) ,

где       S2 – выборочная дисперсия,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и раньше),

 d – положительный квадратный корень из величины d2, введенной выше.

Верхняя доверительная граница для среднего квадратического отклонения исходной случайной величины имеет вид

S + U(p)d / (2S) ,

где все составляющие имеют тот же смысл, что и выше.

                Правила расчетов настоящего подпункта получены из правил предыдущего подпункта с помощью метода линеаризации (см., например, [11, п.2.4]). В рассматриваемом случае доверительный интервал также является непараметрическим и асимптотическим, а классический подход связан с использованием распределения хи-квадрат.

Точечное и интервальное оценивание коэффициента вариации. Коэффициент вариации широко используется при анализе конкретных экономических данных (поскольку они, как правило, положительны), но не очень популярен среди теоретиков. Дисперсия выборочного коэффициента вариации 

Vn = S / M

оценивается с помощью вспомогательной величины

D2 = (Vn4 - Vn 2 / 4 +  m 4 / (4 S 2 M 2) - m 3 /M 3 ) / n ,

где      М – выборочное среднее арифметическое,

                S 2 – выборочная дисперсия,

                m 3  - выборочный третий центральный момент, т.е.

m 3  =  { (X1 – M) 3 + (X2 – M)  3  +… + (X n – M) 3 } / n ,

m 4  - выборочный четвертый центральный момент (см. выше),

                Vn – выборочный коэффициент вариации,

                n  - объем выборки.

Нижняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

Vn  - U(p) D,

где      Vn – выборочный коэффициент вариации,

U(p) – квантиль нормального распределения порядка (1+р)/2 (как и ранее),

 D – положительный квадратный корень из величины D2, введенной выше.

Верхняя доверительная граница для (теоретического) коэффициента вариации исходной случайной величины имеет вид

Vn  + U(p) D,

где все составляющие имеют тот же смысл, что и выше.

Как и в предыдущих случаях, доверительный интервал является непараметрическим и асимптотическим. Он получен в результате применения специальной технологии вывода асимптотических соотношений прикладной статистики. Эта технология в качестве первого шага использует многомерную центральную предельную теорему, примененную к сумме векторов, координаты которых – степени исходных случайных величин. Второй шаг – преобразование предельного многомерного нормального вектора с целью получения интересующего исследователя вектора. При этом используются соображения линеаризации и отбрасываются бесконечно малые величины. Третий шаг – строгое обоснование полученных результатов на стандартном для асимптотических математико-статистических рассуждений уровне. При этом обычно оказывается необходимым использовать необходимые и достаточные условия наследования сходимости, полученные в монографии [11, п.2.4]. Именно таким образом были получены приведенные выше результаты для выборочного коэффициента вариации. Формулы оказались существенно более сложными, чем в предыдущих случаях. Это объясняется тем, что выборочный коэффициент вариации - функция двух выборочных моментов, а ранее рассматривались либо выборочные моменты поодиночке, либо функция от одного выборочного момента - выборочной дисперсии.