1.6. Статистика интервальных данных - научное направление на стыке метрологии и математической статистики
К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101
102 103 104 105 106 107 108 109 110 111
В статистике интервальных данных (СИД) элементами выборки являются не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Подробнее этот сравнительно новый, но весьма перспективный раздел эконометрики рассмотрим в главе 9. Здесь дадим лишь общее представление о статистике интервальных данных в сравнении с классической математической статистикой. Прежде всего отметим, что СИД входит в теорию устойчивости (робастности) статистических процедур и примыкает к интервальной математике. В СИД изучены практически все задачи классической прикладной математической статистики, в частности, задачи регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. Основная идея СИД является общеинженерной - каждая величина должна приводиться вместе с погрешностью ее определения. К сожалению, эта идея еще не стала общеэкономической.
Рассмотрим развитие в течение последних 15 лет асимптотических методов статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования, включающая расчет двух основных характеристик - нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы к учету интервальной неопределенности в основных постановках регрессионного, дискриминантного и кластерного анализов.
Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. ГОСТ 11.011-83). Нецелесообразно с целью повышения точности выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.
СИД позволяет снять некоторые противоречия между метрологией и классической математической статистикой. Например, вторая из названных дисциплин утверждает, что путем увеличения числа измерений можно сколь угодно точно оценить параметр, а первая вполне справедливо оспаривает это утверждение. Результаты СИД уточняют интуитивные представления метрологов (которые сосредотачивались, впрочем, вокруг весьма частного с точки зрения эконометрики вопроса - оценивания математического ожидания) и развенчивают "гордыню" математической статистики.
В статистике интервальных данных (СИД) элементами выборки являются не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Подробнее этот сравнительно новый, но весьма перспективный раздел эконометрики рассмотрим в главе 9. Здесь дадим лишь общее представление о статистике интервальных данных в сравнении с классической математической статистикой. Прежде всего отметим, что СИД входит в теорию устойчивости (робастности) статистических процедур и примыкает к интервальной математике. В СИД изучены практически все задачи классической прикладной математической статистики, в частности, задачи регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. Основная идея СИД является общеинженерной - каждая величина должна приводиться вместе с погрешностью ее определения. К сожалению, эта идея еще не стала общеэкономической.
Рассмотрим развитие в течение последних 15 лет асимптотических методов статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования, включающая расчет двух основных характеристик - нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы к учету интервальной неопределенности в основных постановках регрессионного, дискриминантного и кластерного анализов.
Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. ГОСТ 11.011-83). Нецелесообразно с целью повышения точности выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.
СИД позволяет снять некоторые противоречия между метрологией и классической математической статистикой. Например, вторая из названных дисциплин утверждает, что путем увеличения числа измерений можно сколь угодно точно оценить параметр, а первая вполне справедливо оспаривает это утверждение. Результаты СИД уточняют интуитивные представления метрологов (которые сосредотачивались, впрочем, вокруг весьма частного с точки зрения эконометрики вопроса - оценивания математического ожидания) и развенчивают "гордыню" математической статистики.