1.6. Статистика интервальных данных - научное направление  на стыке метрологии и математической статистики

К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 

 

                В статистике интервальных данных (СИД) элементами выборки являются не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Подробнее этот сравнительно новый, но весьма перспективный раздел эконометрики рассмотрим в главе 9. Здесь дадим лишь общее представление о статистике интервальных данных в сравнении с классической математической статистикой. Прежде всего отметим, что СИД входит в теорию устойчивости (робастности) статистических процедур и примыкает к интервальной математике. В СИД изучены практически все задачи классической прикладной математической статистики, в частности, задачи регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. Основная идея СИД является общеинженерной - каждая величина должна приводиться вместе с погрешностью ее определения. К сожалению, эта идея еще не стала общеэкономической.

Рассмотрим развитие в течение последних 15 лет асимптотических методов статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования, включающая расчет двух основных характеристик - нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы к учету интервальной неопределенности в основных постановках регрессионного, дискриминантного и кластерного анализов.

                Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. ГОСТ 11.011-83). Нецелесообразно с целью повышения точности  выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.

                СИД позволяет снять некоторые противоречия между метрологией и классической математической статистикой. Например, вторая из названных дисциплин утверждает, что путем увеличения числа измерений можно сколь угодно точно оценить параметр, а первая вполне справедливо оспаривает это утверждение. Результаты СИД уточняют интуитивные представления метрологов (которые сосредотачивались, впрочем, вокруг весьма частного с точки зрения эконометрики вопроса - оценивания математического ожидания) и развенчивают "гордыню" математической статистики.

 

 

                В статистике интервальных данных (СИД) элементами выборки являются не числа, а интервалы, в частности, порожденные наложением ошибок измерения на значения случайных величин. Подробнее этот сравнительно новый, но весьма перспективный раздел эконометрики рассмотрим в главе 9. Здесь дадим лишь общее представление о статистике интервальных данных в сравнении с классической математической статистикой. Прежде всего отметим, что СИД входит в теорию устойчивости (робастности) статистических процедур и примыкает к интервальной математике. В СИД изучены практически все задачи классической прикладной математической статистики, в частности, задачи регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. Основная идея СИД является общеинженерной - каждая величина должна приводиться вместе с погрешностью ее определения. К сожалению, эта идея еще не стала общеэкономической.

Рассмотрим развитие в течение последних 15 лет асимптотических методов статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования, включающая расчет двух основных характеристик - нотны (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и рационального объема выборки (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы к учету интервальной неопределенности в основных постановках регрессионного, дискриминантного и кластерного анализов.

                Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. ГОСТ 11.011-83). Нецелесообразно с целью повышения точности  выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.

                СИД позволяет снять некоторые противоречия между метрологией и классической математической статистикой. Например, вторая из названных дисциплин утверждает, что путем увеличения числа измерений можно сколь угодно точно оценить параметр, а первая вполне справедливо оспаривает это утверждение. Результаты СИД уточняют интуитивные представления метрологов (которые сосредотачивались, впрочем, вокруг весьма частного с точки зрения эконометрики вопроса - оценивания математического ожидания) и развенчивают "гордыню" математической статистики.