4.2. Неустойчивость параметрических методов отбраковки резко выделяющихся результатов наблюдений
К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101
102 103 104 105 106 107 108 109 110 111
При обработки реальных экономических данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены в результате ошибки, промаха. В метрологии об этом явлении говорят так: "Грубые погрешности и промахи возникают из-за ошибок или неправильных действий оператора (его психо-физиологического состояния, неверного отсчета, ошибок в записях или вычислениях, неправильного включения приборов и т.п.), а также при кратковременных резких изменений проведения измерений (вибрации, поступления холодного воздуха, толчка прибора оператором и т.п.). Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают. Однако чаще всего их выявляют только при окончательной обработке результатов измерений с помощью специальных критериев оценки грубых погрешностей" [7, с.46-47].
Есть два подхода к обработке данных, которые могут быть искажены грубыми погрешностями и промахами:
1) отбраковка резко выделяющихся результатов наблюдений, т.е. обнаружение наблюдений, искаженных грубыми погрешностями и промахами, и исключение их из дальнейшей статистической обработки;
2) применение устойчивых (робастных) методов обработки данных, На результаты работы которых мало влияет наличие небольшого числа грубо искаженных наблюдений (см. ниже соответствующую главу).
В настоящем пункте обсуждаются методы отбраковки.
Наиболее изучена ситуация, когда результаты наблюдений - числа x1., x2.,…, xn., резко выделяется один результат наблюдения, для определенности, максимальный xmax .
Простейшая вероятностно-статистическая модель такова [8]. При нулевой гипотезе H0 результаты наблюдения x1., x2.,…, xn рассматриваются как реализация независимых одинаково распределенных случайных величин числа X1., X2.,…, Xn. с функцией распределения F(x). При альтернативной гипотезе H1 случайные величины X1., X2.,…, Xn. также независимы, X1., X2.,…, Xn-1 имеют распределение F(x), а Xn - распределение G(x), оно "существенно сдвинуто вправо" относительно F(x), например, G(x)=F(x - A), где A достаточно велико. Если альтернативная гипотеза справедлива, то при вероятность равенства
стремится к 1, поэтому естественно применять решающее правило следующего вида:
если xmax.> d, то принять H1.,
если xmax.< d, то принять H0 , (1)
где d - параметр решающего правила, который следует определять из вероятностно-статистических соображений.
При справедливости нулевой гипотезы
Статистический критерий проверки гипотезы H0 , основанный на решающем правиле вида (1), имеет уровень значимости , если
т.е.
(2)
Из соотношения (2) определяют граничное значение d=d(, n) в решающем правиле (1).
При больших n и малых
(3)
поэтому в качестве хорошего приближения к d(, n) рассматривают (1-/n) - квантиль распределения F(x).
Пусть правило отбраковки задано в соответствии с выражениями (1) и (2) с некоторой функцией распределения F, однако выборка берется из функции распределения G, мало отличающейся от F в смысле расстояния Колмогорова
(4)
С помощью соотношения (3) получаем, что величина = G(d) для d из уравнения (2) находится между и . Уровень значимости критерия, построенного для F, при применении к наблюдениям из G есть 1- и может принимать любые значения в отрезке [1-; 1-]. В частности, при = 0,01, =0,05, n = 5 возможные значения уровня значимости заполняют отрезок [0; 0,1], т.е. уровень значимости может быть в 2 раза выше номинального, а если n возрастает до 30, то максимальный уровень значимости есть 0,297, т.е. почти в 6 раз выше номинального. При дальнейшем росте n верхняя граница для уровня значимости, как нетрудно видеть, приближается к 1.
Рассмотрим и другой вопрос - насколько правило отбраковки с уровнем значимости для G может отличаться от такового для F при справедливости неравенства (4). С использованием соотношения (3) заключаем, что из
(5)
следует, что где и выписаны выше. Решение уравнения (5) может принимать любое значение в отрезке []. В частности, при =0,05 и n = 5 для стандартного нормального распределения F имеем d(, n) = 2,319, при =0,01 решение уравнения (5) может принимать любое значение в отрезке [2,054; + ], при =0,005 - любое значение в [2,170; 2,576].
При использовании любого другого расстояния между функциями распределения выводы о неустойчивости правил отбраковки также справедливы. Отметим, что проведенные рассмотрения выполнены в рамках "общей схемы устойчивости" (см. ниже главу об устойчивости статистических процедур).
Рассмотренные примеры показывают, что при конкретном значении = 0,01 в неравенстве (4) весьма неустойчивы как уровни значимости при фиксированном правиле отбраковки, так и параметр d правила отбраковки при фиксированном уровне значимости. Обсудим, насколько реалистично определение функции распределения с точностью
Есть два подхода к определению функции распределения результатов наблюдений: эвристический подбор с последующей проверкой с помощью критериев согласия и вывод из некоторой вероятностной модели.
Пусть с помощью критерия согласия Колмогорова проверяется гипотеза о том, что выборка взята из распределения F. Пусть функции распределения F и G удовлетворяют соотношению (4). Пусть на самом деле выборка взята из распределения G, а не F. При каких не удастся различить F и G? Для определенности, при каких гипотеза согласия с F будет приниматься не менее чем в 50% случаев?
Критерий согласия Колмогорова основан на статистике
(6)
где расстояние между функциями распределения определено выше в формуле (4); H - та функция распределения, согласие с которой проверяется, а Fn - эмпирическая функция распределения (т.е. Fn(х) равно доле наблюдений, меньших х, в выборке объема n). Как показал А.Н. Колмогоров в 1933 г., функция распределения случайной величины при росте объема выборки n сходится к некоторой функции распределения К(х), которую ныне называют функцией Колмогорова. При этом К(1,36)= 0,95 и К(0,83)=0,50.
Поскольку выборка взята из распределения G, то с вероятностью 0,50
(7)
(при больших n). Тогда для рассматриваемой выборки с учетом неравенства (4) и неравенства треугольника для расстояния Колмогорова и симметричности этого расстояния имеем
Если
т.е.
(8)
то, согласно формуле (6), гипотеза согласия принимается по крайней мере с той же вероятностью, с которой выполнено неравенств (7), т.е. с вероятностью не менее 0,50. Для = 0,01 это условие выполняется при n < 2809. Таким образом, для определения функции распределения с точностью с помощью критерия согласия Колмогорова необходимо несколько тысяч наблюдений, что для большинства эконометрических задач нереально.
При втором из названных выше подходов к определению функции распределения ее конкретный вид выводится из некоторой системы аксиом, в частности, из некоторой модели порождения соответствующей случайной величины. Например, из модели суммирования вытекает нормальное распределение, а из мультипликативной модели перемножения - логарифмически нормальное распределение. Как правило, при выводе используется предельный переход. Так, из Центральной Предельной Теоремы теории вероятностей вытекает, что сумма независимых случайных величин может быть приближена нормальным распределением. Однако более детальный анализ, в частности, с помощью неравенства Берри-Эссеена (см. предыдущий пункт) показывает, что для гарантированного достижения точности необходимо более полутора тысяч слагаемых. Такого количества слагаемых реально, конечно, указать почти никогда нельзя. Это означает, что при решении практических эконометрических задач теория дает возможность лишь сформулировать гипотезу о виде функции распределения, а проверять ее надо с помощью анализа реальной выборки объема, как показано выше, не менее нескольких тысяч.
Таким образом, в большинстве реальных ситуаций определить функцию распределения с точностью невозможно.
Итак, показано, что правила отбраковки, основанные на использовании конкретной функции распределения, являются крайне неустойчивыми к отклонениям от нее распределения элементов выборки, а гарантировать отсутствие подобных отклонений невозможно. Поэтому отбраковка по классическим правилам математической статистики не является научно обоснованной, особенно при больших объемах выборок. Указанные правила целесообразно применять лишь для выявления "подозрительных" наблюдений, вопрос об отброаковке которых должен решаться из соображений соответствующей предметной области, а не из формально-математических соображений.
Выше для простоты изложения рассмотрен лишь случай полностью известного распределения F, для которого изучено правило отбраковки, заданное формулами (1) и (2). Аналогичные выводы о крайней неустойчивости правил отбраковки справедливы, если "истинное распределение" принадлежит какому-либо параметрическому семейству, например, нормальному, Вейбулла-Гнеденко, гамма.
Параметрическим методам отбраковки, основанным на моделях тех или иных параметрических семейств распределений, посвящены тысячи книг и статей. Приходится признать, что они имеют в основном внутриматематический интерес. При обработке реальных данных следует применять устойчивые методы (см. соответствующую главу), в частности, непараметрические.
При обработки реальных экономических данных, полученных в процессе наблюдений, измерений, расчетов, иногда один или несколько результатов наблюдений резко выделяются, т.е. далеко отстоят от основной массы данных. Такие резко выделяющиеся результаты наблюдений часто считают содержащими грубые погрешности, соответственно называют промахами или выбросами. В рассматриваемых случаях возникает естественная мысль о том, что подобные наблюдения не относятся к изучаемой совокупности, поскольку содержат грубую погрешность, а получены в результате ошибки, промаха. В метрологии об этом явлении говорят так: "Грубые погрешности и промахи возникают из-за ошибок или неправильных действий оператора (его психо-физиологического состояния, неверного отсчета, ошибок в записях или вычислениях, неправильного включения приборов и т.п.), а также при кратковременных резких изменений проведения измерений (вибрации, поступления холодного воздуха, толчка прибора оператором и т.п.). Если грубые погрешности и промахи обнаруживают в процессе измерений, то результаты, содержащие их, отбрасывают. Однако чаще всего их выявляют только при окончательной обработке результатов измерений с помощью специальных критериев оценки грубых погрешностей" [7, с.46-47].
Есть два подхода к обработке данных, которые могут быть искажены грубыми погрешностями и промахами:
1) отбраковка резко выделяющихся результатов наблюдений, т.е. обнаружение наблюдений, искаженных грубыми погрешностями и промахами, и исключение их из дальнейшей статистической обработки;
2) применение устойчивых (робастных) методов обработки данных, На результаты работы которых мало влияет наличие небольшого числа грубо искаженных наблюдений (см. ниже соответствующую главу).
В настоящем пункте обсуждаются методы отбраковки.
Наиболее изучена ситуация, когда результаты наблюдений - числа x1., x2.,…, xn., резко выделяется один результат наблюдения, для определенности, максимальный xmax .
Простейшая вероятностно-статистическая модель такова [8]. При нулевой гипотезе H0 результаты наблюдения x1., x2.,…, xn рассматриваются как реализация независимых одинаково распределенных случайных величин числа X1., X2.,…, Xn. с функцией распределения F(x). При альтернативной гипотезе H1 случайные величины X1., X2.,…, Xn. также независимы, X1., X2.,…, Xn-1 имеют распределение F(x), а Xn - распределение G(x), оно "существенно сдвинуто вправо" относительно F(x), например, G(x)=F(x - A), где A достаточно велико. Если альтернативная гипотеза справедлива, то при вероятность равенства
стремится к 1, поэтому естественно применять решающее правило следующего вида:
если xmax.> d, то принять H1.,
если xmax.< d, то принять H0 , (1)
где d - параметр решающего правила, который следует определять из вероятностно-статистических соображений.
При справедливости нулевой гипотезы
Статистический критерий проверки гипотезы H0 , основанный на решающем правиле вида (1), имеет уровень значимости , если
т.е.
(2)
Из соотношения (2) определяют граничное значение d=d(, n) в решающем правиле (1).
При больших n и малых
(3)
поэтому в качестве хорошего приближения к d(, n) рассматривают (1-/n) - квантиль распределения F(x).
Пусть правило отбраковки задано в соответствии с выражениями (1) и (2) с некоторой функцией распределения F, однако выборка берется из функции распределения G, мало отличающейся от F в смысле расстояния Колмогорова
(4)
С помощью соотношения (3) получаем, что величина = G(d) для d из уравнения (2) находится между и . Уровень значимости критерия, построенного для F, при применении к наблюдениям из G есть 1- и может принимать любые значения в отрезке [1-; 1-]. В частности, при = 0,01, =0,05, n = 5 возможные значения уровня значимости заполняют отрезок [0; 0,1], т.е. уровень значимости может быть в 2 раза выше номинального, а если n возрастает до 30, то максимальный уровень значимости есть 0,297, т.е. почти в 6 раз выше номинального. При дальнейшем росте n верхняя граница для уровня значимости, как нетрудно видеть, приближается к 1.
Рассмотрим и другой вопрос - насколько правило отбраковки с уровнем значимости для G может отличаться от такового для F при справедливости неравенства (4). С использованием соотношения (3) заключаем, что из
(5)
следует, что где и выписаны выше. Решение уравнения (5) может принимать любое значение в отрезке []. В частности, при =0,05 и n = 5 для стандартного нормального распределения F имеем d(, n) = 2,319, при =0,01 решение уравнения (5) может принимать любое значение в отрезке [2,054; + ], при =0,005 - любое значение в [2,170; 2,576].
При использовании любого другого расстояния между функциями распределения выводы о неустойчивости правил отбраковки также справедливы. Отметим, что проведенные рассмотрения выполнены в рамках "общей схемы устойчивости" (см. ниже главу об устойчивости статистических процедур).
Рассмотренные примеры показывают, что при конкретном значении = 0,01 в неравенстве (4) весьма неустойчивы как уровни значимости при фиксированном правиле отбраковки, так и параметр d правила отбраковки при фиксированном уровне значимости. Обсудим, насколько реалистично определение функции распределения с точностью
Есть два подхода к определению функции распределения результатов наблюдений: эвристический подбор с последующей проверкой с помощью критериев согласия и вывод из некоторой вероятностной модели.
Пусть с помощью критерия согласия Колмогорова проверяется гипотеза о том, что выборка взята из распределения F. Пусть функции распределения F и G удовлетворяют соотношению (4). Пусть на самом деле выборка взята из распределения G, а не F. При каких не удастся различить F и G? Для определенности, при каких гипотеза согласия с F будет приниматься не менее чем в 50% случаев?
Критерий согласия Колмогорова основан на статистике
(6)
где расстояние между функциями распределения определено выше в формуле (4); H - та функция распределения, согласие с которой проверяется, а Fn - эмпирическая функция распределения (т.е. Fn(х) равно доле наблюдений, меньших х, в выборке объема n). Как показал А.Н. Колмогоров в 1933 г., функция распределения случайной величины при росте объема выборки n сходится к некоторой функции распределения К(х), которую ныне называют функцией Колмогорова. При этом К(1,36)= 0,95 и К(0,83)=0,50.
Поскольку выборка взята из распределения G, то с вероятностью 0,50
(7)
(при больших n). Тогда для рассматриваемой выборки с учетом неравенства (4) и неравенства треугольника для расстояния Колмогорова и симметричности этого расстояния имеем
Если
т.е.
(8)
то, согласно формуле (6), гипотеза согласия принимается по крайней мере с той же вероятностью, с которой выполнено неравенств (7), т.е. с вероятностью не менее 0,50. Для = 0,01 это условие выполняется при n < 2809. Таким образом, для определения функции распределения с точностью с помощью критерия согласия Колмогорова необходимо несколько тысяч наблюдений, что для большинства эконометрических задач нереально.
При втором из названных выше подходов к определению функции распределения ее конкретный вид выводится из некоторой системы аксиом, в частности, из некоторой модели порождения соответствующей случайной величины. Например, из модели суммирования вытекает нормальное распределение, а из мультипликативной модели перемножения - логарифмически нормальное распределение. Как правило, при выводе используется предельный переход. Так, из Центральной Предельной Теоремы теории вероятностей вытекает, что сумма независимых случайных величин может быть приближена нормальным распределением. Однако более детальный анализ, в частности, с помощью неравенства Берри-Эссеена (см. предыдущий пункт) показывает, что для гарантированного достижения точности необходимо более полутора тысяч слагаемых. Такого количества слагаемых реально, конечно, указать почти никогда нельзя. Это означает, что при решении практических эконометрических задач теория дает возможность лишь сформулировать гипотезу о виде функции распределения, а проверять ее надо с помощью анализа реальной выборки объема, как показано выше, не менее нескольких тысяч.
Таким образом, в большинстве реальных ситуаций определить функцию распределения с точностью невозможно.
Итак, показано, что правила отбраковки, основанные на использовании конкретной функции распределения, являются крайне неустойчивыми к отклонениям от нее распределения элементов выборки, а гарантировать отсутствие подобных отклонений невозможно. Поэтому отбраковка по классическим правилам математической статистики не является научно обоснованной, особенно при больших объемах выборок. Указанные правила целесообразно применять лишь для выявления "подозрительных" наблюдений, вопрос об отброаковке которых должен решаться из соображений соответствующей предметной области, а не из формально-математических соображений.
Выше для простоты изложения рассмотрен лишь случай полностью известного распределения F, для которого изучено правило отбраковки, заданное формулами (1) и (2). Аналогичные выводы о крайней неустойчивости правил отбраковки справедливы, если "истинное распределение" принадлежит какому-либо параметрическому семейству, например, нормальному, Вейбулла-Гнеденко, гамма.
Параметрическим методам отбраковки, основанным на моделях тех или иных параметрических семейств распределений, посвящены тысячи книг и статей. Приходится признать, что они имеют в основном внутриматематический интерес. При обработке реальных данных следует применять устойчивые методы (см. соответствующую главу), в частности, непараметрические.