8.3. Структура статистики объектов нечисловой природы
К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1617 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101
102 103 104 105 106 107 108 109 110 111
Как уже отмечалось, термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [3]. В том же году в статье [16] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована.
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в нашей стране. Со второй половины 80-х годов существенно возрос интерес к этой тематике и у зарубежных исследователей. Это нашло отражение, в частности, на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации, ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [26]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном в кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи и результаты.
Напомним, что объектами нечисловой природы (см. также предыдущие пункты настоящей главы) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистике (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А.Н.Колмогорова, Б.В. Гнеденко, Ю.К. Беляева, Я.П. Лумельского и многих других (см., например, классические монографии [7,8]).
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю.Н. Тюриным и другими специалистами вокруг созданного в 1973 г. научного семинара "Экспертные оценки и нечисловая статистика", развивала в основном вероятностную статистику нечисловых данных. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены десятки сборников и обзоров, перечень которых приведен в итоговой работе [4]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок.
Новосибирская группа (Г.С. Лбов, Б.Г. Миркин и др.), как правило, не использовала вероятностные модели, т.е. вела исследования в рамках анализа данных. В московской группе в рамках анализа данных также велись работы, в частности, Б.Г.Литваком. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других научных центрах.
Внутреннее деление статистики объектов нечисловой природы. Внутри рассматриваемого направления эконометрики и прикладной статистики выделим следующие области.
1. Статистика конкретных видов объектов нечисловой природы.
2. Статистика в пространствах общей (произвольной) природы.
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим:
1.1) теорию измерений;
1.2) статистику бинарных отношений;
1.3) теорию люсианов (бернуллиевских векторов);
1.4) статистику случайных множеств;
1.5) статистику нечетких множеств;
1.6) многомерное шкалирование;
1.7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [3,15] и первых двух пунктах настоящей главы. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю, таблицам сопряженности, а также по анализу текстов и некоторые другие (см.[4]). Таким образом, рассмотрим постановки 1970-2000 гг. вероятностной статистики объектов нечисловой природы.
Статистика в пространствах общей природы. Пусть x1,x2,…,xn -элементы пространства X, не являющегося линейным. Как определить среднее значение для x1,x2,…,xn? Поскольку нельзя складывать элементы X, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В статистике объектов нечисловой природы предложено использовать показатель различия (содержательный смысл показателя различия: чем больше d(x,y), тем больше различаются x и y) и определять среднее как решение экстремальной задачи
(1)
Таким образом, среднее En(d)- это совокупность всех тех , для которых функция
(2)
достигает минимума на X.
Для классического случая X = R1 при d(x,y) = (x-y)2 имеем En(d) =, а при d(x,y)=|x-y| среднее En(d) совпадает с выборочной медианой (при нечетном объеме выборки; а при четном - En(d) является отрезком с концами в двух средних элементах вариационного ряда).
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. итальянские статистики Джини и Гальвани применили такой подход для усреднения точек на плоскости и в пространстве Американский исследователь Джон Кемени решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок (см. монографию [24]). При моделировании лесных пожаров согласно выражению (1) было введено "среднеуклоняемое множество" для описания средней выгоревшей площади (см. об этом в монографии [3]). Общее определение среднего вида (1) было впервые введено в работе [16].
Основной результат, связанный со средними вида (1) - аналог закона больших чисел. Пусть x1,x2,…,xn - независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы X. Теоретическим средним, или математическим ожиданием, в статистике объектов нечисловой природы называют
. (3)
Закон больших чисел состоит в сходимости En(d) к En(x1,d) при . Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений, впервые введенное в работе [16], таково. Для функции
(4)
введем понятие "-пятки" (>0)
(5)
Очевидно, - пятка f - это окрестность Argmin(f) (если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве X. Тогда при некоторых условиях регулярности для любого >0 вероятность события
(6)
стремится к 1 при., т.е. справедлив закон больших чисел. Подробное доказательство приводится в следующем пункте настоящей главы.
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно, большинство задач прикладной статистики может быть представлено в качестве оптимизационных [12]. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле Тьюки-Хьюбера - см. главу 10), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии и т.д.
Обычно легко устанавливается, что для некоторых пространств X и последовательности случайных функций.fn(x) при. найдется функция f(x) такая, что
(7)
для любого (сходимость по вероятности). Требуется вывести отсюда, что
(8)
т.е. решения экстремальных задач также сходятся. Понятие сходимости в соотношении (8) уточняется с помощью -пяток, как это сделано выше для закона больших чисел. Условия регулярности, при которых справедливо предельное соотношение (8), приведены в исследовании [27]. В подавляющем большинстве реальных задач эти условия выполняются.
Как оценить распределение случайного элемента в пространстве общей природы? Поскольку понятие функции распределения неприменимо, естественно использовать непараметрические оценки плотности. Что такое плотность распределения вероятностей в пространстве произвольной природы? Это функция такая, что для любого измеримого множества (т.е. случайного события) справедливо соотношение
, (9)
где.- некоторая мера в X. Ряд непараметрических оценок плотности был предложен в работе [16]. Например, аналогом ядерных оценок плотности является оценка
(10)
где d - показатель различия; H - ядерная функция; hn - последовательность положительных чисел; - нормирующий множитель. Удалось установить, что, что статистики типа (10) обладают такими же свойствами, по крайней мере при фиксированном x, что и их классические аналоги при X = R1. В частности, такой же скоростью сходимости. Некоторые изменения необходимы при рассмотрении дискретных , каковыми являются многие пространства конкретных объектов нечисловой природы. С помощью непараметрических оценок плотности можно развивать регрессионный анализ, дискриминантный анализ и другие направления в пространствах общей природы (см. пункт 5 ниже).
Для проверки гипотез согласия, однородности, независимости в пространствах общей природы могут быть использованы статистики интегрального типа
(11)
где -последовательность случайных функций на X; - последовательность случайных распределений (или зарядов). Обычно при сходится по распределению к некоторой случайной функции , а - к распределению F(x). Тогда распределение статистики интегрального типа (11) сходится к распределению случайного элемента
(12)
Условия, при которых это справедливо, даны в работе [28]. Пример применения - вывод предельного распределения статистики типа омега-квадрат для проверки симметрии распределения (см. главу 4).
Перейдем к статистике конкретных видов объектов нечисловой природы.
Теория измерений. Цель теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую именно единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.
Теория измерений известна в нашей стране уже около 30 лет. С начала семидесятых годов активно работают отечественные исследователи. В настоящее время изложение основ теории измерений включают в справочные издания, помещают в научно-популярные журналы и книги для детей. Однако она еще не стала общеизвестной среди специалистов, в частности, среди метрологов. Поэтому опишем одну из задач теории измерений (ср. главу 3).
Как известно, шкала задается группой допустимых преобразований (прямой в себя). Номинальная шкала (шкала наименований) задается группой всех взаимно-однозначных преобразований, шкала порядка - группой всех строго возрастающих преобразований. Это - шкалы качественных признаков. Группа линейных возрастающих преобразований задает шкалу интервалов. Группа определяет шкалу отношений. Наконец, группа, состоящая из одного тождественного преобразования, описывает абсолютную шкалу. Это - шкалы количественных признаков. Используют и некоторые другие шкалы.
Практическую пользу теории измерений обычно демонстрируют на примере задачи сравнения средних значений для двух совокупностей одинакового объема x1, x2,…,xn и y1, y2,…,yn. Пусть среднее вычисляется с помощью функции Если
f(x1, x2,…,xn)<f(y1, y2,…,yn),. (13)
то необходимо, чтобы
(14)
для любого допустимого преобразования из задающей шкалу группы . (В противном случае результат сравнения будет зависеть от того, какое из эквивалентных представлений шкалы выбрал исследователь.)
Требование равносильности неравенств (13) и (14) вместе с некоторыми условиями регулярности приводят к тому, что в порядковой шкале в качестве средних можно использовать только члены вариационного ряда, в частности, медиану, но нельзя использовать среднее геометрическое, среднее арифметическое, и т.д. В количественных шкалах это требование выделяет из всех обобщенных средних по А.Н. Колмогорову в шкале интервалов - только среднее арифметическое, а в шкале отношений - только степенные средние. Кроме средних, аналогичные задачи рассмотрены для расстояний, мер связи случайных признаков и других процедур анализа данных.
Приведенные результаты о средних величинах применялись, например, при проектировании системы датчиков в АСУ ТП доменных печей. Велико прикладное значение теории измерений в задачах стандартизации и управления качеством, в частности, в квалиметрии. Так, В.В. Подиновский показал, что любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю, а Н.В. Хованов развил одну из возможных теорий шкал измерения качества. Теория измерений полезна и в других прикладных областях.
Статистика бинарных отношений. Оценивание центра распределения случайного бинарного отношения проводят обычно с помощью медианы Кемени. Состоятельность вытекает из закона больших чисел [3]. Вычислительные процедуры нахождения медианы Кемени здесь не обсуждаем.
Методы проверки гипотез развиты отдельно для каждой разновидности бинарных отношений. В области статистики ранжировок, или ранговой корреляции, классической является книга Кендалла [6]. Современные достижения отражены в работах Ю.Н.Тюрина и Д.С.Шмерлинга. Статистика случайных разбиений развита А.В.Маамяги. Статистика случайных толерантностей (рефлексивных симметричных отношений) изложена в работе [3]. Многие ее задачи являются частными случаями задач теории люсианов.
Теория люсианов (бернуллиевских векторов). Люсиан (бернуллиевский вектор) - это последовательность испытаний Бернулли с, вообще говоря, различными вероятностями успеха. Реализация люсиана (бернуллиевского вектора) - это последовательность из 0 и 1. Люсианы (бернуллиевские вектора) рассматривались как случайные множества с независимыми элементами, а также - как результаты независимых парных сравнений. Последовательность результатов контроля качества последовательности единиц продукции по альтернативному признаку - также реализация люсиана (бернуллиевского вектора). Случайная толерантность может быть записана в виде люсиана. Поскольку один и тот же эконометрический объект применяется в различных областях, естественно для его наименования применять специально введенный термин "бернуллиевский вектор". Используется также термин "люсиан".
В рассматриваемой теории изучают методы проверки согласованности (одинаковой распределенности), однородности двух выборок, независимости люсианов. Методы проверки указанных гипотез нацелены на ситуацию, когда число бернуллиевских векторов фиксировано, а их длина растет. При этом число неизвестных параметров возрастает пропорционально объему данных, т.е. теория построена в асимптотике растущего числа параметров. Ранее подобная асимптотика под названием асимптотики А.Н.Колмогорова использовалась в дискриминантном анализе, но там применялись совсем другие методы.
Непараметрическая теория парных сравнений (в предположении независимости результатов отдельных сравнений) - часть теории бернуллиевских векторов. Параметрическая теория связана в основном с попытками выразить вероятности того или иного исхода через значения гипотетических или реальных параметров сравниваемых объектов. Известны модели Терстоуна, Бредли-Терри-Льюса и др.. В СССР построен ряд новых моделей парных сравнений (см. выше - второй пункт настоящей главы). Имеются модели парных сравнений с тремя исходами (больше, меньше, неразличимо), модели зависимых сравнений, сравнений нескольких объектов (сближающие рассматриваемую область с теорией случайных ранжировок) и т.д.
Статистика случайных и нечетких множеств. Давнюю историю имеет статистика случайных геометрических объектов (отрезков, треугольников, кругов и т.д.). Современная теория случайных множеств сложилась при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология. Различные направления внутри этой теории рассмотрены в работе [3, гл.4]. Остановимся на двух.
Случайные множества, лежащие в евклидовом пространстве, можно складывать: сумма множеств A и B- - это объединение всех векторов x+y, где Н.Н. Ляшенко получил аналоги законов больших чисел, центральной предельной теоремы, ряда методов прикладной статистики, систематически используя подобные суммы.
Для статистики объектов нечисловой природы интереснее подмножества пространств, не являющихся линейными. В работе [3] рассмотрены некоторые задачи теории конечных случайных множеств. Ряд интересных результатов получил С.А.Ковязин, в частности, он доказал нашу гипотезу о справедливости закона больших чисел при использовании расстояния между множествами
(15)
где - некоторая мера;. - знак симметрической разности. Расстояние (15) выведено из некоторой системы аксиом в монографии [3]. Прикладники также делают попытки развивать методы статистики случайных множеств.
С теорией случайных множеств тесно связана теория нечетких множеств, начало которой положено статьей Л.А.Заде 1965 г. Это направление прикладной математики получило бурное развитие - к настоящему времени число публикаций измеряется десятками тысяч, имеются международные журналы, постоянно проводятся конференции, практические приложения дали ощутимый технико-экономический эффект. При изложении теории нечетких множеств обычно не подчеркивается связь с вероятностными моделями. Между тем еще в первой половине 1970-х годов было установлено [3], что теория нечеткости в определенном смысле сводится к теории случайных множеств, хотя эта связь и имеет лишь теоретическое значение.
С точки зрения статистики объектов нечисловой природы нечеткие множества - лишь один из видов объектов нечисловой природы. Поэтому к ним применима общая теория в пространствах произвольной природы. Имеются работы, в которых совместно используются соображения вероятности и нечеткости.
Многомерное шкалирование и аксиоматическое введение метрик. Многомерное шкалирование имеет целью представление объектов точками в пространстве небольшой размерности (1-3) с максимально возможным сохранением расстояний между точками.
Из сказанного выше ясно, какое большое место занимают в статистике объектов нечисловой природы метрики (расстояния). Как их выбрать? Предлагают выводить вид метрик из некоторых систем аксиом. Аксиоматически получена метрика в пространстве ранжировок, которая оказалась линейно связанной с коэффициентом ранговой корреляции Кендалла. Метрика (15) в пространстве множеств получена в работе [3] также исходя из некоторой системы аксиом. Г.В.Раушенбахом [23] дана сводка по аксиоматическому подходу к введению метрик в пространствах нечисловой природы. К настоящему времени практически для каждой используемой в прикладных работах метрики удалось подобрать систему аксиом, из которой чисто математическими средствами можно вывести именно эту метрику.
Применения статистики объектов нечисловой природы. Идеи, подходы, результаты статистики объектов нечисловой природы оказались полезными и в классических областях прикладной статистики. Статистика в пространствах общей природы позволила с единых позиций рассмотреть всю прикладную статистику, в частности, показать, что регрессионный, дисперсионный и дискриминантный анализы являются частными случаями общей схемы регрессионного анализа в пространстве произвольной природы. Поскольку структура модели - объект нечисловой природы, то ее оценивание, в частности, оценивание степени полинома в регрессии, также относится к статистике объектов нечисловой природы. Если учесть, что результаты измерения всегда имеют погрешность, т.е. являются не числами, а интервалами или нечеткими множествами, то приходим к необходимости пересмотреть некоторые выводы теоретической статистики. Например, отсутствует состоятельность оценок, нецелесообразно увеличивать объем выборок сверх некоторого предела (см. главу 9).
Технико-экономическая эффективность от применения методов статистики объектов нечисловой природы достаточно высока [114]. К сожалению, из-за изменения экономической ситуации, в частности, из-за инфляции трудно сопоставить конкретные экономические результаты в разные моменты времени. Кроме того, методы статистики объектов нечисловой природы составляют часть эконометрических методов, а те, в свою очередь - часть методов, входящих в систему информационной поддержки принятия решений на предприятии. Какую часть приращения прибыли предприятия надо отнести на эту систему? Мы знаем, как работает система управления фирмой в настоящем виде, но можем только гадать (а точнее, оценивать, скорее всего, с помощью экспертных оценок), каковы были бы результаты финансово-хозяйственной деятельности предприятия, если бы система управления фирмой была бы иной, например, не содержала методов статистики объектов нечисловой природы.
Как уже отмечалось, термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [3]. В том же году в статье [16] была сформулирована программа развития этого нового направления прикладной математической статистики, которая к 1985 г. в основном была реализована.
Статистика объектов нечисловой природы как самостоятельное научное направление была выделена в нашей стране. Со второй половины 80-х годов существенно возрос интерес к этой тематике и у зарубежных исследователей. Это нашло отражение, в частности, на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Статистика объектов нечисловой природы используется в нормативно-технической и методической документации, ее применение позволяет получить существенный технико-экономический эффект (см. например, сводку [26]).
Однако тематика статистики объектов нечисловой природы обсуждалась до сих пор в основном в кругу развивающих ее специалистов, в результате она недостаточно отражена в монографической литературе. Цель настоящего пункта - дать введение в статистику объектов нечисловой природы, выделить ее структуру, указать основные идеи и результаты.
Напомним, что объектами нечисловой природы (см. также предыдущие пункты настоящей главы) называют элементы пространств, не являющихся линейными. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистике (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
статистика объектов нечисловой природы.
При создании теории вероятностей и математической статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе соответствующих вероятностных моделей были введены биномиальное, гипергеометрическое и другие распределения, получены теоремы Муавра-Лапласа, Пуассона и др. Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по альтернативному признаку (годен - не годен) в работах А.Н.Колмогорова, Б.В. Гнеденко, Ю.К. Беляева, Я.П. Лумельского и многих других (см., например, классические монографии [7,8]).
В семидесятых годах в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю.Н. Тюриным и другими специалистами вокруг созданного в 1973 г. научного семинара "Экспертные оценки и нечисловая статистика", развивала в основном вероятностную статистику нечисловых данных. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов. Московской группой выпущены десятки сборников и обзоров, перечень которых приведен в итоговой работе [4]. Хотя в названиях многих из этих изданий стоят слова "экспертные оценки", анализ содержания сборников показывает, что подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие статистики объектов нечисловой природы и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок.
Новосибирская группа (Г.С. Лбов, Б.Г. Миркин и др.), как правило, не использовала вероятностные модели, т.е. вела исследования в рамках анализа данных. В московской группе в рамках анализа данных также велись работы, в частности, Б.Г.Литваком. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллине, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других научных центрах.
Внутреннее деление статистики объектов нечисловой природы. Внутри рассматриваемого направления эконометрики и прикладной статистики выделим следующие области.
1. Статистика конкретных видов объектов нечисловой природы.
2. Статистика в пространствах общей (произвольной) природы.
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассмотрим:
1.1) теорию измерений;
1.2) статистику бинарных отношений;
1.3) теорию люсианов (бернуллиевских векторов);
1.4) статистику случайных множеств;
1.5) статистику нечетких множеств;
1.6) многомерное шкалирование;
1.7) аксиоматическое введение метрик.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [3,15] и первых двух пунктах настоящей главы. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю, таблицам сопряженности, а также по анализу текстов и некоторые другие (см.[4]). Таким образом, рассмотрим постановки 1970-2000 гг. вероятностной статистики объектов нечисловой природы.
Статистика в пространствах общей природы. Пусть x1,x2,…,xn -элементы пространства X, не являющегося линейным. Как определить среднее значение для x1,x2,…,xn? Поскольку нельзя складывать элементы X, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В статистике объектов нечисловой природы предложено использовать показатель различия (содержательный смысл показателя различия: чем больше d(x,y), тем больше различаются x и y) и определять среднее как решение экстремальной задачи
(1)
Таким образом, среднее En(d)- это совокупность всех тех , для которых функция
(2)
достигает минимума на X.
Для классического случая X = R1 при d(x,y) = (x-y)2 имеем En(d) =, а при d(x,y)=|x-y| среднее En(d) совпадает с выборочной медианой (при нечетном объеме выборки; а при четном - En(d) является отрезком с концами в двух средних элементах вариационного ряда).
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г. итальянские статистики Джини и Гальвани применили такой подход для усреднения точек на плоскости и в пространстве Американский исследователь Джон Кемени решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок (см. монографию [24]). При моделировании лесных пожаров согласно выражению (1) было введено "среднеуклоняемое множество" для описания средней выгоревшей площади (см. об этом в монографии [3]). Общее определение среднего вида (1) было впервые введено в работе [16].
Основной результат, связанный со средними вида (1) - аналог закона больших чисел. Пусть x1,x2,…,xn - независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы X. Теоретическим средним, или математическим ожиданием, в статистике объектов нечисловой природы называют
. (3)
Закон больших чисел состоит в сходимости En(d) к En(x1,d) при . Поскольку и эмпирическое, и теоретическое средние - множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений, впервые введенное в работе [16], таково. Для функции
(4)
введем понятие "-пятки" (>0)
(5)
Очевидно, - пятка f - это окрестность Argmin(f) (если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве X. Тогда при некоторых условиях регулярности для любого >0 вероятность события
(6)
стремится к 1 при., т.е. справедлив закон больших чисел. Подробное доказательство приводится в следующем пункте настоящей главы.
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике. Как известно, большинство задач прикладной статистики может быть представлено в качестве оптимизационных [12]. Как себя ведут решения экстремальных задач? Частные случаи этой постановки: как ведут себя при росте объема выборки оценки максимального правдоподобия, минимального контраста (в том числе робастные в смысле Тьюки-Хьюбера - см. главу 10), оценки нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, оценки метода наименьших модулей в регрессии и т.д.
Обычно легко устанавливается, что для некоторых пространств X и последовательности случайных функций.fn(x) при. найдется функция f(x) такая, что
(7)
для любого (сходимость по вероятности). Требуется вывести отсюда, что
(8)
т.е. решения экстремальных задач также сходятся. Понятие сходимости в соотношении (8) уточняется с помощью -пяток, как это сделано выше для закона больших чисел. Условия регулярности, при которых справедливо предельное соотношение (8), приведены в исследовании [27]. В подавляющем большинстве реальных задач эти условия выполняются.
Как оценить распределение случайного элемента в пространстве общей природы? Поскольку понятие функции распределения неприменимо, естественно использовать непараметрические оценки плотности. Что такое плотность распределения вероятностей в пространстве произвольной природы? Это функция такая, что для любого измеримого множества (т.е. случайного события) справедливо соотношение
, (9)
где.- некоторая мера в X. Ряд непараметрических оценок плотности был предложен в работе [16]. Например, аналогом ядерных оценок плотности является оценка
(10)
где d - показатель различия; H - ядерная функция; hn - последовательность положительных чисел; - нормирующий множитель. Удалось установить, что, что статистики типа (10) обладают такими же свойствами, по крайней мере при фиксированном x, что и их классические аналоги при X = R1. В частности, такой же скоростью сходимости. Некоторые изменения необходимы при рассмотрении дискретных , каковыми являются многие пространства конкретных объектов нечисловой природы. С помощью непараметрических оценок плотности можно развивать регрессионный анализ, дискриминантный анализ и другие направления в пространствах общей природы (см. пункт 5 ниже).
Для проверки гипотез согласия, однородности, независимости в пространствах общей природы могут быть использованы статистики интегрального типа
(11)
где -последовательность случайных функций на X; - последовательность случайных распределений (или зарядов). Обычно при сходится по распределению к некоторой случайной функции , а - к распределению F(x). Тогда распределение статистики интегрального типа (11) сходится к распределению случайного элемента
(12)
Условия, при которых это справедливо, даны в работе [28]. Пример применения - вывод предельного распределения статистики типа омега-квадрат для проверки симметрии распределения (см. главу 4).
Перейдем к статистике конкретных видов объектов нечисловой природы.
Теория измерений. Цель теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую именно единицу измерения предпочтет исследователь, т.е. когда они инвариантны относительно допустимого преобразования шкалы.
Теория измерений известна в нашей стране уже около 30 лет. С начала семидесятых годов активно работают отечественные исследователи. В настоящее время изложение основ теории измерений включают в справочные издания, помещают в научно-популярные журналы и книги для детей. Однако она еще не стала общеизвестной среди специалистов, в частности, среди метрологов. Поэтому опишем одну из задач теории измерений (ср. главу 3).
Как известно, шкала задается группой допустимых преобразований (прямой в себя). Номинальная шкала (шкала наименований) задается группой всех взаимно-однозначных преобразований, шкала порядка - группой всех строго возрастающих преобразований. Это - шкалы качественных признаков. Группа линейных возрастающих преобразований задает шкалу интервалов. Группа определяет шкалу отношений. Наконец, группа, состоящая из одного тождественного преобразования, описывает абсолютную шкалу. Это - шкалы количественных признаков. Используют и некоторые другие шкалы.
Практическую пользу теории измерений обычно демонстрируют на примере задачи сравнения средних значений для двух совокупностей одинакового объема x1, x2,…,xn и y1, y2,…,yn. Пусть среднее вычисляется с помощью функции Если
f(x1, x2,…,xn)<f(y1, y2,…,yn),. (13)
то необходимо, чтобы
(14)
для любого допустимого преобразования из задающей шкалу группы . (В противном случае результат сравнения будет зависеть от того, какое из эквивалентных представлений шкалы выбрал исследователь.)
Требование равносильности неравенств (13) и (14) вместе с некоторыми условиями регулярности приводят к тому, что в порядковой шкале в качестве средних можно использовать только члены вариационного ряда, в частности, медиану, но нельзя использовать среднее геометрическое, среднее арифметическое, и т.д. В количественных шкалах это требование выделяет из всех обобщенных средних по А.Н. Колмогорову в шкале интервалов - только среднее арифметическое, а в шкале отношений - только степенные средние. Кроме средних, аналогичные задачи рассмотрены для расстояний, мер связи случайных признаков и других процедур анализа данных.
Приведенные результаты о средних величинах применялись, например, при проектировании системы датчиков в АСУ ТП доменных печей. Велико прикладное значение теории измерений в задачах стандартизации и управления качеством, в частности, в квалиметрии. Так, В.В. Подиновский показал, что любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю, а Н.В. Хованов развил одну из возможных теорий шкал измерения качества. Теория измерений полезна и в других прикладных областях.
Статистика бинарных отношений. Оценивание центра распределения случайного бинарного отношения проводят обычно с помощью медианы Кемени. Состоятельность вытекает из закона больших чисел [3]. Вычислительные процедуры нахождения медианы Кемени здесь не обсуждаем.
Методы проверки гипотез развиты отдельно для каждой разновидности бинарных отношений. В области статистики ранжировок, или ранговой корреляции, классической является книга Кендалла [6]. Современные достижения отражены в работах Ю.Н.Тюрина и Д.С.Шмерлинга. Статистика случайных разбиений развита А.В.Маамяги. Статистика случайных толерантностей (рефлексивных симметричных отношений) изложена в работе [3]. Многие ее задачи являются частными случаями задач теории люсианов.
Теория люсианов (бернуллиевских векторов). Люсиан (бернуллиевский вектор) - это последовательность испытаний Бернулли с, вообще говоря, различными вероятностями успеха. Реализация люсиана (бернуллиевского вектора) - это последовательность из 0 и 1. Люсианы (бернуллиевские вектора) рассматривались как случайные множества с независимыми элементами, а также - как результаты независимых парных сравнений. Последовательность результатов контроля качества последовательности единиц продукции по альтернативному признаку - также реализация люсиана (бернуллиевского вектора). Случайная толерантность может быть записана в виде люсиана. Поскольку один и тот же эконометрический объект применяется в различных областях, естественно для его наименования применять специально введенный термин "бернуллиевский вектор". Используется также термин "люсиан".
В рассматриваемой теории изучают методы проверки согласованности (одинаковой распределенности), однородности двух выборок, независимости люсианов. Методы проверки указанных гипотез нацелены на ситуацию, когда число бернуллиевских векторов фиксировано, а их длина растет. При этом число неизвестных параметров возрастает пропорционально объему данных, т.е. теория построена в асимптотике растущего числа параметров. Ранее подобная асимптотика под названием асимптотики А.Н.Колмогорова использовалась в дискриминантном анализе, но там применялись совсем другие методы.
Непараметрическая теория парных сравнений (в предположении независимости результатов отдельных сравнений) - часть теории бернуллиевских векторов. Параметрическая теория связана в основном с попытками выразить вероятности того или иного исхода через значения гипотетических или реальных параметров сравниваемых объектов. Известны модели Терстоуна, Бредли-Терри-Льюса и др.. В СССР построен ряд новых моделей парных сравнений (см. выше - второй пункт настоящей главы). Имеются модели парных сравнений с тремя исходами (больше, меньше, неразличимо), модели зависимых сравнений, сравнений нескольких объектов (сближающие рассматриваемую область с теорией случайных ранжировок) и т.д.
Статистика случайных и нечетких множеств. Давнюю историю имеет статистика случайных геометрических объектов (отрезков, треугольников, кругов и т.д.). Современная теория случайных множеств сложилась при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология. Различные направления внутри этой теории рассмотрены в работе [3, гл.4]. Остановимся на двух.
Случайные множества, лежащие в евклидовом пространстве, можно складывать: сумма множеств A и B- - это объединение всех векторов x+y, где Н.Н. Ляшенко получил аналоги законов больших чисел, центральной предельной теоремы, ряда методов прикладной статистики, систематически используя подобные суммы.
Для статистики объектов нечисловой природы интереснее подмножества пространств, не являющихся линейными. В работе [3] рассмотрены некоторые задачи теории конечных случайных множеств. Ряд интересных результатов получил С.А.Ковязин, в частности, он доказал нашу гипотезу о справедливости закона больших чисел при использовании расстояния между множествами
(15)
где - некоторая мера;. - знак симметрической разности. Расстояние (15) выведено из некоторой системы аксиом в монографии [3]. Прикладники также делают попытки развивать методы статистики случайных множеств.
С теорией случайных множеств тесно связана теория нечетких множеств, начало которой положено статьей Л.А.Заде 1965 г. Это направление прикладной математики получило бурное развитие - к настоящему времени число публикаций измеряется десятками тысяч, имеются международные журналы, постоянно проводятся конференции, практические приложения дали ощутимый технико-экономический эффект. При изложении теории нечетких множеств обычно не подчеркивается связь с вероятностными моделями. Между тем еще в первой половине 1970-х годов было установлено [3], что теория нечеткости в определенном смысле сводится к теории случайных множеств, хотя эта связь и имеет лишь теоретическое значение.
С точки зрения статистики объектов нечисловой природы нечеткие множества - лишь один из видов объектов нечисловой природы. Поэтому к ним применима общая теория в пространствах произвольной природы. Имеются работы, в которых совместно используются соображения вероятности и нечеткости.
Многомерное шкалирование и аксиоматическое введение метрик. Многомерное шкалирование имеет целью представление объектов точками в пространстве небольшой размерности (1-3) с максимально возможным сохранением расстояний между точками.
Из сказанного выше ясно, какое большое место занимают в статистике объектов нечисловой природы метрики (расстояния). Как их выбрать? Предлагают выводить вид метрик из некоторых систем аксиом. Аксиоматически получена метрика в пространстве ранжировок, которая оказалась линейно связанной с коэффициентом ранговой корреляции Кендалла. Метрика (15) в пространстве множеств получена в работе [3] также исходя из некоторой системы аксиом. Г.В.Раушенбахом [23] дана сводка по аксиоматическому подходу к введению метрик в пространствах нечисловой природы. К настоящему времени практически для каждой используемой в прикладных работах метрики удалось подобрать систему аксиом, из которой чисто математическими средствами можно вывести именно эту метрику.
Применения статистики объектов нечисловой природы. Идеи, подходы, результаты статистики объектов нечисловой природы оказались полезными и в классических областях прикладной статистики. Статистика в пространствах общей природы позволила с единых позиций рассмотреть всю прикладную статистику, в частности, показать, что регрессионный, дисперсионный и дискриминантный анализы являются частными случаями общей схемы регрессионного анализа в пространстве произвольной природы. Поскольку структура модели - объект нечисловой природы, то ее оценивание, в частности, оценивание степени полинома в регрессии, также относится к статистике объектов нечисловой природы. Если учесть, что результаты измерения всегда имеют погрешность, т.е. являются не числами, а интервалами или нечеткими множествами, то приходим к необходимости пересмотреть некоторые выводы теоретической статистики. Например, отсутствует состоятельность оценок, нецелесообразно увеличивать объем выборок сверх некоторого предела (см. главу 9).
Технико-экономическая эффективность от применения методов статистики объектов нечисловой природы достаточно высока [114]. К сожалению, из-за изменения экономической ситуации, в частности, из-за инфляции трудно сопоставить конкретные экономические результаты в разные моменты времени. Кроме того, методы статистики объектов нечисловой природы составляют часть эконометрических методов, а те, в свою очередь - часть методов, входящих в систему информационной поддержки принятия решений на предприятии. Какую часть приращения прибыли предприятия надо отнести на эту систему? Мы знаем, как работает система управления фирмой в настоящем виде, но можем только гадать (а точнее, оценивать, скорее всего, с помощью экспертных оценок), каковы были бы результаты финансово-хозяйственной деятельности предприятия, если бы система управления фирмой была бы иной, например, не содержала методов статистики объектов нечисловой природы.