Приложение 1

К оглавлению1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 
68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 
85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 
102 103 104 105 106 107 108 109 110 111 

 

Вероятностно-статистические основы эконометрики

 

                Эконометрика опирается на твердый научный фундамент - теорию вероятностей и статистику. В области теории вероятностей наша страна является признанным мировым лидером. Практически все специалисты в этой области исходят в своей работе из аксиоматики теории вероятностей, предложенной академиком А.Н. Колмогоровым в 1933 г. [1].

                Однако в отечественной и зарубежной литературе присутствуют различные интерпретации терминов и разделов эконометрики, теории вероятностей, статистики. Одна из причин состоит в том, что используют в своей работе эти научные области специалисты разных профессий - экономисты, инженеры, математики… Поэтому мы приводим основную терминологию и краткое описание математической статистики и ее новых разделов.

 

П1-1. Определения терминов теории вероятностей и прикладной статистики

 

                Определения практически всех используемых в литературе понятий теории вероятностей и математической статистики и основные сведения о соответствующих математических объектах собраны в Энциклопедии [2]. Ниже приведены определения и обозначения (в стиле [2]) лишь для основных понятий теории вероятностей и прикладной статистики, используемых в настоящем учебном пособии. Как показали предыдущие публикации (см., например, [3]), эта сводка позволяет осознанно изучать и применять эконометрические методы для анализа конкретных экономических данных. Однако она, очевидно, не заменяет систематических курсов теории вероятностей и прикладной математической статистики, знакомство с которыми - необходимая предпосылка для изучения эконометрики.

                Споры по поводу терминов весьма распространены. Весьма популярно желание добиться единства терминологии. Однако практика терминологических дискуссий показывает, что придти к единому мнению обычно не удается. Не помогают достижению единства и административные меры, например, принятие государственных стандартов, "несоблюдение которых карается по закону". Зачастую такие стандарты содержат в себе много спорного, а то и ошибочного (подробнее об этом см. [3]).

Почти в каждой области знания параллельно существуют различные терминологические системы. Большого вреда это обычно не приносит. Так, операция умножения двух чисел a и b может быть обозначена четырьмя способами - крестиком (т.е. a х b), точкой (a. b), отсутствием знака между сомножителями (ab) или звездочкой, как при программировании (a* b). Случайные величины обозначают либо латинскими буквами, либо греческими. Для математического ожидания используют либо символ М, либо символ Е, и т.п.. Обычно можно без труда понять, о чем идет речь.

Однако при изучении настоящего курса эконометрики необходимо пользоваться вполне определенной терминологической системой. Она и приводится ниже. При этом мы отнюдь не отрицаем пригодности других систем терминов и определений в тех или иных случаях.

№№ пп.

Термины

Определения

Примечания

 

 

1. Теория вероятностей

 

 

 

 

1.1. Общие понятия

 

1.1.1.

Пространство элементарных событий

Множество, элементы которого, называемые элементарными событиями, соответствуют возможным результатам наблюдения, измерения, анализа, проверки, исходам опыта, эксперимента, испытания.

Пространство элементарных событий  = {} лежит в основе вероятностных моделей явлений (процессов). Вместо явного описания пространства элементарных событий часто используют косвенное или частичное

описание, например, с помощью распределений случайных величин.

 1.1.2.

Случайное событие

Измеримое подмножество пространства элементарных событий.

Термин "измеримое" понимают в смысле теории измеримых множеств. Случайные события образуют -алгебру G.

1.1.3.

Вероятностная мера

Сигма-аддитивная мера P, определенная на всех случайных событиях и такая, что P() = 1, где  - пространство элементарных событий

 

Вероятностная мера P - функция, ставящая в соответствие каждому случайному событию A его вероятность P(A). Термин "мера" понимают в смысле математической теории меры. Синонимы: вероятностное распределение, распределение вероятностей, распределение, вероятность на пространстве элементарных событий.

1.1.4.

Вероятностное пространство

Совокупность {, G, P} пространства элементарных событий , класса  случайных событий G и вероятностной меры P. 

Вероятностное пространство (синоним: поле вероятностей) - основной исходный объект теории вероятностей и вероятностных моделей реальных явлений (процессов).

1.1.5.

Вероятность события A

Значение P(A) вероятностной меры P на случайном событии A.

В силу закона больших чисел частота реализации события A при неограниченном увеличении числа независимых повторений одного и того же комплекса условий, описываемого вероятностным пространством {, G, P}, стремится к вероятности этого события P(A), т.е. для любого e > 0

   limn®¥    P { | m/n - p | £ e }  = 1,

где m/n  - частота, p - вероятность события A, n - число повторений. Это свойство нельзя принимать за определение вероятности события в математической теории вероятностей. Оно указывает способ оценивания вероятности по опытным данным.

1.1.6.

Независимость случайных событий

Случайные события А и В являются независимыми, если  Р(АВ) = Р(А)Р(В), где АВ - пересечение множеств А и В (произведение событий А и В). Случайные события А1,  А2,...,  Аn  называются независимыми (в совокупности), если Р(А1А2...Аn) = Р(А1)Р(А2)...Р(Аn) и аналогичные равенства справедливы для всех поднаборов этих событий А(1),  А(2),...,  А(k), 2£k£n -1.

Общематематическое понятие пересечения множеств АÇВ в теории вероятностей по традиции эквивалентно понятию произведения событий АВ.

1.1.7.

Случайный элемент

Измеримая функция, определенная на вероятностном пространстве.

Случайный элемент Х принимает значения в измеримом пространстве (Z,J), где Z - пространство значений Х, а J - класс измеримых подмножеств Z; при этом для любого QЄJ множество Х-1(Q)  является случайным событием.

Если Z - множество действительных чисел R1, то случайный элемент Х называют случайной величиной. Если Z = Rk - конечномерное векторное пространство размерности k=2,3,...., то случайный элемент Х называют случайным вектором.

1.1.8.

Распределение случайного элемента

Функция множества, задающая вероятность принадлежности случайного элемента измеримому подмножеству его области значений.

Для случайного элемента Х, определенного на вероятностном пространстве {, G, P} со значениями в измеримом пространстве (Z,J), его распределение P1:J - [0,1] задается формулой P1 (Q) = P (Х-1(Q)), QЄJ.

1.1.9.

Дискретный случайный элемент

Случайный элемент, область значений которого состоит из конечного или счетного множества точек.

Распределение случайного элемента Х, принимающего только значения х1, х2,..., полностью описывается числами рi = P(X=хi), i = 1,2,..., причем р1 + р2 +... = 1.

1.1.10.

Параметрическое семейство распределений

Функция, определенная на параметрическом пространстве (подмножестве конечномерного векторного пространства), которая каждому значению параметра (числу или вектору, входящему в параметрическое пространство) ставит в соответствие распределение случайного элемента.

Параметр может быть одномерным или конечномерным. Вместо "зависимость от k-мерного параметра" часто говорят "зависимость от k параметров".

1.1.11. 

Независимость случайных элементов

Определенные на одном и том же вероятностном пространстве случайные элементы X1, X2,...,Xk со значениями в измеримых пространствах (Z1, J1), (Z2, J2),..., (Zk, Jk) соответственно называются независимыми, если для любых Q1ЄJ1, Q2ЄJ2,..., QkЄJk имеем Р(X1ЄQ1, X2ЄQ2,..., XkЄQk) = Р(X1ЄQ1)P(X2ЄQ2)... P(XkЄQk).

Для случайных величин и векторов, имеющих плотности вероятности, независимость эквивалентна тому, что плотность вероятности вектора (Х1, Х2,..., Хk) равна произведению плотностей вероятностей случайных величин Хi, т.е.

f (x1, x2,..., xk) = f(x1)f(x2)...f(xk).

Результаты экспериментов, которые проведены независимо друг от друга, как правило, моделируются с помощью независимых случайных величин.

1.1.12

Вероятностная модель явления (процесса)

Математическая модель явления (процесса), в которой использованы понятия теории вероятностей и математической статистики.

Установление (формулировка) исходной вероятностной модели - необходимый первый этап для применения методов прикладной статистики.

 

 

 

 

 

1.2. Случайная величина

 

1.2.1.

Случайная величина

Однозначная действительная измеримая функция на вероятностном пространстве.

Однозначная действительная функция X:R1 является случайной величиной, если для любого хЄR1 множество  {:X() £ x} является случайным событием. Случайная величина - это случайный элемент со значениями в R1. (Здесь R1 - множество действительных чисел.)

1.2.2.

Функция распределения

Функция, определяющая для всех действительных чисел х вероятность того, что случайная величина Х принимает значения, меньшие х.

Функция распределения F(x) = P(X < x) = P{:X() < x}. Функция распределения непрерывна слева.

Примечание. Иногда функцию распределения определяют как F(x) = P(X < x) = P{:X() < x}. Тогда она непрерывна справа.

1.2.3.

Плотность вероятности

Функция p(t) такая, что

при всех х, где F(x) - функция распределения рассматриваемой случайной величины.

Сокращенная форма: плотность.

1.2.4.

Непрерывная случайная величина

Случайная величина, функция распределения которой при всех действительных x непрерывна.

 

1.2.5.

Квантиль порядка p

Значение случайной величины, для которого функция распределения принимает значение p или имеет место "скачок" со значения меньше p до значения больше p.

Число хр - квантиль порядка р для случайной величины с функцией распределения F(x) тогда и только тогда, когда

      lim xхр+0  F(x)³p, F(хр)£p.

Может случиться, что вышеуказанное условие выполняется для всех значений х, принадлежащих некоторому интервалу. Тогда каждое такое значение называется квантилью порядка р.

Примечание. Одни авторы употребляют термин "квантиль" в мужском роде, другие - в женском.

1.2.6.

Медиана

Квантиль порядка p = 1/2.

 

1.2.7.

Мода непрерывной случайной величины

Значение случайной величины, соответствующее локальному максимуму ее плотности вероятности.

Мод у непрерывной случайной величины может быть несколько (конечное число или бесконечно много).

Краткая форма термина: мода.

1.2.8.

Математическое ожидание

Среднее взвешенное по вероятностям значение случайной величины  X(), т.е.

 

Математическое ожидание обозначают М(Х), Е(Х), МХ, ЕХ и др. Рекомендуемое обозначение: М(Х). При этом

где F(x) - функция распределения, а p(t) - плотность вероятности случайной величины Х = X().

Математическое ожидание существует не для всех случайных величин Х. Для существования математического ожидания необходимо и достаточно абсолютной сходимости соответствующего интеграла.

1.2.9.

Дисперсия (случайной величины X)

Математическое ожидание квадрата разности между случайной величиной и ее математическим ожиданием.

Для случайной величины Х дисперсия D(X) =  2=2(X)=М(X-М(X))2. Дисперсия равна 0 тогда и только тогда когда Р(Х=а)=1 для некоторого а.

1.2.10.

Среднее квадратическое отклонение

Неотрицательный квадратный корень из дисперсии.

 

1.2.11.

Коэффициент вариации

Отношение среднего квадратического отклонения к математическому ожиданию.

Применяется для положительных случайных величин как показатель разброса.

1.2.12.

Момент порядка q (случайной величины X)

Математическое ожидание случайной величины Xq.

 

1.2.13.

Центральный момент порядка q (случайной величины X)

Математическое ожидание случайной величины (X-М(X))q, где М(Х) - математическое ожидание Х.

Дисперсия - центральный момент порядка 2.

1.2.14.

Характеристи-ческая функция (случайной величины X)

Функция от tЄR1 , при каждом t равная математическому ожиданию случайной величины eitX, где i - мнимая единица, e - основание натуральных логарифмов.

 

М(eitX) = М(cos(tX) + isin(tX)) = М(cos(tX)) + iМ(sin(tX)).

 

 

1.3. Случайный вектор

 

1.3.1.

Случайный вектор

Однозначная измеримая функция на вероятностном пространстве со значениями в конечномерном евклидовом пространстве Rk.

Случайный вектор Х - это случайный элемент со значениями в Rk, т.е. X = X() = (X1(), X2(),...., Xk()), где Xi(), i = 1,2,...,k, - случайные величины, заданные на одном и том же вероятностном пространстве.

1.3.2.

Функция распределения (случайного вектора)

Функция распределения F(x1, x2,...., xk) случайного вектора  X() = (X1(), X2(),...., Xk()) удовлетворяет равенству 

F(x1, x2,...., xk) =

P (X1<x1, X2<x2,..., Xk<xk) = P{ :X1()< x1, X2()< x2,..., Xk()< xk).

 

1.3.3.

Плотность вероятности (случайного вектора)

Функция p(x) такая, что

для случайного вектора X = X() и любого борелевского подмножества А конечномерного евклидова пространства Rk.

 

1.3.4.

Математическое ожидание случайного вектора

Вектор, компоненты которого - математические ожидания компонент случайного вектора.

Математическое ожидание случайного вектора X = (X1, X2,...., Xk) есть (М(X1), М(X2),...., М(Xk)), где М(Xi) - математическое ожидание случайной величины Xi, являющейся  i - ой компонентой случайного вектора X, i = 1,2,...,k. 

1.3.5.

Ковариация (для двумерного вектора)

Ковариацией вектора (X,Y) называется математическое ожидание случайной величины

(X - МX))(Y - М(Y)), где М(X) и М(Y) - математические ожидания случайных величин X и Y.

cov(X,Y) = М (X - М(X))(Y - М(Y)) ;

если X = Y, то cov(X,Y) = D(X) - дисперсия X.

1.3.6.

Ковариационная матрица случайного вектора

Квадратная матрица ||cij|| порядка k, в которой cij - ковариация двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.

 

Ковариационная матрица симметрична, на главной диагонали стоят дисперсии Xi - компонент X, i = 1,2,...,k.

1.3.7.

Коэффициент корреляции (для двумерного вектора)

Отношение ковариации вектора (X,Y) к произведению средних квадратических отклонений  (X) и (У) случайных величин Х и У.

 

Если Y = aX+b, то  |r(X,Y)| = 1. Верно и обратное: если  |r(X,Y)| = 1, то Y = aX+b..

1.3.8.

Корреляционная матрица случайного вектора

Квадратная матрица ||rij|| порядка k, в которой rij - коэффициент корреляции  двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.

 

Корреляционная матрица симметрична, на главной диагонали стоят единицы.

 

 

2. Прикладная статистика

 

 

 

2.1. Общие понятия

 

2.1.1.

Признак

Свойство (характеристика) объекта наблюдения.

Частными видами наблюдения являются измерение, испытание, анализ, опыт, проверка и т.д.

2.1.2.

Результат наблюдения

Значение признака объекта наблюдения.

 

Результат наблюдения может быть числом, вектором, элементом конечного множества или математическим объектом иной природы.

2.1.3.

Выборка

Совокупность значений одного и того же признака у подвергнутых наблюдению объектов.

Выборка - совокупность чисел или векторов, или математических объектов иной природы, соответствующих изучаемым реальным объектам наблюдения.

2.1.4.

Объем выборки

Число результатов наблюдений, включенных в выборку.

Объем выборки обычно обозначают n.

2.1.5.

Вероятностная модель выборки

Вероятностная модель получения результатов наблюдений, включаемых в выборку.

Примерами вероятностных моделей выборок являются простая случайная выборка и случайная выборка из конечной совокупности.

2.1.6.

Простая случайная выборка

Выборка, в которой результаты наблюдений моделируются как совокупность независимых одинаково распределенных случайных элементов.

Если результаты наблюдений имеют распределение F, то говорят, что "выборка извлечена из распределения F".

2.1.7.

Случайная выборка из конечной совокупности

Выборка объема n, в которую включены результаты наблюдений над объектами, отбираемыми из конечной совокупности так, что любой набор n объектов имеет одинаковую вероятность быть отобранным.

Если N -  число объектов конечной совокупности, то для получения случайной выборки объема n из этой совокупности, n < N, отбор объектов для проведения наблюдений должен проводиться так, чтобы любой набор из n объектов имел одну и ту же вероятность быть отобранным, равную n!(N-n)!/ N!, т.е. обратной величине к числу сочетаний из N элементов по n.

2.1.8.

Статистика

Измеримая функция результатов наблюдений, включенных в выборку, используемая для получения статистических выводов.

Статистики используются для описания данных, оценивания, проверки гипотез. Статистика, как функция случайного элемента, является случайным элементом. Статистика принимает значения в некотором измеримом пространстве (Z,J), своем для каждой статистики.

 

 

2.2. Описание данных

 

2.2.1.

Частота события

Отношение числа наблюдений, в которых осуществилось событие, к объему выборки.

 

2.2.2.

Эмпирическое распределение

Распределение случайного элемента, в котором каждому результату наблюдения, включенному в выборку, соответствует одна и та же вероятность, равная обратной величине объема выборки.

Если в выборку включены результаты наблюдений x1, x2,...., xn, то эмпирическое распределение - это распределение случайной величины Х такой, что Р(Х= xi) = 1/n, i = 1,2,..., n. Если несколько результатов наблюдений совпадают: x1 = x2 =.... = xk = a, то полагают Р(Х=а) = k/n.

2.2.3.

Эмпирическая функция распределения

Функция эмпирического распределения.

Определена, когда результаты наблюдений - числа или вектора (функции распределения по пп.1.2.2 и 1.3.2 соответственно).

2.2.4.

Выборочное среднее арифметическое

Сумма результатов наблюдений, включенных в выборку, деленная на ее объем.

Выборочное среднее арифметическое равно математическому ожиданию случайной величины, имеющей эмпирическое распределение.

2.2.5.

Выборочная дисперсия

Сумма квадратов отклонений результатов наблюдений, включенных в выборку, от их выборочного среднего арифметического, деленная на объем выборки.

Выборочная дисперсия

s2 = 1/n(хi - xср)2-,

где  x1, x2,...., xn - результаты наблюдений, включенные в выборку; xср - выборочное среднее арифметическое,

xср = 1/nхi.

Выборочная дисперсия равна дисперсии случайной величины, имеющей эмпирическое распределение.

2.2.6.

Выборочное среднее квадратическое отклонение

Неотрицательный квадратный корень из выборочной дисперсии.

 

2.2.7.

Выборочный момент порядка q

Момент порядка q случайной величины, имеющей эмпирическое распределение.

mq = 1/n хiq,   где хi  по п.2.2.5.

2.2.8.

Выборочный центральный момент порядка q

Центральный момент порядка q случайной величины, имеющей эмпирическое распределение.

 

mq = 1/n(хi - xср)q , где  хi и  xср  по п.2.2.5.

2.2.9.

k-я порядковая статистика

k-й элемент x(k) в вариационном ряду, полученном из выборки объема n, элементы которой  x1, x2,...., xn расположены в порядке неубывания: x(1)£x(2) £... £ x(k) £... £x(n).

 

 

2.2.10.

Размах выборки

Разность между наибольшим и наименьшим значениями результатов наблюдений в выборке.

Если x(1) и x(n) - первая и n-ая порядковые статистики в выборке объема n, то размах R = x(n) - x(1).

 

2.2.11.

Выборочная ковариация

Ковариация двумерного случайного вектора, имеющего эмпирическое распределение.

Если (xi, yi), i=1,2,....,n, - результаты наблюдений, включенные в выборку, то выборочная ковариация равна 1/n(хi - xср)(yi - yср), где хi и xср по п.2.2.5,  yср = 1/nyi.

2.2.12.

Выборочная ковариационная матрица

Ковариационная матрица случайного вектора, имеющего эмпирическое распределение.

На главной диагонали выборочной ковариационной матрицы стоят выборочные дисперсии по п.2.2.5, а вне главной диагонали - выборочные ковариации по п.2.2.11.

2.2.13.

Выборочный коэффициент корреляции

Коэффициент корреляции двумерного случайного вектора, имеющего эмпирическое распределение.

Выборочный коэффициент корреляции равен

где хi и xср по п.2.2.5,  yi и yср по п.2.2.11.

 

2.2.14.

Выборочная корреляционная матрица

Корреляционная матрица случайного вектора, имеющего эмпирическое распределение.

На главной диагонали выборочной корреляционной  матрицы стоят 1, а вне главной диагонали - выборочные коэффициенты корреляции  по п.2.2.13.

2.2.15

Выборочный коэффициент вариации

Отношение выборочного среднего квадратического отклонения к выборочному среднему арифметическому.

Выборочный коэффициент вариации используют, когда результаты наблюдений положительны.

 

 

 

 

 

2.3. Оценивание

 

2.3.1.

Оценивание

Приближенное определение интересующей специалиста составляющей вероятностной модели явления (процесса) по выборке.

Составляющими вероятностных моделей могут быть: значение параметра распределения; характеристика распределения (математическое ожидание, коэффициент вариации и др.); функция распределения; плотность вероятности; регрессионная зависимость, и т.д.

2.3.2.

Оценка

Результат оценивания по конкретной выборке.

Оценка является статистикой, а потому случайным элементом, в частных случаях - случайной величиной или случайным вектором.

2.3.3.

Точечное оценивание

Вид оценивания, при котором для оценивания используется одно определенное значение.

 

2.3.4.

Доверительное оценивание

Вид оценивания, при котором для оценивания используется множество.

 

Рассматриваемое множество лежит в пространстве возможных состояний оцениваемой составляющей вероятностной модели явления (процесса).

2.3.5.

Доверительное множество

Определяемое по выборке множество в пространстве возможных состояний оцениваемой составляющей, используемое при доверительном оценивании.

Доверительное множество является случайным множеством.

2.3.6.

Доверительная вероятность

Вероятность того, что доверительное множество содержит действительное значение оцениваемой составляющей.

В конкретных задачах оценивания для фиксированных доверительных вероятностей строят соответствующие доверительные множества.

2.3.7.

Доверительный интервал

Доверительное множество, являющееся интервалом.

Интервалы могут быть как ограниченными, так и неограниченными (лучами).

2.3.8.

Доверительные границы

Концы (границы) доверительного интервала.

 

 

2.3.9.

Верхняя доверительная граница

Граница доверительного интервала, являющегося лучом, не ограниченным снизу.

Для доверительного интервала (-¥; a) верхней доверительной границей является число a.

 

2.3.10.

Нижняя доверительная граница

Граница доверительного интервала, являющегося лучом, не ограниченным сверху.

Различие верхних, нижних и двусторонних доверительных границ необходимо учитывать при проведении конкретных расчетов, т.к. часто все виды границ определяются с помощью одних и тех же таблиц.

2.3.11.

Двусторонние доверительные границы

Границы ограниченного (и сверху, и снизу) доверительного интервала

Для двусторонних границ (T1;T2) с вероятностью 1 справедливо неравенство T1£T2.

 

 

2.4. Проверка статистических гипотез

 

2.4.1.

Статистическая гипотеза

Определенное предположение о свойствах распределений случайных элементов, лежащих в основе наблюдаемых случайных явлений (процессов).

 

2.4.2.

Нулевая гипотеза

Статистическая гипотеза, подлежащая проверке по статистическим данным (результатам наблюдений, вошедшим в выборку).

Из возможных статистических гипотез в качестве нулевой выбирают ту, прннятие справедливости которой наиболее важно для дальнейших выводов.

2.4.3.

Альтернативная гипотеза

Статистическая гипотеза, которая считается справедливой, если нулевая гипотеза неверна.

Сокращенная форма - альтернатива.

2.4.4.

Статистический критерий

Правило, по которому на основе результатов наблюдений принимается решение о принятии или отклонении нулевой гипотезы.

Принимаемое решение может однозначно определяться по результатам наблюдений (нерандомизированный критерий) или в некоторой степени зависеть от случая (рандомизированный критерий).

2.4.5.

Статистика критерия

Статистика, на основе которой сформулировано решающее правило.

Как правило, нерандомизированный статистический критерий основан на статистике критерия, принимающей числовые значения.

2.4.6.

Критическая область статистического критерия

Область в пространстве возможных выборок со следующими свойствами: если наблюдаемая выборка принадлежит данной области, то отвергают нулевую гипотезу (и принимают альтернативную), в противном случае ее принимают (и отвергают альтернативную).

Если статистический критерий основан на статистике критерия, то критическая область статистического критерия однозначно определяется по критической области статистики критерия.

Краткая форма: критическая область.

2.4.7.

Критическая область статистики критерия

Множество чисел такое, что при попадании в него статистики критерия нулевую гипотезу отвергают, в противном случае принимают.

Краткая форма: критическая область.

2.4.8.

Критические значения

Границы (концы) одного или двух интервалов, составляющих критическую область статистики критерия.

Критическими значениями являются одно или два из чисел t1, t2 в случае, если критическая область имеет вид {Tn<t1}, {Tn>t1} или {Tn<t1}È{Tn>t2}, где Tn - статистика  критерия.

2.4.9.

Ошибка первого рода

Ошибка, заключающаяся в том, что нулевую гипотезу отвергают, в то время как в действительности эта гипотеза верна.

 

2.4.10.

Уровень значимости

Вероятность ошибки первого рода  или точная верхняя грань таких вероятностей.

Если нулевая гипотеза является сложной (например, задается с помощью множества параметров Q0), то вероятность ошибки первого рода может быть не числом (a), а функцией (a(q0), q0ÎQ0). В качестве уровня значимости берут точную верхнюю грань значений указанной функции:

.

 

2.4.11.

Ошибка второго рода

Ошибка, заключающаяся в том, что нулевую гипотезу принимают, в то время как в действительности эта гипотеза неверна (а верна альтернативная гипотеза).

 

2.4.12.

Мощность критерия

Вероятность того, что нулевая гипотеза будет отвергнута, если альтернативная гипотеза верна.

Мощность критерия является однозначной действительной функцией, определенной на составляющем альтернативу множестве гипотез, заданном в конкретной задаче статистической проверки гипотез, в частности, на параметрическом множестве, соответствующем альтернативным гипотезам.

2.4.13.

Функция мощности статистического критерия

Функция, определяющая вероятность того, что нулевая гипотеза будет отклонена.

Функция мощности критерия задана на множестве всех гипотез, используемых в конкретной задаче статистической проверки гипотез. Сужением ее на нулевую гипотезу является функция, задающая вероятность ошибки первого рода. Сужением ее на альтернативу является мощность критерия.

2.4.14.

Оперативная характеристика статистического критерия

 

Функция, определяющая вероятность того, что нулевая гипотеза будет принята.

Оперативная характеристика - дополнение до единицы функции мощности статистического критерия.

2.4.15.

Критерий согласия

Критерий проверки гипотезы согласия, т.е. того, что функция распределения результатов наблюдения, включенных в простую случайную выборку, совпадает с заданной или входит в заданное параметрическое семейство.

 

2.4.16.

Критерий однородности

Критерий для проверки гипотезы о том, что функции распределений результатов наблюдений из двух или нескольких независимых простых случайных выборок совпадают (абсолютная однородность) или отдельные их характеристики совпадают (однородность в смысле математических ожиданий, коэффициентов вариации и т.д.).

Рассматривают также критерии независимости, симметрии, случайности, отбраковки и др.

2.4.17.

Номинальный (заданный) уровень значимости

Число, используемое в статистических таблицах, с помощью которого выбирают критическое значение статистики критерия при проверке статистической гипотезы.

Номинальный (заданный) уровень значимости обычно берут равным 0,1; 0,05; 0,01.

2.4.18.

Реальный (истинный) уровень значимости

Уровень значимости статистического критерия, выбранного по номинальному уровню значимости.

Из-за дискретности распределения статистики критерия реальный уровень значимости может быть в несколько раз меньше номинального.

 

2.4.19.

Достигаемый уровень значимости

Случайная величина, равная вероятности попадания статистики критерия в критическую область, заданную рассчитанным по выборке значением статистики критерия.

Для критической области вида {x:x>a} достигаемый уровень значимости есть F(Xn), где Xn - рассчитанное по выборке значение статистики критерия X, а F(a) = P(X>a) - дополнение до 1 функции распределения статистики критерия X. Достигаемый уровень значимости - это вероятность того, что статистика критерия Х в новом независимом эксперименте примет значение большее, чем при расчете по конкретной выборке, т.е. большее, чем Xn.

2.4.20.

Независимые выборки

Выборки, объединение элементов которых моделируется набором независимых (в совокупности) случайных элементов.

 

См. п.1.1.11.

 

П1-2. Математическая статистика и ее новые разделы

 

                Приведем краткие описания (типа статей в энциклопедических изданиях) математической статистики и ее наиболее важных для эконометрики сравнительно новых разделов, разработанных в основном после 1970 г., а именно, статистики объектов нечисловой природы и статистики интервальных данных.

Статистика математическая - наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях.

Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В статистике математической есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (т.е. о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение для эконометрики имеет раздел статистики математической, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в статистике математической. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Классическая статистика математическая лучше всего представлена в [2,4]. По историческим причинам основные российские работы публикуются в [3]. Обзор современного состояния статистики математической дан в [6].

Статистика объектов нечисловой природы - раздел математической статистики, в котором статистическими данными являются объекты нечисловой природы, т.е. элементы множеств, не являющихся линейными пространствами. Объекты нечисловой природы нельзя складывать и умножать на число. Примерами являются результаты измерений в шкалах наименований, порядка, интервалов; ранжировки, разбиения, толерантности и другие бинарные отношения; результаты парных и множественных сравнений; люсианы, т.е. конечные последовательности из 0 и1; множества; нечеткие множества. Необходимость применения объектов нечисловой природы возникает во многих областях научной и практической деятельности, в том числе и в социологии. Примерами являются ответы на "закрытые" вопросы в эконометрических, маркетинговых, социологических анкетах, в которых респондент должен выбрать одну или несколько из фиксированного числа подсказок, мили измерение мнений о привлекательности (товаров, услуг, профессий, политиков и др.), проводимое по порядковой шкале. Наряду со специальными теориями для каждого отдельного вида объектов нечисловой природы  в статистике объектов нечисловой природы имеется и теория обработки данных, лежащих в пространстве общей природы, результаты которой применимы во всех специальных теориях.

В статистике объектов нечисловой природы классические задачи математической статистики - описание данных, оценивание, проверку гипотез - рассматривают для данных неклассического типа, что приводит к своеобразию постановок задач и методов их решения. Например, из-за отсутствия линейной структуры в пространстве, в котором лежат статистические данные, в статистике объектов нечисловой природы математическое ожидание определяют не через сумму или интеграл, как в классическом случае, а как решение задачи минимизации некоторой функции. Эта функция представляет собой математическое ожидание (в классическом смысле) показателя различия между значением случайного объекта нечисловой природы и фиксированным элементом пространства. Эмпирическое среднее определяют как результат минимизации суммы расстояний от нечисловых результатов наблюдений до фиксированного элемента пространства. Справедлив закон больших чисел: эмпирическое среднее сходится при увеличении объема выборки к математическому ожиданию, если результаты наблюдений являются независимыми одинаково распределенными случайными объектами нечисловой природы и выполнены некоторые математические "условия регулярности".

Аналогичным образом определяют условное математическое ожидание и регрессионную зависимость. Из доказанной в статистике объектов нечисловой природы сходимости решений экстремальных статистических задач к решениям соответствующих предельных задач вытекает состоятельность оценок в параметрических задачах оценивания параметров и аппроксимации, а также ряд результатов в многомерном статистическом анализе. Большую роль в статистике объектов нечисловой природы играют непараметрические методы, в частности, методы непараметрической оценки плотности и регрессионной зависимости в пространствах общей природы, в том числе и в дискретных пространствах.

Для решения многих задач статистики объектов нечисловой природы - нахождения эмпирического среднего, оценки регрессионной зависимости, классификации наблюдений и др. - используют показатели различия (меры близости, расстояния, метрики) между элементами рассматриваемых пространств, вводимые аксиоматически. Так, в монографии [7] аксиоматически введено расстояние между множествами. Принятое в теории измерений как части статистики объектов нечисловой природы условие адекватности (инвариантности) алгоритмов анализа данных позволяет указать вид средних величин, расстояний, показателей связи и т.д., соответствующих измерениям в тех или иных шкалах. Методы построения, анализа и использования классификаций и многомерного шкалирования дают возможность сжать информацию и дать ей наглядное представление. К статистике объектов нечисловой природы относятся методы ранговой корреляции, статистического анализа бинарных отношений (ранжировок, разбиений, толерантностей), параметрические и непараметрические методы обработки результатов парных и множественных сравнений. Теория люсианов (последовательностей независимых испытаний Бернулли) развита в асимптотике растущей размерности.

Статистика объектов нечисловой природы как самостоятельный раздел прикладной математической статистики выделена в монографии [7]. Обзору ее основных направлений посвящен, например, сборник [8]. Ей посвящен раздел в энциклопедии [2].

Статистика интервальных данных (СИД) - раздел статистики объектов нечисловой природы, в котором элементами выборки являются интервалы в R, в частности, порожденные наложением ошибок измерения на значения случайных величин. СИД входит в теорию устойчивости (робастности) статистических процедур (см. [7]) и примыкает к интервальной математике (см. [9]). В СИД изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. (см.[10-13]).

Развиты асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования (см. [14]), включающая расчет двух основных характеристик СИД - н о т н ы (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и   р а ц и о н а л ь н о г о    о б ъ е м а    в ы б о р к и (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 [15] и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы СИД в основных постановках регрессионного, дискриминантного и кластерного анализов (см. [16]).

                Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата  нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. [15, 17]). Нецелесообразно с целью повышения точности  выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.

Многим задачам классической математической статистики могут быть поставлены в соответствие задачи СИД, в которых элементы выборок - действительные числа заменены на интервалы. В статистическое программное обеспечение включают алгоритмы СИД, "параллельные" их аналогам  из классической математической статистики. Это позволяет учесть наличие погрешностей у результатов наблюдений.

 

Цитированная литература

 

1. Колмогоров А.Н. Основные понятия теории вероятностей. 2-е изд. - М.: Наука, 1974. - 120 с.

2. Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. – М.: Изд-во «Большая Российская Энциклопедия», 1999. – 910 с.

3. Орлов А.И. Термины и определения в области вероятностно-статистических методов. – Журнал «Заводская лаборатория». 1999. Т.65. No.7. С.46-54.

4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983.

5. Секция "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов".

6. Орлов А.И. Современная прикладная статистика. - Журнал "Заводская лаборатория". 1998. Т.64. No.3. С. 52-60.

7. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

8. Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.

9. Шокин Ю.И. Интервальный анализ. - Новосибирск: Наука, 1981. - 112 с.

10. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. - 109 с.

11. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София: Техника, 1989. - 224 с.

12. Кузнецов В.П. Интервальные статистические модели. - М.: Радио и связь, 1991. - 352 с.

13. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92). Тт. 1,2. - М.: МЭИ, 1992. - 216 с., 152 с.

14. Орлов А.И. О развитии реалистической статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1990, с..89-99.

15. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов, 1984. - 53 с. 

16. Орлов А.И. Интервальный статистический анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Пермский государственный университет, 1993, с.149-158.

17. Орлов А.И. Интервальная статистика: метод максимального правдоподобия и метод моментов. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1995, с.114-124.

 

 

 

 

Вероятностно-статистические основы эконометрики

 

                Эконометрика опирается на твердый научный фундамент - теорию вероятностей и статистику. В области теории вероятностей наша страна является признанным мировым лидером. Практически все специалисты в этой области исходят в своей работе из аксиоматики теории вероятностей, предложенной академиком А.Н. Колмогоровым в 1933 г. [1].

                Однако в отечественной и зарубежной литературе присутствуют различные интерпретации терминов и разделов эконометрики, теории вероятностей, статистики. Одна из причин состоит в том, что используют в своей работе эти научные области специалисты разных профессий - экономисты, инженеры, математики… Поэтому мы приводим основную терминологию и краткое описание математической статистики и ее новых разделов.

 

П1-1. Определения терминов теории вероятностей и прикладной статистики

 

                Определения практически всех используемых в литературе понятий теории вероятностей и математической статистики и основные сведения о соответствующих математических объектах собраны в Энциклопедии [2]. Ниже приведены определения и обозначения (в стиле [2]) лишь для основных понятий теории вероятностей и прикладной статистики, используемых в настоящем учебном пособии. Как показали предыдущие публикации (см., например, [3]), эта сводка позволяет осознанно изучать и применять эконометрические методы для анализа конкретных экономических данных. Однако она, очевидно, не заменяет систематических курсов теории вероятностей и прикладной математической статистики, знакомство с которыми - необходимая предпосылка для изучения эконометрики.

                Споры по поводу терминов весьма распространены. Весьма популярно желание добиться единства терминологии. Однако практика терминологических дискуссий показывает, что придти к единому мнению обычно не удается. Не помогают достижению единства и административные меры, например, принятие государственных стандартов, "несоблюдение которых карается по закону". Зачастую такие стандарты содержат в себе много спорного, а то и ошибочного (подробнее об этом см. [3]).

Почти в каждой области знания параллельно существуют различные терминологические системы. Большого вреда это обычно не приносит. Так, операция умножения двух чисел a и b может быть обозначена четырьмя способами - крестиком (т.е. a х b), точкой (a. b), отсутствием знака между сомножителями (ab) или звездочкой, как при программировании (a* b). Случайные величины обозначают либо латинскими буквами, либо греческими. Для математического ожидания используют либо символ М, либо символ Е, и т.п.. Обычно можно без труда понять, о чем идет речь.

Однако при изучении настоящего курса эконометрики необходимо пользоваться вполне определенной терминологической системой. Она и приводится ниже. При этом мы отнюдь не отрицаем пригодности других систем терминов и определений в тех или иных случаях.

№№ пп.

Термины

Определения

Примечания

 

 

1. Теория вероятностей

 

 

 

 

1.1. Общие понятия

 

1.1.1.

Пространство элементарных событий

Множество, элементы которого, называемые элементарными событиями, соответствуют возможным результатам наблюдения, измерения, анализа, проверки, исходам опыта, эксперимента, испытания.

Пространство элементарных событий  = {} лежит в основе вероятностных моделей явлений (процессов). Вместо явного описания пространства элементарных событий часто используют косвенное или частичное

описание, например, с помощью распределений случайных величин.

 1.1.2.

Случайное событие

Измеримое подмножество пространства элементарных событий.

Термин "измеримое" понимают в смысле теории измеримых множеств. Случайные события образуют -алгебру G.

1.1.3.

Вероятностная мера

Сигма-аддитивная мера P, определенная на всех случайных событиях и такая, что P() = 1, где  - пространство элементарных событий

 

Вероятностная мера P - функция, ставящая в соответствие каждому случайному событию A его вероятность P(A). Термин "мера" понимают в смысле математической теории меры. Синонимы: вероятностное распределение, распределение вероятностей, распределение, вероятность на пространстве элементарных событий.

1.1.4.

Вероятностное пространство

Совокупность {, G, P} пространства элементарных событий , класса  случайных событий G и вероятностной меры P. 

Вероятностное пространство (синоним: поле вероятностей) - основной исходный объект теории вероятностей и вероятностных моделей реальных явлений (процессов).

1.1.5.

Вероятность события A

Значение P(A) вероятностной меры P на случайном событии A.

В силу закона больших чисел частота реализации события A при неограниченном увеличении числа независимых повторений одного и того же комплекса условий, описываемого вероятностным пространством {, G, P}, стремится к вероятности этого события P(A), т.е. для любого e > 0

   limn®¥    P { | m/n - p | £ e }  = 1,

где m/n  - частота, p - вероятность события A, n - число повторений. Это свойство нельзя принимать за определение вероятности события в математической теории вероятностей. Оно указывает способ оценивания вероятности по опытным данным.

1.1.6.

Независимость случайных событий

Случайные события А и В являются независимыми, если  Р(АВ) = Р(А)Р(В), где АВ - пересечение множеств А и В (произведение событий А и В). Случайные события А1,  А2,...,  Аn  называются независимыми (в совокупности), если Р(А1А2...Аn) = Р(А1)Р(А2)...Р(Аn) и аналогичные равенства справедливы для всех поднаборов этих событий А(1),  А(2),...,  А(k), 2£k£n -1.

Общематематическое понятие пересечения множеств АÇВ в теории вероятностей по традиции эквивалентно понятию произведения событий АВ.

1.1.7.

Случайный элемент

Измеримая функция, определенная на вероятностном пространстве.

Случайный элемент Х принимает значения в измеримом пространстве (Z,J), где Z - пространство значений Х, а J - класс измеримых подмножеств Z; при этом для любого QЄJ множество Х-1(Q)  является случайным событием.

Если Z - множество действительных чисел R1, то случайный элемент Х называют случайной величиной. Если Z = Rk - конечномерное векторное пространство размерности k=2,3,...., то случайный элемент Х называют случайным вектором.

1.1.8.

Распределение случайного элемента

Функция множества, задающая вероятность принадлежности случайного элемента измеримому подмножеству его области значений.

Для случайного элемента Х, определенного на вероятностном пространстве {, G, P} со значениями в измеримом пространстве (Z,J), его распределение P1:J - [0,1] задается формулой P1 (Q) = P (Х-1(Q)), QЄJ.

1.1.9.

Дискретный случайный элемент

Случайный элемент, область значений которого состоит из конечного или счетного множества точек.

Распределение случайного элемента Х, принимающего только значения х1, х2,..., полностью описывается числами рi = P(X=хi), i = 1,2,..., причем р1 + р2 +... = 1.

1.1.10.

Параметрическое семейство распределений

Функция, определенная на параметрическом пространстве (подмножестве конечномерного векторного пространства), которая каждому значению параметра (числу или вектору, входящему в параметрическое пространство) ставит в соответствие распределение случайного элемента.

Параметр может быть одномерным или конечномерным. Вместо "зависимость от k-мерного параметра" часто говорят "зависимость от k параметров".

1.1.11. 

Независимость случайных элементов

Определенные на одном и том же вероятностном пространстве случайные элементы X1, X2,...,Xk со значениями в измеримых пространствах (Z1, J1), (Z2, J2),..., (Zk, Jk) соответственно называются независимыми, если для любых Q1ЄJ1, Q2ЄJ2,..., QkЄJk имеем Р(X1ЄQ1, X2ЄQ2,..., XkЄQk) = Р(X1ЄQ1)P(X2ЄQ2)... P(XkЄQk).

Для случайных величин и векторов, имеющих плотности вероятности, независимость эквивалентна тому, что плотность вероятности вектора (Х1, Х2,..., Хk) равна произведению плотностей вероятностей случайных величин Хi, т.е.

f (x1, x2,..., xk) = f(x1)f(x2)...f(xk).

Результаты экспериментов, которые проведены независимо друг от друга, как правило, моделируются с помощью независимых случайных величин.

1.1.12

Вероятностная модель явления (процесса)

Математическая модель явления (процесса), в которой использованы понятия теории вероятностей и математической статистики.

Установление (формулировка) исходной вероятностной модели - необходимый первый этап для применения методов прикладной статистики.

 

 

 

 

 

1.2. Случайная величина

 

1.2.1.

Случайная величина

Однозначная действительная измеримая функция на вероятностном пространстве.

Однозначная действительная функция X:R1 является случайной величиной, если для любого хЄR1 множество  {:X() £ x} является случайным событием. Случайная величина - это случайный элемент со значениями в R1. (Здесь R1 - множество действительных чисел.)

1.2.2.

Функция распределения

Функция, определяющая для всех действительных чисел х вероятность того, что случайная величина Х принимает значения, меньшие х.

Функция распределения F(x) = P(X < x) = P{:X() < x}. Функция распределения непрерывна слева.

Примечание. Иногда функцию распределения определяют как F(x) = P(X < x) = P{:X() < x}. Тогда она непрерывна справа.

1.2.3.

Плотность вероятности

Функция p(t) такая, что

при всех х, где F(x) - функция распределения рассматриваемой случайной величины.

Сокращенная форма: плотность.

1.2.4.

Непрерывная случайная величина

Случайная величина, функция распределения которой при всех действительных x непрерывна.

 

1.2.5.

Квантиль порядка p

Значение случайной величины, для которого функция распределения принимает значение p или имеет место "скачок" со значения меньше p до значения больше p.

Число хр - квантиль порядка р для случайной величины с функцией распределения F(x) тогда и только тогда, когда

      lim xхр+0  F(x)³p, F(хр)£p.

Может случиться, что вышеуказанное условие выполняется для всех значений х, принадлежащих некоторому интервалу. Тогда каждое такое значение называется квантилью порядка р.

Примечание. Одни авторы употребляют термин "квантиль" в мужском роде, другие - в женском.

1.2.6.

Медиана

Квантиль порядка p = 1/2.

 

1.2.7.

Мода непрерывной случайной величины

Значение случайной величины, соответствующее локальному максимуму ее плотности вероятности.

Мод у непрерывной случайной величины может быть несколько (конечное число или бесконечно много).

Краткая форма термина: мода.

1.2.8.

Математическое ожидание

Среднее взвешенное по вероятностям значение случайной величины  X(), т.е.

 

Математическое ожидание обозначают М(Х), Е(Х), МХ, ЕХ и др. Рекомендуемое обозначение: М(Х). При этом

где F(x) - функция распределения, а p(t) - плотность вероятности случайной величины Х = X().

Математическое ожидание существует не для всех случайных величин Х. Для существования математического ожидания необходимо и достаточно абсолютной сходимости соответствующего интеграла.

1.2.9.

Дисперсия (случайной величины X)

Математическое ожидание квадрата разности между случайной величиной и ее математическим ожиданием.

Для случайной величины Х дисперсия D(X) =  2=2(X)=М(X-М(X))2. Дисперсия равна 0 тогда и только тогда когда Р(Х=а)=1 для некоторого а.

1.2.10.

Среднее квадратическое отклонение

Неотрицательный квадратный корень из дисперсии.

 

1.2.11.

Коэффициент вариации

Отношение среднего квадратического отклонения к математическому ожиданию.

Применяется для положительных случайных величин как показатель разброса.

1.2.12.

Момент порядка q (случайной величины X)

Математическое ожидание случайной величины Xq.

 

1.2.13.

Центральный момент порядка q (случайной величины X)

Математическое ожидание случайной величины (X-М(X))q, где М(Х) - математическое ожидание Х.

Дисперсия - центральный момент порядка 2.

1.2.14.

Характеристи-ческая функция (случайной величины X)

Функция от tЄR1 , при каждом t равная математическому ожиданию случайной величины eitX, где i - мнимая единица, e - основание натуральных логарифмов.

 

М(eitX) = М(cos(tX) + isin(tX)) = М(cos(tX)) + iМ(sin(tX)).

 

 

1.3. Случайный вектор

 

1.3.1.

Случайный вектор

Однозначная измеримая функция на вероятностном пространстве со значениями в конечномерном евклидовом пространстве Rk.

Случайный вектор Х - это случайный элемент со значениями в Rk, т.е. X = X() = (X1(), X2(),...., Xk()), где Xi(), i = 1,2,...,k, - случайные величины, заданные на одном и том же вероятностном пространстве.

1.3.2.

Функция распределения (случайного вектора)

Функция распределения F(x1, x2,...., xk) случайного вектора  X() = (X1(), X2(),...., Xk()) удовлетворяет равенству 

F(x1, x2,...., xk) =

P (X1<x1, X2<x2,..., Xk<xk) = P{ :X1()< x1, X2()< x2,..., Xk()< xk).

 

1.3.3.

Плотность вероятности (случайного вектора)

Функция p(x) такая, что

для случайного вектора X = X() и любого борелевского подмножества А конечномерного евклидова пространства Rk.

 

1.3.4.

Математическое ожидание случайного вектора

Вектор, компоненты которого - математические ожидания компонент случайного вектора.

Математическое ожидание случайного вектора X = (X1, X2,...., Xk) есть (М(X1), М(X2),...., М(Xk)), где М(Xi) - математическое ожидание случайной величины Xi, являющейся  i - ой компонентой случайного вектора X, i = 1,2,...,k. 

1.3.5.

Ковариация (для двумерного вектора)

Ковариацией вектора (X,Y) называется математическое ожидание случайной величины

(X - МX))(Y - М(Y)), где М(X) и М(Y) - математические ожидания случайных величин X и Y.

cov(X,Y) = М (X - М(X))(Y - М(Y)) ;

если X = Y, то cov(X,Y) = D(X) - дисперсия X.

1.3.6.

Ковариационная матрица случайного вектора

Квадратная матрица ||cij|| порядка k, в которой cij - ковариация двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.

 

Ковариационная матрица симметрична, на главной диагонали стоят дисперсии Xi - компонент X, i = 1,2,...,k.

1.3.7.

Коэффициент корреляции (для двумерного вектора)

Отношение ковариации вектора (X,Y) к произведению средних квадратических отклонений  (X) и (У) случайных величин Х и У.

 

Если Y = aX+b, то  |r(X,Y)| = 1. Верно и обратное: если  |r(X,Y)| = 1, то Y = aX+b..

1.3.8.

Корреляционная матрица случайного вектора

Квадратная матрица ||rij|| порядка k, в которой rij - коэффициент корреляции  двумерного вектора (Xi, Xj), где Xi и Xj - компоненты случайного вектора X = (X1, X2,...., Xk), i,j = 1,2,...,k.

 

Корреляционная матрица симметрична, на главной диагонали стоят единицы.

 

 

2. Прикладная статистика

 

 

 

2.1. Общие понятия

 

2.1.1.

Признак

Свойство (характеристика) объекта наблюдения.

Частными видами наблюдения являются измерение, испытание, анализ, опыт, проверка и т.д.

2.1.2.

Результат наблюдения

Значение признака объекта наблюдения.

 

Результат наблюдения может быть числом, вектором, элементом конечного множества или математическим объектом иной природы.

2.1.3.

Выборка

Совокупность значений одного и того же признака у подвергнутых наблюдению объектов.

Выборка - совокупность чисел или векторов, или математических объектов иной природы, соответствующих изучаемым реальным объектам наблюдения.

2.1.4.

Объем выборки

Число результатов наблюдений, включенных в выборку.

Объем выборки обычно обозначают n.

2.1.5.

Вероятностная модель выборки

Вероятностная модель получения результатов наблюдений, включаемых в выборку.

Примерами вероятностных моделей выборок являются простая случайная выборка и случайная выборка из конечной совокупности.

2.1.6.

Простая случайная выборка

Выборка, в которой результаты наблюдений моделируются как совокупность независимых одинаково распределенных случайных элементов.

Если результаты наблюдений имеют распределение F, то говорят, что "выборка извлечена из распределения F".

2.1.7.

Случайная выборка из конечной совокупности

Выборка объема n, в которую включены результаты наблюдений над объектами, отбираемыми из конечной совокупности так, что любой набор n объектов имеет одинаковую вероятность быть отобранным.

Если N -  число объектов конечной совокупности, то для получения случайной выборки объема n из этой совокупности, n < N, отбор объектов для проведения наблюдений должен проводиться так, чтобы любой набор из n объектов имел одну и ту же вероятность быть отобранным, равную n!(N-n)!/ N!, т.е. обратной величине к числу сочетаний из N элементов по n.

2.1.8.

Статистика

Измеримая функция результатов наблюдений, включенных в выборку, используемая для получения статистических выводов.

Статистики используются для описания данных, оценивания, проверки гипотез. Статистика, как функция случайного элемента, является случайным элементом. Статистика принимает значения в некотором измеримом пространстве (Z,J), своем для каждой статистики.

 

 

2.2. Описание данных

 

2.2.1.

Частота события

Отношение числа наблюдений, в которых осуществилось событие, к объему выборки.

 

2.2.2.

Эмпирическое распределение

Распределение случайного элемента, в котором каждому результату наблюдения, включенному в выборку, соответствует одна и та же вероятность, равная обратной величине объема выборки.

Если в выборку включены результаты наблюдений x1, x2,...., xn, то эмпирическое распределение - это распределение случайной величины Х такой, что Р(Х= xi) = 1/n, i = 1,2,..., n. Если несколько результатов наблюдений совпадают: x1 = x2 =.... = xk = a, то полагают Р(Х=а) = k/n.

2.2.3.

Эмпирическая функция распределения

Функция эмпирического распределения.

Определена, когда результаты наблюдений - числа или вектора (функции распределения по пп.1.2.2 и 1.3.2 соответственно).

2.2.4.

Выборочное среднее арифметическое

Сумма результатов наблюдений, включенных в выборку, деленная на ее объем.

Выборочное среднее арифметическое равно математическому ожиданию случайной величины, имеющей эмпирическое распределение.

2.2.5.

Выборочная дисперсия

Сумма квадратов отклонений результатов наблюдений, включенных в выборку, от их выборочного среднего арифметического, деленная на объем выборки.

Выборочная дисперсия

s2 = 1/n(хi - xср)2-,

где  x1, x2,...., xn - результаты наблюдений, включенные в выборку; xср - выборочное среднее арифметическое,

xср = 1/nхi.

Выборочная дисперсия равна дисперсии случайной величины, имеющей эмпирическое распределение.

2.2.6.

Выборочное среднее квадратическое отклонение

Неотрицательный квадратный корень из выборочной дисперсии.

 

2.2.7.

Выборочный момент порядка q

Момент порядка q случайной величины, имеющей эмпирическое распределение.

mq = 1/n хiq,   где хi  по п.2.2.5.

2.2.8.

Выборочный центральный момент порядка q

Центральный момент порядка q случайной величины, имеющей эмпирическое распределение.

 

mq = 1/n(хi - xср)q , где  хi и  xср  по п.2.2.5.

2.2.9.

k-я порядковая статистика

k-й элемент x(k) в вариационном ряду, полученном из выборки объема n, элементы которой  x1, x2,...., xn расположены в порядке неубывания: x(1)£x(2) £... £ x(k) £... £x(n).

 

 

2.2.10.

Размах выборки

Разность между наибольшим и наименьшим значениями результатов наблюдений в выборке.

Если x(1) и x(n) - первая и n-ая порядковые статистики в выборке объема n, то размах R = x(n) - x(1).

 

2.2.11.

Выборочная ковариация

Ковариация двумерного случайного вектора, имеющего эмпирическое распределение.

Если (xi, yi), i=1,2,....,n, - результаты наблюдений, включенные в выборку, то выборочная ковариация равна 1/n(хi - xср)(yi - yср), где хi и xср по п.2.2.5,  yср = 1/nyi.

2.2.12.

Выборочная ковариационная матрица

Ковариационная матрица случайного вектора, имеющего эмпирическое распределение.

На главной диагонали выборочной ковариационной матрицы стоят выборочные дисперсии по п.2.2.5, а вне главной диагонали - выборочные ковариации по п.2.2.11.

2.2.13.

Выборочный коэффициент корреляции

Коэффициент корреляции двумерного случайного вектора, имеющего эмпирическое распределение.

Выборочный коэффициент корреляции равен

где хi и xср по п.2.2.5,  yi и yср по п.2.2.11.

 

2.2.14.

Выборочная корреляционная матрица

Корреляционная матрица случайного вектора, имеющего эмпирическое распределение.

На главной диагонали выборочной корреляционной  матрицы стоят 1, а вне главной диагонали - выборочные коэффициенты корреляции  по п.2.2.13.

2.2.15

Выборочный коэффициент вариации

Отношение выборочного среднего квадратического отклонения к выборочному среднему арифметическому.

Выборочный коэффициент вариации используют, когда результаты наблюдений положительны.

 

 

 

 

 

2.3. Оценивание

 

2.3.1.

Оценивание

Приближенное определение интересующей специалиста составляющей вероятностной модели явления (процесса) по выборке.

Составляющими вероятностных моделей могут быть: значение параметра распределения; характеристика распределения (математическое ожидание, коэффициент вариации и др.); функция распределения; плотность вероятности; регрессионная зависимость, и т.д.

2.3.2.

Оценка

Результат оценивания по конкретной выборке.

Оценка является статистикой, а потому случайным элементом, в частных случаях - случайной величиной или случайным вектором.

2.3.3.

Точечное оценивание

Вид оценивания, при котором для оценивания используется одно определенное значение.

 

2.3.4.

Доверительное оценивание

Вид оценивания, при котором для оценивания используется множество.

 

Рассматриваемое множество лежит в пространстве возможных состояний оцениваемой составляющей вероятностной модели явления (процесса).

2.3.5.

Доверительное множество

Определяемое по выборке множество в пространстве возможных состояний оцениваемой составляющей, используемое при доверительном оценивании.

Доверительное множество является случайным множеством.

2.3.6.

Доверительная вероятность

Вероятность того, что доверительное множество содержит действительное значение оцениваемой составляющей.

В конкретных задачах оценивания для фиксированных доверительных вероятностей строят соответствующие доверительные множества.

2.3.7.

Доверительный интервал

Доверительное множество, являющееся интервалом.

Интервалы могут быть как ограниченными, так и неограниченными (лучами).

2.3.8.

Доверительные границы

Концы (границы) доверительного интервала.

 

 

2.3.9.

Верхняя доверительная граница

Граница доверительного интервала, являющегося лучом, не ограниченным снизу.

Для доверительного интервала (-¥; a) верхней доверительной границей является число a.

 

2.3.10.

Нижняя доверительная граница

Граница доверительного интервала, являющегося лучом, не ограниченным сверху.

Различие верхних, нижних и двусторонних доверительных границ необходимо учитывать при проведении конкретных расчетов, т.к. часто все виды границ определяются с помощью одних и тех же таблиц.

2.3.11.

Двусторонние доверительные границы

Границы ограниченного (и сверху, и снизу) доверительного интервала

Для двусторонних границ (T1;T2) с вероятностью 1 справедливо неравенство T1£T2.

 

 

2.4. Проверка статистических гипотез

 

2.4.1.

Статистическая гипотеза

Определенное предположение о свойствах распределений случайных элементов, лежащих в основе наблюдаемых случайных явлений (процессов).

 

2.4.2.

Нулевая гипотеза

Статистическая гипотеза, подлежащая проверке по статистическим данным (результатам наблюдений, вошедшим в выборку).

Из возможных статистических гипотез в качестве нулевой выбирают ту, прннятие справедливости которой наиболее важно для дальнейших выводов.

2.4.3.

Альтернативная гипотеза

Статистическая гипотеза, которая считается справедливой, если нулевая гипотеза неверна.

Сокращенная форма - альтернатива.

2.4.4.

Статистический критерий

Правило, по которому на основе результатов наблюдений принимается решение о принятии или отклонении нулевой гипотезы.

Принимаемое решение может однозначно определяться по результатам наблюдений (нерандомизированный критерий) или в некоторой степени зависеть от случая (рандомизированный критерий).

2.4.5.

Статистика критерия

Статистика, на основе которой сформулировано решающее правило.

Как правило, нерандомизированный статистический критерий основан на статистике критерия, принимающей числовые значения.

2.4.6.

Критическая область статистического критерия

Область в пространстве возможных выборок со следующими свойствами: если наблюдаемая выборка принадлежит данной области, то отвергают нулевую гипотезу (и принимают альтернативную), в противном случае ее принимают (и отвергают альтернативную).

Если статистический критерий основан на статистике критерия, то критическая область статистического критерия однозначно определяется по критической области статистики критерия.

Краткая форма: критическая область.

2.4.7.

Критическая область статистики критерия

Множество чисел такое, что при попадании в него статистики критерия нулевую гипотезу отвергают, в противном случае принимают.

Краткая форма: критическая область.

2.4.8.

Критические значения

Границы (концы) одного или двух интервалов, составляющих критическую область статистики критерия.

Критическими значениями являются одно или два из чисел t1, t2 в случае, если критическая область имеет вид {Tn<t1}, {Tn>t1} или {Tn<t1}È{Tn>t2}, где Tn - статистика  критерия.

2.4.9.

Ошибка первого рода

Ошибка, заключающаяся в том, что нулевую гипотезу отвергают, в то время как в действительности эта гипотеза верна.

 

2.4.10.

Уровень значимости

Вероятность ошибки первого рода  или точная верхняя грань таких вероятностей.

Если нулевая гипотеза является сложной (например, задается с помощью множества параметров Q0), то вероятность ошибки первого рода может быть не числом (a), а функцией (a(q0), q0ÎQ0). В качестве уровня значимости берут точную верхнюю грань значений указанной функции:

.

 

2.4.11.

Ошибка второго рода

Ошибка, заключающаяся в том, что нулевую гипотезу принимают, в то время как в действительности эта гипотеза неверна (а верна альтернативная гипотеза).

 

2.4.12.

Мощность критерия

Вероятность того, что нулевая гипотеза будет отвергнута, если альтернативная гипотеза верна.

Мощность критерия является однозначной действительной функцией, определенной на составляющем альтернативу множестве гипотез, заданном в конкретной задаче статистической проверки гипотез, в частности, на параметрическом множестве, соответствующем альтернативным гипотезам.

2.4.13.

Функция мощности статистического критерия

Функция, определяющая вероятность того, что нулевая гипотеза будет отклонена.

Функция мощности критерия задана на множестве всех гипотез, используемых в конкретной задаче статистической проверки гипотез. Сужением ее на нулевую гипотезу является функция, задающая вероятность ошибки первого рода. Сужением ее на альтернативу является мощность критерия.

2.4.14.

Оперативная характеристика статистического критерия

 

Функция, определяющая вероятность того, что нулевая гипотеза будет принята.

Оперативная характеристика - дополнение до единицы функции мощности статистического критерия.

2.4.15.

Критерий согласия

Критерий проверки гипотезы согласия, т.е. того, что функция распределения результатов наблюдения, включенных в простую случайную выборку, совпадает с заданной или входит в заданное параметрическое семейство.

 

2.4.16.

Критерий однородности

Критерий для проверки гипотезы о том, что функции распределений результатов наблюдений из двух или нескольких независимых простых случайных выборок совпадают (абсолютная однородность) или отдельные их характеристики совпадают (однородность в смысле математических ожиданий, коэффициентов вариации и т.д.).

Рассматривают также критерии независимости, симметрии, случайности, отбраковки и др.

2.4.17.

Номинальный (заданный) уровень значимости

Число, используемое в статистических таблицах, с помощью которого выбирают критическое значение статистики критерия при проверке статистической гипотезы.

Номинальный (заданный) уровень значимости обычно берут равным 0,1; 0,05; 0,01.

2.4.18.

Реальный (истинный) уровень значимости

Уровень значимости статистического критерия, выбранного по номинальному уровню значимости.

Из-за дискретности распределения статистики критерия реальный уровень значимости может быть в несколько раз меньше номинального.

 

2.4.19.

Достигаемый уровень значимости

Случайная величина, равная вероятности попадания статистики критерия в критическую область, заданную рассчитанным по выборке значением статистики критерия.

Для критической области вида {x:x>a} достигаемый уровень значимости есть F(Xn), где Xn - рассчитанное по выборке значение статистики критерия X, а F(a) = P(X>a) - дополнение до 1 функции распределения статистики критерия X. Достигаемый уровень значимости - это вероятность того, что статистика критерия Х в новом независимом эксперименте примет значение большее, чем при расчете по конкретной выборке, т.е. большее, чем Xn.

2.4.20.

Независимые выборки

Выборки, объединение элементов которых моделируется набором независимых (в совокупности) случайных элементов.

 

См. п.1.1.11.

 

П1-2. Математическая статистика и ее новые разделы

 

                Приведем краткие описания (типа статей в энциклопедических изданиях) математической статистики и ее наиболее важных для эконометрики сравнительно новых разделов, разработанных в основном после 1970 г., а именно, статистики объектов нечисловой природы и статистики интервальных данных.

Статистика математическая - наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях.

Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В статистике математической есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (т.е. о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение для эконометрики имеет раздел статистики математической, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в статистике математической. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Классическая статистика математическая лучше всего представлена в [2,4]. По историческим причинам основные российские работы публикуются в [3]. Обзор современного состояния статистики математической дан в [6].

Статистика объектов нечисловой природы - раздел математической статистики, в котором статистическими данными являются объекты нечисловой природы, т.е. элементы множеств, не являющихся линейными пространствами. Объекты нечисловой природы нельзя складывать и умножать на число. Примерами являются результаты измерений в шкалах наименований, порядка, интервалов; ранжировки, разбиения, толерантности и другие бинарные отношения; результаты парных и множественных сравнений; люсианы, т.е. конечные последовательности из 0 и1; множества; нечеткие множества. Необходимость применения объектов нечисловой природы возникает во многих областях научной и практической деятельности, в том числе и в социологии. Примерами являются ответы на "закрытые" вопросы в эконометрических, маркетинговых, социологических анкетах, в которых респондент должен выбрать одну или несколько из фиксированного числа подсказок, мили измерение мнений о привлекательности (товаров, услуг, профессий, политиков и др.), проводимое по порядковой шкале. Наряду со специальными теориями для каждого отдельного вида объектов нечисловой природы  в статистике объектов нечисловой природы имеется и теория обработки данных, лежащих в пространстве общей природы, результаты которой применимы во всех специальных теориях.

В статистике объектов нечисловой природы классические задачи математической статистики - описание данных, оценивание, проверку гипотез - рассматривают для данных неклассического типа, что приводит к своеобразию постановок задач и методов их решения. Например, из-за отсутствия линейной структуры в пространстве, в котором лежат статистические данные, в статистике объектов нечисловой природы математическое ожидание определяют не через сумму или интеграл, как в классическом случае, а как решение задачи минимизации некоторой функции. Эта функция представляет собой математическое ожидание (в классическом смысле) показателя различия между значением случайного объекта нечисловой природы и фиксированным элементом пространства. Эмпирическое среднее определяют как результат минимизации суммы расстояний от нечисловых результатов наблюдений до фиксированного элемента пространства. Справедлив закон больших чисел: эмпирическое среднее сходится при увеличении объема выборки к математическому ожиданию, если результаты наблюдений являются независимыми одинаково распределенными случайными объектами нечисловой природы и выполнены некоторые математические "условия регулярности".

Аналогичным образом определяют условное математическое ожидание и регрессионную зависимость. Из доказанной в статистике объектов нечисловой природы сходимости решений экстремальных статистических задач к решениям соответствующих предельных задач вытекает состоятельность оценок в параметрических задачах оценивания параметров и аппроксимации, а также ряд результатов в многомерном статистическом анализе. Большую роль в статистике объектов нечисловой природы играют непараметрические методы, в частности, методы непараметрической оценки плотности и регрессионной зависимости в пространствах общей природы, в том числе и в дискретных пространствах.

Для решения многих задач статистики объектов нечисловой природы - нахождения эмпирического среднего, оценки регрессионной зависимости, классификации наблюдений и др. - используют показатели различия (меры близости, расстояния, метрики) между элементами рассматриваемых пространств, вводимые аксиоматически. Так, в монографии [7] аксиоматически введено расстояние между множествами. Принятое в теории измерений как части статистики объектов нечисловой природы условие адекватности (инвариантности) алгоритмов анализа данных позволяет указать вид средних величин, расстояний, показателей связи и т.д., соответствующих измерениям в тех или иных шкалах. Методы построения, анализа и использования классификаций и многомерного шкалирования дают возможность сжать информацию и дать ей наглядное представление. К статистике объектов нечисловой природы относятся методы ранговой корреляции, статистического анализа бинарных отношений (ранжировок, разбиений, толерантностей), параметрические и непараметрические методы обработки результатов парных и множественных сравнений. Теория люсианов (последовательностей независимых испытаний Бернулли) развита в асимптотике растущей размерности.

Статистика объектов нечисловой природы как самостоятельный раздел прикладной математической статистики выделена в монографии [7]. Обзору ее основных направлений посвящен, например, сборник [8]. Ей посвящен раздел в энциклопедии [2].

Статистика интервальных данных (СИД) - раздел статистики объектов нечисловой природы, в котором элементами выборки являются интервалы в R, в частности, порожденные наложением ошибок измерения на значения случайных величин. СИД входит в теорию устойчивости (робастности) статистических процедур (см. [7]) и примыкает к интервальной математике (см. [9]). В СИД изучены проблемы регрессионного анализа, планирования эксперимента, сравнения альтернатив и принятия решений в условиях интервальной неопределенности и др. (см.[10-13]).

Развиты асимптотические методы статистического анализа интервальных данных при больших объемах выборок и малых погрешностях измерений. В отличие от классической математической статистики, сначала устремляется к бесконечности объем выборки и только потом - уменьшаются до нуля погрешности. Разработана общая схема исследования (см. [14]), включающая расчет двух основных характеристик СИД - н о т н ы (максимально возможного отклонения статистики, вызванного интервальностью исходных данных) и   р а ц и о н а л ь н о г о    о б ъ е м а    в ы б о р к и (превышение которого не дает существенного повышения точности оценивания и статистических выводов, связанных с проверкой гипотез). Она применена к оцениванию математического ожидания и дисперсии, медианы и коэффициента вариации, параметров гамма-распределения в ГОСТ 11.011-83 [15] и характеристик аддитивных статистик, для проверки гипотез о параметрах нормального распределения, в т.ч. с помощью критерия Стьюдента, а также гипотезы однородности двух выборок по критерию Смирнова, и т.д.. Разработаны подходы СИД в основных постановках регрессионного, дискриминантного и кластерного анализов (см. [16]).

                Многие утверждения СИД отличаются от аналогов из классической математической статистики. В частности, не существует состоятельных оценок: средний квадрат ошибки оценки, как правило, асимптотически равен сумме дисперсии этой оценки, рассчитанной согласно классической теории, и квадрата  нотны. Метод моментов иногда оказывается точнее метода максимального правдоподобия (см. [15, 17]). Нецелесообразно с целью повышения точности  выводов увеличивать объем выборки сверх некоторого предела. В СИД классические доверительные интервалы должны быть расширены вправо и влево на величину нотны, и длина их не стремится к 0 при росте объема выборки.

Многим задачам классической математической статистики могут быть поставлены в соответствие задачи СИД, в которых элементы выборок - действительные числа заменены на интервалы. В статистическое программное обеспечение включают алгоритмы СИД, "параллельные" их аналогам  из классической математической статистики. Это позволяет учесть наличие погрешностей у результатов наблюдений.

 

Цитированная литература

 

1. Колмогоров А.Н. Основные понятия теории вероятностей. 2-е изд. - М.: Наука, 1974. - 120 с.

2. Вероятность и математическая статистика. Энциклопедия / Гл. ред. Ю. В. Прохоров. – М.: Изд-во «Большая Российская Энциклопедия», 1999. – 910 с.

3. Орлов А.И. Термины и определения в области вероятностно-статистических методов. – Журнал «Заводская лаборатория». 1999. Т.65. No.7. С.46-54.

4. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983.

5. Секция "Математические методы исследования" журнала "Заводская лаборатория. Диагностика материалов".

6. Орлов А.И. Современная прикладная статистика. - Журнал "Заводская лаборатория". 1998. Т.64. No.3. С. 52-60.

7. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

8. Анализ нечисловой информации в социологических исследованиях. - М.: Наука, 1985. - 220 с.

9. Шокин Ю.И. Интервальный анализ. - Новосибирск: Наука, 1981. - 112 с.

10. Вощинин А.П. Метод оптимизации объектов по интервальным моделям целевой функции. - М.: МЭИ, 1987. - 109 с.

11. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. - М.: МЭИ - София: Техника, 1989. - 224 с.

12. Кузнецов В.П. Интервальные статистические модели. - М.: Радио и связь, 1991. - 352 с.

13. Сборник трудов Международной конференции по интервальным и стохастическим методам в науке и технике (ИНТЕРВАЛ-92). Тт. 1,2. - М.: МЭИ, 1992. - 216 с., 152 с.

14. Орлов А.И. О развитии реалистической статистики. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Изд-во Пермского государственного университета, 1990, с..89-99.

15. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов, 1984. - 53 с. 

16. Орлов А.И. Интервальный статистический анализ. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. Пермь: Пермский государственный университет, 1993, с.149-158.

17. Орлов А.И. Интервальная статистика: метод максимального правдоподобия и метод моментов. - В сб.: Статистические методы оценивания и проверки гипотез. Межвузовский сборник научных трудов. - Пермь: Изд-во Пермского государственного университета, 1995, с.114-124.