Анализ и интерпретация результатов машинного моделирования


.

Отметим особенности фиксации и обработки результатов моделирования, связанные с оценкой характеристик стационарных случайных процессов, обладающих эргодическим свойством. Пусть рассматривается процесс y(t). Тогда с учетом этих предположений поступают в соответствии с правилом: среднее по времени равно среднему по множеству. Это означает, что для оценки искомых характеристик выбирается одна достаточно продолжительная реализация процесса y(t), для которой целесообразно фиксировать результаты моделирования. Для рассматриваемого случая запишем математическое ожидание и корреляционную функцию процесса:

;

.

На практике при моделировании на ЭВМ системы S интервал (0, Т) оказывается ограниченным и, кроме того, значения y(t) удается определить только для конечного набора моментов времени tm. При обработке результатов моделирования для получения оценок у и B(t) используем приближенные формулы:

;

,

которые целесообразно преобразовать к виду, позволяющему эффективно организовать порядок фиксации и обработки результатов моделирования на ЭВМ.

Задачи обработки результатов моделирования. При обработке результатов машинного эксперимента с моделью Мм наиболее часто возникают следующие задачи:

· определение эмпирического закона распределения случайной величины,

· проверка однородности распределений,

· сравнение средних значений и дисперсий переменных, полученных в результате моделирования, и т.д.

Эти задачи с точки зрения математической статистики являются типовыми задачами по проверке статистических гипотез.

Задача определения эмпирического закона распределения случайной величины наиболее общая из перечисленных, но для правильного решения требует большого числа реализаций N. В этом случае по результатам машинного эксперимента находят значения выборочного закона распределения Fэ(y) (или функции плотности fэ(у)) и выдвигают нулевую гипотезу Н0, о том, что полученное эмпирическое распределение согласуется с каким-либо теоретическим распределением. Проверяют эту гипотезу Н0 с помощью статистических критериев согласия Колмогорова, Пирсона, Смирнова и т.д., причем необходимую в этом случае статистическую обработку результатов ведут по возможности в процессе моделирования системы S на ЭВМ.

Для принятия или опровержения гипотезы выбирают некоторую случайную величину U, характеризующую степень расхождения теоретического и эмпирического распределения, связанную с недостаточностью статистического материала и другими случайными причинами. Закон распределения этой случайной величины зависит от закона распределения случайной величины h и числа реализации N при статистическом моделировании системы S. Если вероятность расхождения теоретического и эмпирического распределения P{Uт³U} велика в понятиях применяемого критерия согласия, проверяемая гипотеза о виде распределения Н0 не опровергается. Выбор вида теоретического распределения F(y) (или f(y)) проводится по графикам (гистограммам) Fэ(y) (или fэ(y)), выведенным на печать или на экран дисплея.

Рассмотрим особенности использования при обработке результатов моделирования системы S на ЭВМ ряда критериев согласия.

Критерий согласия Колмогорова. Основан на выборе в качестве меры расхождения U величины D = max[Fэ(y) – F(y)].

Из теоремы Колмогорова следует, что d = Dпри N®¥ имеет функцию распределения

F(z) = P{d<z} = , z>0.

Если вычисленное на основе экспериментальных данных значение d меньше, чем табличное значение при выбранном уровне значимости g, то гипотезу H0 принимают; в противном случае расхождение между Fэ(у) и F(y) считается неслучайным и гипотеза H0 отвергается.

Критерий Колмогорова для обработки результатов моделирования целесообразно применять в тех случаях, когда известны все параметры теоретической функции распределения. Недостаток использования этого критерия связан с необходимостью фиксации в памяти ЭВМ для определения D всех статистических частот с целью упорядочения в порядке возрастания.

Критерий согласия Пирсона. Основан на определении в качестве меры расхождения U величины

c2=,

где тi количество значений случайной величины h, попавших в i-й подынтервал; pi вероятность попадания случайной величины h в i-й подынтервал, вычисленная из теоретического распределения; d – количество подынтервалов, на которые разбивается интервал измерения в машинном эксперименте.

При N®¥ закон распределения величины U, являющейся мерой расхождения, зависит только от числа подынтервалов и приближается к закону распределения c2 (хи-квадрат) с (d – r – 1) степенями свободы, где
r – число параметров теоретического закона распределения.

Из теоремы Пирсона следует, что, какова бы ни была функция распределения F(y) случайной величины h, при N®¥ распределение величины c2 имеет вид:

,

где Г(k/2) – гамма-функция; z – значение случайной величины c2;
k=d – r – 1 число степеней свободы. Функции распределения Fk(z) табулированы.

По вычисленному значению U = c2 и числу степеней свободы k с помощью таблиц находится вероятность P{³c2}. Если эта вероятность превышает некоторый уровень значимости g, то считается, что гипотеза H0 о виде распределения не опровергается результатами машинного эксперимента.

Критерий согласия Смирнова. При оценке адекватности машинной модели Мм реальной системе S возникает необходимость проверки гипотезы H0, заключающейся в том, что две выборки принадлежат одной и той же генеральной совокупности. Если выборки независимы и законы распределения совокупностей F(u) и F(z), из которых извлечены выборки, являются непрерывными функциями своих аргументов u и z, то для проверки гипотезы H0 можно использовать критерий согласия Смирнова, применение которого сводится к следующему. По имеющимся результатам вычисляют эмпирические функции распределения Fэ(u) и Fэ(z) и определяют

D = max |Fэ(u) – Fэ(z)|.

Затем при заданном уровне значимости у находят допустимое отклонение

,

где N1 и N2объемы сравниваемых выборок для Fэ(u) и Fэ(z), и проводят сравнение значений D и Dg: если D>Dg, то нулевую гипотезу H0 о тождественности законов распределения F(u) и F(z) с доверительной вероятностью b=1 – g отвергают.

Критерий согласия Стьюдента. Сравнение средних значений двух независимых выборок, взятых из нормальных совокупностей с неизвестными, но равными дисперсиями D[n]=D[x], сводится к проверке нулевой гипотезы Н0: D = u – z = 0 на основании критерия согласия Стьюдента (t-критерия). Проверка по этому критерию сводится к выполнению следующих действий. Вычисляют оценку

,

где N1 и N2 объемы выборок для оценки u и z соответственно;
и оценки дисперсий соответствующих выборок.

Затем определяют число степеней свободы k = N1 + N2 – 2, выбирают уровень значимости g и по таблицам находят значение tg. Расчетное значение t сравнивается с табличным tg; если |t| < tg, то гипотеза H0 не опровергается результатами машинного эксперимента.

Критерий согласия Фишера. Задача сравнения дисперсий сводится к проверке нулевой гипотезы H0, заключающейся в принадлежности двух выборок к одной и той же генеральной совокупности. Пусть необходимо сравнить две дисперсии и , полученные при обработке результатов моделирования и имеющие k1 и k2 степеней свободы соответственно, причем >. Для того чтобы опровергнуть нулевую гипотезу H0: =, необходимо при уровне значимости g указать значимость расхождения между и . При условии независимости выборок, взятых из нормальных совокупностей, в качестве критерия значимости используется распределение Фишера (F-критерий) F= /, которое зависит только от числа степеней свободы k1=N1 – 1, k2=N2 – 1, где N1 и N2 объемы выборок для оценки и соответственно.

Алгоритм применения критерия Фишера следующий:

1) вычисляется выборочное отношение F= /;

2) определяется число степеней свободы k1=N1 – 1 и k2=N2 – 1;

3) при выбранном уровне значимости g по таблицам F-распределения находятся значения границ критической области ;

4) проверяется неравенство F1 £ F £ F2; если это неравенство выполняется, то с доверительной вероятностью b нулевая гипотеза H0: =может быть принята.

Рассмотренные оценки искомых характеристик процесса функционирования системы S, полученные в результате машинного эксперимента с моделью Мм, являются простейшими и охватывают большинство случаев, встречающихся в практике обработки результатов моделирования системы для целей ее исследования и проектирования.

 

Возможность фиксации при моделировании системы S на ЭВМ значений переменных (параметров) и их статистическая обработка для получения интересующих экспериментатора характеристик позволяют провести объективный анализ связей между этими величинами. Для решения этой задачи существуют различные методы, зависящие от целей исследования и вида получаемых при моделировании характеристик. Рассмотрим особенности использования методов корреляционного, регрессионного и дисперсионного анализа для результатов моделирования систем.

Корреляционный анализ результатов моделирования. С помощью корреляционного анализа можно установить, насколько тесна связь между двумя (или более) случайными величинами, наблюдаемыми и фиксируемыми при моделировании конкретной системы S. Корреляционный анализ результатов моделирования сводится к оценке разброса значений h относительно среднего значения , т.е. к оценке силы корреляционной связи. Существование этих связей и их тесноту можно для схемы корреляционного анализа y=M[h/x=x] выразить при наличии линейной связи между исследуемыми величинами и нормальности их совместного распределения с помощью коэффициента корреляции

,

т.е. второй смешанный центральный момент делится на произведение средних квадратичных отклонений, чтобы иметь безразмерную величину, инвариантную относительно единиц измерения рассматриваемых случайных переменных.

Пример 7.1. Пусть результаты моделирования получены при N реализациях коэффициента корреляции

.

Данное соотношение требует минимальных затрат машинной памяти на обработку результатов моделирования. Получаемый при этом коэффициент корреляции |rxh|£1. При сделанных предположениях rxh = 0 свидетельствует о взаимной независимости случайных переменных x и h, исследуемых при моделировании (рис. 7.1, а). При rxh = 1 имеет место функциональная (т.е. нестохастическая) линейная зависимость вида у = b0 + b1x, причем если rxh>0, то говорят о положительной корреляции, т.е. большие значения одной случайной величины соответствуют большим значениям другой (рис. 7.1, б). Случай 0<rxh<1 соответствует наличию линейной корреляции с рассеянием (рис. 7.1, в) либо наличию нелинейной корреляции результатов моделирования (рис. 7.1, г).

 

а б в г

у rξη=0 у rξη=1 у 0<rξη<1 у 0<rξη<1

 

 

0 х 0 х 0 х 0 х

Рис. 7.1. Различные случаи корреляции переменных

 

Для того чтобы оценить точность полученной при обработке результатов моделирования системы S оценки r xh, целесообразно ввести в рассмотрение коэффициент , причем w приближенно подчиняется гауссовскому распределению со средним значением и дисперсией

.

При анализе результатов моделирования системы S важно отметить то обстоятельство, что если даже удалось установить тесную зависимость между двумя переменными, то отсюда еще непосредственно не следует их причинно-следственная взаимообусловленность. Возможна ситуация, когда случайные x и h стохастически зависимы, хотя причинно они являются для системы S независимыми. При статистическом моделировании наличие такой зависимости может иметь место, например, из-за коррелированности последовательностей псевдослучайных чисел, используемых для имитации событий, положенных в основу вычисления значений х и у.

Таким образом, корреляционный анализ устанавливает связь между исследуемыми случайными переменными машинной модели и оценивает тесноту этой связи. Однако в дополнение к этому желательно располагать моделью зависимости, полученной после обработки результатов моделирования.

Регрессионный анализ результатов моделирования. Регрессионный анализ дает возможность построить модель, наилучшим образом соответствующую набору данных, полученных в ходе машинного эксперимента с системой S. Под наилучшим соответствием понимается минимизированная функция ошибки, являющаяся разностью между прогнозируемой моделью и данными эксперимента. Такой функцией ошибки при регрессионном анализе служит сумма квадратов ошибок.

Пример 7.2. Рассмотрим особенности регрессионного анализа результатов моделирования при построении линейной регрессионной модели. На рис. 7.2, а показаны точки хi, yi, , полученные в машинном эксперименте с моделью Мм системы S. Делаем предположение, что модель результатов машинного эксперимента графически может быть представлена в виде прямой линии

=j(x)=b0+b1x,

где – величина, предсказываемая регрессионной моделью.

а б

у у

 

 

0 х 0 х

 

Рис. 7.2. Построение линейной регрессионной модели

 

Требуется получить такие значения коэффициентов b0 и b1, при которых сумма квадратов ошибок модели является минимальной. На рисунке ошибка ei, , для каждой экспериментальной точки определяется как расстояние по вертикали от этой точки до линии регрессии = j(х).

Обозначим i = b0+b1xi, . Тогда выражение для ошибок будет иметь вид:

ei = i – yi = b0+b1xi – yi, а функция ошибки F0 = .

Для получения b0 и b1, при которых функция F0 является минимальной, применяются обычные методы математического анализа. Условием минимума является ¶F0b0 = 0, ¶F0b1 = 0.

Дифференцируя F0, получаем

Решая систему этих двух линейных алгебраических уравнений, можно получить значения b0 и b1. В матричном представлении эти уравнения имеют вид:

.

Решая это уравнение, получаем

,

,

где N – число реализаций при моделировании системы.

Соотношения для вычисления b0 и b1 требуют минимального объема памяти ЭВМ для обработки результатов моделирования. Обычно мерой ошибки регрессионной модели служит среднее квадратичное отклонение

.

Для нормально распределенных процессов приблизительно 67 % точек находится в пределах одного отклонения se от линии регрессии и 95 % – в пределах 2sе (трубки А и B соответственно на рис. 7.2, б). Для проверки точности оценок b0 и b1 в регрессионной модели могут быть использованы, например, критерии Фишера (F-распределение) и Стьюдента
(t-распределение). Аналогично могут быть оценены коэффициенты уравнения регрессии и для случая нелинейной аппроксимации.

Дисперсионный анализ результатов моделирования. При обработке и анализе результатов моделирования часто возникает задача сравнения средних выборок. Если в результате такой проверки окажется, что математическое ожидание совокупностей случайных переменных
{y(1)}, {y(2)}, …, {y(n)} отличается незначительно, то статистический материал, полученный в результате моделирования, можно считать однородным (в случае равенства двух первых моментов). Это дает возможность объединить все совокупности в одну и позволяет существенно увеличить информацию о свойствах исследуемой модели Мм, а следовательно, и системы S. Попарное использование для этих целей критериев Смирнова и Стьюдента для проверки нулевой гипотезы затруднено в связи с наличием большого числа выборок при моделировании системы. Поэтому для этой цели используется дисперсионный анализ.

Пример 7.3. Рассмотрим решение задачи дисперсионного анализа при обработке результатов моделирования системы в следующей постановке. Пусть генеральные совокупности случайной величины {у(1)}, {y(2)}, ..., {y(n)} имеют нормальное распределение и одинаковую дисперсию. Необходимо по выборочным средним значениям при некотором уровне значимости g проверять нулевую гипотезу H0 о равенстве математических ожиданий. Выявим влияние на результаты моделирования только одного фактора, т.е. рассмотрим однофакторный дисперсионный анализ.

Допустим, изучаемый фактор x привел к выборке значений неслучайной величины Y следующего вида: y1, y2, ..., yk, где k – количество уровней х. Влияние фактора будем оценивать неслучайной величиной Dx, называемой факторной дисперсией:

,

где – среднее арифметическое значение величины Y.

Если генеральная дисперсия D[y] известна, то для оценки случайности разброса наблюдений необходимо сравнить D[y] с выборочной дисперсией , используя критерий Фишера (F-распределение). Если эмпирическое значение Fэ попадает в критическую область, то влияние фактора х считается значимым, а разброс значений х – неслучайным. Если генеральная дисперсия D[y] до проведения машинного эксперимента с моделью Мм неизвестна, то необходимо при моделировании найти ее оценку.

Пусть серия наблюдений на уровне yiимеет вид: уi1, уi2, …, yin,,
где n – число повторных наблюдений на i-м уровне. Тогда на i-м уровне среднее значение наблюдений

,

а среднее значение наблюдений по всем уровням

.

Общая выборочная дисперсия всех наблюдений

.

При этом разброс значений у определяется суммарным влиянием случайных причин и фактора х. Задача дисперсионного анализа состоит в том, чтобы разложить общую дисперсию D[у] на составляющие, зависящие от случайнымх и неслучайнымх факторов.

Оценка генеральной дисперсии, связанной со случайными факторами,

,

а оценка факторной дисперсии

.

Учитывая, что факторная дисперсия наиболее заметна при анализе средних значений на i-м уровне фактора, а остаточная дисперсия (дисперсия случайности) для средних значений в n раз меньше, чем для отдельных измерений, найдем точную оценку выборочной дисперсии:

.

Умножив обе части этого выражения на n, получим в правой части выборочную дисперсию , имеющую (k – 1)-ю степень свободы. Влияние фактора х будет значимым, если при заданном g выполняется неравенство />F1-g . В противном случае влиянием фактора х на результаты моделирования можно пренебречь и считать нулевую гипотезу Н0 о равенстве средних значений на различных уровнях справедливой.

 

Таким образом, дисперсионный анализ позволяет вместо проверки нулевой гипотезы о равенстве средних значений выборок проводить при обработке результатов моделирования проверку нулевой гипотезы о тождественности выборочной и генеральной дисперсии.