Философские вопросы теории вероятностей

\documentclass[12pt,a4paper]{article}

\usepackage{fullpage}

\usepackage{amstext}

\usepackage[T1,T2A]{fontenc}

\usepackage[cp1251]{inputenc}

\usepackage[russian]{babel}

\def\e{\varepsilon}

\title{Реферат по философии на кандидатский минимум. Тема: <<Философские

вопросы теории вероятностей.>>}

\date{2 апреля 2005 г.}

\thanks{Сдан 2 апреля 2005 года Мавринскому на

математико-механическом факультете СПбГУ.}

\begin{document}

\maketitle

\tableofcontents

\thispagestyle{empty}

\vfill

\pagebreak

\setcounter{page}{1}

\section{Введение}\label{intro}

В 1933 году А.Н. Колмогоровым в \cite{Ko} была предложена аксиоматика

теории вероятностей, основывавшаяся на достаточно развившейся к тому

времени теории меры и интеграла, и ставшая классической. Это была третья

и самая успешная попытка аксиоматизации после Р. фон Мизеса (1914) и С.Н. Бернштейна (1917).

До сравнительно недавних пор классическим считалось понятие вероятности, основывающееся

на равновозможности событий. Это понимание вероятности,

трактуемое сейчас как элементарное, равно как и развитие понятия вероятности

события, подробно рассматриваются в следующем разделе.

Основным понятием, благодаря которому в современной математике теория

вероятностей считается отделенной от теории меры и интеграла, является

независимость случайных событий или случайных величин. Попытки математизации

понятия вероятности вынудили ученых к более глубокому осмыслению понятий независимости

и причинных связей.

Аппарат аксиоматизированной теории вероятностей привел к появлению

математической статистики как самостоятельной математической дисциплины.

Если задачи теории вероятностей состоят в выводе свойств, основанных на

заданной вероятностной модели, то задачи математической статистики

заключаются в нахождении вероятностных моделей, с которыми бы лучше всего согласовывались

статистические свойства наблюдаемых эмпирических данных.

Несмотря на наличие большого числа парадоксов в истории теории вероятностей (см. \cite{S}),

автору неизвестны вопросы, по которым в классической теории вероятностей имелись бы

разногласия среди ученых. При этом следует отличать парадоксы от софизмов -

первые характеризуются неожиданностью верного вывода, во вторых же выводы

получаются с помощью кажущихся правильными рассуждений. Существование многих

парадоксов в истории теории вероятностей свидетельствует о существенном влиянии,

которая эта теория оказывала на научных деятелей, и о большoй склонности к

возникновению ошибок в рассуждениях лиц данной наукой занимающихся.

Философские вопросы могут возникать в основном при попытках истолкования

теории на практике, анализе исходных понятий или благодаря анализу

парадоксов. Поле практического

применения теории вероятностей огромно в связи с возникновением на ее основе

теории информации, существованием математической статистики, теории случайных процессов.

\section{О понятии вероятности}

Появление теории вероятностей во многом обязано потребностью

рационализации того, что не может быть точно предсказано, но где

можно проследить закономерности. Таковы древнейшие игра в кости, практика

страхования морских перевозок и жизни.

Первые попытки анализа закономерностей случайных событий при

игре в кости возникли в конце эпохи Возрождения. С XVI по начало XIX века

такие известные деятели науки как Кардано, Паскаль, Ферма, Гюйгенс, Бернулли,

Муавр, Лаплас, Байес, Гаусс и Пуассон получили важные для науки результаты,

основываясь на понятии {\it элементарной} вероятности случайного события как отношения числа

возможных исходов опыта, благоприятствующих событию, к общему числу мыслимых равновозможных

исключающих исходов опыта.

Одним из самых важных результатов был полученный Яковом Бернулли в 1713 году

закон больших чисел (в упрощенной форме): если один из результатов опыта

имеет вероятность $p$, a $\e$ является маленьким положительным числом,

то вероятность того события, что при проведении $n$ опытов результат будет наблюдаться

от $np-n\e$ до $np+n\e$ раз, становится сколь угодно близкой к единице при выборе достаточно

большого числа $n.$ Так, несмотря на хаос в большом количестве не связанных между собой явлений,

в среднем могут возникать вполне четкие закономерности. Таким образом была выявлена важность

рассмотрения бесконечных последовательностей повторных испытаний, предела относительной частоты

появления того или иного события в этих испытаниях, выявлено различие между понятием вероятности

события и частоты его появления в конечном числе испытаний, а также возможность приближенного

определения неизвестной вероятности события по его относительной частоте при большом

количестве испытаний.

Муавром была открыта закономерность в поведении отклонений результатов

последовательности опытов от среднего значения, впоследствии получившая название центральной

предельной теоремы теории вероятностей. Вследствие нее, а также вследствие закона, открытого

Гауссом для поведения суммы большого числа независимых ошибок, было открыто нормальное или

гауссовское распределение значений случайной величины в нынешнем понимании этих терминов. Но

в то время оно рассматривалось только как некоторое предельное образование.

Примерно в то же время Ж. Бюффоном была рассмотрена ставшая классической задача

об игле. На плоскость, разграфленную параллельными прямыми,

отстоящими друг от друга на расстоянии $a$, наудачу бросается игла длиною $2r$, причем

$2r<a.$ Какова вероятность того, что игла пересечет одну из проведенных параллелей? Решение

этой задачи потребовало рассмотрение другого понятия вероятности -  {\it геометрического}.

Положение иглы определяется двумя числами: $x$ - расстоянием от центра иглы до

ближайшей прямой, и $\theta$ - острым углом между перпендикуляром к этой прямой и иглой.

При этом $x$ лежит в промежутке между 0 и $a/2,$ a $\theta$ - между 0 и $\pi/2.$

Предполагается, что $(x,\theta)$ имеет одинаковую возможность оказаться любой

точкой прямоугольника $(0,a/2)\times (0,\pi/2),$ и величина $x$ не зависима

от величины $\theta.$ Тогда искомая вероятность определяется как отношение площадей,

соответствующих благоприятствующим и всем возможным исходам, и равна $\frac{4r}{a\pi}.$

Эта задача послужила основой для экспериментальной проверки закона больших чисел,

с помощью нее также можно найти приближенное значения числа $\pi.$

Таким образом задачу Бюффона можно считать

одной из первых, показавших применимость теории вероятностей нетривиальным

образом для решения детерминистических задач.

Одним из способов определения равновозможности был принцип безразличия,

согласно которому равновозможность есть либо невозможность предпочесть один исход другому,

либо симметричность возможностей получить тот или иной исход.

Если у правильной игральной кости стереть маркировку граней, то

их станет невозможно различить. Ясно, что определение того, в какой мере высказывание относительно

реальной равновозможности исходов соответствует действительности, возможно

только опытным путем при наблюдении относительных частот результатов опыта в сериях испытаний.

Неравновозможность исходов испытания становится препятствием к применению понятия элементарной вероятности.

Иллюстрацией этого может быть рассуждение типа парадокса Бертрана.

С целью упрощения предположим, что

мы имеем емкость, случайным образом наполненную концентратом сока и водой.

Объем концентрата не меньше объема воды, и не больше двукратного объема воды. В силу принципа

безразличия или симметрии, мы должны заключить, что с вероятностью 1/2 объем концентрата не

превосходит полуторного объема воды, и с той же вероятностью его объем лежит между полуторным

и двукратным объемом воды. С другой стороны об отношении объемов воды и концентрата нам

известно только лишь, что оно лежит между 1/2 и 1, и по тому же принципу, с вероятностью

1/2 находится между 1/2 и 3/4, т.е. с вероятностью 1/2 соотношение объемов концентрата и воды

лежит между 4/3 и 2, что является противоречием.

Открытие в 19 веке феномена случайного Броуновского движения и радиоактивного распада

также вынуждали пересмотреть сложившуюся концепцию вероятности. Одним из выходов из

этой ситуации могло быть определение вероятности, исходя из относительных частот.

В 1905 году Э. Борель в упрощенном виде доказал усиленный закон больших чисел, а именно,

что относительные частоты стремятся к значению вероятности с вероятностью 1, или почти наверное.

В середине XIX века Курно предложил свой взгляд на понятия причины и случайности

(см. \cite{Ku}). Согласно Курно в мире есть ряды явлений, связанных причинно-следственной

зависимостью. Есть ряды явлений, связанные зависимостью, и независимые ряды явлений.

Независимые ряды явлений существуют по крайней мере потому,

что связь между отдаленными явлениями (например взмахом крыльев бабочки в ПУНКе

и тайфуном в тихом океане) невозможно рассчитать, и потому даже если связь есть, то

ни в чем заметном она проявляться не будет, так что на практике естественно предполагать

ее отсуствие. События, возникшие по причине комбинации явлений, принадлежащих независимым

рядам событий, называются случайными. Курно отграничивает понятие случайности

в определенном им смысле от обыденного словоупотребления, когда

охотнее называют случайными события, которые редки и удивительны.

Целью статистического анализа данных Курно считает исключение случайных

причин видимых закономерностей и изучение постоянных, закономерно действующих

причин во всем спектре наук о природе и обществе. Математическая вероятность есть

мера физической возможности осуществления события, которое может осуществляться или

не осуществляться в зависимости от переменных сочетаний случайных причин. Оценивать

ее можно рассматривая относительные частоты осуществления события

при существенно одинаковых условиях. Курно вводит

термин физической невозможности явления. Физическими невозможными считаются

явления с нулевой вероятностью, как например, равновесие конуса, поставленного на вершину.

Невозможность физическая отлична от невозможности математической или

метафизической. Есть единственная возможность того, что конус, поставленный на вершину

будет стоять, но эта возможность не может оказаться в предпочтении

перед бесконечным числом других возможностей поставить конус на вершину, во всех из

которых он упадет.

В 1914 году Р. фон Мизес (\cite{M}) предложил {\it частотный} подход для аксиоматизации

теории вероятностей, положив в основу ту идею, что вероятностные концепции могут

применяться только к так называемым коллективам, т.е. бесконечным упорядоченным последовательностям,

обладающих некоторым свойством случайности их образования. Пусть имеется некоторое пространство

исходов эксперимента и предполагается возможность проведения бесконечного числа испытаний,

приводящих к последовательности $x=(x_1,x_2,\dots),$ где $x_n$ - результат исхода $n$-го

эксперимента. Для некоторого подмножества $A$ в множестве исходов экспериментов можно рассматривать

относительную частоту появления $A$ в первых $n$ испытаниях. Последовательность $x$ называется

коллективом, если для опытов $A$ существует предел относительных частот при $n\to\infty,$

который и называется вероятностью события $A,$ и этот предел должен оставаться

неизменным, если относительные частоты рассчитывать исходя из подпоследовательности

$x'=(x_1',x_2',\dots),$ полученной с помощью некоторой заранее оговариваемой системы (алгоритма)

правил выбора номеров членов первоначальной последовательности $x.$ Эвристически этот

принцип называется принципом иррегулярности, или принципом невозможности системы игры.

Основные возражения против практической интерпретации концепции фон Мизеса заключались

в том, что в реальности мы имеем дело с конечными, а не бесконечными последовательностями.

Тем самым в реальности невозможно определить, существует ли предел относительных частот, и

меняется ли он при переходе к подпоследовательности. Однако на практике было

замечено, что относительные частоты многих массовых явлений имеют тенденцию к

устойчивости. Оставалась неясность в способе образования

подпоследовательностей, при котором предел должен был оставаться инвариантным. В самом деле, если

рассмотреть последовательность чередующихся нулей и единиц, то предел относительной

частоты нулей будет 1/2. Однако можно выбрать подпоследовательность, состоящую только

из нулей, для которой предел будет равным 1. Отсюда можно заключить, что не существует

нетривиальных коллективов с пределами относительных частот, инвариантными относительно всех

способов образования подпоследовательностей. Ж. Вилль доказал, что теория Мизеса не позволяет доказать

закон повторного логарифма, что указывало на ограниченность потенциальных возможностей

теории, а потому было аргументом против ее широкого использования.

У С.Н. Бернштейна основным объектом аксиоматики было понятие случайного события, система

аксиом была основана на понятии качественного сравнения событий по степени их большего или меньшего

правдоподобия. Само же численное значение вероятности появлялось как некоторое производное понятие.

Ввиду сложности с интерпретацией аксиом эта теория развития не получила. Впоследствии весьма

сходный подход, основанный на субъективных качественных суждениях, был развит известным итальянским

ученым Бруно де Финетти (см. раздел \ref{subj}).

В {\it классической} теории вероятностей неопределяемыми являются понятия случайного события

и численного значения его вероятности. Неопределяемыми они являются в том смысле,

что их свойства описываются через аксиомы. Так как эти понятия являются наиболее фундаментальными,

то их аксиоматизация обеспечила возможность глубокого развития теории, не зависимого от возможных

приложений, и в силу этого обеспечила ее большую эвристическую мощность.

Рассматриваются 3 объекта, обозначаемые

$\Omega,$ $\Sigma$ и $P.$ $\Omega$ является некоторым непустым множеством, и называется

опытом, а его элементы $\omega$ возможными исходами опыта. $\Sigma$ состоит

из некоторых подмножеств $\Omega,$ среди которых обязательно есть пустое множество и само

$\Omega.$ Любое множество из $\Sigma$ называется событием, состоящим из всех принадлежащих

ему исходов опыта. Множества из совокупности $\Sigma$ называются наблюдаемыми событиями,

в то время как подмножества $\Omega,$ не входящие в $\Sigma$ - ненаблюдаемыми событиями.

Мера $P,$ определенная на всех множествах из совокупности $\Sigma$ и принимающая значения

от 0 до 1, и называется вероятностью. Мера пустого множества 0, мера $\Omega$ - 1. Аналогами

меры являются длина на прямой, площадь на плоскости или объем в пространстве.

Вероятность ненаблюдаемых событий однозначно не определена. Если какое-то событие наблюдаемо,

то и противоположное ему событие также должно быть наблюдаемо. Если наблюдаемы два события,

то и событие, состоящее из исходов, принадлежащих хотя бы одному из этих двух событий, тоже

наблюдаемо. С точки зрения математики этими рассуждениями на $\Sigma$ накладывается

определенное ограничение - это семейство множеств должно образовывать алгебру. В классической

аксиоматике требуется даже несколько больше, чтобы $\Sigma$ было замкнуто относительно счетных

объединений множеств.

В своей книге <<Основные понятия теории вероятностей>> (\cite{Ko}) Колмогоров, описывая схему условий,

по которой теория может применяться к реальным экспериментам, во многом следует фон Мизесу.

Предполагается, что имеется некоторый комплекс условий, дающий возможность проведения

неограниченного количества экспериментов. Еще предполагается, что событию $A$ может быть

приписано число $P(A),$ такое что практически можно быть уверенным в том, что относительная

частота события $A$ в $n$ экспериментах при больших $n$ будет мало отличаться от $P(A).$

Если $P(A)$ близко к 0, то практически можно быть уверенным, что в единичном эксперименте события

$A$ не произойдет.

Определенное отношение к проблеме малых вероятностей имеет и {\it Петербургский

парадокс}, известный с начала 18 века (см. \cite{B}, \cite{S}).

Речь идет о бросании правильной монеты

до тех пор, пока не выпадет решка; если это событие произойдет при $n$-ом

бросании, то игрок получает из банка $2^n$ рублей. Вопрос в том, какова

должна быть плата за участие в игре, чтобы игра стала безобидной, т.е.

среднее значение (при проведении многих игр) чистого выигрыша равнялось 0.

Парадокс возникает после подсчета полного математического ожидания выигрыша

игрока. Очевидно, что игрок может продать свои права на выигрыш на $k$-ом шаге

различным лицам, и справедливая цена этого есть вероятность окончания игры на

$k$-ом шаге $1/2^k,$ умноженная на получаемый при этом выигрыш $2^k.$

Таким образом полное математическое ожидание представляет собой сумму неограниченного

числа единиц, т.е. бесконечно. Таким образом игра выгодна при любой плате

за участие в ней. С другой стороны разумный и имеющий опыт в игре человек

не согласится заплатить и 100 рублей за участие в этой игре. Есть несколько объяснений

этого парадокса. Объяснение, предложенное Бюффоном и Крамером, вводит в расчет

количество денег, которыми располагает банк. Объяснение, предложенное Феллером

(\cite{F}) привязывает вступительный взнос к количеству игр, в котором готов

участвовать игрок. В объяснении, предложенным Э.~Борелем, делается замечание о том,

что права на выигрыш на 1000 и последующих шагах будет не продать из-за маленькой

вероятности астрономического выигрыша. <<Чтобы иметь сколько-нибудь значительные шансы

получить этот выигрыш, необходимо было бы бросать монету каждую секунду в течение

миллиардов веков в каждом кубическом сантиметре вселенной.>> И выплата выигрыша была бы

проблематичной - необходим бы был объем золота размером с шар с центром в Солнце и радиусом,

равным расстоянию до альфы Центавра.

К обоснованию практического применения теории вероятностей Колмогоров вернулся позднее,

предложив для разрешения проблемы бесконечного числа экспериментов два подхода:

аппроксимативной случайности и алгоритмической сложности. При

рассмотрении относительных частот появления события в ряду экспериментов, достаточно

ограничиваться последовательностями из нулей и единиц, так чтобы единица соответствовала

реальному осуществлению события в результате эксперимента, а ноль обратной ситуации.

В концепции аппроксимативной

случайности рассматриваются последовательности нулей и единиц длины $N$ -

$(x_1,x_2,\dots, x_N).$ Утверждается, что эта последовательность является

$(n,\e)$-случайной для $n\le N$ по отношению к конечному набору $Ф$ допустимых

алгоритмов, если существует число $p,$ такое что для любой последовательности

$(x_1',x_2',\dots, x_m')$ с $n\le m\le N,$ полученной из $(x_1,x_2,\dots, x_N)$

с помощью некоторого алгоритма $A$ из набора $Ф,$ относительная частота

появления единицы отличается от $p$ не более чем на $\e$. Алгоритмы, приводящие

к последовательностям длины меньше $n,$ не рассматриваются. Доказывается,

что если для заданных $n$ и $0<\e<1$ число допустимых алгоритмов не слишком

велико, то для каждого $0<p<1$ и любого $N\ge n$ можно найти последовательность

$(x_1,x_2,\dots, x_N),$ обладающую свойством $(n,\e)$ аппроксимативной

случайности.

Как и в случае с коллективами фон Мизеса, здесь присутствует неопределенность,

связанная с описанием и отбором допустимых алгоритмов. При большом классе алгоритмов

множество аппроксимативно случайных последовательностей может оказаться пустым, также

желательно, чтобы допустимые алгоритмы были бы просто описуемы. В теории вероятностей

сложилось представление о том, что типичные случайные последовательности устроены достаточно

нерегулярно, и потому сложно. Это представление подкреплено различными утверждениями

теории. Поэтому если стремиться к тому, чтобы алгоритмическое определение случайности

последовательностей было близко к вероятностному представлению о случайных последовательностях,

то алгоритмы из $Ф$ должны позволять устранять нетипичные, просто устроенные последовательности,

и объявлять случайными достаточно нерегулярно или сложно устроенные последовательности.

Это приводит ко второму подходу Колмогорова к понятию случайности, опирающемуся не на простоту

алгоритмов, а на сложность самих последовательностей. Колмогоров вводит числовую характеристику

сложности последовательности по отношению к данному алгоритму $A,$ характеризующую степень

ее иррегулярности, как необходимую для получения ее на выходе $A$ длину наименьшей

последовательности, которую надо подать на вход $A.$ Оказывается, что алгоритмическая сложность

последовательности может быть также корректно определена относительно классов алгоритмов $Ф.$

Алгоритмический подход объявляет случайными те последовательности $x,$ сложность которых

является максимальной (приблизительно равняется длине последовательности).

Это положило начало изучению применимости вероятностных законов к алгоритмически

случайным последовательностям, открывая тем самым возможности применения результатов и методов

теории вероятностей в тех областях, которые не имеют отношения к понятиям случая и вероятности

в прямом смысле.

Оказалось, что практически значимые выводы теории вероятностей обосновываются

как следствия из гипотез о предельной сложности изучаемых явлений. Таким образом

алгоритмическая концепция в теории вероятностей может согласовать интуитивное

представление о случайности как отсутствии закономерности с пониманием случайного,

лежащим в основе применения классической теории вероятностей.

\section{О субъективной вероятности}\label{subj}

Курно также рассматривает понятие {\it философской} вероятности. Тогда как математическая

вероятность как мера возможности осуществления есть свойство порядка вещей в мире и не

зависит от исследователя, философская возникает из интуиции, на основании внутренней

уверенности, а не математического расчета. Чувство таких вероятностей присуще всем

разумным людям, оно опирается на уверенность в том, что законы природы просты, и что

явления природы связаны в рациональные последовательности. Часто ею руководствуются философы

и математики при проведении своих изысканий. Различие

между философской и математической вероятностью можно показать на примере случайной

выборки 4 чисел от 1 до 10000. Если оказалось, что числа подчиняются простому закону,

то мы склонны думать, что их последовательность была вовсе не случайной, и чем сложнее

закон, которому они подчиняются, тем более мы склонны рассматривать их как порожденные

случаем, или совпадением взаимонезависимых причин, но Курно затрудняется с тем,

как определить сложность последовательности.

Образованный человек признает достоверными следствия, полученные из постулатов Евклида, или

иные математические результаты, несмотря на то, что при их доказательстве и проверках могли

быть допущены ошибки, и математическая вероятность совершения ошибки на одном и том же месте

каждым, кто доказывал или проверял утверждения, ненулевая.

{\it Субъективное} понятие вероятности интерпретирует ее как степень разумной веры. Данное

понятие зависит от человека, делающего высказывание о субъективной

вероятности - как от его умственных способностей, так и знаний. Поскольку знания подвержены

изменению, то субъективные вероятностные суждения также меняются в зависимости от них. Численное

измерение степени веры может быть основано на методе пари. Например, если заключается

пари о событии, что «завтра будет дождь», то степень веры в это событие для субъекта

оценивается наивысшей ставкой, которую он предлагает в пари. Если ставки были соответственно 5:2,

то вероятность будет равна 5/7.

В субъективной теории вероятностей важную роль играет понятие {\it голландской книги} против

субъекта. Она состоит из пари, все из которых приемлемы для субъекта, но осуществление

которых гарантирует субъекту чистый проигрыш. Доказано, что

против субъекта можно составить голландскую книгу (и тем самым обобрать его до нитки) тогда

и только тогда, когда степени веры

не подчиняются законам классической теории вероятностей.

Степени веры называются разумными, если они

подчиняются законам классичекой теории вероятностей.

В субъективном понятии вероятности заложен подводный камень, потому как в реальности

степени веры разумными быть не могут, поскольку субъект должен приписывать значение вероятности

1 всем логически истинным высказываниям, и вероятность 0 всем ложным высказываниям.

По принципу голландской книги для повторяющихся случайных явлений

значения объективной вероятности должны совпадать со значениями

субъективной вероятности. Трудно представить, чтобы такое было возможно.

Поэтому представляется разумным ограничить сферу явлений, к которым применимо понятие

субъективной вероятности теми, к которым неприменимо

понятие объективной вероятности, за исключением событий, очевидно невозможных

или очевидно необходимых при определенных условиях. Для каждого события, в котором

участием воли субъекта можно пренебречь, очевидно найдется лучше

осведомленный человек, который сможет составить голландскую книгу против субъекта.

Поэтому автор реферата считает, что численное понятие субъективной вероятности может

быть интересно лишь в психологических аспектах.

Б. де Финнети считает субъективную

вероятность единственно возможной, лежащей в основе всех других интерпретаций.

Автором реферата было только что показано, как пользуясь методом, используемым

для выяснения численного значения субъективной вероятности,

указать на противоречивость такого подхода с попыткой удовлетворения

теорией классическим законам.

Существуют другие подходы к субъективной вероятности, которые не требуют

полного выполнения законов классической теории, но автору реферата не известен

ни один из них, который получил признание близкое к тому, которой обладает классическая теория.

Более того теория субъективных вероятностей не может быть сфальсифицирована

никаким другим способом, кроме как выяснением несоответствия между следствиями

присвоения субъектом событий их численной вероятности.

Может ли вообще субъективная вероятность быть полезной для науки, изучающей

объективные явления? Если известна объективная

вероятность, то мнение кого-либо ее изменить не сможет и значения оно не имеет. Если объективная

вероятность неизвестна, например, по причине невозможности подсчета относительных частот,

то применяя однородную процедуру числовой характеризации качественного мнения

многих экспертов, можно с успехом ее оценивать, как это было проделано для оценки энтропии

и информационной избыточности человеческих языков (см. раздел~\ref{info}).

Если понятие объективной вероятности к случайному явлению неприменимо

(случайное явление не может быть воспроизведено произвольное число раз в исследуемом

аспекте), то, скорее всего, данное явление не может являться предметом

научного исследования, так как результаты будет невозможно проверить или опровергнуть.

\section{Условная вероятность, независимость и теорема Байеса}

Кроме простых причинно-следственных связей в виде причины и ее необходимого результата

было подмечено существование статистических закономерностей, когда одна

серия событий влияет на частоту другой серии событий. Например, известно

что выздоровление от болезни может наступать как при приеме вещества, считающегося

неспособным оказать лечебное действие, так и при приеме лекарства. В то же время

критерий эффективности лекарства определяется по тому, существенно ли выше

относительная частота выздоровления среди больных, принимающих лекарство,

чем та же частота среди принимающих эрзац, выглядящий как лекарство, причем

ни пациентам, ни врачам для исключения посторонних эффектов

не известно, кто что принимает. Существенное увеличение вероятности выздоровления

больного при условии приема лекарства считается критерием его эффективности, и

позволяет сделать вывод о том, что прием лекарства статистически является причиной

выздоровления больных.

Условная вероятность события $A$ при условии события $B$ обозначается

$P(A|B)$  и определяется как $P(A\text{ и }B)/P(B).$

Отвлекаясь от событий экстремальных вероятностей, можно попытаться определить,

что событие $B$ является причиной $A,$ если $P(A|B)>P(A|\text{ не }B),$ что

будет равносильно $P(A\text{ и }B)>P(A)P(B)$ или $P(A|B)>P(A).$

В случае, когда одно из событий необходимо влечет другое,

неравенство выполнено авоматически.

В теории вероятностей события $A$ и $B$ называются независимыми тогда

и только тогда, когда $P(A\text{ и }B)=P(A)P(B).$

Здесь можно сделать замечание о симметричности формулы относительно

событий $A$ и $B,$ так как часто следствие не считается причиной причины.

Поэтому при выполнении вышеупомянутого неравенства нельзя сказать,

что $B$ явилось причиной $A.$

Если какое-то из событий $A$ и $B$ произошло раньше, то зачастую его и

считают причиной, но это не всегда можно однозначно определить.

Кроме того, может быть так, что неравенство выполнено,

но события находятся между собой в опосредованной связи, например являясь следствиями

третьего события. Выяснению того, как определить событие-причину путем анализа

условных вероятностей посвящено много трудов, и вопрос о возможности

этого является открытым. Однозначно лишь то, что если $P(A\text{ и }B)\ne P(A)P(B),$

то между $A$ и $B$ есть некоторая связь, например, предел относительной частоты

осуществления одного из событий меняется, когда мы начинаем ограничиваться

теми экспериментами, где произошли оба события.

Стоит также заметить, что аксиоматическое понятие независимости шире интуитивно

понимаемого понятия практической независимости. Ведь не исключено, что

соответствующее равенство может быть выполнено и для существенно связанных

между собой событий. Но это лишь расширяет

область применимости теорем, использующих допущение о независимости,

поскольку они будут применимы и там, где независимость постулируется

в силу реальных соображений, и там, где независимость выводится

в силу своего теоретического определения. Алгоритмический

подход к теории вероятностей, проясняющий понятие случайности,

также дает возможность определения независимости, более

близкую нашей интуиции.

Теорема Байеса об условных вероятностях (середина XVIII в.)

породила в XX веке байесовскую

теорию подтверждения гипотез. Теорема заключается в формуле,

позволяющей менять местами событие и условие

(или гипотезу): $P(B|A)=P(A|B)P(B)/P(A),$

она также распространяется на случай нескольких гипотез.

Байесовская теория подтверждения гипотез утерждает, что событие $B$

подтверждает гипотезу $A,$ если $P(A|B)>P(A),$  и не подтверждает ее в случае

противоположного знака неравенства. Если гипотеза $A$ логически включает событие $B$,

то $B$ подтверждает $A,$ а не $B$ опровергает $A.$ Если две гипотезы логически

эквивалентны, то они имеют те же вероятности, и любое событие будет подтверждать

их одинаково. Вероятности гипотез изменяются под влиянием наблюдения событий

по формуле Байеса.

Но при применении этой теории на практике встают вопросы.

Один из них заключается в первоначальном распределении вероятностей.

Однако при некоторых условиях было доказано, что при любом первоначальном

распределении вероятностей, при наблюдении большого количества одних и тех же явлений

вероятности гипотез выравниваются.

Наблюдение события $B$ предполагает, что его вероятности начинают

приписывать значение 1. Но приписывать

$B$ вероятность 1 может быть не совсем правомерно, так как известны случаи,

когда ученые отвергали то, что наблюдалось в прошлом. Предположим,что

существует гипотеза $A,$ и известно что некогда произошло событие $B$. Вдруг обнаруживается,

что $A$ влечет $B.$ Это должно увеличить степень подтверждения $A,$ но теория

не объясняет, как это может произойти. Предположим, что в первом случае теория $A$

разработана с тем, чтобы из нее следовало $B.$  Во втором случае предположим, что

во время разработки теории $A$ о $B$ не было известно, но после разработки $A$ теория

предсказала $B$, и путем опытной проверки было выяснено, что $B$ имеет место. Кажется

правильным считать, что во втором случае имеется большая степень подтверждения теории

$A$ событием $B$, чем в первом, несмотря на то, что различий в вероятностях между

двумя случаями быть не должно.

\section{Теория вероятностей и теория информации}\label{info}

Из классической теории вероятностей в первой половине XX века возникла теория информации, что

сразу же позволило получить важные результаты, используя мощный аппарат теории вероятностей.

Информация может уменьшать неопределенность. Ситуация неопределенности имеет место

всюду, где есть случайность. Так, например, до проведения опыта с $k$ равновозможными

исходами, имеется неопределенность относительно того, какой из исходов осуществится.

После проведения опыта неопределенность устранена.

Поэтому информацию можно рассматривать как уменьшение

неопределенности.

Понятие неопределенности можно вывести из понятия неожиданности события,

которое в свою очередь определяется логарифмом числа, обратного вероятности, -

чем менее вероятно событие, тем оно более неожиданно. Неопределенность опыта

задается средним взвешенным значением неожиданностей его исходов, с весом неожиданности

исхода, равным его вероятности. Из всех опытов с $k$ исходами самая большая неопределенность,

или энтропия, оказывается там, где все исходы равновозможны. Из закона больших чисел

следует, что при проведении опыта с неравновозможными исходами достаточно большое количество

раз, сколь угодно близкая к единице доля неопределенности составного опыта будет приходиться

на исходы, являющиеся почти равновозможными. Аналогично понятию условной вероятности вводится

понятие условной энтропии. Информация об опыте $\beta,$ содержащаяся в опыте $\alpha,$

определяется как разность между энтропией $\beta$ и энтропией $\beta$ при условии $\alpha.$

Теория информации предлагает пути решения некоторых задач. Если необходимо что-либо выяснить

в среднем наиболее эффективным способом,

то необходимо ставить опыт, направленный на выяснение необходимой информации, с максимально

возможной энтропией и далее необходимо ставить <<направленные>> опыты с максимальной энтропией

относительно предыдущих. Примером может служить алгоритм бинарного поиска по алфавитному каталогу,

в котором предполагаемое место нахождения все время делится на две (почти) равные части.

Применение понятия энтропии к языкам позволяет сконструировать

(в среднем) экономные коды для передачи сообщений по линиям связи, используя

коды меньшей длины для часто встречающихся сочетаний языковых единиц.

Если бы все символы языка можно было встретить в тексте с одинаковой вероятностью,

то удельная энтропия письменного языка была бы равна энтропии опыта с числом равновозможных

исходов, равным количеству символов языка. Но, как известно, не все символы

встречаются одинаково часто, а если рассматривать группы из нескольких символов, то

относительные различия в частотах будут только усиливаться. Количество 9-символьных

сочетаний настолько велико, что подсчет их относительной частоты технически невозможен.

Для больших $N$ относительные частоты $N$-символьных комбинаций оценивались с помощью экспертов,

которым предлагалось по $(N-1)$ символу вынести суждение заранее определенного вида о том,

каким может быть следующий символ, далее эти суждения обрабатывались, и на этой основе

получались оценки относительных частот. Выяснилось, что степень информационной избыточности

литературных текстов, $1-\frac{Э_т}{Э_а},$ где $Э_т$ удельная энтропия текста, а

$Э_а$ - энтропия опыта с количеством равновероятных исходов, равным количеству символов алфавита,

приблизительно равна 80\%. Большая избыточность языка позволяет восстанавливать текст с

отсутствующими символами, даже не принимая во внимание его смысл. Моделируя случайную выборку

символов языка согласно частотам $N$-символьных комбинаций при увеличивающемся $N$ можно

получить <<фразы>> все более и более приемлемые для обычного языка, но так как теория информации

не принимает в расчет смысл, скрывающийся за наборами символов, такие фразы будут иметь более

или менее похожую на правильную грамматическую структуру, лишенную смысла. В музыке ноты

особого смысла не несут, поэтому случайное моделирование нот по относительным частотам

их комбинаций в произведениях определенного композитора может дать и экспериментально давало

произведения, написанные в стиле композитора.

В 60-х годах XX века начались поиски альтернативного подхода к теории информации,

поскольку первичность понятия вероятности по отношению к понятию информации спорна.

Колмогоров на основе уже упоминавшегося понятия алгоритмической сложности сделал выводы

о том, что основные понятия теории информации, такие как энтропия и информация,

могут быть определены без обращения к теории вероятностей и применимы к индивидуальным объектам,

и введенные таким образом понятия теории информации легли в основу

уже упоминавшегося понятия алгоритмической случайности.

Размышляя, почему короткое стихотворение может содержать значительно

больше информации, чем такой же длины телеграмма, Альфред Реньи писал:

<<Ключом к этому парадоксу, я думаю, является понятие <<резонанса>>.

Писатель не только сообщает нам информацию, но и играет на струнах языка

с таким мастерством, что наш разум и само подсознание резонируют.

Поэт с помощью удачного слова может вызвать цепочку идей,эмоций и воспоминаний.

В этом смысле труд писателя -- волшебство.>>

\section{Заключение}

В работе излагаются основные подходы к понятию вероятности и возможная критика

применений этих подходов на практике, показывается невозможность

численного выражения субъективной вероятности,

удовлетворяющего законам классической теории, рассматривается

понятие независимости и взаимосвязи событий, байесовская теория подтверждения

гипотез и связь между теорией вероятностей и теории информации.

\label{Lastpage}

\begin{thebibliography}{9}

\bibitem{B} Борель Э. {\it Вероятность и достоверность.} М., 1961

\bibitem{Ko} Колмогоров А.Н. {\it Основные понятия теории вероятностей.} М., 1974

\bibitem{Ku} Курно О. {\it Основы теории вероятности шансов.} М., 1970

\bibitem{MNZ}   {\it Математизация научного знания, вып. 5.} М., 1972

\bibitem{M}   Мизес Р. {\it Вероятность и статистика.} М., 1930

\bibitem{E}   {\it Математическая энциклопедия.} М., 1977

\bibitem{R}   Реньи А. {\it Трилогия о математике.} М., 1980

\bibitem{S} Секей Г. {\it Парадоксы в теории вероятностей и математической

статистике.} М., 1990

\bibitem{St} {\it Стэнфордская философская энциклопедия}, http://plato.stanford.edu

\bibitem{F}   Феллер В. {\it Введение в теорию вероятностей.} ТТ 1,2 М., 1984.

\bibitem{Sh}   Ширяев А.Н. {\it Вероятность.} ТТ 1,2 М., 2004.

\bibitem{Sh2}  Ширяев А.Н. {\it Курс лекций: <<Жизнь и творчество А.Н.Колмогорова>>.} Йена, 2004.

\bibitem{Ya}   Яглом А., Яглом И. {\it Вероятность и информация.} М., 1957

\end{thebibliography}

\end{document}