ГЛАВА 2. ИСЧИСЛЕНИЕ ВЕРОЯТНОСТИ.
.ГЛАВА 2. ИСЧИСЛЕНИЕ ВЕРОЯТНОСТИ.
В этой главе я собираюсь трактовать теорию вероятности как ветвь чистой математики, в которой мы выводим следствия определенных аксиом, не стараясь приписать им ту или иную интерпретацию. Относительно "интерпретации" смотри главу 1 четвертой части этой книги. Следует заметить, что, в то время как интерпретация в этой области является спорной, само математическое исчисление диктует здесь ту же меру согласия, как и во всякой другой области математики. Это положение вещей никоим образом не является чем-то особенным. Интерпретация исчисления бесконечно малых почти в течение двух столетий была предметом, по поводу которого спорили математики и философы; Лейбниц считал, что она предполагает актуально бесконечно малые, и только Вейерштрасс окончательно опроверг этот взгляд. Возьмем еще более существенный пример: никогда не было никаких споров по поводу элементарной арифметики, и все-таки определение натуральных чисел все еще остается предметом спора. Мы не должны поэтому удивляться, что существует сомнение в отношении определения "вероятности", в то время как его нет (или очень мало) в отношении исчисления вероятности.
Следуя Джонсону и Кейнсу, мы будем обозначать выражением p/h неопределенное понятие "вероятность p при данном h". Когда я говорю, что это понятие является неопределенным, я имею в виду, что оно определяется только с помощью аксиом или постулатов, которые должны быть перечислены. Все, что удовлетворяет требованиям этих аксиом, является "интерпретацией" исчисления вероятности, и следует думать, что здесь возможно множество интерпретаций. Ни одна из них не является более правильной или более законной, чем другая, но некоторые могут быть более важными, чем другие. Так, среди интерпретаций пяти аксиом Пеано для арифметики та интерпретация, в которой первое число — 0, является более важной, чем та, в которой первое число — 3781; она более важна потому, что позволяет нам отождествить интерпретацию формалистической концепции с концепцией, признаваемой в перечислении. Но сейчас мы отвлечемся от всех вопросов интерпретации и займемся чисто формальной трактовкой вероятности.
Необходимые аксиомы, или постулаты, даются почти одинаково различными авторами. Следующие формулировки взяты у профессора Ч. Д. Брода. Эти аксиомы таковы:
1. Если даны p и h, то существует только одно значение p/h. Мы поэтому можем говорить о "данной вероятности p при данном h".
2. Возможные значения выражения p/h суть все действительные числа от 0 до 1, включая и то и другое. (В некоторых интерпретациях мы ограничиваем возможные значения рациональными числами; этот вопрос я буду рассматривать ниже.)
3. Если h имеет значение p, то p/h=1 (мы употребляем "1" для обозначения достоверности).
4. Если h имеет значение не-p, то p/h=0 (мы употребляем "О" для обозначения невозможности).
5. Вероятность p и q при данном h есть вероятность p при данном h, помноженная на вероятность q при данных p и h, и является также вероятностью q при данном h, помноженной на вероятность p при данных q и h.
Эта аксиома называется "конъюнктивной".
VI. Вероятность p и q при данном h есть вероятность p при данном h плюс вероятность q при данном h минус вероятность p и q при данном h.
Это называется "дизъюнктивной" аксиомой.
Для наших целей несущественно, являются ли эти аксиомы необходимыми; нас касается только то, что они достаточны.
В отношении этих аксиом требуются некоторые замечания. Ясно, что аксиомы 2, 3 и 4 выражают частично соглашения, которые легко можно изменить. Если, когда они приняты, значение какой-то данной вероятности есть x, то мы можем с одинаковым успехом принять в качестве ее значения любое число f(x), которое возрастает по мере возрастания x, вместо 1 и 0 в аксиомах 3 и 4 мы должны будем подставить f(1) и
f(0).
Согласно вышеприведенным аксиомам, предложение, которое должно быть истинным, если истинны данные, должно иметь в отношении данных вероятность, равную 1, а предложение, которое должно быть ложным, если данные истинны, должно иметь в отношении данных вероятность, равную 0.
Важно иметь в виду, что наше основное понятие p/h является отношением двух предложений (или конъюнкцией предложений), а не свойством одного предложения p. Это отличает вероятность, каковой она является в математическом исчислении, от вероятности, которой руководствуются в практике, так как последняя должна относиться к предложению, взятому само по себе или по крайней мере в отношении данных, которые не произвольны, а определяются проблемой и природой нашего познания. В исчислении, наоборот, выбор данных х совершенно произволен.
Аксиома V есть "конъюнктивная" аксиома. Она имеет дело с вероятностью того, что каждое из двух событий произойдет. Например, если я буду тянуть из колоды две карты, то каков шанс, что обе окажутся красными? Здесь "h" представляет собой данное, что колода состоит из 26 красных и 26 черных карт; 'p" обозначает, что "первая карта красная", а "q"— что "вторая карта красная". Тогда (p и q)/h" есть шанс, что обе карты будут красные, "p/h "есть шанс, что первая — красная, "q / (p и h)" есть шанс, что вторая — красная, при условии, что первая — красная. Ясно, что p/h =1/2, q (p и h) =25/51. Очевидно, согласно аксиоме, шанс, что обе карты будут красные, равен 1/2х25/51.
Аксиома VI есть "дизъюнктивная" аксиома. В вышеприведенном примере она дает шанс, что по крайней мере одна из карт будет красная. Она говорит, что шанс, что по крайней мере одна будет красная, есть шанс, что первая — красная, плюс шанс, что вторая — красная (когда не дано, будет ли первая красной или не будет), минус шанс, что обе — красные. Это равняется 1/2+1/2—1/2х25/51, если использовать результат, полученный выше с помощью конъюнктивной аксиомы.
Ясно, что с помощью аксиом V и VI, при том условии, что даны отдельные вероятности любой ограниченной совокупности событий, мы можем исчислить вероятность наступления их всех или по крайней мере вероятность наступления одного из них.
Из конъюнктивной аксиомы следует, что
Это называется "принципом обратной вероятности". Ее полезность может быть иллюстрирована следующим образом. Пусть p будет какой-либо общей теорией, а q — экспериментальным данным, относящимся к p. Тогда p/h есть вероятность теории p в отношении ранее известных данных, q /h — вероятность q в отношении ранее известных данных и q (p и h) — вероятность q, если p истинно. Таким образом, вероятность теории p после того, как q установлено, получается посредством умножения прежней вероятности p на вероятность q при данном p и деления на прежнюю вероятность q. В самом благоприятном случае теория p будет предполагать q, так что q/ (p и h) =1. В этом случае
Это значит, что новое данное q повышает вероятность p пропорционально предшествующей невероятности q. Другими словами, если наша теория предполагает нечто весьма неожиданное, а это неожиданное затем происходит, то это сильно повышает вероятность нашей теории.
Этот принцип может быть иллюстрирован открытием Нептуна, рассматриваемым как подтверждение закона тяготения. Здесь p — закон тяготения, h — все относящиеся к делу факты, известные до открытия Нептуна, q — факт обнаружения Нептуна в определенном месте. Тогда q /h было предварительной вероятностью, что до сего времени неизвестная планета будет найдена в определенной небольшой области неба. Пусть она была равна m/n. Тогда после открытия Нептуна вероятность закона тяготения стала в n/m раз большей, чем раньше.
Ясно, что этот принцип имеет большое значение в оценке роли нового свидетельства в пользу вероятности научной теории. Мы найдем, однако, что он доказывает нечто разочаровывающее и не дает таких хороших результатов, на которые можно было бы надеяться.
Существует имеющее большое значение предложение, иногда называемое теоремой Бейеса, которая имеет следующий вид. Пусть р1, p2, ..., Pn будут n взаимно исключающих друг друга возможностей, причем известно, что какая-то одна из них истинна; пусть h будет означать общие данные, а q — какой-либо относящийся к делу факт. Мы хотим узнать вероятность одной возможности p, при данном q, когда мы знаем вероятность каждого P1 до того, как стало известным q, a также вероятность q при данном р1 для каждого г. Мы имеем
Это предложение позволяет нам решить, например, следующую задачу: дано n +1 сумок, из которых первая содержит n черных шаров и ни одного белого, вторая содержит n — 1 черных шаров и один белый; r+1-я сумка содержит n — r черных шаров и r белых. Берется одна сумка, но неизвестно, какая именно; из нее вынимается m шаров, и оказывается, что все они белые; какова вероятность, что взята была сумка r? Исторически эта задача важна в связи с претензией Лапласа на доказательство индукции.
Возьмем, далее, закон больших чисел Бернулли. Этот закон устанавливает, что если на каждое число случаев шанс наступления определенного события есть p, то при данных любых двух сколько угодно малых числах e и s шанс, что, начиная с достаточно большого числа случаев, отношение случаев наступления события всегда будет отличаться от p больше, чем на величину s, будет меньше, чем e.
Поясним это с помощью примера с бросанием монеты. Допустим, что выпадение лицевой и оборотной сторон монеты одинаково вероятно. Это значит, что, по-видимому, после достаточно большого количества бросаний отношение выпадений лицевой стороной никогда не будет отличаться от 1/2 больше, чем на величину s, как бы мала ни была эта величина s; далее, как бы s не было мало, где бы то ни было после n бросаний, шанс такого отклонения от 1/2 будет меньше e, если только n достаточно большое.
Так как это предложение имеет большое значение в приложениях теории вероятности, например в статистике, постараемся получше освоиться с точным смыслом того, что утверждается в вышеприведенном примере с бросанием монеты. Прежде всего я утверждаю, что начиная с определенного числа их выпадения процент выпадения монеты лицевой стороной всегда будет, скажем, между 49 и 51. Допустим, что вы оспариваете мое утверждение и мы решаем проверить его эмпирически насколько только возможно. Значит, теорема утверждает, что чем дольше мы будем продолжать проверку, тем больше будет казаться, что мое утверждение порождено фактами и что по мере того, как число бросаний будет увеличиваться, эта его вероятность будет приближаться к достоверности как к пределу. Предположим, что с помощью этого эксперимента вы убеждаетесь, что начиная с некоторого числа бросаний процент выпадения лицевой стороной всегда остается между 49 и 51, но теперь я утверждаю, что начиная с некоторого большего числа бросаний этот процент будет всегда оставаться между 49,9 и 50,1. Мы повторяем наш эксперимент, и спустя некоторое время вы снова в этом убеждаетесь, хотя на этот раз, возможно, спустя большее время, чем прежде. После любого данного числа бросаний останется шанс, что мое утверждение не подтвердится, но этот шанс все время будет уменьшаться по мере того, как число бросаний будет увеличиваться, и может стать меньше любой приписанной ему величины, если бросание будет продолжаться достаточно долго.
Вышеприведенное предложение легко вывести из аксиом, но оно не может, конечно, быть адекватно проверено эмпирически, поскольку оно предполагает бесконечную последовательность испытаний. Если будет казаться, что испытания, которые мы можем осуществить, будут подтверждать его, то возражающий всегда сможет сказать, что они не показали бы этого, если бы мы продолжали испытание дальше; а если будет казаться, что они не подтверждают его, то защищающий теорему сможет точно так же сказать, что они еще не достаточно долго продолжали испытания. Теорему нельзя, таким образом, ни доказать, ни опровергнуть эмпирическим свидетельством.
Вышеприведенные предложения являются основными предложениями чистой теории вероятности, имеющими большое значение в нашем исследовании. Я хочу, однако, сказать еще кое-что по вопросу о a +1 сумках, каждая из которых содержит n белых и черных шаров, причем r+1-я сумка содержит r белых шаров и n — r черных шаров. Мы исходим из следующих данных: я знаю, что сумки содержат разные количества белых и черных шаров, но при этом нет никакого способа отличить эти сумки друг от друга по внешним признакам. Я выбираю одну сумку наудачу и вынимаю из нее один за другим m шаров, причем, вынимая эти шары, я не кладу их обратно в сумку. Оказывается, что все вынутые шары белые. Учитывая этот факт, я хочу знать две вещи: во-первых, каков шанс того, что я выбрал сумку, содержащую одни только белые шары? Во-вторых, каков шанс того, что следующий шар, который я выну, окажется белым?
Мы рассуждаем следующим образом. Путь h будет тот факт, что сумки имеют вышеописанный вид и содержание, а q — тот факт, что было вынуто m белых шаров; пусть также Pr будет гипотеза, что мы выбрали сумку, содержащую r белых шаров. Очевидно, что г должно быть по крайней мере таким же большим, как и m, то есть если г меньше, чем m, то Pr/qh=Q и q/Prh=0. После некоторых вычислений оказывается, что шанс, что мы выбрали сумку, в которой все шары белые, равен (m +1)/(n +1).
Теперь мы хотим знать шанс, что следующий шар будет белым. После некоторых дальнейших вычислений оказывается, что этот шанс равен (m +1)/(m +2).
Заметьте, что это не зависит от n и что если m велико, то оно очень близко к 1.
В вышеприведенное описание я не включил никакого аргумента по вопросу об индукции, которой я займусь позже. Прежде всего я рассмотрю адекватность определенной интерпретации вероятности, поскольку она может рассматриваться независимо от проблем, связанных с индукцией.