Б. Правдоподобие и частота

.

Б. Правдоподобие и частота

Я намереваюсь сейчас обсудить вопрос: при каких обстоятельствах правдоподобие предложения o выводится из частоты fx при данном некотором fx? Другими словами, если "fa" есть предложение "a есть x", то при таких обстоятельствах правдоподобие предложения "альфа есть бета" выводится из одного или более предложений формы: члены а, являющиеся членами p, составляют отношение m/n".

Этот вопрос, как мы увидим, не совсем такой общий; как тот, который мы должны поставить, но желательно обсудить его первым.

Обыденному здравому смыслу, по-видимому, ясно, что в типичных случаях математической вероятности она равна степени правдоподобия. Если я вытаскиваю наудачу карту из колоды, то степень правдоподобия предложения "карта будет красная" будет в точности равна степени правдоподобия предложения "карта будет не красная", и, следовательно, степень правдоподобия каждого предложения равна 1/3, если 1 представляет собой достоверность. В отношении игральной кости степень правдоподобия предложения "выпадет 1" совершенно та же, что и предложения "выпадет 2", или 3, или 4, или 5, или 6. Отсюда все выведенные частоты математической теории могут быть интерпретированы как выведенные степени правдоподобия.

В этом переводе математических вероятностей в степени правдоподобия мы пользуемся принципом, в котором математическая теория не нуждается. Математическая теория просто считает случаи; а при переводе мы должны знать или допускать, что каждый случай равно правдоподобен. Необходимость в этом принципе признавалась с давних пор; он был назван принципом недостаточного основания, или (Кейнсом) принципом индифферентности. Мы рассмотрели этот принцип в связи с теорией Кейнса, а теперь мы должны рассмотреть этот принцип сам по себе. Но перед обсуждением его я хочу отметить, что он не нужен в математической теории вероятности. В этой теории нам нужно знать только численность различных классов. Этот принцип требуется только тогда, когда математическая вероятность рассматривается как мера правдоподобия.

То, в чем мы нуждаемся, есть нечто вроде следующего: "Если дан объект а, отношении которого мы хотим знать, какую степень правдоподобия приписать предложению "a есть p", и если дано, что единственно относящееся к делу знание, которое мы имеем, есть "а есть а", тогда степень правдоподобия предложения "a есть p" будет представлять собой математическую вероятность, измеряемую отношением числа членов, общих для альфа, и бета, к числу членов альфа.

Иллюстрируем это еще раз примером с самым высоким человеком в Соединенных Штатах и шансом, что он живет в штате Айова. Здесь, во-первых, мы имеет описание d, приложимое к одному и только одному человеку из числа названных людей А1, А2, ... an, где n есть число жителей Соединенных Штатов. Это значит, что одно и только одно из предложений "d= Аr" (где r обозначает любого жителя от 1 до n) известно как истинное, но мы не знаем, какое именно. Если это действительно есть все наше относящееся к делу знание, то мы предполагаем, что любое из предложений "d=Ar' столь же правдоподобно, как и любое другое. В этом случае каждое имеет правдоподобие 1/n. Если в штате Айова имеется m жителей, то предложение "d живет в штате Айова" эквивалентно дизъюнкции m предложений "d= Аr" и, следовательно, имеет m раз правдоподобие любого из них, поскольку они взаимно исключают друг друга. Следовательно, оно имеет степень правдоподобия, измеряемую дробью m/n.

Конечно, в вышеприведенной иллюстрации предложения "d = Ar" не все одного уровня. Свидетельство позволяет нам исключить детей, людей низкого роста и, возможно, женщин. Это показывает, что применение этого принципа связано с затруднениями, но это не значит, что он ложен.

Случай с вытаскиванием карты из колоды ближе подходит к осуществлению условий, требуемых принципом. Здесь описание "d" есть "карта, которую я собираюсь вытащить". Все 52 карты имеют то, что мы можем рассматривать как названия: "двойка пик" и так далее Мы имеем, таким образом, 52 предложения "d = Аr", из которых одно и только одно истинно, но мы не имеем никаких данных, которые склоняли бы нас в пользу одного, а не какого-либо другого. Следовательно, правдоподобие каждого равно 1/52. Если мы это признаем, то это связывает правдоподобие с математической вероятностью.

Мы можем, следовательно, сформулировать как возможную форму "принципа индифферентности" следующую аксиому.

"Если дано описание d, относительно которого мы знаем, что оно применимо к одному и только одному из объектов а1, a2, ... an, и если дано, что мы не имеем знания относительно того, к какому из этих объектов приложимо это описание, тогда n предложений "d=ar" (1 меньше или равно r меньше или равно n) все равно правдоподобны и, следовательно, каждое имеет правдоподобие, измеряемое дробью 1/n".

Эта аксиома является более ограниченной, чем принцип недостаточного основания, как он обычно формулируется. Мы должны исследовать, будет ли она достаточной, а также имеем ли мы основание верить ей.

Сначала сравним вышеизложенное с принципом индифферентности Кейнса, рассмотренным нами в предшествующей главе. Вспомним, что этот принцип гласит: вероятности p и q в отношении данного свидетельства равны, если (1) свидетельство симметрично по отношению к p и q, (2) p и q "неделимы", то есть ни одно из них не является дизъюнкцией предложений той же самой формы, что и оно само. Мы решили, что это можно упростить: мы говорили, что нужно, чтобы p и q были бы значениями одной пропозициональной функции, скажем p = f(a) и q = f(b), чтобы "fx" не содержало ни a, ни b, и что, если свидетельство содержит упоминание a, скажем, в форме f(a), то оно должно также содержать y(b) и, наоборот, где yx в свою очередь не должно упоминать a или b. Этот принцип является до некоторой степени более общим, чем сформулированный в предшествующем абзаце: он имплицирует последний, но я сомневаюсь, имплицирует ли последний его. Мы, возможно, можем принять более общий принцип и переформулировать его следующим образом:

"Если даны две пропозициональные функции fx и yx, ни одна из которых не упоминает о или b, или если и упоминает их, то упоминает симметрично, тогда, при данных ya и yb, два предложения fa и fb имеют равное правдоподобие".

Этот принцип, если его принять, позволяет нам выводить правдоподобность из математической вероятности и делает все предложения математической теории пригодными для измерения степеней правдоподобия в случаях, к которым применима математическая теория.

Попробуем применить вышеупомянутый принцип к случаю с числом n шаров в сумке, где известно, что каждый шар или белый, или черный; стоит вопрос: какова вероятность, что в сумке содержится х белых шаров? Лаплас допускал, что каждое значение x от 0 до A равно вероятно, так что вероятность данного х есть 1/(n + 1). С чисто математической точки зрения это правильно, если только мы начинаем с пропозициональной функции: х = число белых шаров. Но если мы начинаем с пропозициональной функции: х есть белый шар, то мы получим совсем другой результат. В этом случае имеется много способов получения х шаров. Первый шар может быть получен n способами; когда он получен, следующий может быть получен n — 1 способами и так далее Таким образом, число способов получения х шаров есть

 

 

Это есть число способов, которыми может быть получено х белых шаров. Чтобы получить вероятность числа х белых шаров, мы должны разделить это число на сумму чисел способов получения 0 белых шаров, или 1, или 2, или 3, или ... или n. Легко показать, что сумма равна 2". Следовательно, шанс получить ровно х белых шаров достигается в результате деления вышеупомянутого числа на 2". Назовем его "p (A, r) ".

Этот шанс имеет максимум, когда х = 1/2n, если n четное число, или когда х = 1/2n ± 1/2, если n есть нечетное число. Его значение, когда х или n—х мало, очень мало, если n — большое. С чисто математической точки зрения эти два очень различных результата одинаково правильны. Но когда мы подходим к измерению степеней правдоподобия, между ними обнаруживается большая разница Допустим, что у нас независимо от цвета есть какой-либо способ, с помощью которого мы можем различать шары; например, пусть они последовательно вынимаются из сумки и назовем первый вынутый d1, второй вынутый d2; и так далее Обозначим через "a " "белые", через "b" "черные" и поставим 'fa" вместо "белый цвет есть цвет a", "fb" вместо 'черный цвет есть цвет а1". Данные говорят, что верно или fa или fb, но не оба. Это симметрично, и, следовательно, на основании свидетельства данных fa и fb имеют одинаковое правдоподобие, то есть "d1 — белый" и "d1 — черный" имеют одинаковое правдоподобие. Это же самое рассуждение применимо к d2, d3, ..., dn. Таким образом, для каждого шара степени правдоподобия белого и черного равны. И, следовательно, как показывает простое вычисление, степень правдоподобия х белых шаров есть p (n, r), где предполагается, что х лежит между 0 и n, включая и их самих.

Следует отметить, что в измерении степеней правдоподобия мы предполагаем, что данные не только верны, но и исчерпывающи по отношению к нашему знанию, то есть мы предполагаем, что мы не знаем ничего относящегося к делу, кроме того, что упоминается в данных. Следовательно, для данного человека в данное время существует только одно правильное значение для степени правдоподобия данного предложения, тогда как в математической теории многие значения одинаково правильны в отношении многих различных данных, которые могут быть чисто гипотетическими.

В применении результатов математического исчисления вероятности к степеням правдоподобия мы должны тщательно выполнять два условия. Во-первых, случаи, которые образуют основу математического перечисления, все должны быть равно правдоподобны по свидетельству в их пользу; во-вторых, свидетельство должно включать все наше относящееся к нему знание. Следует сказать несколько слов в отношении первого из этих условий.

Каждое математическое исчисление вероятности начинает с какого-либо основоположного класса, вроде определенного числа бросаний монеты, определенного числа бросаний игральных костей, колоды карт, совокупности шаров в сумке. Каждый член этого основоположного класса считается за единицу. Из него вывели другие логически производные классы, например класс n последовательностей 100 бросаний монеты. Из этих n последовательностей мы можем выделить подкласс бросаний, состоящий из 50 выпадений монеты лицевой стороной и 50 — упавших оборотной стороной. Или, взяв колоду карт, мы можем образовать класс возможных "игроков", то есть наборов из 13 карт, и далее исследовать, какие из них содержат 11 карт одной масти. Дело в том, что частоты исчисляются, всегда применяются к классам, имеющим какую-то структуру, определяемую логически по отношению к основоположному классу, тогда как основоположный класс в целях разрешения проблемы рассматривается как состоящий из членов, не имеющих логической структуры, то есть их логическая структура не относится к делу.

Пока мы ограничиваемся исчислением частоты выпадений, то есть математической теорией вероятностей, мы можем взять любой класс в качестве основоположного класса и исчислять частоты по отношению к нему. При этом нет необходимости делать предположение, что все члены класса равно вероятны; все, что нам нужно сказать, это то, что для данной цели каждый член класса должен рассматриваться как единица. Но когда мы хотим определить степени правдоподобия, необходимо, чтобы наш основной класс состоял из предложений, которые все одинаково правдоподобны в отношении свидетельства в их пользу. "Неделимость" Кейнса имеет целью обеспечить это. Я предпочел бы сказать, что члены основоположного класса должны иметь "относительную простоту", то есть они не должны иметь структуры, определяемой в терминах исходных данных. Возьмем, например, белые и черные шары в сумке. Каждый шар в действительности имеет невероятно сложную структуру, поскольку он состоит из миллиардов молекул: но это не имеет никакого отношения к нашей проблеме. С другой стороны, совокупность m шаров, выбранных из основоположного класса n шаров, имеет логическую структуру по отношению к основоположному классу. Если каждый член основоположного класса имеет название, то каждый подкласс, состоящий из m членов, может быть определен. Все исчисления вероятности имеют дело с классами, которые могут быть определены в терминах основоположного класса. Но сам основоположный класс должен состоять из членов, которые не могут быть логически определены в терминах исходных данных. Я думаю, что когда это условие выполняется, то принцип индифферентности всегда удовлетворяется.

В этом пункте, однако, нужна осторожность. Имеются два пути, когда предложение "а есть а" может стать вероятным или (1) потому, что достоверно, что a принадлежит к классу, большинство членов которого суть а, или (2) потому, что вероятно, что а принадлежит к классу, все члены которого суть а. Например, мы можем сказать: "Г-н А, вероятно, смертен",— если мы уверены, что большинство людей смертны, или если мы имеем основание считать вероятным, что все люди смертны. Когда мы бросаем игральные кости, мы можем сказать:

"Вероятно, не выпадет двойной шестерки",— потому что мы знаем, что большинство бросаний не дает двойной шестерки. С другой стороны, предположим, что я имею свидетельство, дающее основание для предположения, но не доказывающее, что при определенной болезни всегда бывает определенная бацилла; я могу тогда сказать, что когда имеется эта болезнь, то, вероятно, есть и эта бацилла. В каждом из двух вышеприведенных случаев мы имеем что-то вроде силлогизма. В первом случае:

 

Большинство А есть В

Это есть А

Следовательно, это, вероятно, есть В.

 

Во втором случае:

 

Вероятно, все А суть В

Это есть А

Следовательно, это, вероятно, есть В.

 

Второй случай, однако, труднее свести к частоте. Исследуем, возможно ли это.

В некоторых случаях это явно возможно. Например, большинство слов английского языка не содержит буквы z. Следовательно, если возьмем наудачу какое-либо слово, то вероятно, что ни одна из его букв не будет г. Таким образом, если А — класс букв в данном слове, а В — класс букв, кроме буквы z, то мы получим случай нашего второго псевдосиллогизма. Слово, конечно, должно быть определено каким-либо способом, который пока оставляет нас в неведении относительно того, какое это слово; например, слово должно быть определено как 8000-е слово в "Гамлете" или как третье слово на 248-й странице "Concise Oxford Dictionary. При том, что вы, допустим, в настоящее время не знаете, что представляют собой эти слова, вы поступите разумно, если будете утверждать, что они не содержат буквы z.

Во всех случаях нашего второго псевдосиллогизма ясно, что то, что я назвал "основоположным классом", дается как класс классов, и, следовательно, его логическая структура имеет большое значение. Обобщим приведенный выше пример: пусть К будет классом классов, таким, что большинство его членов полностью содержится в некотором классе бета; тогда из предложений "x есть альфа" и "альфа есть k" мы можем заключить, что "х, вероятно, есть бета". (В приведенном выше примере k есть класс слов, альфа — класс букв в определенном слове и бета - алфавит без буквы z). Странно то, что, обозначая через сумма членов k" класс членов членов k, наши посылки оказываются недостаточными для того, чтобы доказать, что какой-либо член суммы k, вероятно, есть член класса p. Например, пусть k состоит из трех слов Strength, Quail, Muck — вместе со всеми словами, не содержащими ни одной буквы, содержащейся в любом из этих трех слов. Тогда сумма k состоит из всех букв алфавита, возможно, за исключением z. Должно ли z включаться в алфавит, это зависит от того, считается ли "Zoo" (сокращенное "зоопарк") словом. Но предложение "k есть а и а есть k" делает вероятным, что х не является одной из букв, содержащихся в вышеприведенных трех словах, тогда как предложение "х есть член суммы х" не делает это вероятным. Это иллюстрирует те сложности, которые возникают, когда основоположный класс имеет относящуюся к вероятностям структуру. Но в случаях, вроде вышеприведенных, все же можно измерить правдоподобие с помощью частоты, хотя и менее простым способом.

Имеется, однако, другой и более важный класс случаев, который мы не можем адекватно обсудить иначе, как только в связи с индукцией. Это случаи, где мы имеем индуктивное свидетельство, делающее вероятным, что все А суть В, и где мы выводим, что отдельное А, вероятно, есть В; например, вероятно, все люди смертны (не смешивать с предложением "все люди, вероятно, смертны"), следовательно, Сократ, вероятно, смертен. Это псевдосиллогизм нашего второго вида. Но если слово "вероятно" в предложении "вероятно, все люди смертны" и может быть сведено к частоте, то, конечно, совсем не просто. Я поэтому оставляю обсуждение этого класса случаев до более поздней стадии исследования.

Имеются, как мы увидим, различные примеры степеней правдоподобия, не выводимые из частот. К обсуждению этих случаев я и перехожу.