4. ОСНОВЫ МАТЕМАТИЧЕСКОЙ ЛОГИКИ, ВЕРОЯТНОСТЬ И АНАЛИЗ ДАННЫХ В ПРАВОПРИМЕНИТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ

4.1. Основы математической логики. Множества и подмножества

Математическая логика – современный вид формальной логики, изучающей правила выведения следствий из различных посылок, истинность которых очевидна. Математическая логика возникла в середине XIX в. для потребностей математики и стала применяться в самых различных областях знаний, в том числе и в правоприменительной деятельности.

Основным понятием математической логики является понятие высказывания (высказывания будем обозначать латинскими буквами: а,Ъ,с,...). Любое высказывание быть одновременно и истинным и ложным не может. Какой из этих случаев имеет место? При ответе на этот вопрос надо учитывать тот факт, что одно и тоже высказывание может быть истинным в одних условиях и ложным – в других. Например, значение истинности (т.е. истинность или ложность) высказывания «норма жилой площади устанавливается в размере 18 кв. м на одного человека» определяется принятым ЖК.

4.1.1. Связки и таблицы истинности

Различают простые и составные высказывания. Высказывание «наследники умершей – ее муж и сын» – составное, в то время как высказывания «наследник умершей – ее муж» и «наследник умершей – ее сын» – простые. Связывание простых высказываний в составные осуществляется логическими операциями, называемыми связками.

137

Рассмотрим следующие связки: конъюнкцию, дизъюнкцию, отрицание, импликацию и двойную импликацию. Обозначим символами а и b два какие-либо высказывания.

> Конъюнкцией высказываний а и b называется высказывание алЬ («а и Ь») истинное, если истинно каждое из высказываний а и Ь, в противном случае алЬ ложно. Высказывание «юрист должен знать информатику и математику» является конъюнкцией высказываний: а – «юрист должен знать информатику» и b – «юрист должен знать математику».

Зависимость значения истинности составного высказывания от значений истинности его компонент представляется таблицей истинности.

Таблица истинности высказывания алЬ изображена на рис. 4.1.

а

b

алЬ

и

и

и

и

л

л

л

и

л

л

л

л

Рис. 4.1

> Дизъюнкцией высказываний а и b называется высказывание амЬ («я или Ь», иначе «а либо Ь») истинное, когда одно из высказываний истинно, а другое ложно, и ложное, когда оба высказывания ложны (рис. 4.2,а). Неоднозначность первой строки рис. 4.2,а объясняется тем, что обиходное употребление связки «или» двусмысленно: если «или» понимать в смысле «одно или другое, или оба», то при истинности обоих высказываний а и b будет истинно высказывание avb; если же «или» понимать в смысле «одно или другое, но не оба», то одновременная истинность а и b не возможна, т.е. при истинности а и b высказывание avb будет ложно. Например, в высказывании «договор может быть заключен в устной или письменной форме» допускается возможность заключения

138

договора не только в какой-то одной форме, но и в обоих. А в высказывании «5 марта я поеду на шахматный турнир в Москву или во Владивосток» исключено посещение обоих турниров одновременно. В математической логике для устранения двусмысленности связки «или» введены термины:

• дизъюнкция в неисключающем смысле – это дизъюнкция avb, истинная при истинности не только одного из высказываний а или Ь, но и обоих (иначе, при истинности не менее одного из двух высказываний; иначе, при истинности по крайней мере одного из двух высказываний; иначе, при истинности хотя бы одного из двух высказываний); ее таблица истинности приведена на рис. 4.2,6;

• дизъюнкция в исключающем смысле (обозначим ее а у Ь) – это дизъюнкция истинная при истинности только одного из высказываний а или Ь, но не обоих; ее таблица истинности изображена на рис. 4.2,в.

а

b

avb

и

и

и(л)?

и

л

и

л

и

и

л

л

л

а

b

avb

 

и

и

и

 

и

л

и

 

л

и

и

 

л

л

л

 

б Рис. 4.2

 

а

b

av b

 

и

и

л

 

и

л

и

 

л

и

и

 

л

л

л

 

> Отрицанием высказывания а называют высказывание ~а («не а» или «неверно, что о»), отрицающее а.

Таблица истинности высказывания ~й изображена на рис. 4.3.

Рис. 4.3

> Импликацией высказываний а и b называется высказывание а-*Ь («если а, то 6») ложное, когда а истинно, но b ложно, а в остальных случаях - истинное.

139

Таблица истинности высказывания а-*Ъ изображена на рис. 4.4. Ее первые две строки: «если как а так и Ъ истинны, то а-*Ъ истинно», «если а истинно, а Ъ ложно, то а-*Ъ ложно» очевидны. При а ложном значение истинности высказывания а-^Ь, вообще говоря, неопределенно, но поскольку каждое высказывание должно быть либо истинным, либо ложным, считается, что при а ложном высказывание а->Ь истинно (см. рис. 4.4, 3-я и 4-я строки); основанием для принятия такого решения может служить как бы оправдание при а ложном импликации а-^Ъ «за недостаточностью улик» [30].

В юридических текстах в форме импликаций формулируют правовые предписания, разрешения и т.д.; например: «Если договор поднайма заключен без указания срока, наниматель обязан предупредить поднанимателя о прекращении договора поднайма за три месяца» (ч. 2 ст. 80 ЖК РСФСР). Отметим, что импликация а -> Ъ при отсутствии смысловой связки между а и Ь звучит странно. Так, странно звучат импликации: «если 2 • 2 = 4, то 3 + 2 = 6» и «если 3 + 2 = 6, то 2 • 2 = 4», первая из которых ложна (см. рис 4.4, 2-я строка), а вторая - истинна (см. рис. 4.4, 3-я строка). Но связка «если а, то Ъ», не означает никакой причинно-следственной связи, не означает, что из а следует Ъ (отношение следования рассматривается ниже): просто а-+Ъ – это новое высказывание, образованное из а и Ъ. Поэтому рассмотренные парадоксальные импликации имеют право на существование.

> Двойной импликацией высказываний а и Ь называется высказывание а<^Ь («Ь, если и только если о»); не путать с одинарной импликацией а-*Ь («если а, то Ь»). Высказывание «Ь, если и только если а» означает истинность двух высказываний: «если а истинно, то и Ь истинно» и «если а ложно, то и Ь ложно». Поэтому двойная импликация я<->£ истинна только в этих случаях и ложна в остальных (см. рис. 4.5).

а

Ь

а-^Ъ

и

и

и

и

л

л

л

и

и

л

л

и

а

Ь

а<г*Ь

 

и

и

и

 

и

л

л

 

л

и

л

 

л

л

и

 

Форму двойной импликации имеет, например, высказывание «совершивший уголовное преступление подлежит уголовному наказанию» (–Ь), если и только если возраст совершившего уголовное преступление не меньше 14 лет (=а). Очевидно, что истинны высказывания: «если возраст ...не меньше 14 лет, то ... подлежит ... наказанию» (рис. 4.5, 1-я строка) и «если возраст ... меньше 14лет, то не подлежит ... наказанию» (рис. 4.5, 4-я строка), и ложны высказывания: «если возраст ...не меньше 14 лет, то ... не подлежит ... наказанию» (рис. 4.5, 2-я строка) и «если возраст ... меньше 14 лет, то ... подлежит ... наказанию» (рис. 4.5, 3-я строка).

Покажем, как строятся таблицы истинности составных высказываний. Последовательность построения таблицы для высказывания (а-*Ь) <-» (~avb), компонентами которого являются простые высказывания а и Ь, приведена на рис. 4.6. Замечание.

Высказывания, в которых присутствуют скобки, следует читать подобно алгебраическим выражениям. В данном случае сначала выполняется связка а-^Ь, стоящая в первой скобке, затем ~а, затем связка ~avb и наконец связка «<->».

а Ь

а-~*Ь

~avb

a-*b ~avb (a-+b)+*(~avb)

и и

и

л

и

ИИ    И

и л

л

л

л

л  л   и

л и

и

и

и

ИИ    И

л л

и

и

и

ИИ    И

Рис. 4.6

Окончательно, при любой комбинации значений истинности высказываний а и Ь (см. рис. 4.6, первые два столбца) высказывание (a-*b)<r*(~avb) всегда истинно.

Последовательность построения таблицы истинности высказывания ~((~а/\~Ь)/\(а\/с}), состоящего из трех простых высказываний а, Ь, с, приведена на рис. 4.7.

а Ь с

~а ~Ь ~а/\~Ь

ОУС

(~a/\~b)/\(avc)

~-((~a/\~b)/\(avc))

НИИ

л л  л

и

л

и

и и л

л л  л

и

л

и

или

ли  л

и

л

и

ЛИИ

ил  л

и

л

и

и л л

ли  л

и

л

и

лил

ил  л

л

л

и

л л и

ИИ  И

и

и

л

л л л

ИИ  И

л

л

и

Рис. 4.4

Рис. 4.5

Рис. 4.7

140

141

Окончательно, высказывание ~((~а л ~Ь) л ( a v с) ложно только, когда а и Ъ ложны, но с истинно; а в остальных случаях оно истинно.

Обратим внимание на то, что таблица истинности высказывания, состоящего из двух простых: а и Ъ, содержала 22 = 4 строк – столько различных комбинаций значений истинности двух простых высказываний; для высказывания, состоящего из трех простых: а, Ъ, с, таблица содержала 23 = 8 строк – столько различных комбинаций значений истинности трех высказываний. Для высказывания, состоящего из четырех простых, таблица истинности будет содержать 24 = 16 строк и т.д.

Формально – логический анализ правовых норм позволяет в ряде случаев обнаружить неясности, двусмысленности в их применении. Например, по ст. 112 УК РСФСР «умышленное причинение телесного повреждения (=а) или нанесение побоев (=Ь), повлекшее за собой кратковременное расстройство здоровья (=е) или незначительную стойкую утрату трудоспособности (~d), наказывается лишением свободы на срок до одного года (=е) или исправительными работами на этот же срок (=/)» возникают следующие вопросы:

• союзы «или» между а и Ь, между с и d, между ew.f – это дизъюнкции в неисключающем смысле или в исключающем? Если, например, союз «или» между ей/– это дизъюнкция с не исключением, т.е. evf, то перечисленные в статье преступные действия могут быть наказаны и лишением свободы и исправительными работами; если же это дизъюнкция с исключением, т.е. evj, то используется только какой-то один вид наказания;

• слово «повлекшее» стоит после высказывания Ъ и по правилам согласования должно относиться только к Ъ; по содержанию же статьи это слово относится к обоим перечисленным преступным действиям и следовательно надо писать «повлекшие...»; но с другой стороны, если часть статьи, расположенную перед словом «повлекшее», заключить в скобки, т.е. рассматривать как одно высказывание avb (или a v Ь), то неясности не было бы.

142

Условимся, что в рассматриваемой статье первые два «или» – это дизъюнкция с неисключением, а последнее «или» – с исключением и что часть статьи перед словом «повлекшее» заключена в скобки. Тогда логическая формула статьи будет такой: ((av6)A(cv<sf))-»(ey./); формула содержит 6 компонент, ее таблица истинности будет содержать 26 = 64 строки.

Анализ приведенной статьи УК убеждает в необходимости использования символического языка математической логики для уяснения смысла правовых контекстов, для построения норм права, не допускающих двусмысленных толкований.

4.1.2. Логические возможности. Логически истинные и логически ложные высказывания

Выше отмечалось, что число строк в таблице истинности высказывания, состоящего из я простых высказываний, равно 2" – именно столько существует различных комбинаций значений истинности я простых высказываний. Однако, в конкретных ситуациях появление некоторых из этих комбинаций невозможно в принципе, и поэтому число строк таблицы истинности «можно уменьшить».

Свяжем каждое высказывание с определенными логическими возможностями и условимся, никакое предложение не рассматривать как высказывание до тех пор, пока не определено множество связанных с ним логических возможностей. Если же речь идет одновременно о нескольких высказываниях (а именно так обстоит дело при изучении составных высказываний), потребуем, чтобы каждое из них было связано с одним и тем же множеством логических возможностей. Понятие множества логических возможностей поясним на следующем примере. Пример 1.

Жюри из трех человек X, Y,Z принимает решение большинством голосов, при этом есть только два варианта голосования для каждого члена жюри- «за» (+) и «против» (–) Возникающие при голосовании логические возможности представлены на рис 4 8,а, а так называемое дерево логических возможностей – на рис 4 8,6

143

№ возможности

,* *

!

*..

Z4

, 1

+

+

+

2

+

+

3

+

+

4

+

5

+

+

6

+

7

+

8

Обратим внимание на то, что таблица истинности высказывания: «X проголосует «за» (=а) или Y проголосует «за» (=Ь), или Z проголосует «за» (=с)», т.е. высказывания avbvc, (рис. 4.9) содержит столько же строк, сколько и таблица ло-щческих возможностей (рис. 4.8,о):

а  Ь  с

avb

avfrvc

№ возможности (см рис 4 8,а)

НИИ

и

и

1

и  и  л

и

и

2

или

и

и

3

ЛИИ

и

и

5

и  л  л

и

и

4

лил

и

и

6

л  л  и

л

и

7

л  л  л

л

л

8

Рис. 4.9

144

Это объясняется тем, что все комбинации значений истинности высказываний а, Ь, с логически возможны.

К множеству логических возможностей предъявляв ются два требования:

• в любых условиях должна осуществляться одна и только одна из возможностей множества;

• в рамках этого множества должно определяться значение истинности любого высказывания по изучаемой проблеме.

Логические возможности в примере 1 (рис 4 8) первому требованию удовлетворяют, они удовлетворяют и второму ведь все логические возможности – это все мыслимые комбинации значений истинности высказываний а, Ь, с

Логически истинным называют высказывание, истинное при каждой логической возможности. Логически ложным называют высказывание, ложное при каждой логической возможности.

В условиях примера 1 высказывания

« «жюри примет какое-то решение» – логически истинное,

• «жюри не примет никакого решения» – логически ложное;

• «по крайней мере два члена жюри проголосуют «за» (=(алйл~с) v (вл~6лс) \/(~вл£лс)\/(ял6лс))» – истинно в возможностях № 2, 3, 5, 1 (рис 4 8,о),

• «только два члена жюри проголосуют «за» (=(алйл~с) v у (вл~6лс)у (~йл6лс))» - истинно в возможностях № 2,3,5

Для ряда проблем можно построить не одно, а несколько множеств логических возможностей. Поэтому ответ на вопрос «для скольких возможностей то или иное высказывание истинно?» зависит от рассматриваемого множества логических возможностей. Однако логически истинные (логически ложные) высказывания являются в этом отношении исключениями: они истинны (ложны) на любом множестве логических возможностей, относящемся к изучаемой проблеме.

Пример 2.

Имеются две урны, первая из которых содержит один белый и два черных шара с номерами 1 и 2, а вторая – белый и черный, из наудачу взятой урны вынимают последовательно два шара (к такой ур-новой модели сводится, например, следующая ситуация известно, что в городе действуют две преступные группировки, в первой – одна женщина и двое мужчин, во второй – женщина и мужчина, двумя лицами, принадлежащими к какой-то одной группе, совершена кража).

145

Множество логических возможностей и их дерево для случая, когда нас интересует только цвет вынутых шаров (пол преступников) изображены на рис. 4.10 (белый шар - «б», черный – «ч»), а для случая, когда нас интересует не только цвет (пол), но и номера вынутых шаров (фамилии мужчин из первой группировки) – изображены на рис. 4.11 (черный шар с номером 1 – «ч!»).

№ возможности

Урна

1-й шар

2-й шар

1

1

б

ч

2

1

ч

б

3

1

ч

ч

4

2

б

ч

5

2

ч

б

2-й шар

1-й шар

Урна

№ возможности

Урна

1-й шар

2-й шар

1

1

б

41

2

1

б

ч2

3

1

ч!

б

4

1

ч!

ч2

5

1

ч2

б

6

1

ч2

ч!

7

2

б

ч

8

2

ч

б

2-й шар 1-й шар

Урна

ч! ч2б ч2б ч!

VVV

ч!  ч2

Первая

Вторая

Начало

Начало

Рис. 4.10

Первое множество логических возможностей (см. рис. 4.10) «более грубое», чем второе (см. рис. 4.11): оно оказывается достаточным для определения значения истинности высказываний, в которых акцент сделан только на цвет, и не достаточным - для высказываний, в которых фигурируют и цвет и номер шара; в рамках же второго, более детального множества, определяются значения истинности высказываний как первого, так и второго типа. Высказывание «выбрана 1-ая урна и из нее вынуты белый и черный шары» истинно на первом множестве – в возможностях №1,2 (см. рис. 4.10,а), а на втором – в возможностях № 1, 2, 3, 5 (см. рис. 4.11,а). Высказывание «выбрана 1-ая урна и из нее первым вынут белый шар, а вторым – черный» истинно на первом множестве только в возможности № 1, а на втором - в возможностях №1,2. Случаи же истинности высказывания «выбрана первая урна и из нее белый шар и черный с номером 1» могут быть установлены только на втором множестве – это случаи № 1, 3 (см. рис. 4.11,а).

146

Рис. 4.11

Обратим еще раз внимание на то, что число логических возможностей всегда не больше числа строк таблицы истинности любого высказывания по рассматриваемой проблеме. Так, если нас интересует только цвет вынутых шаров и простые высказывания таковы: а = «выбрана первая урна», Ь = «первым извлечен белый шар», с = «вторым извлечен черный шар», то таблица истинности любого высказывания, состоящего из этих трех простых, будет иметь 23 = 8 строк, тогда как логических возможностей - пять (см. рис. 4.10,а). Также обратим внимание на то, что высказывание, являющееся логически истинным, может иметь различные значения истинности в таблице истинности. В подтверждение составим таблицу истинности высказывания a->(~bvc), где а, Ь, с определены выше, и сопоставим ее с таблицей логических возможностей (см. рис. 4.10,а).

147

Таблица истинности приведена на рис. 4.12, в ней выделены строки, появление которых логически невозможно.

а  Ь  с

Л* возможности (см. рис. 4.10,а)

~bvc

0->(~*VC)

НИИ

1

Л

и

и

, И  И  Л

 

Я

Л

Л "*1

или

3

и

и

и

ЛИИ

4

Л

и

и

и  л  л

2

и

и

и

лил

 

Л

Л

и

л л и

 

и

И

и

л л л

5

и

и

и

Рис. 4.12

Окончательно, при любой логической возможности импликация a-»(~Avc) истинна, т.е. это логически истинное высказывание. Словесная формулировка импликации такая: «если будет выбрана первая урна, то хотя бы один из двух вынутых шаров – черный»; в ее логической истинности нетрудно убедиться, взглянув на ответвления дерева логических возможностей, выходящие из корня «Первая» (см. рис. 4.10,6). Однако в рамках всей таблицы истинности высказывание a~*(~bvc) не всегда истинно (см. первую выделенную строку на рис. 4.12).

4.1.3. Отношения следования, эквивалентности и несовместимости

Выше рассматривались отдельные высказывания (простые или составные). Но часто бывает нужно, исходя из анализа множества логических возможностей, связанного с двумя высказываниями cud, установить логические отношения между ними. Рассмотрим отношения следования, эквивалентности и несовместимости (совместимости).

Из высказывания с логически следует высказывание d, если при истинности с истинно всякий раз и d. Высказывания с и d логически эквивалентны, если из высказывания с логически следует высказывание d и наоборот, из d логически следует с.

Высказывания несовместимы, если нет ни одной логической возможности для одновременной истинности этих высказываний, в противном случае высказывания совместимы.

148

Введенные отношения поясним на примере высказываний: a<r*b, a-*b, ~b-+~a. Составим их таблицы истинности (рис. 4.13).

а Ь 1 2

«->А 3

<?->* 4

-Л -а ~6->~<7

(«->i)-»(o->ft)

(ff-»i)<-K -Ь-*~а)

и и

и л л и л л

и л л и

и

л и и

л л  и ил  л ли  и

ИИ  И

и и и и

9 и и и и

Рис. 4.13

Из высказывания д<-»6 следует высказывание а-^b, так как при истинности а*+Ь истинно всякий раз и а-+Ь; но из высказывания а->Ь не следует высказывание а++Ь, так как при истинности д->* высказывание а++Ь может быть ложным (рис. 4.13, столбцы Зи 4). Эквивалентны высказывания: а-*Ь и ~Ь-+~а; обратим внимание на то, что значения истинности эквивалентных высказываний совпадают (рис. 4.13, столбцы 4 и 7). Высказывания а и ~а несовместимы, а например, высказывания а-*Ъ и ~Ь-+~а совместимы.

Между отношением следования и импликацией, так же как между отношением эквивалентности и двойной импликацией имеется тесная связь, но важно не пугать эти понятия. Импликация и двойная импликация - это новые высказывания, составленные из двух данных, а следование и эквивалентность – это отношения между двумя высказываниями. Связь же между ними такова: из высказывания с следует высказывание d, если и только если импликация c-+d логически истинна; cud эквивалентны, если и только если двойная импликация c+*d логически истинна. В подтверждение: из высказывания а<->Ь следует а~*Ь и импликация (a++b)->(a-*b) логически истинна (рис. 4.13, столбец 8); высказывания а->Ь и ~Ь-+~а эквивалентны и двойная импликация (а<-»*)->(~£->~0) логически истинна (рис. 4.13, столбец 9).

Проанализируем некоторые часто используемые, в том числе и выше использованные, формы высказываний с позиций отношений следования и эквивалентности:

1. Высказывание «а истинно, только если b истинно», и высказывание «если а истинно, то b истинно» эквивалентны.

149

Действительно, высказывание «а истинно, только если b истинно» констатирует «если b ложно, то и а ложно», которое эквивалентно высказыванию «если а истинно, то b истинно», так как, допустив, что из истинности а следует ложность b и, имея ввиду, что из ложности b следует ложность а, мы получим, что из истинности д> следует ложность а, чего быть не может. Итак, высказывание «а истинно, только если b истинно» эквивалентно высказыванию «если b ложно, то а ложно», которое эквивалентно высказыванию «если а истинно, то b истинно». Поэтому высказывания «а истинно, только если b истинно» и «если а истинно, то b истинно», эквивалентны.

В подтверждение эквивалентны следующие три высказывания, составленные из высказываний а = «совершивший уголовное преступление подлежит уголовному наказанию» и b = «совершивший уголовное | преступление не моложе 14 лет»:

• «совершивший уголовное преступление подлежит уголовному наказанию, только если совершивший не моложе 14 лет» («а истинно, только если b истинно»);

• «если совершивший уголовное преступление моложе 14 лет, то он не подлежит уголовному наказанию» («если b ложно, то а ложно»);

• «если совершивший уголовное преступление подлежит уголовному наказанию, то совершивший не мо-\ ложе 14 лет» («если а истинно, то b истинно»).

Обратим внимание на то, что два последние высказывания символически записываются так: ~b-^~a, a-*b; эквивалентность же этих связок была подтверждена выше (рис. 4.13, столбцы 7, 4, 9). Оба высказывания, в рамках существующего УК, логически истинны.

Замечание.

Синонимами выражения «а истинно, только если b истинно» являются выражения «а истинно только в том случае, если b истинно» и «а истинно только тогда, когда b истинно»

2. Высказывание «а истинно, если и только если b истинно» и часто используемое в математике высказывание «истинность а является достаточным и необходимым условием истинности Ь» эквивалентны.

150

Действительно, высказывание «а истинно, если и только если b истинно» констатирует следующее: «если b истинно, то а истинно» и «если b ложно, то и а ложно». А так как последнее высказывание эквивалентно высказыванию «если а истинно, то и b истинно» (см пункт 1), то получим, что высказывания: «а истинно, если и только если b истинно» и «если b истинно, то а истинно, и, если а истинно, то b истинно» эквивалентны.

Далее высказывание «истинность а является достаточным условием для истинности Ь» констатирует «если а истинно, то b истинно», а высказывание «истинность а является необходимым условием истинности Ь» констатирует, что «Ь истинно, только если а истинно», или «если b истинно, то и а истинно». Поэтому высказывание «истинность а является достаточным и необходимым условием истинности Ь» эквивалентно высказыванию «если а истинно, то b истинно, и, если b истинно, то а истинно».

Окончательно высказывания «а истинно, если и только если b истинно» и «истинность а является достаточным и необходимым условием истинности Ь» эквивалентны.

В подтверждение эквивалентны следующие два высказывания, составленные из высказываний а = «совершивший уголовное преступление подлежит уголовному наказанию» и b = «совершивший уголовное преступление не моложе 14 лет»:

• «совершивший уголовное преступление подлежит уголовному наказанию, если и только если совершивший не моложе 14 лет» («а истинно, если и только если b истинно»);

• «если совершивший уголовное преступление подлежит уголовному наказанию, то совершивший не моложе 14 лет, и, если совершивший уголовное преступление не моложе 14 лет, то совершивший подлежит уголовному наказанию» («истинность а является достаточным и необходимым условием истинности Ь»).

Обратим внимание на то, что последние два высказывания символически записываются так: а++Ь, (а-*Ь)л(Ь-^а); нетрудно убедиться в эквивалентности этих связок. И далее по-

151

скольку, в рамках существующего УК, второе высказывание логически истинно, то и первое тоже логически истинно

Высказывание же «произведение двух чисел – четное число, если и только если оба числа – четные» не является логически истинным, так как не является логически истинным высказывание «если произведение двух чисел – четное число, то оба числа – четные, и, если оба числа четные, то их произведение четно». Действительно, в последнем высказывании вторая часть логически истинна, но первая часть не является логически истинной-если произведение двух чисел – четное число, например 16, то из этого вовсе не следует, что эти два числа четные: такими числами могут быть 1 и 16. Логически истинно высказывание «произведение двух чисел – четное число тогда, когда оба числа – четные».

Замечание.

Синонимами выражения «а истинно, если и только если b истинно» являются «а истинно в том и только том случае, если b истинно» и «а истинно тогда и только тогда, когда b истинно»

4.1.4. Аргументы правильные и ложные

Под аргументом понимают утверждение того, что некоторое высказывание (заключение) логически следует из конъюнкции других высказываний (посылок). Аргумент называют правильным, если действительно из конъюнкции посылок логически следует заключение, т.е. при истинности всех посылок всякий раз будет истинным и заключение. Аргумент, не являющийся правильным, называется ложным. Примем такую форму записи аргумента: выпишем все посылки, под ними проведем черту, под которой запишем заключение. Приведем примеры словесной и символьной записи аргументов: Пример Э.

Посылки

1 2

Словесная Форма

* '

Если гражданин законопослушен (-d\. он не совершит паеатпления (=Ь)

Символьная

 

 

• форма

я-*й

а

 

Иванов - законопослушный гражданин

 

Заключение

Иванов не совершит преступления

b

Аргумент правильный, так как из конъюнкции двух посы-л,ок следует заключение В подтверждение приведем таблицу истинности аргументации (рис 4 14).

а

b

a-+b

(а->Ь)ла  b

и

и

и

1 и

,W ..A*'

и

л

л

л

л

л

и

и

л

и

л

л

и

л

л if

Рис. 4.14

л Сравнив два последних столбца рис 4 14, видим, что при

истинности конъюнкции (а-»й)ла посылок заключение b истинно, т е из конъюнкции двух посылок следует заключение Пример 4.

Ложный аргумент:

Посылки

1

2

Словесная форма Если гражданин законопослушен (~а\

Символьная

 

 

Форма а-*Ь

 

Иванов - не законопослушен

 

Заключение

Иванов совершит преступление

-J>

Аргумент ложный при истинности конъюнкции (а-+Ь)л~а посылок заключение ~Ь не всегда истинно, чтр видно из таблицы истинности этой аргументации, приведенной на рис 4 15

а

b

а-*Ь

(о->й)л~в  ~Ь

и

и

и

л

я

л

и

л

л

л

л

и

л

и

и

и

И

л

л

л

и

и

и

и

Рис. 4.15

Наиболее типичны следующие правильные аргументы a->b  <«-W> avb  a-*b а  ~а

b    -a

и следующие ложные аргументы

алЬ ~а->Ь

а    ~Ь   ~Ь   с-+а  ~а

В правильности (ложности) этих аргументов легко убедиться, составив их таблицы истинности.

Убедимся в правильности следующего аргумента, приведенного в работе [30]: «если Джонс – убийца (=а), то ему тонко известны время смерти Смита (–Ь), и чем он был убит (=с). Поэтому если Джонс не знает, когда умер

Щ

\

Смит (=~Ь) или не знает, чем он был убит (=~с), то Джонс не является убийцей (=~а)». Символическая запись этого аргумента:

Таблица истинности аргумента приведена на рис. 4.16:

a  b  с

Але о->(Алс)

~А -<: ~bs~c

(а->(Ьлс))л(~Ьч~с) ~а

 

и  и

л  л  л

л   л

 

л  л

л  и  и

л   л

и  Л fl

л  л

или

л   л

 

и  и

л л л

 

 

л  л

НИИ

л   л

 

л  и

л  и  и

и  и

л л л

л  и

НИИ

и  я

\\

Рис. 4.16

Из двух последних столбцов таблицы видно, что при J истинности конъюнкции (a-^>(b/\c))/\(~bv~c) посылок ар- ' гумента заключение ~а истинно, поэтому приведенный аргумент правильный.

4.1.5. Множества и операции над ними. Диаграммы Венна. Соотношения между множествами и высказываниями

Понятие множества не определяется, а лишь иллюстрируется примерами. Например, можно говорить о множестве статей ГК РФ, о множестве логических возможностей и т.д. Множества будем обозначать прописными латинскими буквами: А,В,... Если элемент х принадлежит множеству А, пишут х € А (читают: «х принадлежит множеству А»), в противном пишут х е А («х не принадлежит множеству А»). Множество, не содержащее ни одного элемента, называют пустым; его обозначают

символом 0.

Множество считается заданным, если о любом данном объекте можно однозначно сказать принадлежит он этому множеству или нет. Существует два способа задания множества:

• дается полный перечень элементов множества; например, множество результатов голосования присяжного такого: {«за», «против», «воздержался»};

154

• указывается правило определения принадлежности любого объекта к рассматриваемому множеству; например, запись А = {х : | х | < 10} означает, что А состоит из таких чисел х, модуль которых меньше 10 (после двоеточия записано правило, которому должно удовлетворять число х, чтобы его можно было отнести к множеству А). Два множества, состоящие из одних и тех же элементов, называются равными. Если множества А и В равны, то пишут А = В. Например, заданные перечнем элементов множества А = {1, 2, 3} и В = {3, 2, 1} равны, т.е. А = В, или {1, 2, 3} = {3, 2, 1}.

Если каждый элемент множества В является в то же время элементом множества А, то говорят, что В – часть, или, иначе, подмножество множества А. В этом случае пишут В с А (читают «В – подмножество множества А»). В последующем, исходное множество будем называть универсальным и обозначать буквой Q (прописная греческая буква «омега»). Собственные подмножества множества Q – это те подмножества, которые содержат некоторые, но не все элементы Q. Наряду с собственными подмножествами условимся само Q и пустое множество 0 также считать подмножествами множества Q.

На базе множества Q = {а»], 02} можно образовать 22 = = 4 подмножества: {щ}, {о^}, П, 0, из которых 22 - 2 = 2 собственных – это {щ} и {о^}- На базе множества £2 = {eoj, 02, 03} можно образовать 23 = 8 подмножеств: {щ}, {02}, {о>з}> {о>ь Ю2}) {«"ь юзЬ {о>2, <озЬ Ф 0) из которых 23 – 2 = 6 собственных. На базе множества Q, содержащего N элементов, можно образовать 2N подмножеств, из которых (2^ - 2) собственных.

Выше были рассмотрены способы, которыми из данных высказываний могут быть образованы новые высказывания. Рассмотрим аналогичный процесс образования новых множеств из данных множеств А и В, при этом будем предполагать, что и А, и В, и вновь образованное множество являются подмножествами некоторого универсального множества Q.

155

Для наглядного представления операций над множествами используем диаграмму Венна1, на которой универсальное множество П изображается прямоугольником, а его подмножества А и В - некоторыми фигурами, чаще кругами, внутри прямоугольника.

Пересечением множеств А и В называется множество АЛВ, состоящие из тех и только тех элементов, которые принадлежат и А, и В одновременно (словосочетание «из тех и только тех» в данном контексте означает, что АЛВ состоит из элементов, принадлежащих одновременно и А, и В, и никакие другие элементы в АЛВ не входят). Пересечение АЛВ множеств А и В на диаграмме Венна изображено на рис. 4.17, а заштрихованной областью. Если А и В не имеют общих элементов, то пересечение АЛВ будет пустым множеством 0, т.е. АЛВ – 0. (рис. 4.17,6).

Объединением множеств А и В называется множество А В, состоящее из тех и только тех элементов, которые принадлежат или А или В (или обоим множествам, если таковые элементы есть) (рис. 4. 18, с и 4.18,5 – заштрихованные области).

Дополнением множества А называется множество А (читают «не А»), состоящее из тех и только тех элементов множества Q, которые не принадлежат А (рис. 4.19, заштрихованная область). Операция «дополнение» симметрична: если А - дополнение А, то и А - дополнение А; поэтому А и А называют взаимодополняющими множествами.

Разностью множеств А и В называется множество А\В (читают «А без В») всех тех элементов А, которые не принадлежат В (рис. 4.20,а - заштрихованная область).

Нетрудно убедиться в справедливости следующих утверждений:

• если у А и В нет общих элементов, т.е. АЛВ = 0, то А\В = А (рис. 4.20,5 – заштрихованная область) и В\А = В;

• если А – подмножество множества В, т.е. А с В, то А\В = 0 (рис. 4.20,в).

Венн Джон (1834–1923 гг.) – английский логик.

156

157

В качестве приложения введенных понятий рассмотрим задачу «голосующие коалиции». Пусть имеется группа людей, голосующих «за» или «против» проведения какой-то меры (возможность «воздержания» исключим). Каждый член группы может иметь один или несколько голосов. Решение группы принимается согласно какому-либо правилу: или простым большинством, или 2/3 от общего числа голосов и т.д. Некоторые члены группы могут объединяться в коалицию с целью проведения названной меры. Коалицию называют выигрывающей, если ее голосов достаточно для проведения меры; проигрывающей, – если члены, не вошедшие в коалицию, могут провести свое решение вопреки желанию коалиции. Коалицию называют блокирующей, если ее члены сами по себе, как и члены, не вошедшие в эту коалицию, не могут провести никакого решения. Например, комитет состоит из трех членов: X (председатель), имеющий два голоса, и X) и \2„, имеющих по одному голосу каждый. Исход решается простым большинством голосов.

Возможные варианты голосования трех членов указаны в таблице на рис. 4.21.

N° варианта

X

X]

*2

1

+

+

+

-1-

2

+

+

+

3

+

+

+

4

+

+

5

-

+

+

6

+

7

-

+

8

~~

Рис. 4.21

За универсальное множество П примем множество {X, XL X2) всех членов комитета в предположении, что каждый из них высказался «за», Q = {X, \\, х$- Тогда, например, подмножество {X, \\} означает, что X и х\ проголосовали «за», а Х2 – «против» (т.е. имеет место второй вариант голосования), а пустое множество - 0 означает, что все члены комитета проголосовали «против» (8-й вариант голосования). Количество подмножеств

158

множества Q, включая ft и 0, равно 23 = 8, из которых 6 собственных (варианты 2–7). Так как решение «за» принимается в 1, 2 и 3-м вариантах голосования, а решение «против» в 8, 7 и 6 вариантах, то выигрывающими коалициями являются множества Q = {X, х\, ^}, {X, х\}, {X, Х2}, а проигрывающими: 0, fe}, {x\}. Обратим внимание на следующее: если множество – коалиция С является выигрывающей (проигрывающей), то дополнение С множества С – проигрывающая (выигрывающая) коалиция. Для подтверждения приведем такую таблицу:

Выигрывающая коалиция (множество С)

Проигрывающая коалиция (множество С = П\С)

С = {X, хь х2} С = {X, Х1} С = {X, х2}

С =0 С = {х2} С = {х,}

Среди выигрывающих коалиций выделяют минимальные выигрывающие (в задаче это коалиции {X, xj и {X, Х2}). Минимальная выигрывающая коалиция – это такая выигрывающая коалиция, ни одно из собственных подмножеств которой не является выигрывающей коалицией. Выигрывающая коалиция {X, xj – минимальная, так как ни одно из ее собственных подмножеств: {X} и {х\}, не является выигрывающей коалицией; тоже относится и к коалиции {X, Х2}.

В 4-м и 5-м вариантах (рис. 4.21) решение принято не будет (нет большинства); поэтому коалиция {X} и коалиция {X], Х2} – блокирующие. Обратим внимание на то, что сумма числа выигрывающих, проигрывающих и блокирующих коалиций равна числу подмножеств множества П. Пример 5.

Интересным примером группы, принимающей решения, служит Совет безопасности ООН, состоящий при существовании СССР из одиннадцати членов: пяти представителей великих держав (Хь Х2,..,Х5>, каждый из которых мог единолично блокировать любую меру, и шести представителей малых наций (Х|, Х2,...,Хб). Каждый из 11 членов имел один голос (возможность «воздержания» исключим). Для принятия Советом какой-то меры необходимо, чтобы за нее проголосовало семь членов, включая большую пятерку. За универсальное множество П примем множе1-

159

ство {X],..., Xs, XL ..., xg} всех членов комитета в предположении, что каждый из них высказался «за». Общее число вариантов голосования 11 членов равно 2" = 2048 – столько подмножеств имеет множество П. = {Xi,..., Xs, \\, ..., х$}. Любое подмножество множества П, состоящее из большой пятерки и двух или более (не менее двух) представителей малых наций, будет выигрывающей коалицией; а любое подмножество, состоящее из четырех или менее (не более четырех) представителей малых наций будет проигрывающей коалицией. Примеры этих коалиций приведены в следующей таблице:

 

Выигрывающая коалиция • (множество С) . , ,

Проигрывающая (множество С

коалиция = 0\С)

c = o

<,,..., Х5, х,, х2}

С = {х3, х4, х5, Хб

}

c = {;

<|,..., Х5, Х|,Х2, Х3}

С = (х4, х5, хб)

 

c = {;

<!,..., Х5, ХЬХ2)Х3, Х4|

С = )х5, Хб}

 

c = {:

<),..., Х5, X), Х2,Х3> Х4, Х5}

С = {х6}

>

c = r

<,,..., Х5, хь...,Хб(

С =0

 

Общее число выигрывающих коалиций равно 57' (столько же и проигрывающих коалиций), из которых Г5' будет минимальных - это коалиции, состоящие из большой пятерки и двух представителей малых наций. Число блокирующих коалиций равно (2048–57–57) = 1934, среди них и единичные множества {Х|}, {Х2}, {Хз>, {Xt}, {Xs}.

Между множествами и высказываниями, а также между операциями над множествами и операциями, связывающими простые высказывания в составные, существует тесная связь.

Естественный способ сопоставления высказываний с множествами такой:

• для имеющихся высказываний а, Ъ, с, ... находим множество Q всех логических возможностей -универсальное множество;

• на множестве ft выделяем подмножества А, В, С, ... логических возможностей, для которых истинны соответственно высказывания а, Ь, с, ...; А, В, С, ... называют множествами истинности соответствующих высказываний;

• каждому высказыванию поставим в соответствие его множество истинности.

1 Способ подсчета этого числа изложен далее в задаче 7.

160

Естественный способ сопоставления операций связывания высказываний и операций над множествами такой:

• множество истинности высказывания ал.Ь – это множество АПВ (рис. 4.22, область двойной штриховки);

• множество истинности высказывания avb – это множество АиВ (рис. 4.22, вся заштрихованная область);

Оба

высказывания

истинны

Оба высказывания ложны

Рис. 4.22 Замечание.

!

На рис. 4.22 множества АиВ истинности высказываний а и Ь имеют общие элементы – это говорит о том, что допустима одновременная истинность и а и Ь, т.е. а и Ь –совместимые высказывания. Множества АиВ истинности несовместимых высказываний о и и не имеют общих точек (рис. 4.18,а), но и в этом случае множество истинности высказывания avb (точнее а у 6) - это множество АиВ.

• множество истинности высказывания ~а (иначе, множество «ложности» высказывания а) – это множество А (рис. 4.19, заштрихованная область);

• множество истинности высказывания а-^b – множество АиВ; это объясняется тем, что высказывание а-^Ь эквивалентно высказыванию ~avb (рис. 4.6, последние три столбца), множеством истинности которого является множество AUB (рис. 4.23, заштрихованная область); обратим внимание на то, что не заштрихованная на рис. 4.23 область – это множест-

6 Информатика и математика            | £ |

для юристов               Ю1

во А\В, тогда заштрихованная область – это множество А \ В , и следовательно, АиВ = А \ В; • множество истинности высказывания а<-*Ь, эквивалентного высказыванию (~а^Ь)л(~Ьуа), – это множество (ЛиВ)п(ВиА), или равное ему множество А \ В п В \ А; последовательность построения множества истинности приведена на рис. 4.24;

AUB = А \ В – множество истин ности высказывания а->Ь (вся заштрихованная область)

Рис. 4.23

А11В = А\В

BUA=B\A

Рис. 4.24

162

• множество истинности логически истинного высказывания (напомним, это высказывание, истинное в каждом логически возможном случае) – это множество Q всех логических возможностей;

• множество истинности логически ложного высказывания – пустое множество 0.

И наконец, как на языке множеств выглядят отношения следования и эквивалентности? Ответ:

• из высказывания а следует высказывание Ъ , если и только если импликация а-^Ь логически истинна; логическая же истинность высказывания а-Ж означает, что его множество истинности А \ В = Q, и тогда А\В = = 0 , но последнее равенство верно в том и только том случае, когда множество А является подмножеством множества В.

Итак, из высказывания а следует высказывание b , если и только если между множествами АиВ истинности этих высказываний имеет место соотношение: АсВ (рис. 4.25);

• высказывания а и b эквивалентны, если и только если двойная импликация а++Ь логически истинна; логическая же истинность высказывания а**Ь означает, что его множество истинности А\ВПВ\А= и, но

последнее равенство верно, в том и только том случае, когда А = В.

Итак, высказывание а эквивалентно высказыванию Ь, если и только если между множествами АиВ истинности этих высказываний имеет место соотношение: А = В (рис. 4.26).

(А11в)п(в11А)=А\ВПВ\А-

множество истинности высказывания (область двойной штриховки)

Оба высказывания ложны

Оба высказывания южны

Ас В

Рис. 4.25

А=В

Рис. 4.26

Приведем итоговую таблицу соотношений между высказываниями и множествами:

Высказывание

Множество истинности

логически истинное логически ложное а Ь алЬ avb -а

а->Ь <к-»А

П

0 АсП ВсП

АПВ AUB А

 

АиВ= А\В

(А и в)п (в и А) = А/В п В/А

Отношение между высказываниями

Отношение между множествами истинности

из а следует Ь а эквивалентно Ъ

АсВ А- В

Множества истинности изобразим на диаграммах Венна (рис. 4.28, заштрихованные области).

Рис. 4.27

Выявленные соотношения позволяют перевести любую задачу, относящуюся к высказываниям, в задачу теории множеств и наоборот, задачу, относящуюся к множествам, перевести на язык высказываний. Приведем пример, подтверждающий целесообразность такого перехода.

Пример 6.

Пусть требуется выяснить, совместимы или нет следующие высказывания:

1. Если математика интересна (–а), то я буду над ней работать (=Ь);

1. Если математика не интересна (гг~о), то я получу по этому предмету плохую оценку (–с)',

3. Я не буду работать над математикой (=~Ь), но получу по этому предмету хорошую оценку (=~с).

В принятых обозначениях символические выражения высказываний таковы:

1) а->Ь;

2) ~а-+с;

3) ~йл~с.

Ответ на вопрос дадим двумя способами: используя язык множеств и используя язык высказываний. > Язык множеств. Перейдем от высказываний к множествам истинности:

Высказывание

Множество истинности

1. а-»й 2, ~а->с 3. ~Ьл-с

А В

 

х\с впс

А\В

А\С

Рис. 4.28

впс

Из диаграмм видно: нет элементов множества логических возможностей П, которые бы принадлежали одновременно всем трем множествам истинности, иначе нет ни одной логической возможности для одновременной истинности высказываний 1, 2, 3, поэтому эти высказывания несовместимы в совокупности; однако они попарно совместимы.

> Язык высказываний. Построим таблицы истинности высказываний 1, 2, 3 (рис. 4.29).

а   Ь   с

а-*Ь

~а-+с

~6л~С

1

и   и   и

и

и

л

2

и   и   л

и

и

л

3

или

л

и

л

4

л  и  и

и

и

л

5

и  л  л

л

и

и

6

лил

и

л

л

7

л  л  и

и

и

л

8

л  л  л

и

л

и

164

Рис. 4.29

В таблице нет ни одной строки, где бы все три высказывания: а-*Ь, ~а-*с, ~Лл~с были бы одновременно истинны, поэтому высказывания несовместимы в совокупности; однако они совместимы попарно.

Результаты обоих подходов, естественно, совпали.

4.2. Вероятности высказываний (событий).

Выбор решения при неизвестных вероятностях

В юридической практике часто можно услышать высказывания такого типа: «Я имею все шансы выиграть этот процесс», «Орудием убийства, скорее всего, был тяжелый предмет» и т.д. Эти высказывания относятся к

165

определенным событиям. Так, первое высказывание носится к событию А – выигрывание процесса, а второе – к событию В – орудие убийства – тяжелый камень. Судя по высказываниям, в исходе этих событий мы не уверены: событие А, так же, как и событие В, может произойти, а может и не произойти.

Событие, исход которого, судя по высказыванию, не однозначен, называется случайным, а само высказывание – вероятностным. События, о которых идет речь в высказываниях а, Ъ, с, будем обозначать соответственно А, В, С ... При этом договоримся, что высказывание а/\Ъ относится к событию АПВ, avb к событию АиВ, ~а к событию А и т.д. (знаки между событиями соответствуют знакам между множествами истинности высказываний – см. рис. 4.27).

Напомним, маргинальными высказываниями являются логически истинное (истинное в каждой логической возможности) и логически ложное. Логически истинное высказывание относится к достоверному событию (его будем обозначать буквой Q) – оно происходит всегда, в каждой логической возможности; логически ложное высказывание относится к невозможному событию (его будем обозначать символом 0) - оно не происходит никогда, ни в одной логической возможности. Например, достоверным является событие Q – число выпавших очков при однократном подбрасывании игральной кости не больше шести, а невозможным – событие 0 – число выпавших очков при однократном подбрасывании кости больше шести.

Можно ли изучать случайные события (а, следовательно, и относящиеся к ним вероятностные высказывания), если заранее сказать, каков будет исход этих событий, нельзя? Действительно, предвидеть результат единичного судебного процесса нельзя; однако опыт многократного проведения аналогичных процессов в типичных условиях зачастую позволяет случайному событию А – выигрывание процесса (а, следовательно, и высказыванию а = «я выиграю этот процесс») приписать количественную меру ДА) возможности появления события А (количественную меру Р(а) - истинности высказывания а), называемую вероятностью события А (высказывания а). Ес-

166

ли такое «приписывание» возможно, то говорят, что изучаемое случайное событие статистически устойчиво.

Случайное явление обладает свойством статистической устойчивости, если некоторая функция результатов многократных наблюдений этого явления в типичных условиях предсказуема с большой степенью надежности, тогда как результат единичного наблюдения не предсказуем.

Дадим более подробные пояснения этого свойства. Например, исход единичного подбрасывания монеты предсказать нельзя; однако при многократном ее подбрасывании примерно в одинаковых условиях можно ожидать, с большой степенью уверенности, что герб появится примерно в 50% подбрасываний. Это подтверждают следующие эксперименты, проведенные в XVIII в.

Экспериментатор

Количество подбрасываний (п)

Количество выпадений герба (т)

Относительная частота выпадения герба ( р = т/п)

Бюффон

4040

2048

0,5069

К. Пирсон

12000

6019

0,5016

К. Пирсон

24000

12012

0,5005

Относительная частота р = т/п выпадений герба при большом числе п наблюдений становится предсказуемой (в экспериментах р * 0,5).

Я. Бернулли1 доказал теорему, согласно которой относительная частота обладает свойством статистической устойчивости: при увеличении числа п наблюдений, проводимых в типичных условиях, увеличивается (при выполнении достаточно общих ограничений) уверенность в незначительном отклонении относительной частоты р = т/п от некоторого постоянного числа р. Устойчивость или практически отсутствующая колеблемость относительной частоты при больших числах наблюдений была подмечена во многих явлениях еще задолго до XVIII в. Так, еще в Древнем Китае было обнаружено, что для государств и больших городов отношение числа ро-

1 Бернулли Якоб (1654–1705) - профессор математики Базельского университета. Теорема Бернулли – важный частный случай закона больших чисел.

к?

лившихся мальчиков к числу всех родившихся из года в год почти неизменно чуть больше 0,5.

Статистическая устойчивость свойственна, при выполнении определенных ограничений, не только относительной частоте, но и средней арифметической результатов наблюдений – это было доказано русским математиком П.Л. Чебышевым1: при увеличении числа п наблюдений, проводимых в типичных условиях, увеличивается (при выполнении достаточно общих ограничений) уверенность в незначительном отклонении вычисленной по этим наблюдениям средней арифметической от некоторого постоянного числа. Так, устойчивость свойственна среднему возрасту преступника, среднему числу ДТП, например, за месяц в крупном городе и т.д. Колеблемость этих средних при больших числах наблюдений (соответственно, обследованных преступников, месяцев) практически отсутствует.

Статистической устойчивостью, наряду с относительной частотой и средней арифметической, обладает и целый ряд других функций результатов наблюдений.

Математические методы изучения случайных явлений, обладающих свойством статистической устойчивости, предлагает теория вероятностей и математическая статистика.

4.2.1. Приписывание вероятностей случайным событиям (вероятностным высказываниям)

> Опытная вероятность. Выше было введено понятие относительной частоты р (А) появления случайного

события А – это отношение числа /ид наблюдений, в которых появилось это событие А, к общему числу п проведенных наблюдений, /НА) = m/Jn. Также было отмечено, что при выполнении достаточно общих ограничений, в силу теоремы Я. Бернулли, значение относительной частоты при проведении в типичных условиях большого числа п наблюдений становится предсказуемым

I

1 Чебышев Пафнутий Львович (1821–1894) – русский математик и механик, академик Петербургской АН.

168

(статистически устойчивым). Это служит основанием тому, чтобы относительную частоту появления события в большом числе п наблюдений принять за вероятность события; ее называют опытной, или эмпирической, или статистической вероятностью. Отметим, опытная вероятность не постоянна: при повторении п наблюдений число наблюдений т&, в которых произойдет событие А, может отличаться от ранее полученного, в результате – новое значение относительной частоты, или опытной вероятности.

Так как всегда 0 < /ПА < п, то 0 < р (А) < 1; для достоверного события Q (оно появляется во всех испытаниях): та = п и опытная вероятность р(О.) = 1; для невозможного события 0 (оно не появляется ни в одном испытании): 7И0 = О И р (0) = 0.

Замечание.

Из теоремы Я. Бернулли вовсе не вытекает, что устойчивость относительной частоты – неоспоримый факт. Например, как отмечается в работе [52], бессмысленно с вероятностной точки зрения высказывание типа' «Медведь может выскочить из-за фиксированного куста с вероятностью 0,1, и тогда охотник убивает его с вероятностью 0,5», – так как весьма сомнительно предположение статистической устойчивости относительной частоты появления медведя из-за данного куста, равно как и относительной частоты его «убивания» в этом случае (без чего приведенные в выражении вероятности не имеют смысла). Проверка статистической устойчивости трудна и не всегда выполнима; чаще всего вопрос ее выполнимости решается на интуитивном уровне с учетом накопленного опыта работы

Нахождение опытной вероятности требует проведения большого числа наблюдений. Но как можно, например, провести многократно уникальный судебный процесс с тем, чтобы определить вероятность вынесения оправдания? Однако ряду статистически устойчивых явлений можно «приписать» вероятности (меры объективной возможности появления этих явлений), не проводя наблюдений; такие вероятности часто называют «доопьггными».

> «Доопыпишя» вероятность. Пусть а – некоторое вероятностное высказывание, относящееся к случайному событию А. Естественен следующий алгоритм «приписывания» вероятности высказыванию а (событию А):

169

высказывание а свяжем с множеством fi = {со], щ, логических возможностей (требования, предъявляемые к этому множеству, изложены на с. 145); каждому элементу со, множества Q поставим в соответствие некоторое положительное число (вес Дсо,) – вероятность логической возможности со,), такое, чтобы сумма этих чисел, весов равнялась единице:

Дсо,) > О, / = 1, 2,...

(4.1)

(запись ^Р((о,)=1 означает суммирование вероятностей всех тех элементов о,-, которые образуют множество Q);

на множестве П выделим подмножество А – множество истинности высказывания а (оно включает те и только те логические возможности, для которых высказывание а истинно); находим сумму вероятностей элементов, образующих множество А, которую и примем за вероятность Да) высказывания а (за вероятность Р(А) события А):

Да)=ДА) = У Дсо,).   (4.2)

ш,еА

Заметим, если высказывание логически истинно, т.е. если высказывание относится к достоверному событию П, то множеством истинности этого высказывания будет все множество П, поэтому, учитывая (4.1), «доопытная» вероятность достоверного события ДП) = 1. Множеством истинности логически ложного высказывания – высказывания, относящегося к невозможному событию 0, будет пустое множество 0, поэтому Д0) = 0. Окончательно, для любого высказывания а (события А)

О < Да) = ДА) < 1.

В дальнейшем не будем делать различий между вероятностями высказывания а и относящегося к этому высказыванию событием А.

170

Задача 1.

В городе работает три риэлторские агентства X), Х^, Хз-Клиенту известно, что X] и Х2 имеют примерно одинаковые шансы решить его квартирный вопрос, а шансы Хз в 1,5 раза меньше шансов X]. Какова вероятность высказывания а = «клиент обратится или в агентство Х| или в агентство Ху>7

Решение.

Пусть множество логических возможностей П, ={ю\, а>2> юзК где со, - решение агентством X, (/ = 1, 2, 3) квартирного вопроса клиента. Множество истинности высказывания а – это множество А = {coi, о>2}> и, согласно (4.2), Да) = Дю]) + Дшз). Элементу о>з присвоим вес f > 0, а элементам о>] и о>2 веса l,5f и l,5f. Так как согласно (4.1) сумма этих весов должна равняться 1, то l,5f + l,5f+ + f = 1, f = 0,25, Дюз) = f = 0,25, Дю,) = До>2) = 0,375. Окончательно Да) = Дсо,) + До>2) = 0,75.

Нахождение вероятности высказывания а (события А) значительно упрощается, если число логических возможностей множества £1 конечно, например, равно N, т.е. П = = {о>1, к>2, ..., сод), и есть основание считать эти возможности равновероятными, и потому приписать каждой из них один и тот же вес. Тогда, учитывая, что в соответствии с (4.1): Дсо]) + ... + Дсо^у) = 1> получим Дсо]) = ... = Дсодг) = = 1/N. И если множество А истинности высказывания а содержит М логических возможностей, то Да) = Р (А) = = ^ Р(со,) = М / N. Классическая формула вероятности:

(о, еА

Да) - ДА) = M/N,     (4.3)

где N – общее число равновероятных логических возможностей, связанных с высказыванием а (событием А);

М – число тех возможностей, при которых высказывание а истинно (событие А произойдет). Задача 2.

В условиях примера 1 найти вероятности следующих высказываний: d – «только один член жюри проголосует «за», е = = «по крайней мере один член жюри проголосует «за».

Решение.

При тайном голосовании трех членов жюри, поставленных в одинаковые условия, есть основание считать, что имеющиеся N = 8 логических возможностей (рис. 4.8,а) равновероятны. Высказывание d истинно при М = 3 – это возможности 4, 6, 7; поэтому P(d) - 3/8. Высказывание е истинно в М – 1 возможностях – это возможности 1-7, поэтому Р(е) = 7/8.

171

Замечание.

В условиях примера 2 логические возможности не равновероятны (это относится как к «грубому» множеству -см. рис. 4.10, так и к «более детальному» – см. рис. 4.11): ведь составы урн различны. Однако в рамках «каждой отдельно взятой урны» логические возможности равновероятны. Поэтому вероятность высказывания а – «из первой урны будет извлечен белый Шар», в котором выбор первой урны зафиксирован как истина, можно рассчитать по классической формуле:

• при использовании «грубого» множества (см. рис. 4.10,а) общее число равновероятных возможностей W= 3 - это возможности 1,2,3 , из которых М = 2 возможности ведут к появлению белого шара; До) = 2/3,

• при использовании «более детального» множества (см. рис. 4.11 ,а) N = 6 – это возможности 1 + б, из которых М ~ 4 возможности ведут к появлению белого шара; по-прежнему

/ ч 4 2

ад,-,-.

При использовании классической формулы вероятности в решении конкретных задач числовые значения входящих в формулу величин N и М не всегда очевидны. Часто их определение требует применения правил и формул комбинаторики – специального раздела математики, изучающего задачи составления тех или иных комбинаций из заданного множества элементов. Отметим, что сами по себе комбинаторные задачи часто возникают и в правоприменительной деятельности; например, классификация причин преступности по степени их сходства, составление вариантов расследования сложных много-эпизодных дел и т.д.

4.2.2. Правила и формулы комбинаторики при вычислении вероятностей

1. Правило суммы: если элемент х можно выбрать пх способами и если, после его выбора элемент у можно выбрать пу способами, то выбор «либо х, либо у» можно осуществить пх + пу способами.

2. Правило произведения: если элемент х можно выбрать пх способами и если после его выбора, элемент у можно выбрать я,, способами, то выбор упорядоченной пары (х, у) можно осуществить ПуПу способами.

172

Пример 7.

Различающиеся только цветом пх + пу шаров распределены по двум урнам: в первой урне пх шаров, во второй пу. Выберем случайным образом урну (это можно сделать так: подбросим монету и при выпадении орла выберем первую урну; цифры - вторую), а затем из нее случайным образом шар (так как шары различаются только цветом, то это можно сделать так: перемешать шары и, закрыв глаза, вытащить один). Так как заранее не известно, из какой урны будет вынут шар, то число вариантов цвета для шара, вынутого либо из первой, либо из второй урны, равно пх + пу.

Теперь случайным образом выберем шар из первой урны, а затем – случайным образом шар из второй урны. Так как шар, вынутый из первой урны, имеет пх вариантов цвета и при каждом из этих вариантов шар, вынутый из второй урны, имеет пу вариантов цвета, то различных упорядоченных пар цветов для двух вынутых шаров (упорядоченность пар цветов означает, что, например, пары «синий, белый» и «белый, синий» различны) будет пхпу.

3. Перестановки:

Перестановками без повторений из п различных элементов называются все возможные последовательности этих п элементов.

Число перестановок без повторений из я элементов обозначают символом Рп и подсчитывают так: Рп = я! = 1 • 2 -... • п (4.4) (символ я! читается «эн факториал»; я! равен произведению натуральных чисел от 1 до я; по определению 0! = 1).

Пример 8.

Перестановки без повторений из п = 3 различных элементов: а, Ь, с таковы: a,b,c; b,a,c; b,c,a; a,c,b; c,b,a; с,а,Ь. Число перестановок равно 6. И согласно формуле (4.4)

Перестановками с повторением из я элементов k типов (k < я):

число элементов первого типа Я], число элементов второго типа яз, •-., число элементов k-то типа nk

У=1

называются все возможные последовательности исходных я элементов.

Число перестановок с повторениями обозначают

СИМВОЛОМ Ря=й,-и12ч- +„, И

подсчитывают так:

"n=nl+№i+ +/k = : :' -.(4.Э)

Пример 9.

Перестановки элементов с повторениями из я = 3: а,а,Ь двух типов (тип «а» повторяется п\ = 2 раза, тип «Ь» повторяется HI = 1 раз), Таковы: a,a,b; a,b,a; Ь,а,а.

173

получим такой же результат: Рз = 3! = 1 -2-3=6.

Число перестановок равно 3. И согласно формуле (4.5) полу-* чим такой же результат:  '

Р  3! -ч

JT 3.2+I =-------- = 3 .

2! 1!

Замечания.

• Если все п элементов разных типов т.е. число типов k – 1 + 1 + ...+ + 1 = и, то число перестановок с повторениями равно числу перестановок без повторений. Действительно,

/*n=l+l+ + 1 =•

я!

- = и!=А.

1! 11...1!

• Обратим внимание на то, что при любом виде перестановок (и без повторений, и с повторениями) каждая перестановка включает все п исходных элементов и одна перестановка отличается от другой только порядком следования этих элементов.

Задача 3.

По следствию должны пройти пять человек: А, В, С, D, Е. Какова вероятность того, что в списке этих пяти человек, составленном случайным образом:

а) В будет следовать сразу после А;

б) В не будет перед А?

Решение.

Список из пяти человек можно составить N – 5! способами – это общее число равновероятных возможностей.

а) «В следует сразу после А» в списках следующих видов:

• А, В, ?, ?, ?  – таких списков Р^, = 3!, так как последова-

тельность трех букв – трех человек С, D, E на последних трех местах – это некоторая перестановка букв С, D, E, а число таких перестановок равно РЗ = 3!,

• ?, А, В, ?, ?  - таких списков тоже 3!,

• ?, ?, А, В, ?  – таких списков тоже 3!,

• ?, ?, ?, А, В  – таких списков тоже 3!.

Поэтому в соответствии с правилом суммы число списков, в которых В следует сразу после А равно: Л/ = 3! +3!+3!+3!=4 • 3! и искомая вероятность Р = M/N = (4 • 3!)/5! = 1/5.

б) «В не будет перед А» в списках следующих видов:

А,

7979

места для В

779

места для В

- таких списков Д. = 4! (последовательность четырех различных букв В, С, D, E на последних четырех местах – это некоторая перестановка этих букв, а число таких перестановок равно Ра, = 4!), – таких списков 4! – 3! (если бы не было ограничений на расположение В, то число списков вида «?, А, ?, ?, ?» было бы равно 4!; из этого числа надо вычесть количество списков вида «В, А, ?,?,?», а их 3!),

174

• 9 7 А ? ?

• ., ., /\, . 1 •

места для В

• ?,?,?, А, В

– таких списков 41 – 2-3! (из 4! списков вида «?, ?, А, ?, ?» вычитаем 3! списков вида «В, ?, А, ?, ?» и 3! списков вида «?, В, А, ?, ?»), – таких списков 3!

Поэтому число списков, в которых «В не будет перед А» , М = : 4!'+ (4! – 3!) + (4! – 2 • 3!) + 3! = 60 и вероятность того, что в списке, составленном случайным образом, «В не будет перед А» Р = M/N – = 60/5! = 0,5.

Задача 4.

Какова вероятность получить слово «юрист», переставляя в случайном порядке буквы этого слова? Какова вероятность получить слово «математика», переставляя в случайном порядке буквы этого слова?

Решение.

В слове «юрист» все 5 букв разные: число перестановок этих букв равно N = Р$ = 5! и лишь М = 1 вариант из 5! вариантов дает слово «юрист». Поэтому вероятность получить это слово Р = =M/N = 1/5! = 1/120.

В слове «математика» п – 10 букв, однако различных букв k =6:

«м», которая повторяется п\ = 2 раза,

«а», которая повторяется /ij – 3 раза,

«от», которая повторяется п^ = 2 раза,

«е», которая повторяется п* = \ раз,

«ы», которая повторяется п$ = 1 раз,

«к», которая повторяется П(, = 1 раз.

Поэтому перестановки букв слова «математика» – это перестановки с повторениями из п = 10 элементов k = 6 типов, и в соответствии с формулой (4.5) общее число таких перестановок

–    10!

Рю=2+з+2+1+1 =  '  =151 200. Из них только одна пере-

становка дает слово «математика»; вероятность получить это слово, случайно переставляя буквы, равна 1/151 200.

4. Размещения:

Размещениями без повторений из п различных элементов по т элементов (т < п) называются все такие последовательности т различных элементов, выбранных из исходных п, которые отличаются друг от друга или ПОРЯДКОМ следования эле-

Размещениями с повторениями из элементов k типов по т элементов (k и т могут быть в любых соотношениях: m<k, m>k) называются все такие последовательности т элементов, принадлежащих исходным типам, которые отличаются

175

i

ментов или составом эле-

друг от друга или порядком

ментов

следования элементов

НИИ

 

составом элементов.

т

\

Число размещений без повторений из п элементов по т обозначают символом А™ ,

Ат=-

п\

(и-т)!'

где л! = 1 • 2 • 3 (л-/п)! = 1 -2- .

(4.6)

. • и;

(п - т).

Пример 10.

Размещения без повторений из л = 3-Х различных элементов: а,Ь,с по т – 2 элементов таковы a, b; b, а; а, с, с,а; b,c; c,b Число размещений равно 6; и согласно формуле (4.6) получим такой же результат:

Аг _ У. _ 3! _ 1-2 3 _ 3 ~ (3 - 2) ~ 1! ~ 1

Замечание.

Формулой (4.7) мы пользовались и ранее, не приводя ее Так подсчет числа строк в таблице истинности высказывания, состоящего из т – = 3-х простых высказываний, каждое из которых может быть k = 2-х типов (или «и» - истинным, или «л> -ложным), или подсчет числа подмножеств множества П, состоящего из т - 3-х элементов, для каждого из которых может быть k = 2 варианта (или элемент войдет в подмножество или не войдет), - это подсчет числа размещений с повторениями'

А"' = Al = 23 = 8

> Выборка без возвращения и выборка с возвращением

• Выборка без возвращения. Пусть имеется совокупность п элементов, пронумерованных числами 1, 2, ..., п; назовем эту совокупность генеральной. Случайным образом выберем элемент (этот выбор можно осуществить так: номера напишем на одинаковых карточках и, перемешав карточки, вслепую наугад вытащим одну; ее номер и будет номером отобранного элемента). Отобран-

176

Число размещенщ с повторениями из k типов элементов по т элементов

обозначают А"

,

(4.7)

Пример 11.

Размещения с повторениями из элементов k = 2-х типов: тип «а» и тип «Ь», по т – 3 элементов гаковы: а,а,а; b,a,a, a,b,a, a,a,b, b,b,a; b,a,b, a,b,b; b,b,b. Число размещении с повторениями равно 8; и согласно формуле (4.7) получим такой же результат:

I

ный элемент отложим в сторону. Повторим выбор т раз (т<п), не возвращая отбираемые элементы в исходную генеральную совокупность (не возвращая отбираемые карточки обратно). В результате окажется выбранной некоторая группа из т элементов. Ее называют т – выборкой без возвращения из генеральной совокупности объема п. Вернем т отобранных элементов в генеральную совокупность и вновь «без возврата» отберем из я элементов т элементов и т.д. Сколько существует различных т выборок, если различными считать выборки, отличающиеся или составом номеров вошедших в них элементов иди порядком следования номеров? Число таких выборок равно числу размещений без повторений (ведь в выборке не может оказаться одинаковых номеров) из я по т:

п\

" (п-т}\'

• Выборка с возвращением. Из той же совокупности я элементов отберем т элементов, но перед выбором каждого следующего элемент, отобранный на предыдущем шаге, будем возвращать в исходную генеральную совокупность, предварительно, запомнив его номер. Выбранную (запомненную) группу из т элементов называют т – выборкой с возвращением из генеральной совокупности объема я (при выборке с возвращением тип могут находиться в любом соотношении: т<п и т>п). Поскольку каждый из отобранных т элементов может быть я типов: иметь номер 1, иметь номер 2, ..., иметь номер я, то число различных т выборок с возвращением равно числу размещений с повторениями (ведь в выборке могут оказаться два и более одинаковых номеров) из элементов я

типов по т элементов: А% = пт .

Задача 5.

В фирме работают 8 человек одинаковой квалификации, среди них Иванов, Петров, Сидоров. Случайно выбранным трем из них (из восьми) поручают три различных вида работ (первому выбранному – работу первого вида, второму выбранному – второго вида, третьему – третьего вида). Какова вероятность того, что работа первого вида будет поручена Иванову, второго – Петрову, третьего – Сидорову?

177

Решение.,

Отбор трех человек из восьми, в условиях задачи, - это выборка без возврата, где важен не только состав отобранных людей, но и то, в каком порядке они отобраны, так как от порядка отбора зависит распределение работ. Поэтому число вариантов

О|

отбора m = 3 из и = 8 N = А^ = = 336 , и только в одном

(8-3)!

варианте (М= 1) из этих 336 работа первого вида будет поручена Иванову, второго – Петрову, третьего – Сидорову. Поэтому искомая вероятность Р = M/N – 1/336.

Задача 6.

Замок камеры хранения имеет четыре диска, каждый из которых разделен на 10 секторов; на секторах каждого из дисков написаны цифры О, 1, 2, ..., 9. Какова вероятность открыть закрытую камеру для человека:

а) забывшего все, что он набрал на дисках, закрывая камеру;

б) помнящего только цифру, набранную на первом диске;

в) помнящего только, что ни на втором, ни на третьем, ни на четвертом диске он не набирал цифры 6?

Решение.

а) Пытаясь открыть камеру с четырьмя дисками, человек, по сути, выбирает количество цифр т – 4 из п = 10, при этом осуществляется выбор с возвратом. Общее число вариантов такого выбора ЛГ = AW =10", из которых только в варианте М = 1 камера откроется. Поэтому искомая вероятность равна 1/104.

б) При известной цифре на первом диске, общее число вариантов «набора» цифр на трех оставшихся дисках N = Af0=\(f-

Искомая вероятность равна 1/103.

в) На первом диске может быть набрана любая из десяти цифр. Число вариантов набора цифр (уже не из десяти, а из девяти) на трех оставшихся дисках равно Д,3 = 93. Общее число вариантов набора цифр на четырех дисках, с учетом правила произведения, будет N = 10 • 93. Искомая вероятность равна 1/(10 • 93).

5. Сочетания:

Сочетаниями без повторений из п различных элементов по т элементов (т<п) называются все такие последовательности т различных элементов, выбранных из исходных п, которые отличаются друг от друга составом элементов.

178

Сочетаниями с повторениями из элементов k типов по т элементов (kvim могут быть в любых соотношениях: m<k, m>k) называются все такие последовательности т элементов, принадлежащим исходным типам, которые отличаются друг от друга составом элементов.

Число сочетаний без повторений из п элементов по т обозначают символом С"

Ст =-

п\

т\(п-т)\

(4.8)

Пример 12.

Сочетания без повторений из трех различных элементов, л = 3: а,Ь,с по т = 2 таковы: a,b; a,c; с,Ь (сочетания отличаются друг от друга только составом элементов, поэтому, например, последовательности «а,Ь» и «Ь,а» - это одно и то же сочетание). Число сочетаний без повторений - 3. И согласно формулы (4.8) получим такой же результат:

2

Задача 7.

Число сочетаний с повторениями из k типов элементов по т элементов

обозначают символом С™ 7=-(ОШ2. (4.9)

i\i  x  '

Пример 13.

Сочетания с повторениями из элементов двух типов, k = 2: тип «а» и тип «Ь» по т = 3 таковы: а,а,а; Ь,а,а; b,b,a; b,b,b (сочетания отличаются друг от друга только составом элементов, поэтому, например, последовательности: «b,a,a», «a,b,a» и «а,а,Ь» – это одно и то же сочетание).Число сочетаний с повторениями – 4. И согласно формулы (4.9) получим такой же результат - (2 + 3-1) '_ 4' ^ 2 3' (2-1) ! 34'

В примере 5 в качестве «голосующей коалиции» был рассмотрен Совет безопасности ООН. Каково число выигрывающих и минимальных выигрывающих коалиций в Совете безопасности? Решение.

Напомним выигрывающая коалиция включает «большую пятерку» и не менее двух из шести представителей малых наций. Поскольку «большая пятерка» в любой выигрывающей коалиции обязательно должна присутствовать, то вариативность выигрывающих коалиций определяется количеством (или 2, или 3, или 4, или 5, или 6) и составом вошедших в них представителей малых наций. Число вариантов выбора из 6 представителей малых наций двух представителей равно числу сочетаний (ведь порядок выбора не важен!) без повторений из п = 6, по от = 2, т.е.

С* - в! _]5 – именно столько будет минимальных 6 2! (6-2)!

выигрывающих коалиций. Аналогично, число вариантов выбора из 6 представителей малых наций трех равно С63 = 20, четырех – Сб = 15 , пяти – d = 6 , шести - С| = 1 • Окончательно, число выигрывающих коалиций, в соответствии с правилом суммы, равно Cl + Cl + Cl + Cl + Cl = 57 . Задача 8.

Известно, что 5 из 40 пассажиров автобуса замешаны в похищении крупной суммы денег. На остановке к автобусу подошел инспектор уголовного розыска и заявил, что ему для обнаружения по крайней мере одного преступника достаточно произвести

179

обыск у шести наугад выбранных пассажиров. Что руководило инспектором, риск или трезвый расчет?

Решение.

Дадим «урновую» интерпретацию условий задачи Пусть К = 40 пассажиров – это 40 пронумерованных шаров в урне, из которых £ = 5 черные (это виновные пассажиры) и К–L = 35 – белые (это невиновные). Из урны наудачу берут k = 6 шаров (пассажиров). Число вариантов выбора k = 6 из К = 40 шаров

N = CK = 040 (используем сочетания без повторений, так как

шары пронумерованы разными числами и важны номера отобранных шаров, но не порядок). По условию в выборке должен оказаться по крайней мере один черный шар (виновный), т.е. в выборке должен оказаться один из следующих вариантов:

либо / = 1 черный шар и k ~ I = 5 белых,

либо 1=2 черных шара и k – I = 4 белых,

либо / = 3 черных шара и k – I = 3 белых,

либо / = 4 черных шара и k - I = 2 белых,

либо / = 5 черных шаров и k - I = 1 белый.

Число вариантов выбора 1 = 1 черного шара (виновного) из L = 5 черных равно С[ = С], а поскольку в каждом таком варианте должно быть выбрано k – /=6-1 = 5 белых шаров (невиновных) из К – L = 40 – 5 = 35 белых, что можно сделать Cjfl/, = С|з способами, то число вариантов выбора / = 1 черного шара и k – I = 5 белых, согласно правилу произведения, равно C[CK~JL = CjC^s (4.30,o) Аналогично число вариантов отбора

• 1=2 черных и£-/ = 6-2 = 4 белых шара равно C'.CK'-L = CsCU (Рис 4 30,6),

/ = 3 черных и k - I = 3 белых = С3С35 , 1=4 черных и k - I 1=5 черных и k - I

1 белых = С54С325 , 1 белых = С55с]5 .

I

Рис. 4.30

Тогда число вариантов выбора б шаров (пассажиров) из 40, в которых окажется по крайней мере один черный шар (виновный), согласно правилу суммы, будет Л/ = С}С£+С?С£+С?С£ + +CfC,,+ClC^, =2 215 220. И вероятность обнаружения в выборке из шести пассажиров по крайней мере одного преступника равна

р"*~й*–7*– = 0'57' т-е' вероятность превысила значение

N  Qo

0,5, что, по-видимому, и дало основание инспектору назвать число 6.

Вероятность того, что при отборе «без возвращения» из К пронумерованных шаров, среди которых L черных и К– L белых, k шаров в выборке окажется / черных и k – I белых, рассчитывается по формуле гипергеометрической вероятности:

г* "Г*1-      <4ЛО>

Задача 9.

Инвестор формирует портфель ценных бумаг. Он может вложить свои деньги в акции 5 различных фирм. Сколькими способами инвестор может образовать набор из 7 акций и какова вероятность того, что в набор попадут 4 акции, принадлежащие различным фирмам? Решение.

По условию из акций, количество типов которых k = 5, инвестор составляет набор из семи акций (т = 7), в число таких наборов может, в том числе, входить и набор, все 7 акций которого принадлежат какой-то одной фирме Очевидно, что для инвестора важен только состав набора: акции каких фирм и в каких количествах они входят в набор, и совсем не важен порядок следования отобранных акций. Поэтому количество таких наборов равно числу сочетаний с повторениями из элементов k = 5 типов по т = 7 элементов N • Q7 или, учитывая формулу (4.9),

= 330.

Среди этих наборов количество наборов, в каждом из которых 4 акции принадлежат различным фирмам, равно числу сочетаний без повторений из 5 элементов (5 различных фирм) по 4:

.. -.. 9

Искомая вероятность Р

__5_

= ззо'

J_ 66'

180

181

4.2.3. Вычисление вероятностей составных высказываний

Ранее было введено понятие несовместимых высказываний. Несовместимость высказываний, определенных на множестве логических возможностей (универсальном множестве) П, означает, что эти высказывания никогда не могут оказаться одновременно истинными.

Введем понятие независимости высказываний. Пусть а и b – два высказывания, определенные на универсальном множестве Q. Предположим, что получена информация, согласно которой высказывание, скажем а, истинно. Вероятность высказывания b после получения такой информации о высказывании а называется условной вероятностью и обозначается символом Ра(Ь), который следует читать «вероятность b при условии а». Высказывание b не зависит от а, если вероятность b при условии а равна вероятности Ь, т.е.

Ра(Ь) = Р(Ь)        (4.11)

Свойство независимости является взаимным:, если b не зависит от а, то и а не зависит от Ь, т.е. Р ь(а) = Р(а). При независимых а и b так же независимы а и ~Ь, ~а и Ъ, ~а и ~Ь.

Если Ра(Ь) Ф Р(Ь), то высказывания а и b зависимы (так

же зависимы а и ~Ь, ~а и Ь, ~а и ~Ь). Пример 14.

Вернемся к примеру 2. Имеется две урны, в первой лежат один белый и два черных шара, во второй - один белый и один черный. Наугад выбирается одна из урн и из нее последовательно без возвращения вынимаются два шара.

Каждой из пяти логических возможностей (рис. 4.10,о) соответствует свой «путь». Отрезки, составляющие путь, назовем «ветвями». Присвоим им вероятности.

Введем высказывания: а – «выбрана первая урна», Ъ = =«первый выбранный шар белый», с = «второй выбранный шар белый» (рис. 4.31).

Рассуждаем так. Выбор наугад одной из двух урн означает,

что Р(а)=Р(~а)=–, где ~а – это высказывание «выбрана не первая ( а вторая ) урна»; эти вероятности проставлены на соответствующих ветвях (рис. 4.31). Далее, если выбрана первая урна, т.е.

истинно высказывание а, то Ра(Ь)~– , а Ра(~Ь)-–: ведь в первой урне три шара, из которых один белый и два черных. Далее,

182

если истинно высказывание алЬ, т.е. выбрана 1-я урна и из нее взят белый шар, то в урне останется 2 шара, и оба они черные,

поэтому РО*Ь(~С)=– =1. Урна

1/2

Начало

шр 2/2=1

2-й шар - ч(~с)

- б(с)

Путь первый

второй

1/2^-~-

 

 

1^"-^ 1/1=1

• ч(~с) - ч(~с)

третий четвертый

 

 

 

б(с)

пятый

Рис. 4.31

Итак, вероятности ветвей первого пути таковы:

2 " ' 3 Аналогично, вероятности ветвей:

второго пути Р(о)= –, Р„(~Ь)~ -

третьего пути

четвертого пути Р(~а)= -, />„„(£,)= I P ж~с)=--2   2 Л  1

пятого пути  д_-1= – D ' "– '  - . 1

,. '

п~а;= -, г-а(~ь)= -, Дал-*(с)= -= 1.

Можно ли выразить условную вероятность Ра(Ь) через «безусловные» вероятности? Да, если До) * 0, т.е. если высказывание а не является логически ложным. Соответствующая формула имеет вид:

: 0.    (4.12)

- V"/

Обоснование формулы такою: информация о том, что высказывание а истинно, сокращает число логических возможностей универсального множества П, на котором определены высказывания а и b и их вероятности Да) и Дй); оно будет сведено к числу возможностей множества А истинности высказывания а. Это, в свою очередь, приво-

183

дит: во-первых, к уменьшению всех вероятностей, определенных на П, в Да) раз и, во-вторых, к тому, что множеством истинности высказывания Ь будет не В, а А П В. Поэтому

Ра(Ъ)= I Т^Г = -рЬ 1^)=ТЬ(°Л6)- П°ЛУЧИЛИ

щеАПВ Р(°>  Р(а> т,еАПВ  F(0>

формулу (4 12).

Из формулы (4.12) вытекают следующие формулы:

> Формула вероятности конъюнкции двух зависимых высказываний

Р(алЬ) = Р(а4)Ра(Ь).      (4.13)

> Формула вероятности конъюнкции двух независимых высказываний (напомним, что в этом случае Pa(b)=P(b))

Далб) = Р(а)Р(Ь).      (4.14)

Обобщение формулы (4.13) на случай трех высказываний а, Ь, с имеет вид:

Далйлс) = Да) Ра(Ь)РалЬ(с).    (4.15)

Замечание.

Для расчета Далйлс) можно использовать 3! = 6 тождественных формул, в том числе, например такую: Далблс) = Делали) = Р(с)Рс(а)Рс«,(Ь)-

Обобщение формулы (4.14) на случай трех независимых в совокупности высказываний a,b,c (a,b,c – независимы в совокупности, если независимы а и Ь, а и с, алии с, алей 6, Ъ/\с и а) имеет вид:

Р(алЬлс) = Р(а)Р(Ь)Р(с).     (4.16)

Пример 15.

В примере 14 были приписаны вероятности ветвям всех путей дерева логических возможностей (рис. 4.31). Используя введенные в примере высказывания а, Ь т с, найдем вероятность каждой логической возможности:

№ возможности

Высказывание

Вероятность

1

а/\Ь/\~с

Р(а}Ра(Ъ)РалЬ(~с} = L L l =

1 6

2

вЛ~ЙЛС

P(a)Pa(~b)Pa^b(c)=L 1 1 =

1 6

3

ал~йл~с

1 2 1 2 3 2

1 6

4

~алйл~с

L L i.

2 2

1 4

5

~а/\~Ьлс

L L , =

2 2

1 4

184

Заметим, логические возможности не равновероятны. Однако равновероятны возможности 1, 2, 3, соответствующие высказыванию а = «выбрана первая урна»; вероятность каждой из них равна 1/6. Аналогично, равновероятны возможности 4 и 5, соответствующие высказыванию ~а = «выбрана вторая урна»; вероятность каждой из них равна 1/4.

Из рассмотренного выше алгоритма приписывания высказываниям вероятностей вытекают следующие формулы:

> Формула вероятности дизъюнкции двух несовместимых высказываний:

P(avb) = Да) + Р(Ь).      (4.17)

Действительно, множеством истинности высказывания является множество A U В, где А и В - множества истинности соответственно высказываний а и Ь, и в соответствии с (4.2)

(0,eA|jB

Из несовместимости же а и Ь следует, что А и В не имеют

общих точек (рис. 4. 18, о), поэтому

ш, еА

ю, ЕВ

Окончательно Р(а\/Ь) = Да) + Д6).

> Формула вероятности дизъюнкции двух совместимых высказываний:

P(avb) = Да) + Р(Ъ) - Дали).    (4.18)

Действительно, множества истинности А и В совместимых высказываний имеют общие точки (рис. 4.18,6) и в этом случае Z />,)= £/Ч<о,)+ Х^КЬ У/»(•»,) или

ы; еАу В  о, е А  о, еВ  t

P(avb) = Да) + Р(Ь) - Дал*).

> Формула вероятности отрицания высказывания:

Р(~а) = 1 - Р(а).      (4.19)

Действительно, с одной стороны противоположные высказывания а и ~а – несовместимы и согласно (4 17): P(av~a) = = Да) + Д~а). С другой стороны, высказывание av~a – логически истинное, поэтому P(av-~a) = 1. Окончательно, Да) + Д~а) = = 1 или Д~а) = 1 - Да)

Обобщение формулы (4.17) на случай трех попарно несовместимых высказываний а, Ь, с имеет вид

P(avbvc) = Да) + Р(Ь) + Р(с).    (4.20)

185

Замечание.

Из попарной несовместимости трех высказываний следует несовместимость всех трех; однако обратное утверждение неверно: при несовместимости а,Ь,с возможна их попарная совместимость (см. пример 6).

Обобщение формулы (4.18) на случай трех высказываний имеет вид:

P(avbvc) = Р(а) + Р(Ь) + Дс) -- Д2>лс) + ДалАлс).

- Деле) -(4.21)

В справедливости этой формулы нетрудно убедиться, используя изображенные на рис. 4.32 множества А, В, С истинности высказываний а, Ь, и с и множество A U В U С (оно заштриховано) истинности высказывания avbvc,

Задача 10.

AUBUC

Рис. 4.32

В группе 9 человек, из которых положительные оценки имеют

6 человек – по юриспруденции (=в), 5   – по математике (=6),

7   – по информатике (=с),

4   – по юриспруденции и математике (=вл£),

2   - по юриспруденции и информатике (еле),

3   – по математике и информатике (=Ьлс), 1   – по всем трем предметам (=ал/>лс).

Если ли в этих сведениях ошибка?

Решение.

По условию задачи высказывания а, Ь и с совместимы как попарно, так и все три. Поэтому общие точки (логические возможности) будут иметь как любая пара множеств А, В, С истинности этих высказываний, так и все три (рис. 4.32). В группе 9 человек, До)=6/9, Р(Ь)=5/9, Дс)=7/9, Р(алЬ)=4/9, Двлс)=2/|, Дйлс)=3/9, Двлйлс)=1/9 и в соответствии с (4.21):   |

. 6 5 7 4 2 3 1 10 1   '

c) = – + – +----------------+ – = – = 1–.

99999999 9

186

Получили: вероятность P(avbvc)>l, чего быть не может. Следовательно, в сведениях есть ошибка. Задача 11.

Жюри состоит из трех человек X, Y, Z; X и Y, каждый с вероятностью р = 0,8 принимают правильное решение, a Z для вынесения решения подбрасывает монету. Члены жюри действуют независимо. Решение принимается большинством голосов. Какова вероятность правильного решения? Решение.

Введем высказывания:

а = «X примет правильное решение», Да) = 0,8, Д~а) = 0,2;

b = «Y примет правильное решение», Р(Ь) = 0,8, Р(~Ь) - 0,2;

с = «Z примет правильное решение», Р(с) = 0,5, Р(~с) = 0,5.

Правильное решение будет принято, если правильное решение будет принято какими-то двумя членами жюри или всеми тремя: правильное решение примут X, Y, но не Z; или X, Z, но не Y; или Y, Z, но не X; или X, Y и Z, т.е. будет истинно высказывание: (алЬл~с)ч(ал~Ьлс)ч(~а/\Ьлс)ч(алЬлс). Поскольку компоненты этой дизъюнкции попарно несовместимы, а компоненты конъюнкций, расположенных в каждой скобке, независимы по условию задачи, то искомая вероятность

=P(a)P(b)P(~c)+P(a)P(~b)P(c)+P(~a)P(b)P(c)+P(a)P(b)P(c^ =0,8 0,8 0,5 + 0,8 0,2 0,5 + 0,2 0,8 0,5 + 0,8 0,8-0,5 = 0,8. Дерево логических возможностей с указанием вероятностей путей изображено на рис. 4.33; пути, ведущие к принятию положительного решения, и их вероятности выделены.

Путь Вероятность

2-й

0,82 0,5

0,5

3-й 0,8-0,2 flj

4-й 0,8 0,2 0,5

5-й *"'%t,2 0,8 <Ые

6-й

7-й

0,2 0,8 0,5 0,22 0,5

8-й 0,22 0,5

1= 1

Приведем (без вывода) еще ряд наиболее часто пользуемых формул вычисления вероятностей. > Формула полной вероятности:

Ph(a) (4.22)

> Формула Байесв:

используется, если выполняются следующие условия:

1) высказывание а истинно лишь при ис-тинности одного из высказываний

h\, hi, ..., Н„, называемых гипотезами;

2) гипотезы h\, U2, ••-, hn попарно несовмес- У 4.23 тимы;

3) дизъюнкция h\vhi,v...,vhn гипотез -логически истинное высказывание.

Замечание.

Выполнение второго и третьего условий тождественно тре-

бованию:

Л*,) + ДЛа) + ... + Л*») = 1-

Множества истинности высказываний, удовлетворяющих условиям (4.23), для случая трех гипотез (я = 3) изображены на рис. (4.34). В силу попарной несовместимости гипотез никакая пара множеств HI, H2, Н3 их истинности не имеет общих точек; а в силу логической истинности дизъюнкции гипотез множество истинности дизъюнкции HI и Н2иНз = П, где Q - универсальное множество логических возможностей, на котором определены все четыре высказывания: a, h\, hi, АЗ.

Рис. 4.34

-,/ = !+«    (4.24)

•« Vй/

используется, если в дополнение к условиям (4.23) выполняется условие:

4) поступила информация о том, что высказывание а истинно.     (4.25) Задача 12.

В пирамиде 10 винтовок, из которых 4 с оптическим прицелом. Вероятность того, что стрелок поразит мишень при выстреле из винтовки с оптическим прицелом равна 0,95; для винтовки без оптического прицела эта вероятность равна 0,8. Стрелок поразил мишень из наудачу взятой винтовки. Что вероятнее: стрелок стрелял из винтовки с оптическим прицелом или без него? Решение:

Пусть а = «стрелок поразит мишень из наудачу взятой винтовки», h\ - «наудачу взятая стрелком винтовка – с оптическим прицелом», hi = «наудачу взятая стрелком винтовка – без оптического прицела». По условию задачи:

) = 0,4;

Требования (4.23) и (4.25) выполняются: а может быть истинным лишь при истинности А| или /i2; f\h\) + P(hi) = 1; есть информация об истинности а.

Используем формулы (4.22) и (4.24):

P(a) = P(h}) PHi(a) + P(h2) />i(e) = 0,4-0,95 + 0,6 0,8 = 0,86;

*, W 0,4-0,95 19

Р(а)

0,86 0,6 • 0,8

24 43

188

'"у'г>  ~Р(а)  0,86

(обратим внимание на то, что Pa(hi) + Pa(h\) = 1). Так как /*„№) > Pa(h\), то более вероятно, что стрелок стрелял из винтовки без оптического прицела.

> Формула Бернулли используется в следующих условиях:

1) проводится п независимых испытаний (независи- ~ мость испытаний означает, что исход любого из них никаким путем не влияет на исходы других);

2) каждое испытание имеет два исхода: один исход называют «успехом», а другой – «неудачей»;

3) вероятность р «успеха» в отдельно взятом, или единичном, испытании постоянна и от испытания к испытанию не меняется (это условие обеспечивается проведением испытаний примерно в одинаковых, или иначе – в типичных условиях).

189

М4.26)

Испытания, удовлетворяющие условиям (4.26), на зываются испытаниями Бернулли; формула Бернулли имеет следующий вид

Pn(m) = C:Pmqn-m,     (4.27)

где Р„(т) - вероятность появления т успехов в п испы-

п\ таниях (т – О, 1, ..., и), С™ =

--число сочетаний

т

0

1

• • •

п

 

/>» =

=ov

с„уу-° =

= 9"

су<г'=

= и/*Г'

 

c:Paq- =

= Р"

I"

т\(п – т)\

из п по т, q = 1 – р – вероятность «неудачи» в единичном испытании.

Используя (4.27), рассчитаем вероятности того, что число успехов т – О, 1, 2, ..., я:

(4.28)

Замечание.

Сумма всех вероятностей – это вероятность логически истинного высказывания «при проведении п испытаний число успехов равно 0 или 1, или 2, ..., или п», поэтому она равна 1.

Ряд (4.28) называют рядом распределения вероятностей Бернулли по числу успехов или биномиальным рядом распределения.

Число успехов /я*, которому соответствует наибольшая вероятность, называют наивероятнейшим числом; т" можно найти, не составляя ряда (4.28), следующим образом:

• если пр + р – дробное число, то т* - целое число, лежащее в интервале (пр – q, пр + р);

• если пр + р – целое число, то наивероятнейших чисел будет два: т\ = пр – q и щ = пр + р (вероятности этих чисел будут одинаковыми, Рп(щ) = = Рп(т*2), и наибольшими в сравнении с другими вероятностями ряда (4.28).

Представим, что проведено достаточно много серий испытаний по п испытаний в каждой серии и в каждой серии зафиксировано число успехов:

190

 

1-я серия

2-я серия

3-я серия

 

Число испытаний в серии

п

п

п

 

Число успехов в серии

Щ

тг

т3

 

Правомочен вопрос: каково среднее число успехов в одной серии? (Это число обозначим т , в теории вероятностей его называют математическим ожиданием числа успехов и обозначают Mm). И далее, поскольку в п испытаниях успехов может быть О, 1, 2, ..., и, то правомочен вопрос: каков в среднем разброс этих чисел (конечно, с учетом вероятностей их появления) вокруг среднего числа т . Характеристику этого разброса называют средним квадратиче-ским отклонением числа успехов и обозначают греческой буквой стда - «сигма»; иногда в качестве характеристики разброса используют дисперсию числа успехов Dm = а*т. Для биноминального ряда распределения: т (или Mm) = пр, Dm = npq, am = -Jnpq .  (4.29)

Задача 13.

Примерно 20% судебных дел – это дела по обвинению в краже. В порядке прокурорского надзора проверено 4 наудачу отобранных дела, а) Какова вероятность появления среди отобранных дел хотя бы одного дела о краже? б) Каково наиверо-ятнейшее число дел о краже среди отобранных и какова вероятность этого числа? в) Каковы среднее число дел о краже и среднее квадратическое отклонение числа дел о краже среди четырех дел?

Решение.

В условиях задачи: число испытаний и = 4, «успех» – наугад взятое дело – это дело о краже, вероятность успеха р = 0,2, вероятность неудачи q = 0,8.

а) Судя по вопросу, число т успехов может равняться 1, или 2, или 3, или 4, и никак не может быть равно 0. Так как /КО) + /КО + + />4(2) + /КЗ) + 7*4(4) = 1, то искомая вероятность Р4(1 < т < 4) = = 1 - /КО) = 1 - С? 0,2°0,84"0= 1 ~ 0,84 = 1 - 0,4096 = 0,5904.

б) Так как пр + р = 4 • 0,2 + 0,2 = 1 – целое число, то наи-вероятнейших чисел будет два:

т\ = пр - q = 4 • 0,2 - 0,8 = 0 и т*г = пр + р = 1. Вероятности этих чисел /КО) = 0,4096, Я4(1) = с^0,2'0,83 =0,4096 Как и следовало

191

ожидать, вероятности одинаковы, и они будут наибольшими, в чем трудно убедиться, составив ряд распределения (4.28):

т

0

1

2

3

4

 

Л(|»)

0,4096

0,4096

0,1536

0,0256

0,0016

1-1

в) Требуемые характеристики вычислим по формулам (4.29): т = пр = 4 • 0,2 = 0,8 ~ таково среднее число дел о краже среди четырех наудачу выбранных (если наудачу взять 20 дел, то в среднем среди них будет 4 дела о кражах), v = ^npq = = ^4-0,2-0,8 =0,8- таков в среднем разброс количеств дел о краже среди четырех наудачу отобранных дел около т = = 0,8 (для 20 случайно отобранных дел разброс количества дел о краже около среднего числа, равного 4, будет 1,79).

> Формула Пуассона:

т\

т = 0,1 ..., п

(4.30)

где Р(т) – вероятность появления т успехов в и испытаниях, а = пр, е = 2,71828... - основание системы натуральных логарифмов. Формула дает хорошее приближение к вероятностям, рассчитанным по формуле Бернулли (4.27), если число испытаний п велико (п – несколько сотен), а вероятность р успеха в единичном испытании мала, близка к нулю. Вследствие малости вероятности р формулу Пуассона называют также формулой редких явлений.

При бесконечно большом числе п испытаний ряд распределения вероятностей Пуассона по числу успехов или пуассоновский ряд распределения таков:

(4.31)

Обратим внимание на то, что этот ряд, в отличие от биноминального ряда (4.28), – бесконечный, но сумма его вероятностей, как и для конечного ряда (4.28), равна единице.

При пуассоновском распределении:

• среднее число успехов ( т или Mm) и дисперсия

числа успехов (Dm или сг2т ) равны числу а:

=4а;   (4.32)

т

0

1

2

 

 

Р(т)

^е-^е-

а1

«1е*

 

2 = 1

 

0!

1!

2!

 

 

т (или Mm) = Dm = а; <з

192

наивероятнейшее число успехов т находят так: если а – дробь, то т целое число из интервала (а – 1, а); если а – целое, то наивероятнейших чисел два:

= а

1

и

Задача 14.

Примерно 0,1% судебных дел - это дела по обвинению в убийстве. Проверено 200 наудачу взятых судебных дел. Какова вероятность того, что среди них дел об убийстве будет, а) 0; 1; 2; 3; б) хотя бы одно в) более трех?

Решение.

По условию п = 200, р – 0,001 - есть основания использовать формулу Пуассона; а = пр - 0,2.

а) Требуемые вероятности вычислим по формуле Пуассона (4.30), и для сопоставления те же вероятности вычислим по формуле Бернулли (4.27) (с точностью до четырех десятичных разрядов):

т

0

1

2

3

 

О^т nml ' р-°-2

0 8187

0 1638

П П1Й4

П ПП1П

Z – П QOQO

Л«Ь и, е

 

 

 

 

 

/>2М(«) = С2тм(0,001Г(0,999)200-'"

0,8186

0,1639

0,0163

0,0011

X = 0,9999

Различий между вероятностями Пуассона и Бернулли практически нет (они будут тем меньше, чем больше п и меньше р). Итоговые суммы вероятностей не равны 1, поскольку по условию задачи число т дел об убийстве может быть равным не только О, 1, 2, 3, но и 4, 5, ..., 200.

б) Судя по вопросу, т может быть равным или 1, или 2, ..., или 200, иначе 1 < т < 200, но не 0. Поэтому искомая вероятность ^200 (1 <т < 200) = 1 - P2QQ (т = 0) = 1 - 0,8187 = 0,1813.

в) />20о (3 < т < 200) = 1 - Р2оо (0 < т < 3) = 1 - 0,9999 = = 0,0001.

Формулу Пуассона в несколько ином виде, а именно:

ml

где m =0,1,...,

(4.33)

используют для подсчета Pfjri) – вероятности того, что за промежуток времени длиной t наступит т событий простейшего потока – это поток однородных событий, происходящих в случайные моменты времени, обладающий тремя довольно типичными для многих ситуаций свойствами:

• одновременное наступление двух или более событий практически невозможно;

• поток установившийся, стационарный с интенсивностью, равной Я (интенсивность - это среднее

7 Информатика в математика для юристов

193

число событий потока, происходящих в единицу времени);

• поток без последействия, т.е. на вероятность появления любого числа событий в любой промежуток времени не влияет ни число событий, ни моменты их появления вне этого промежутка. Задача 15.

При установившейся на протяжении суток криминогенной обстановке в городе в среднем за сутки происходят 15 правонарушений. Каково наивероятнейшее число правонарушений за сутки, за 1 час и каковы вероятности этих чисел? Предполагается, что поток правонарушений простейший.

Решение.

По условию количество правонарушений в сутки X = 15. При / = 1 наивероятнейшее число правонарушенийт\ -\t-\ =

= 14 и m-J = А/ = 15. Вероятности этих чисел максимальны в

сравнении с вероятностями любого другого количества преступлений и равны:

15!

е~ =

14!  141-15 cyr (15) = 0,102 436. При t = 1 ч = 1/24 сут. наивероятнейшее число правонарушений - целое число из интервала [15------1, 15 – ]; это число т * = 0. Его вероятность 1

О!

*= е-*425 =0,535 261.

Биномиальное (4.28) и пуассоновское (4.31) распределения довольно часто используются в решении задач правоприменительной деятельности, но, конечно, ими не ограничиваются все возможные распределения вероятностей.

> Понятие случайной величины.

Случайной величиной (СВ) назовем переменную X, множество значений которой известно, но не известно, какое именно (одно из них) обязательно появится при проведении опыта, иначе - при наблюдении переменной X. Например, СВ является число т успехов в я испытаниях (множество значений этого числа известно – это {О, 1, 2,

194

..., я}, но каким именно будет число успехов при проведении опыта, состоящего в п испытаниях, сказать до проведения опыта нельзя). СВ является и число происшедших событий простейшего потока, с той лишь разницей, что множество значений этого числа будет не конечным, а бесконечным - {О, 1, 2, ...}. Однако, в обоих случаях значения величины «изолированы» друг от друга; такую величину называют дискретной. Если величина может принять любое значение из одного или нескольких отрезков, то ее называют непрерывной. Так, возраст правонарушителя в принципе может быть любой точкой, например, на отрезке [14, 80], поэтому возраст – непрерывная величина. Однако, если возраст измерять полным числом лет, то возраст – дискретная величина.

Говорят, что дискретная СВ X задана, если известно не только множество ее значений, но и вероятности этих значений; иначе если известно распределение вероятностей по значениям величины X. Ряд

(4.34)

f i  f£.  •••  jsv  **  *

где х\, Х2, ..., xv, – расположенные в порядке возрастания «все» значения СВ X (здесь предполагается, что число этих значений конечно), а р\, pi, ..., pv , - вероятности этих значений, называют рядом распределения вероятностей СВ X.

Среднее значение, иначе математическое ожидание С В А' находят по формуле:

МХ= х\р\ + ... + Xvpv,     (4.35)

дисперсию СВ X – по одной из двух тождественных формул: DX= (xi - MX)2Pl + (х2 - МХ)2р2 +...+ (хч - МХ)2рЗ DX = x2Pl + xlp2 + ... + x2Pv - (MX)2 ,    J (4-36)

среднее квадратическое отклонение СВ X – характеристику среднего разброса значений СВ X вокруг MX- по формуле:

ax=SDX.       (4.37)

Подставив в (4.35) – (4.37) составляющие биномиального ряда распределения (4.28) или пуассоновского (4.31), можно получить выражения (4.29) или (4.32), со-

X

х\

Х2

 

Xv

 

р

р\

Р2

 

Pv

1= 1

195

ответствующих характеристик: математического ожидания Mm, дисперсии Dm и среднего квадратического отклонения ат числа успехов.

Типичным примером непрерывной СВ является нормально распределенная СВ X, вероятность попадания которой в малый интервал длиной я с центром в точке х

где

(х-МХ)2

– функция плотности распределения «нормальных» вероятностей (ее график изображен на рис. 4.35); MX, ах - ма-

тематическое ожидание и среднее квадратическое отклонение нормально распределенной СВ X.

К*)

MX + Зоу х

Рис. 4.35

Для нормально распределенной СВ X

где Ф

ПрИ Z =

196

(4.38)

- значение функции Ф (z) = -/=/е 2 dx

Z

1

1,65

1,96

2

2,58

3

Ф(г)

0,6827

0,9011

0,9500

0,9544

0,9901

0,9973

Таблицы значений этой функции при различных z 2: О имеются, например в [28]. Приведем значения Ф(г) лишь при некоторых z:

(4.39)

В частности при е = За^из (4.38) получим

Р(\Х - МХ\) < 3 ах = Ф(3 ffj/ox) = Ф(3) = 0,9973; (4x10)

геометрически эта вероятность интерпретируется как заштрихованная на рис. 4.35 площадь. Соотношение (4.40) носит название «правила трех сигм» для нормально распределенной СВ X.

Более подробно с дискретными и непрерывным СВ можно ознакомиться в работах [28,32].

> Формула Лапласа. При большом числе я испытаний вероятность того или иного числа т (т = 0,1, ..., я) успехов будет малым числом. Так, при стократном подбрасывании монеты (я = 100) наивероятнейшее число выпадений герба т^пр- 100 • 0,5 = 50, а рассчитанная по формуле Бернулли (4.27) вероятность этого числа Лоо (50) « 0,08, - и это наибольшая вероятность; вероятности других чисел будут меньше: например, вероятность P]QQ (40) « 0,00002. В этом случае более ценную информацию дает знание вероятности того, что абсолютная величина отклонения числа успехов т в я испытаниях от среднего числа успехов т = яр не превзойдет некоторого заранее заданного числа. Нижнюю границу для этой вероятности можно получить по формуле:

i  i  /----- , 1

Р (\m-np\<z Jnpq)2l–г,

11    z

где z – любое положительное число.

Более точное значение вероятности Р(\т --пр\ < z^jnpq) при большом числе я испытаний дает формула Лапласа:

Р (\m-np\<Z Jnpq) я Ф (Z),    (4.41)

При z - 3, учитывая, что ат = -^npq, получим Р(\т-пр\<3ат)*0,9973, т.е. получение в я испытаниях

197

числа успехов т, абсолютная величина отклонения которого от среднего числа т = пр будет меньше трех средних квадратических отклонений Зат, является практически

достоверным событием. Это утверждение – «правило трех сигм» для числа успехов т в большом числе испытаний п.

С неравенством, стоящим в скобках формулы (4.41), проведем такие тождественные преобразования:

т [рд  [рд  т [рд

• - '^2- -> -zA– < р-----< zJ– ->

я  V п  п V и

(4.43)

Окончательно,

–   i–л

Ф(г).   (4.42)

Относительную долю р = т/п успешных испытаний называют точечной оценкой вероятности р успеха в единичном испытании, интервал

fm Ipq т IPQ} п \ п' п V п )

–Ф(г)-100%-й интервальной оценкой вероятности р (например, при z = 1,96 получим 95%-ную интервальную оценку), а величину

(4.44)

– ошибкой выборочной вероятности р = т/п.

Замечание.

Напомним, в формулах (4 42) – (4 44) я должно быть доста-1 точно большим числом При неизвестной вероятности р полагают |

„» т(. т\ pq к рп = – i-----j

п\ п)

В заключение, формулы Пуассона (4.30) и Лапласа' (4.41) вытекают соответственно из теоремы Пуассона и теоремы Лапласа, с точными формулировками которых можно познакомиться в работах [32, 52]. Эти теоремы

198

наряду с ранее упоминавшимися теоремами Бернулли и Чебышева, а так же ряд других теорем, касающихся изучения вероятностного поведения результатов большого числа п испытаний составляют закон больших чисел.

4.2.4. Выбор решения при неизвестных вероятностях

Выбрать решение в условиях известных вероятностей высказываний довольно просто. При неизвестных вероятностях, что типично для многих практических задач, выбрать решение можно лишь на основании экспериментальных данных. Проиллюстрируем процедуру такого рода.

Следователь X полагает, что он, побеседовав с подследственным, с 90%-ной гарантией может отличить виновного от невиновного. Его начальник 7 считает, что X такой способностью не обладает. Кто из них прав? Такой вопрос не возник бы, если следователю была бы известна истинная вероятность р отличить виновного от невиновного. Однако относительно значения этой вероятности выдвинуто две гипотезы:

• нулевая гипотеза  Щ : р = 0,9 (так думает X),

• альтернативная гипотеза Н\: р = 0,5 (так думает Y).

Предлагается провести такой эксперимент. Следователь X беседует с подследственными, число которых я = = 10, причем начальнику У известно, кто из них виновен, а кто – не виновен. И если число т правильных ответов будет не меньше 8, 8 < т < 10, то принимается гипотеза Щ, т.е. правым считается следователь; если 0 < т < 8, то принимается гипотеза Н\, т.е. прав начальник.

Поступив таким образом, можно совершить ошибку двух родов:

• будет принята гипотеза Н\, тогда как на самом деле верной является Щ – это ошибка первого рода, ее вероятность обозначают а: а = РНо (Н^,

где РНо (Hi), - вероятность принять Н\, если на самом деле верна HQ; а называют уровнем значимости;

199

• будет принята гипотеза Щ, тогда как на самом деле верна Н\ – это ошибка второго рода, ее вероятность обозначают р: р = РН{ (Н0).

Правильное решение также может быть двух родов:

• будет принята гипотеза Щ, тогда как на самом деле она верна; вероятность такого решения

будет принята гипотеза Н\, тогда как на самом де- \\ ле она верна; вероятность такого решения   \'

Верная гипотеза

Принятая гипотеза

 

Но

HI

Н0

РНо(Н0) = 1-а (правильное решение)

Ря0(Я,) = а (ошибка первого рода)

HI

РяДЯоЬР (ошибка второго рода)

Ря,(Я,)=1-р

(правильное решение)

Насколько приемлем описанный выше эксперимент для каждой из конфликтующих сторон?

Следователь X считает, что верна гипотеза Яо: р = = 0,9, и он заинтересован в том, чтобы по результатам эксперимента Яо была принята, т.е. чтобы при испытаниях и = =10 число успешных было не меньше 8, 8 < т < 10. Поэтому вероятность «удовлетворения его интереса» равна:

) = С180 -0,98 -ОД2 +С,90 -0,99 х

Начальник Усчитает, что верна гипотеза Н\: р = 0,5, и он заинтересован в том, чтобы эта гипотеза была принята, т.е. чтобы при 10 испытаниях число успешных было меньше 8, 0 < т < 8. Поэтому вероятность «удовлетворения его интереса» равна:

PHi (Я, ) = Рю (0 < т < 8) = 1 - Р(8 < т < 10) =

= 1-(С?0 хО,58 -0,52 +С?0 -0,59 -0,5' +С*0° -0,5ю -0,5°) = 0,945.

Вероятности для Xw. для Y примерно одинаково высоки, поэтому они оба согласятся разрешить существующие

200

между ними разногласия с помощью описанного выше эксперимента. При таких высоких вероятностях правильных решений вероятности ошибочных решений невысоки: вероятность ошибки первого рода равна

а = РЯо(Я1) = 1-РЯо(Я0) = 1-0,93 = 0,07,

а вероятность ошибки второго рода

Р = Рщ (Я0 ) = 1 - РН{ (Я, ) = 1 - 0,945 = 0,055.

Рассмотрим еще одну процедуру выбора решений при неизвестных вероятностях на основе результатов достаточно большого числа испытаний.

Истинная вероятность р успешности испытания неизвестна. Однако интуиция подсказывает, что, скорее всего, р равно числу />о- Следует ли принять гипотезу HQ '. р = Ро или нет?

Для получения ответа на этот вопрос в .«стандартных» схемах проверки гипотез такого типа требуется:

• во-первых, провести я испытаний Бернулли, зафиксировать число т успешных и найти их отно-

„ т

сительную долю р = – ; и

• во-вторых, сформулировать, исходя из содержания задачи, альтернативную гипотезу HI (Н\ : р Ф ро, или Н\ : р </>о, или Н\ : р >р0);

• в-третьих, задать числовое значение вероятности а ошибки первого рода; обычно для а используются значения: 0,1; 0,05; 0,01; 0,005; 0,001.

Принцип проверки гипотезы Яо такой: если происходит то, что при справедливости Яо происходить не должно, то Яо отвергают (принимают ЯО; в противном случае – Я0 принимают. Рассмотрим алгоритмы проверки гипотезы Яо : р = PQ для трех видов альтернативной гипотезы. При этом будем считать, что п достаточно велико.

Если предполагаемое значение ро вероятности р не попадает внутрь интервальной оценки (4.43) вероятности, чего не должно происходить при справедливости Щ, т.е.

201

если/Jog –-*. и

ТО Яо ОТКЛОНЯЮТ

если OOP –-

(принимают Н\);

(4.45)

п п V п ) то Яо принимают.

Здесь до= l-po, z – число, при котором функция - 1 - а.

2) Я0: р = ро,

т 1Р^±

п то Яо отклоняют (принимают Н\);

1Мо

п то Яо принимают.

Здесь z ~ число, при котором Ф(г) = 1 – 2а.

*j \ y-y t __  y-j-  х

т-,

Если р <-----

если

(4.46)

если

(4.47)

~   /И

Если А, > – + л

то Яо отклоняют (принимают

1ы°.

п то Яо принимают.

Здесь z - число, при котором Ф(г) = 1 - 2а.

Рассмотренные алгоритмы позволяют, при заданной вероятности а ошибки первого рода, получить наименьшую вероятность |3 ошибки второго рода. Принимая гипотезу Яо, следует понимать, что это вовсе не означает, что Яо является единственно подходящей гипотезой: просто гипотеза Яо не противоречит результатам испытаний; однако таким же свойством наряду с Яо могут обладить и другие гипотезы.

202

Задача 16.

Городская статистика раскрываемости преступлений утверждает, что раскрывается примерно 4 на каждые 10 преступлений. УВД одного из районов утверждает, что за последний месяц раскрыло 49 преступлений из 100. Случайны ли результаты УВД или они свидетельствуют о высоком профессионализме его работников?

Принять о = 0,05.

Решение.

Пусть р – вероятность раскрытия преступления районным УВД; ее истинное значение неизвестно. Известно лишь, что из и =

т = 100 преступлений УВД раскрыло m = 49, т.е. Р = – = 0,49.

Судя по городской статистике, вероятность р оценивается числом Ро = 0,4, а судя по результатам работы УВД р > 0,4. Поэтому примем HO : р = 0,4, а Н\: р> 0,4 – это случай 2. По условию о = = 0,05. Найдем z, при котором Ф(г) = 1 - 2о = 1 - 2 • 0,05 = 0,90; из (4.39) z. = 1,65. Далее,

Так как ра = 0,4 < 0,409, то в соответствии с (4.46) принимаем гипотезу Я|, согласно которой вероятность раскрытия преступления районным УВД больше, чем вероятность в целом по городу, - это говорит о высоком профессионализме его работников.

Допустим, что вопрос задачи звучит так: случайно или нет отличие результатов УВД от городских? По-прежнему, примем //о : Р ~ 0,4, но Я] : р * 0,4 – это случай 1. При а = 0,05 Ф(г) = = 1 – а = 0,95 и г = 1,96, интервал

будет таким (0,394; 0,586). Так как

Ро = 0,4 е (0,394; 0,586), то согласно (4.45) гипотезу Щ: р = 0,4 принимаем; считаем что вероятность раскрытия преступления районным УВД такая же, как и в целом по городу. Кажущаяся противоречивость этого и ранее полученного выводов объяснятся различием альтернативных гипотез: здесь Н\:р* 0,4, а ранее Н\:р> 0,4.

4.3. Анализ данных в Microsoft Excel 2000

Пакет «Анализ данных» в Microsoft Excel 2000 включает следующие программы[44]:

1. Однофакторный дисперсионный анализ.

2. Двухфакторный дисперсионный анализ с повторениями.

203

3. Двухфакторный дисперсионный анализ без повторений.

4. Корреляция.

5. Ковариация.

6. Описательная статистика.

7. Экспоненциальное сглаживание.

8. Двухвыборочный jp-тест для дисперсии.

9. Анализ Фурье.

10. Гистограмма.

11. Скользящее среднее.

12. Генерация случайных чисел.

13. Ранг и персентиль.

14. Регрессия.

15. Выборка.

16. Парный двухвыборочный f-тест для средних.

17. Двухвыборочный 7-тест с одинаковыми дисперсиями.

18. Двухвыборочный 7-тест с различными дисперсиями.

19. Двухвыборочный z-тест для средних.

Дадим краткое изложение методов, положенных в основу наиболее часто используемых программ, приведем соответствующие примеры и интерпретации результатов.

4.3.1. Генеральная совокупность и выборка. Статистический ряд распределения и выборочные характеристики (Excel – программы №№ 6, 10, 15)

Понятия генеральной совокупности и выборки было введено при изучении комбинаторной формулы размещений. Расширим эти понятия. Выборкой назовем реально наблюдаемые значения (в том числе и повторяющиеся) случайной величины X, а все теоретически домысливаемые значения этой величины назовем генеральной совокупностью. Выборку или наблюдаемые значения СВ X обозначим Х\, Xi, ..., Х„; п – объем выборки. Замечание.

Если СВ X – булева^, т.е. СВ А'принимает только два значения: 1 - при успешном испытании, 0 – при неудачном испыта-

Буль Джордж (1815-1864) – английский математик и логик.

204

I

нии, то выборка Х\, Xi, ..., Х„ представляет собой последовательность единиц и нулей, п – число испытаний (наблюдений СВ X).

> Программа № 15 «Выборка» из чисел рабочего листа – генеральной совокупности отбирает числа:

• либо в соответствии с введенным периодом I отбора: 1-ое, (1 + /)-ое, (1 + 2/)-ое число и т.д. (периодическая выборка);

• либо случайным образом, при этом любое из чисел может быть отобрано неоднократно (случайная повторная выборка); при таком отборе нужно ввести «число выборок» – это объем выборки п.

Задание генеральной совокупности множеством чисел, среди которых, конечно, могут быть и повторяющиеся, -исключительный случай. Более употребительным способом задания генеральной совокупности является указание закона распределения вероятностей случайной величины X, в частности для дискретной величины – указание ряда распределения вероятностей.

Основными числовыми характеристиками выборки Х\, Xi, ... Х„, или выборочными характеристиками, являются:

• выборочная средняя

•      (4.48)

п

• выборочная дисперсия DX, которую вычисляют по одной из двух тождественных формул:

, r TF\2  I тг TF\2

DX =

(х,-х}2+...+(хп-х}2

п

DX =

(4.49)

• выборочное среднее квадратическое отклонение Ьх = -Jbx' – это характеристика среднего разброса попавших в выборку чисел около выборочной средней.

Аналогичные характеристики генеральной совокупности называют генеральными характеристиками. Если генеральная совокупность задана рядом распределения вероятностей случайной величины X, то:

205

генеральная средняя MX, называемая иначе матема-

тическим ожиданием случайной величины X, вы-

числяется по формуле (4.35);

генеральная дисперсия DX вычисляется по одной из

двух тождественных формул (4.36);

генеральное среднее квадратическое отклонение

Замечание.

При изучении по выборке булевой СВ X:

• X – т/П = р , где /7 – общее число испытаний (наблюдений

СВ X), т – число успехов в этих испытаниях, а генеральная средняя MX – р, где р – вероятность успеха в единичном испытании;

• выборочная дисперсия Ьх = р(\ - р) - pq , а генеральная дисперсия DX – р ( 1 – р) – pq.

В реальных задачах исследователь располагает, как правило, результатами выборочных наблюдений (статистическими данными) и не знает «всей» генеральной совокупности. Вычисленные по этим данным выборочные характеристики являются оценками соответсвующих генеральных характеристик. Будем предполагать, что наблюдения независимы и проведены примерно в одинаковых, иначе в типичных, условиях. При выполнении этих предположений выборочная средняя X является «хорошей оценкой» генеральной средней MX. Более же «хорошей оценкой» генеральной дисперсии DX, особенно при малом объеме выборки, является не выборочная дисперсия DX , а так называемая «несмещенная оценка» генеральной дисперсии, вычисляемая по формуле

(4.50)

л-1

и называемая дисперсией выборки. Величину

sx ~ \sx

(4.51)

называют выборочным стандартным отклонением. 206

Говоря о выборке Х\, Х^, ..., Х„ следует иметь в виду, что это:

• либо конкретные числа, и тогда все выборочные характеристики – это тоже числа;

• либо обозначения тех чисел, которые могли бы попасть в выборку; а поскольку нельзя заранее предвидеть, какие числа попадут в выборку, то значения выборочных характеристик не предсказуемы; в этом случае выборочные характеристики – это случайные величины и, они, как и любая случайная величина, имеют математическое ожидание и дисперсию. В частности дисперсия выбо-

_

рочной средней DX = - , а выборочная оценка

и

s2     s

этой дисперсии -4 = ~ '•> величину % = -$= х п    Jn

называют стандартной ошибкой выборочной средней.

В ряде задач не ограничиваются использованием выборочной средней X в качестве оценки генеральной средней MX, а строят интервальную оценку генеральной средней – это интервал

-tn_^-Sx, X + t^^-Sf),  (4.52)

который с достаточно высокой вероятностью, равной числу у, накроет генеральную среднюю (число 4-i,i-v определяется по специальным таблицам критических точек распределения Стьюдента в зависимости от и-1 и 1-у), т.е.

Р(Х - /_,,,_, -sx<MX<X + tn^_y • ss) = у, (4.53)

тиР(\Х-МХ

Величину

j = у.

называют ошибкой выборочной средней, гарантируемой с надежностью у .

207

Замечание.

Строго говоря формулы (4.52) – (4.54) предполагают, что X – нормально распределенная СВ.

При неизвестном числовом значении генеральной средней MX гипотезу Щ: MX = a0 (генеральная средняя равна числу до) при альтернативной гипотезе: Н\: MX Ф Ф «о проверяют так: строят интервальную оценку (4.52) генеральной средней, отвечающую вероятности у = 1-а, где а- заданное числовое значение уровня значимости; если интервал (4.52) не накрывает число д0, гипотезу HQ не принимают, в противном случае – принимают.

Замечание.

При изучении булевой СВ X по выборке достаточно большого объема и формула (4.52) даст интервальную оценку вероятности р успеха в единичном испытании, а (4.54) даст ошибку выборочной вероятности p = mln.

> Программа № 6 «Описательная статистика» вычисляет характеристики выборки – совокупности чисел, введенных в рабочий лист. По умолчанию уровень надежности у =0,95.

Пример 16.

В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей 100 случайно отобранных человек, имевших в прошлом одну или более судимостей. Среди отобранных не имели повторных судимостей 50 человек, а по остальным – числа повторных судимостей оказались такими: 1, 1, 1, 2, 3, 1, 1, 1, 1, 2, 2, 1, 2, 1, 1, 1, 1, 1, 2, 3, 1, 1, 1, 1, 1, 2, 2, 1, 1, 1, 1, 1,2,2, 1,2, 1,3,4, 1, 1, 1, 1, 1, 1, 1, 1,3, 1, 1.

Распечатка результатов работы «Описательной статистики» приведена на рис. 4.36. В распечатке наряду с ранее рассмотренными характеристиками приведены:

медиана – число, находящееся в центре ряда данных, расположенных в неубывающем порядке; если в центре этого ряда будет два числа, то медиана равна средней арифметической этих чисел;

мода – число, наиболее часто встречающееся в ряду данных;

эксцесс и асимметричность – смысл этих понятий разъясняется на с. 211.

Последнее число в распечатке: 0,175 – это ошибка (4.54) е выборочной средней, гарантируемая с 95%-й надежностью; в соответствии С (4.53), Р (0,535 < MX < 0,885) = 0,95 - с вероятностью 95% можно утверждать, что интервал (0,535; 0,885) накроет генеральное среднее число повторных судимостей (узнать это число, вообще говоря, нельзя: ведь для этого потребовалось бы собрать данные о числе повторных судимостей не 100 человек, а всех судимых в прошлом). Поскольку найденный

208

интервал не накрывает, например, число 1, то гипотезу Яо: MX ч* о том, что генеральное среднее число повторных судимостей равно 1 (при альтернативе Н\: МХ*\) принять, на уровне значимости <х = 1-у =

= 1-0,95 = 0,05, нельзя

Чтобы составить представление о закономерности варьирования чисел в «неизвестной» генеральной совокупности, результаты выборочных наблюдений группируют.

Продолжим пример 16. Сгруппируем 100 данных о числе повторных судимостей так. различающиеся наблюдения (их называют вариантами, х,) расположим в порядке возрастания и для каждого варианта х, укажем число т, – частоту (кратность) вари-

т,

анта и число pt =–'-– частость (относительную частоту, статистическую или опытную вероятность) варианта:

Число повторных судимостей х,

0

1

2

3

4

Итого

Количество человек т,

50

35

10

4

1

я= 100

Опытная вероятность

р Ч п (число людей в %)

0,5 (50%)

0,35 (35%)

0,1 (10%)

0,04 (4%)

0,01 (1%)

1 (100%)

Вероятность Пуассона*

Р (ОЛ)% -о,,

0,49

0,35

0,12

0,03

0,01

 

' СО'

 

 

 

 

 

 

(4.55)

* Содержание этой строки разъясняется далее.

Судя по ряду: рецидивистов с двумя судимостями в 3,5 раза больше числа рецидивистов с тремя судимостями; в свою очередь число рецидивистов с тремя судимостями в 2,5 раза больше, чем рецидивистов с четырьмя судимостями

Распределение опытных (статистических) вероятностей по вариантам:

Вариант, х,

х\ *2– хе

 

Опытная вероятность pl

Р\ Pi - ' Pt

2>i

(4.56)

называют статистическим рядом распределения. Чем этот ряд отличается от ряда распределения вероятностей (4.34)? В ряду распределения вероятностей указываются все возмож-

209

ные значения случайной величины и «истинные» вероятности этих значений; в статистическом ряду указываются значения – варианты, зафиксированные в проведенных наблюдениях, и опытные вероятности вариантов, которые могут и не совпадать с истинными вероятностями.

> Программа № 10 «Гистограмма»:

• группирует числа, введенные в рабочий лист, при этом граничные значения – «карманы» либо вводятся в рабочий лист в возрастающем порядке, либо рассчитываются автоматически (как точки, равномерно распределенные между минимальным и максимальным наблюдениями), а частота текущего «кармана» – это число наблюдений, меньших, или равных, этого «кармана» и больших предыдущего «кармана»;

• подсчитывает по требованию «интегральный %» – это ряд накопленных частостей (опытных вероятностей) в процентах;

• строит по требованию гистограмму – столбиковую диаграмму частот и график «интегральных %».

Распечатка результатов «Гистограммы» для 100 данных о' числе повторных судимостей (см. пример 16) при введенных гра-< ничных значениях О, 1, 2, 3, 4 приведена на рис. 4 37.

Столбец 1

Среднее

0,710

Стандартная ошибка

0,088

Медиана

0,500

Мода

0,000

Стандартное отклонение

0,880

Дисперсия выборки

0,774

Эксцесс

1,709

Асимметричность

1,334

Интервал

4,000

Минимум

0,000

Максимум

4,000

Сумма

71,000

Счет

100,000

Уровень надежности (95,0%)

0,175

Рис. 4.36

210

Карман

Частота

Интегральный %

0

50

50,00%

1

35

85,00%

2

10

95,00%

3

4

99,00%

4

1

100,00%

Еще

0

100,00%

Гистограмма

120,00%

» т 100,00%

80,00%

I Частота–»– Интегральный %

Рис. 4.37 Замечание.

Приводимая в распечатке программы «Описательная статистика» (см. рис. 4.36) асимметричность (А) является характеристикой асимметричности гистограммы (если правая ветвь длиннее левой, Л > 0; в противном А < 0), а эксцесс (Е) является характеристикой «островершинности» гистограммы по сравнению с нормальной кривой (см. рис. 4.35) (чем больше Е, тем «островер-шиннее» гистограмма). Для нормальной кривой А = Е = 0.

Продолжим пример 16. Обратим внимание на то, что выборочное среднее число судимостей (~Х =0,71) примерно равно дисперсии числа судимостей (Sx = 0,77). Это служит основанием выдвижения гипотезы HQ: СВ X (число повторных судимостей

211

случайно выбранного человека, имеющего в прошлом судимость) имеет пуассоновское распределение. Напомним, что математическое ожидание Mm (в условиях примера Mm - это генеральное среднее число повторных судимостей) и дисперсия Dm (генеральная дисперсия числа повторных судимостей) этого распределения совпадают, см. (4.32). Пуассоновские вероятности, рассчитанные по формуле (4.30), в которой Mm = а заменено на выборочную среднюю числа повторных судимостей, а * X = 0,71, приведены в последней строке (4.55). Пуассоновские вероятности практически не отличаются от опытных, гипотеза Я0 согласуется с результатами наблюдений.

Для выявления закономерности варьирования наблюдений в случае большого числа вариантов, что обычно бывает при изучении непрерывной величины (например, времени, прошедшего между освобождением рецидивиста из мест лишения свободы и совершением нового преступления) строят интервальный статистический ряд.

Пример 17.

По документам п - 100 рецидивистов собраны сведения о времени X между окончанием меры наказания за первое преступление и привлечением к наказанию за второе преступление. Не приводя этих данных, отметим, что число различающихся данных оказалось достаточно большим, при этом Хтт ~ 0 (рецидивист совершил второе преступление до окончания меры наказания за первое), а Хтт = 7,5 (лет). Длину Л интервала группирования сведений определим по формуле Стэрджеса (которая для многих задач дает оптимальную длину интервала, позволяющую выявить характерные черты варьирования наблюдений):

Ь –

у  _ у

л max  mm

7,5

1 + 3,322-log и 1 + 3,322-log 100

~1 (год)-

Сами интервалы будут такими: (Хтт; Хтт + К), (Хтт + А; Хтт + 1 h) ..; построение интервалов заканчивают как только конец очередного интервала не станет равным или большим Хтт. В условиях задачи интервалы будут такими: (0; 1), (1; 2), (7; 8). Распечатка результатов программы «Гистограмма» при введении в качестве карманов чисел 1, 2, 3, ..., 8 приведена на рис. 4.38.

Судя по распечатке у 40 рецидивистов промежуток времени X между преступлениями не превысил 1 года (Х< 1), у 26 рецидивистов: 1 < X < 2, у 15 рецидивистов: 2 < Х< 3 и т.д.

В ряде задач статистические данные задаются в сгруппированном виде. Формулы расчета выборочных ха-

212

рактеристик: X, DX, <зх по данным, сгруппированным в статистический ряд, таковы:

-;DX=

где / - число групп ряда, х/ - вариант (центр интервала для интервального ряда).

Карман

Частота

Интегральный %

\

40

L    40,00

2

26

66,00

3

15

81,00

4

9

90,00

5

5

95,00

6

3

98,00

7

1

99,00

8

1

100,00

Еще

0

100,00

Гистограмма

45

4С •• 35 • • 30 • • 25 • . 20 • • 15 •• 10 - .' 5 - .)

о -н

,1.1.1.1.

120,00»

• • 100,00»

• • 80,00»

• 60,00»

• • 40,00%

• • 20,00%

• • 0,00»

1 2345678Еи«

Карман

- Интегральный %

Рис. 4.38

Продолжим пример 17. Вычислим среднюю продолжительность X времени пребывания на свободе и среднее квадратиче-ское отклонение 6Х времени.

Результаты группировки, приведенные на рис. 4.38, запишем в следующую таблицу:

213

Интервал

1-2

2-3

3-4

4-5

5-6

6-7

7-8

 

Центр интервала X,

0,5

1,5

2,5

3,5

4,5

5,5

6,5

7,5

 

Частота /Я/

40

26

15

9

5

3

1

1

п= 100

Опытная вероятность

т, Р, = – и

0,4

0,26

0,15

0,09

0,05

0,03

0,01

0,01

1=1

Экспоненциальная вероятность р,

0,419

0,241

0,139

0,080

0,046

0,026

0,015

0,009

 

(4.58)

В соответствии с формулами (4.57), X = (0,5 • 40 + ... + + 7,5 • 0/100 = 1,81 (года),___________

Ьх = V(0,52 -40 + ... + 7,52 -1)/100-1,812 = 1,53 (года). Обратим внимание на то, что X « дх ~ свойственно распределениям, построенным по наблюдениям «экспоненциальной» СВ - это непрерывная СВ X, вероятность попадания которой в малый интервал длиной h с центром в точке х рассчитывается так:

h} = hte-**, где Х = –• MX

Заменив генеральную среднюю MX на выборочную среднюю X = 1,81, рассчитаем «экспоненциальные» вероятности попадания времени пребывания рецидивиста на свободе в соответствующие интервалы, они практически не отличаются от опытных вероятностей.

4.3.2. Сравнение характеристик двух генеральных

совокупностей (Excel – программы № 8, №№ 16–19)

Допустим, что требуется на основании выборочных обследований сравнить два города по среднему возрасту и «вариабельности» (дисперсии) возраста гражданина впервые нарушившего уголовное законодательство (или сравнить названные характеристики в одном городе до и после проведения соответствующих профилактических мероприятий). Переведем задачу на язык математики.

Введем обозначения:

X, MX, DX – возраст случайно выбранного нарушителя, средний возраст и дисперсия возраста нарушителя в первом городе соответственно;

Y, MY, DY– аналогичные характеристики для второго города.

Не имея возможности собрать сведения о возрасте всех нарушителей городов, а располагая лишь выборочными обследованиями: в первом городе собраны данные

214

™1 о возрасте пх нарушителей, а во втором - пу, требуется

проверить гипотезы HQ. MX = MY и Щ: DX = DY о том, что средний возраст нарушителя в городах одинаков и вариабельность (дисперсия) возраста одинакова.

Алгоритмы проверки гипотез Щ: MX– MY и HQ: DX – = DY реализованы в программах № 8, №№ 16-19. Строго говоря, эти алгоритмы предполагают, что:

а) пх наблюдений СВ X (п у наблюдений СВ Y) проведены в типичных условиях;

б) все HX+ и у наблюдений независимы;

в) СВ Х(СБ Y) - нормально распределенная СВ.

Замечание.

Названные программы могут использоваться и для решения^ задач такого типа. Допустим, требуется сравнить две вероятности: Рх ~ вероятность того, что случайно выбранный юноша – наркоман и ру – вероятность того, что случайно выбранная девушка – наркоманка. Не имея возможности обследовать всех юношей и девушек на предмет употребления наркотиков, собирают сведения о достаточно большом числе Ид- юношей - это первая выборка, и достаточно большом числе л у девушек – это вторая выборка Каждая из выборок – некоторая последовательность единиц и нулей: 1 – обследуемый употребляет наркотики, 0 – не употребляет. По сути в этой задаче речь идет об изучении двух булевых СВ' X и Y. Поскольку для булевой СВ X математическое ожидание MX = рх, а дисперсия DX = рх (1 – Рх) ~ РхЯх> то гипотеза Яо: MX = MY равносильна гипотезе HQ. рх ~ Ру, а гипотеза Щ: DX = /)Уравносильна гипотезе HQ' рхЯх ~ PrtY-

Еще раз обратим внимание на то, что наблюдения булевой СВ - это некоторая последовательность единиц и нулей

> Программа № 8 «Двухвыборочный F-mecm для дисперсий» используется для проверки гипотезы HQ. DX = DY (генеральные дисперсии одинаковы). Исходные данные - введенные в рабочий лист наблюдения переменной 1 (СВ X) и наблюдения переменной 2 (СВ Y), а также уровень значимости а – вероятность отвергнуть верную гипотезу HQ. По этим данным программа рассчитывает: средние X и Y, дисперсии s2x и s*; и ряд других величин, необходимых для проверки гипотезы Щ: DX = DY. Среди этих величин: df – число степеней свободы, которое равно: пх – 1 для переменной 1 и пу – 1 для переменной 2; F = sf Лу; вероятность «Р одностороннее», называемую «рассчитанным уровнем значимости»:

215

если «Р одностороннее» > а, гипотезу Яо: DX = DY принимают; если «Р одностороннее» < а, то Яо не принимают; принимают альтернативную гипотезу Н\, которая может быть двух видов:

Щ: DX > DY, Щ: DX < DY.

Пример 18.

Выборочные данные о возрасте (полное число лет) граждан, впервые совершивших уголовные преступления, таковы: 15, 17, 15, 21, 21, 18, 20 - в первом микрорайоне; 25, 16, 19, 24, 19, 20, 21, 23, 23 - во втором. Распечатка результатов программы № 8 при а = 0,05 приведена на рис. 4.39. Вероятность «Р одностороннее» = 0,413 > а, поэтому гипотезу Н0: DX – ОУ(при альтернативе Н\ : DX < DY, ведь дисперсия sx первой выборки меньше

дисперсии SY – второй выборки) принимаем: генеральная «вариабельность» возраста нарушителя в обоих микрорайонах одинакова, или различие выборочных дисперсий s% = 6,81 и SY – = 8,361 незначимо, несущественно, связано со случайными ошибками выборки.

Программы № 16-19 используются для проверки гипотезы Щ: MX – MY = а (разность генеральных средних равна числу а). В программах число а названо гипотетической разностью средних; по умолчанию а = 0 и тогда проверяемая гипотеза Я0: MX = MY. При описании программ примем, не оговаривая особо, что а = 0.

> Программа №17 «Двухвыборочный t-mecm с одинаковыми дисперсиями» используется для проверки гипотезы только в том случае, когда есть основание считать равными генеральные дисперсии, DX = DY, хотя числовые значения этих дисперсий и не известны. В качестве альтернативы к Щ : MX – MY = а при а = О может быть:

Я,: MX > MY; Я,: MX< MY; Я,: MX* MY. Исходные данные программы – наблюдения величин Хи 7 и вероятность а.

Продолжим пример 18. По данным примера была принята гипотеза Щ: DX = DY (принятие Щ служит достаточным основанием считать дисперсии равными, но не означает, что равенство дисперсий – абсолютная истина). Распечатка результатов программы № 17 при а = 0,05 и «Гипотетической разности средних» = = 0 приведена на рис. 4.40.

216

В распечатке «Объединенная дисперсия» – это оценка генеральной дисперсии обеих совокупностей, равная x-l) + s*(nr-l) 6.81-6 + 8,36.8

=

1) + К-1)  6 + 8

свободы df= пх+ пу– 2 «= 14, статистика

-  =-2,123.

число '

Альтернативой к гипотезе Htf. MX = MY (средний возраст преступника для микрорайонов одинаков ) может быть:

• гипотеза Я,: MX < MY (ведь X = 18,143 < Y = 21,111); в этом случае Яо принимают, если рассчитанный «Односторонний уровень значимости» – это вероятность «Р одностороннее» > а, в противном принимают Н\ («Р одностороннее» = 0,026 < а = 0,05, поэтому принимаем Н\)\

• гипотеза Н\: MX # MY; в этом случае Щ принимают, если «Р двухстороннее» > а, в противном случае принимают Н\ («Р двухстороннее» = 0,052 > а = 0,05, принимаем гипотезу Яо).

Пример показывает, что при неизменной вероятности а отвергнуть верную гипотезу Яо ответ на вопрос о том, принять или не принять гипотезу Яо, зависит и от вида альтернативы Н\ .

Приведем описание назначения программ №№ 18, 19, 16; останавливаться на интерпретации их результатов не будем, поскольку вопрос о том, принять или не принять гипотезу Яо: MX – MY = а здесь решается так же, как и в программе № 17.

> Программа № 18 «Двухвыборочный t-mecm с различными дисперсиями» используется для проверки гипотезы Яо: MX – MY = а, когда есть основание считать генеральные дисперсии неравными: DX Ф DY, хотя числовые значения этих дисперсий и неизвестны.

> Программа № 19 «Двухвыборочный z-mecm для

средних» используется для проверки гипотезы Яо: мх – MY = = а, когда числовые значения генеральных дисперсий DX и DY известны.

> Программа № 16 «Парный двухвыборочный t-mecm

для средних» используется для проверки гипотезы щ: MX – – MY = а, когда СВ Хи СВ 7 наблюдаются «в паре», т.е. наблюдение – это пара чисел (X^YJ, «снимаемая на одном объекте»; в этом случае число пх наблюдений СВ X равно числу « у наблюдений СВ Y, пх– пу.

217

4.3.3. Дисперсионный анализ (Excel – программы №№ 1–3)

Дисперсионный анализ используется для выявления влияния на изучаемую СВ Y некоторых факторов, обычно не поддающихся количественному измерению. Суть метода состоит в разложении общей вариации СВ Y на части, соответствующие раздельному и совместному влиянию факторов, и изучении этих частей. Модели дисперсионного анализа в зависимости от числа факторов классифицируются на однофакторные, двухфакгорные и т.д.

Однофакторный дисперсионный анализ выясняет существует или нет влияние зафиксированных уровней А^, А^2\ ..., А^ фактора А на СВ Y. Исходными данными являются результаты наблюдений СВ Упри зафиксированных уровнях фактора А, записываемые в виде таблицы, столбцы которой назовем группами (числа наблюдений в группах могут быть разными):

Уровни фактора А

Л(1)

 

AM

* Результаты наблюдений СВ Y

Результаты наблюдений СВ Y

 

Результаты наблюдений СВ Y

(4.59)

Строго говоря, дисперсионный анализ предполагает, что:

а) все наблюдения независимы;

б) при каждом уровне фактора наблюдения проводятся в типичных условиях, а их результаты – нормально распределенные СВ с дисперсиями (генеральными), не изменяющимися при переходе от одного уровня фактора к другому;

в) модель формирования результата наблюдений в /-и группе (/ = 1, 2,..., v) такая: результат наблюдения = некоторой постоянной величине (не зависящей от номера группы) + эффект e(l) (неслучайный) влияния уровня А® фактора А + случайный эффект влияния прочих неконтролируемых факторов, в среднем равный нулю.

Дисперсионный анализ проверяет гипотезу HO : 0'1' = 0'2' = ... = 0'v' = 0 (эффекты влияния зафиксированных уровней фактора А – нулевые, иначе «фактор А не влияет на изучаемую СВ Б>).

218

I

> Программа № 1 «Однофакторный дисперсионный

анализ» в качестве исходных данных использует результаты наблюдений по группам, введенные в рабочий лист, и уровень значимости а – вероятность опровержения верной гипотезы Н0 : 0^ = 0'2' = ... = 0(v' = 0. «Входной интервал» – это данные «от * до *» (4.59). Вычисляет: групповые средние Y ,Y ,...,YV, несмещенные оценки s^, sf, –,Sv групповых генеральных дисперсий ст2, ст2, ..., а2 и ряд других характеристик, необходимых для проверки гипотезы Д).

Пример 19.

Владелец трех типовых юридических контор пытается выяснить отличаются ли они по объему выполняемой работы, измеренному в д е Для этого в каждой из контор были собраны следующие сведения о еженедельном объеме выполненных работ:

Контора

1-я

2-я

3-я

* 280

300

350

250

250

240

200

210

170

290

310

200

 

270

150

 

300

*

Распечатка результатов работы программы № 1 при а = 0,05 приведена на рис 4.41. В распечатке, например, среднее 255 – это средняя наблюдений первого столбца- К(|) = (280 + 250 + 200 + + 290)/4, а дисперсия 1633,3(3) - это дисперсия S? = [(280 -

- 255)2 + (250 - 255)2 + (200 - 255)2 + (290 - 255)2] / (4 - 1) наблюдений первого столбца

Не приводя формул подсчета и не объясняя смысла всех чисел таблицы «Дисперсионный анализ» на рис. 4.41 (эти вопросы подробно изложены в [32]), обратим внимание лишь на «Р-Значение», называемое «рассчитанным уровнем значимости»: если «Р-Значение» > заданного уровня значимости о, гипотезу HQ о равенстве нулю эффектов влияния зафиксированных уровней фактора принимаем; при «Р-Значение» < а гипотезу Щ не принимаем

В случае «непринятия» гипотезы Щ об отсутствии влияния фактора А вычисляют коэффициент детерминации:

S, Между группами {QQ% SS, Итого

219

показывающий, какой процент вариации или изменчивости наблюдений СВ Y (принимаемой за 100%) объясняется изменчивостью уровней фактора А, или просто влиянием фактора А.

В распечатке «Р-Значение» = 0,006, что меньше а = 0,05,

поэтому гипотезу Я0: 6(1) = 9(2) = Э(3) = 0 о равенстве нулю «эффектов влияния контор» на еженедельный объем выполняемых работ не принимаем конторы различаются по объему выполняемых работ; коэффициент „z = 24326,67 1QO% = 57^% -

/л 42440

такова, судя по выборке, доля вариации еженедельного объема выполняемых работ, объясняемая влиянием фактора-контора

В двухфакторнам дисперсионном анализе рассматривается два фактора: А, принимающий VA уровней А^\ А®, ...,А^А>, и В, принимающий VB уровней Б(1\Вт,...,Вм. Исходная база анализа - наблюдения изучаемой СВ Y, проведенные при различных комбинациях уровней факторов, обычно записываемые в виде таблицы:

*

#1)

...

Вм

AW

Результаты наблюдений СВ У

Результаты наблюдений СВ Y

 

Результаты наблюдений СВ Y

Результаты наблюдений СВ Y

Результаты наблюдений СВ Y

 

Результаты наблюдений СВ Y

 

 

...

...

Ам

Результаты наблюдений СВ Y

Результаты наблюдений СВ У

 

Результаты наблюдений СВ Y

*

(4.60)

220

Двухвыборонный F-mecm для дисперсии

 

Переменная 1

Переменная 2

Среднее

18,143

21,111

Дисперсия

6,810

8,361

//аблюдения

7,000

9,000

df

6,000

8,000

F

0,814

 

P(F < t) одностороннее

0,413

 

F критическое односторонне

0,241

 

Рис. 4.39 Двухвыборонный t-mecm с одинаковыми дисперсиями

 

Переменная 1

Переменная 2

Среднее

18,143

21,111

Дисперсия

6,810

8,361

Наблюдения

7,000

9,000

Объединенная дисперсия

7,696

 

Гипотетическая разность средних

0,000

 

df

14,000

 

/-статистика

-2,123

 

Р( Т <=t) одностороннее

0,026

 

t критическое одностороннее

1,761

 

Д Т <= 0 двухстороннее

0,052

 

/ критическое двухстороннее

2.145

 

Рис. 4.40 Однофакторный дисперсионный анализ

итоги

Группы

Счет

Сумма

Среднее

Дисперсия

Столбец 1

4,000

1020,000

255,000

1633,333

Столбец 2

6,000

1640,000

273,333

1466,667

Столбец 3

5,000

910,000

182,000

1470,000

Дисперсионный анализ

Источник вариации

SS

df

MS

F

Р-

Значение

F

критическое

Между группами

24326,667

2,000

12163,333

8,058

0,006

3,885

Внутри групп

18113,333

12,000

1509,444

 

 

 

 

 

 

 

 

 

 

Итого

42440,000

14,000

 

 

 

 

Рис. 4.41

221

> Программа № 3 «Двухфакторный дисперсионный анализ без повторений» предполагает, что при каждой комбинации уровней факторов Аи В проведено только одно наблюдение СВ Y. Эти наблюдения вводятся в рабочий лист в виде таблицы, у которой число строк равно УД, а число столбцов равно УД. По полученной на выходе таблице дисперсионного анализа можно проверить две гипотезы:

• гипотезу НА : в*? = Q(A} =... = Q(A<} = 0 (эффекты влияния зафиксированных уровней фактора А – нулевые); если «Р-Значение, Строки» > а , где а – заданная вероятность отвергнуть верную гипотезу НА, НА принимают: считают, что фактор А не влияет на изучаемую СВ Y; если «Р-Значение, Строки» < а, гипотезу НА не принимают и в этом случае вычисляют коэффициент детерминации

2 SS, Строки ,.-„.    „

ПУ =----------------100%, показывающий, какой

" SS, Итого

процент вариации наблюдений связан с влиянием фактора А;

• гипотезу НВ: 0/и = 0/2; = ... = 0/v*; = 0; ее проверка проводится аналогично, с той лишь разницей, что используется «Р-Значение, Столбцы» и

2 = SS, Столбцы Y" SS, Итого

> Программа № 2 «Двухфакторный дисперсионный анализ с повторениями» предполагает, что при каждой комбинации уровней факторов А и В проведено одинаковое число k наблюдений СВ Y, при этом k > 1. Все наблюдения вводятся в рабочий лист в виде (4.60) «от * до *», при этом «внутриклеточные» наблюдения вводятся как столбцы, а имена А^\ А&\ ... строк и .#'), ВР-\ ... столбцов можно не указывать. Поскольку в каждой клетке k наблюдений, записанных в столбик, то число занятых строк рабочего листа равно (v^ • k +1), а число столбцов (vg + 1). «Входной интервал» – это данные «от * до *». Дополнительно вводятся: «Число строк на выборку» –

222

это число k (количество наблюдений в каждой клетке таблицы (4.60)) и а.

По полученной на выходе таблице дисперсионного анализа можно проверить три гипотезы:

• гипотезу НА-' Э^ =... = 0^v/4) =0 (эффекты влияния уровней фактора А – нулевые); если «Р-Значение, Выборка» > а, гипотезу НА принимают, при «Р-Значение, Выборка» < а НА не принимают и вычисляют  коэффициент  детерминации

2 SS, Выборка

ЦУ =-----------*-– -100%, показывающий процент

"* SS, Итого

общей вариации наблюдений СВ Y, объясняемый влиянием фактора А;

• гипотезу Hg. 0^ = ... = ^в) = 0 (эффекты влияния уровней фактора ^-нулевые); здесь с а сравнивают «Р-Значение, Столбцы»; в случае непринятия

тт    2 SS, Столбцы

Нв вычисляют г\у =------------------100%;

" SS, Итого

• гипотезу НАВ- «эффекты влияния взаимодействия уровней факторов А и В – нулевые»; здесь с а сравнивают «Р-Значение, Взаимодействие»; в случае непринятия гипотезы НАВ вычисляют коэффициент детерминации

SS, Взаимодействие

rit =-

"/ЛИ

•100%, показывающий

SS, Итого

процент общей вариации наблюдений СВ Y, объясняемый влиянием взаимодействия факторов Аи В.

14.3.4. Корреляция и регрессия

(Excel - программы № 4, № 14)

При исследовании процессов государственно-травового регулирования общественных отношений Гбольшую роль играет изучение взаимосвязей этих процессов, построение математических моделей, позволяющих провести количественный анализ состояния и динамики процессов.

223

Наиболее употребительной характеристикой степени взаимосвязи двух случайных величин Хи Г является коэффициент корреляции. По парным наблюдениям этих величин, представленным в форме следующей таблицы:

Номер наблюдения

X

Y

1

Х\

Y}

2

Х7

Ъ

 

 

 

 

 

 

л

х„

Уп

выборочный коэффициент корреляции вычисляется по формуле:

yv "у Y

Л-l  -Л л.         .. s-*^

rXY=––------.      (4.61)

где XY =

X =

+ X2Y2 + ... + ВД) / «; X2 + ... + Xn) /ъ

Из формулы (4.61) вытекает: ~ХХ-~Х X

ГУ X > ГХ,Х - '

Сформулируем и дадим графическую иллюстрацию свойств коэффициента корреляции:

1) – 1 < rXY< 1, причем – 1 < rXY< 0, если и только

если при увеличении значений любой одной из величин значения другой имеют тенденцию к уменьшению (рис. 4.42,а), и 0 < rx Y ^ 1, если и только если при увеличении значений любой одной из величин, значения другой имеют тенденцию к увеличению (рис. 4.42,6);

2) ГХ,У ~ 1' если и только если парные наблюдения,

т.е. точки с координатами (Х„ Y,) лежат на одной прямой (рис 4.42 Де);

3) чем меньше точки (Х„ ty рассеяны около некоторой

прямой, тем ближе rx Y к единице, и наоборот, чем ближе rx Y к единице, тем меньше точки (Х„ %) рассеяны около 224

прямой (рис. 4.42, а и в, б и г). Если точки рассеяны около линии, отличной от прямой, например, около параболы, то rXY близок к нулю (рис. 4.42, ж).

0< г. < 1

->-

X

> и

•>>

X

Рис. 4.42

Из свойств коэффициента корреляции rx Y вытекает, 1что rXY – это характеристика степени линейной взаимо-

° 8 Информатика и математика для юристов

225

i

связи наблюдений СВ Хи У; величину rx Y -100% назы-

вают коэффициентом линейной детерминации; его интерпретируют так: судя по наблюдениям, процент вариации одной величины, объясняемый линейным влиянием дру-

гой, равен

• 100% .

> Программа № 4 «Корреляция» в качестве входных данных использует введенные в рабочий лист столбцы (или строки) наблюдений двух и более величин; на выходе - коэффициенты корреляции между каждой парой величин. Пример 20.

В восьми районах собраны сведения о числе (У) правонарушений за год, численности XI населения (тыс. чел.) и размере XI ежемесячного среднедушевого дохода (у.е )

Y

367

133

100

200

120

270

120

260

XI

750

367

267

J500

233

700

317

600

Х2

18

20

33

18

31

18

31

20

Распечатка результатов программы № 4 (наблюдения величины Y введены в первый столбец, XI – во второй, XI – в третий) приведена на рис. 4 43. Расположенные на диагонали единицы - это коэффициенты корреляции l'YY>rxi.xi>rx'ix'i> коэффициенты корреляции ГХ1 у – 0,966, ГХ2 Y - ~ 0,762, ГХ2 Х1 -= – 0,838. Поясним, например, смысл ГХ2 у = ~ 0,762, «–» означает, что, судя по наблюдениям, с увеличением ежемесячного среднедушевого дохода (XI) число (У) правонарушений уменьшается; YXI у • 100% = 58% – таков, судя по наблюдениям, процент вариации количества правонарушений (размера дохода), объясняемый линейным влиянием размера дохода (количества правонарушений).

 

Столбец 1

Столбец 2

Столбец 3

Столбец 1

1,000

 

 

Столбец 2

0,966

1,000

 

Столбец 3

-0,762

-0,838

1,000

Рис. 4.43

Наиболее используемым методом построения математических моделей зависимостей по выборочным наблюдениям является метод наименьших квадратов. Поясним его на данных примера 20. 226

Предположим, что число У правонарушений в районе связано с численностью XI населения и среднедушевым доходом XI, называемых факторами, зависимостью

У = а0+а,Я1 + а2А'2 + Е     (4.62)

( е - случайный эффект влияния на Y прочих неконтролируемых факторов), называемой двухфакторной линейной регрессией; («линейность» означает, что и параметры а^а^с^ регрессии и факторы XI и XI входят в регрессию в первой степени). Метод наименьших квадратов рекомендует находить оценки а0,а,,а2 неизвестных параметров о^а^с^, исходя из следующего требования:

1, +а.2Х2, -У,)

'"  1 -

читаемого так: сумма квадратов отклонений значений Y, , рассчитанных по уравнению

Y =а

(4.63)

от наблюдений Y, СВ Y, зафиксированных при значениях Х\ и XI t факторов XI и XI , должна быть минимальной.

Метод наименьших квадратов гарантирует получение «наилучших» оценок параметров регрессии («наилучших» - в смысле возможности, зная эти оценки, вынести достаточно надежные суждения о числовых значениях неизвестных параметров), строго говоря, при выполнении следующих требований:

а) все наблюдения СВ Гдолжны быть независимыми;

б) при каждом фиксированном наборе значений факторов наблюдения СВ У проводятся в типичных условиях, а их результаты - нормально распределенные СВ с дисперсией, не изменяющейся при переходе от одного набора значений факторов к другому;

в) случайный эффект е влияния прочих неконтролируемых факторов в регрессии (4.62) в среднем должен быть равным нулю.

В дополнение заметим, что «качество» оценок, полученных методом наименьших квадратов, тем выше,

227

чем больше число наблюдений п по сравнению с числом т включенных в регрессию факторов.

> Программа № 14 «Регрессия» в качестве исходных данных использует:

• введенный в рабочий лист столбец наблюдений СВ Y;

• введенные в рабочий лист столбцы наблюдений по факторам XI, XI, ...(максимальное число факторов равно 16); «входной интервал А>> определяется первым и последним наблюдениями соответственно первого и последнего факторов;

• уровень надежности (по умолчанию 95%) – это вероятность у , используемая при построении интервальных оценок (уровень значимости а = 1 - у) ;

• если регрессия имеет вид Y = alXl + a2X2 + e, т.е. в (4.62) константа <х0 отсутствует, то «в константу – ноль» следует поместить флажок.

Используя метод наименьших квадратов, программа вычисляет оценки параметров регрессии и проводит статистический анализ этих оценок.

Распечатка результатов работы программы № 14 для данных примера 20 (в рабочий лист введены три столбца) при у = 0,95,

регрессии вида (4 62) и выводе «остатков» приведена на рис. 4.44. Поясним смысл наиболее важных результатов.

Регрессионная статистика.

Множественный R - 0,970 - такова, судя по наблюдениям, степень линейной зависимости числа Y правонарушений от двух факторов: численности XI населения и среднедушевого дохода XI, (R - это множественный коэффициент корреляции, всегда: 0 < R < 1;

при одном факторе X: R = r%ty )•

R-квадрат = 0,941 - судя по наблюдениям, 94,1% вариации числа правонарушений связано с линейным влиянием численности населения и среднедушевого дохода.

Стандартная ошибка - 27,444 - ошибка s, возникающая При замене фактических наблюдений У/ рассчитываемыми у, по формуле (4.63),

где л - число наблюдений, т - число факторов (в примере я = 8, т * 2)., \

228

Вывод итогов

Регрессионная статистика

 

Множественный R

0,970

Л-квадрат

0,941

Нормированный Л-квадрат

0,917

Стандартная ошибка

27,444

Наблюдения

8,000

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

2,000

59799,742

29899,871

39,700

0,001

Остаток

5,000

3765,758

753,152

 

 

Итого

7,000

63565,500

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

Р-Значение

Нижние

95%

Верхние

95%

 

К-пересечение

-102,080

107,119

-0,953

0,384

-377,438

173,278

 

Переменная XI

0,524

0,095

5,513

0,003

0,280

0,768

 

Переменная XI

2,274

2,823

0,805

0,457

-4,984

9,531

 

Вывод остатка

Наблюдение

Предсказанное Y

Остатки

1

331,907

35,093

2

135,731

-2,731

3

112,880

-12,880

4

200,887

-0,887

5

90,514

29,486

6

305,703

-35,703

7

134,537

-14,537

8

257,842

2,158

Рис. 4.44

Дисперсионный анализ:

В первой таблице приведены результаты, необходимые для проверки гипотезы Но: 02 = сч = 0 (неизвестные параметры регрессии (4.62) одновременно равны нулю). Если «Значимость F» > а, гипотезу Яо принимают' регрессионная модель (4.62) лишена смысла и отвергается; если «Значимость F» < а, гипотезу Яо отвергают: регрессионная модель (4.62) правомерна. В примере «Значимость F» = 0,001 < а (напомним а - 1 - у = 1 – 0,95 = = 0,05) • модель (4.62) правомерна.

Во второй таблице:

« У-пересечение» – 102,08 – это оценка а„,

«Переменная Л!» 0,524 - это оценка а, , «Переменная Х2» 2,274 – это оценка а2,

Окончательно, уравнение (4.63) имеет вид: 7= -102,08 + 0,524X1 + 2,274X2.

(4.64)

229

i

Во второй и третьей строках этой таблицы приведены 95%-ные интервальные оценки генеральных параметров ai и 02:

0,280 < а, < 0,768;       (4.65)

-4,984 < а2 < 9,531.       (4.66)

Зная эти оценки проверим на уровне значимости a = 1 –

• 0,95 = 0,05 гипотезы:

• Яо: сц= 0 при альтернативе И\: а\ * 0. Интервал (4.65) не накрывает число ноль, поэтому гипотезу Щ отвергаем; в этом случае говорят, что оценка <х,, статистически значима;

• Яо: «2= О при альтернативе Н\: (ц * 0. Интервал (4.66) накры-

гипотезу Яо принимаем: оценка а2

вает число 0, поэтому статистически не значима.

Вывод остатка:

Здесь приведено «Предсказанное Y» – это Y:, рассчитанные

по уравнению (4.64), и «Остатки» – это разности (Y, – Y, )• Зная

эти остатки, можно рассчитать среднюю относительную ошибку (в %) предсказаний:

1

Y -Yl А= –У ' ''-100%. В условиях примера А = 9,4%.

п „\ Y, Подведем итог:

• модель (4.62) формирования годового числа У правонарушений правомерна, так как гипотеза Яо: щ - а^ = 0 отвергается при 5%-ном уровне значимости;

• уравнение (4.64) имеет достаточно хорошие характеристики: Л=0,970 близок к своему максимальному значению, равному 1; ошибка Д невысока: Д = 9,4% < 10%. Поэтому уравнение можно использовать для прогноза годового числа правонарушений в районе при известной численности населения и размере ежемесячного среднедушевого дохода;

• использовать оценку а2 = 2,274 для выяснения влияния фактора XI (среднедушевого дохода) на Y (количество правонарушений) нельзя, так как была принята гипотеза Яо: а2 = 0; поэтому удалим фактор XI

из модели (4.62) и проведем расчеты для модели: Y= OQ + а\Х\ + е.

Распечатка результатов работы программы № 14 (в рабочий лист введены два столбца – наблюдения величины Y и величины XI из примера 20) приведена на рис. 4.45.

Итог, в этом случае, такой:

• модель Y= OQ + a[Al + е правомерна, так как «Значимость В = 0,000 < < а (в примере a = 0,05), и следовательно гипотеза Яо: ai =0 отвергается; оценка а, – статистически значима;

• рассчитанное уравнение Y = –18,412 + 0,460А1 имеет достаточно хорошие характеристики: Л = 0,966 » 1 (обратим внимание на

230

то, что при уменьшении числа факторов значение множественного коэффициента Л всегда уменьшается); ошибка Д = 9,97% < 10%. Однако новое уравнение со «статистической точки зрения» лучше уравнения (4.64): «Стандартная ошибка нового уравнения» = 26,628, тогда как «Стандартная ошибка уравнения (4.64)» = 27,444;

Вывод итогов

Регрессионная статистика

 

Множественный R

0,966

Л-квадрат

0,933

Нормированный Л-квадрат

0,922

Стандартная ошибка

26,628

Наблюдения

8,000

Дисперсионный анализ

 

df

SS

MS

F

Значимость F

Регрессия

1,000

59311,349

59311,349

83,652

0,000

Остаток

6,000

4254,151

709,025

 

 

Итого

7,000

63565,500

 

 

 

 

Коэффициенты

Стандартная ошибка

t-статистика

Р-Знйчение

Нижние

95%

Верхние

95%

Х-пересечение

-18,412

25,288

-0,728

0,494

-80,289

43,465

Переменная Х\

0,460

0,050

9,146

0,000

0,337

0,583

Вывод остатка

Наблюдение

Предсказанное Y

Остатки

1

326,519

40,481

2

150,374

-17,374

3

104,383

-4,383

4

211,542

-11,542

5

88,746

31,254

6

303,524

-33,524

7

127,379

-7,379

8

257,533

2,467

Рис. 4.45

• 95%-ная интервальная оценка параметра а\: 0,337 < он < 0,583. Смысл оценки a i = 0,460 таков: при росте численности района на одну тысячу можно ожидать увеличения количества преступлений в среднем на 0,46 единиц; верхний 95%-ный предел этого увеличения составит 0,583; отсюда при росте численности на две тысячи можно ожидать увеличения количества преступлений в среднем на 0,92, а 95%-ный верхний предел этого увеличения составит 1,06 единиц. Конечно, эти выводы имеют место лишь при сохранении в

целом той криминологической ситуации, которая имела место во

время сбора статистических данных.

«все книги     «к разделу      «содержание      Глав: 16      Главы: <   2.  3.  4.  5.  6.  7.  8.  9.  10.  11.  12. >