Вероятностный подход.


Измерение количества информации

 

Существуют два основных подхода к измерению количества информации:

· вероятностный;

· объемный.

Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, . . . N.

Численная величина, измеряющая неопределенность — энтропия (H).

Формула Хартли:

H = log2 N.

 

Единица количества информации называется «бит».

 

В случае, когда вероятности Pi результатов опыта (в примере, приведенном выше — бросания игральной кости) неодинаковы, имеет место формула Шеннона:

В случае равновероятности событий, и формула Шеннона переходит в формулу Хартли.

Пример: Определить количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке.

Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли H = log2 34 ~ 5.09 бит.

В словах любого языка различные буквы встречаются неодинаково часто. По формуле Шеннона:H ~ 4.72 бит. Полученное значение H меньше вычисленного ранее. Величина H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.

Аналогичные подсчеты H можно провести и для других языков, например, использующих латинский алфавит — английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Хартли получим H = log2 27 ~ 4.76 бит.

 

Таблица 6