Вероятностный подход.
Измерение количества информации
Существуют два основных подхода к измерению количества информации:
· вероятностный;
· объемный.
Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, . . . N.
Численная величина, измеряющая неопределенность — энтропия (H).
Формула Хартли:
H = log2 N.
Единица количества информации называется «бит».
В случае, когда вероятности Pi результатов опыта (в примере, приведенном выше — бросания игральной кости) неодинаковы, имеет место формула Шеннона:
В случае равновероятности событий, и формула Шеннона переходит в формулу Хартли.
Пример: Определить количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке.
Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли H = log2 34 ~ 5.09 бит.
В словах любого языка различные буквы встречаются неодинаково часто. По формуле Шеннона:H ~ 4.72 бит. Полученное значение H меньше вычисленного ранее. Величина H, вычисляемая по формуле Хартли, является максимальным количеством информации, которое могло бы приходиться на один знак.
Аналогичные подсчеты H можно провести и для других языков, например, использующих латинский алфавит — английского, немецкого, французского и др. (26 различных букв и «пробел»). По формуле Хартли получим H = log2 27 ~ 4.76 бит.
Таблица 6