Статистические меры информации
Недостатком структурного метода измерения информации является то, что в нем не учитывается вероятность наступления того или иного исхода. Для определения количества информации в случае, если исходы опыта имеют разную вероятность, используется статистическая мера К.Шеннона, предложенная им в 1948 году.
В основе статистического метода определения информации лежит положение о том, что получение информации снимает часть некоторой (априорной, до опытной) неопределенности.
Большинство источников информации характеризуется неопределенностью, связанной с неодинаковой вероятностью происходящих событий. Естественно, что с ростом числа возможных исходов неопределенность должна возрастать. Меру степени неопределенности называют энтропией.
Пусть мы имеем опыт, имеющий "N" равновероятных исходов.
Такую неопределенность называют равной:
;
Это выражение можно записать в виде:
Из теории вероятностей известно, что
- вероятность любого из N возможных исходов опыта, поэтому выражение (1) переписываем в виде:
При N=2 имеем:
(бит) )
Бит - это единица для измерения степени неопределенности опыта.
А как же измерить неопределенность в случае разновероятных исходов?
Пусть некоторый опыт характеризуется следующей таблицей вероятности:
Исходы опыта: A1 A2 A3 . . . Ai . . . AN
Вероятность: p1 p2 p3 . . . pi . . . pN
Естественно, что p1 + p2 + p3 + . . . + pi + pN = 1.
Тогда в соответствии с формулой (2) меру неопределенности этого опыта запишем в виде:
или
(1.2.5)
Полученное выражение имеет вид, совпадающий с видом выражения для энтропии в статистической физике, причем это несет не только формальный, но и содержательный характер.
Поэтому величину называют энтропией опыта a.
Свойства выражения (1.2.5): Любое слагаемое всегда положительно, т.к. , а следовательно
всегда отрицателен. При
выражение
убывает и стремиться к 0, т.к.
.
Пример. Пусть мы имеем следующий опыт: к нам пришло следующее сообщение: А1 А3 А1 А3 А3 А2 А3А4
Требуется определить количество информации в данном сообщении.
Алфавит этого сообщения состоит из 4 букв: А1 , А2 , А3 , А4 .
Следовательно, для кодирования этих букв достаточно будет двух двоичных разрядов: А1 – 00, А2 – 01, А3 – 10, А4 – 11.
Если применить меру Хартли, то для передачи данного сообщения при применении равномерного кода необходимо будет 16 двоичных разрядов, т.е. 16 бит. Причем на одну букву приходится 2 бита:
Однако такой подход не учитывает неравной вероятности появления букв в сообщении и поэтому не может считаться правильным.
Определим вероятности появления букв в сообщении:
P1 = 0,25; P2 = 0,125; P3 = 0,5; P4 = 0,125;
В этом случае количество информации, приходящейся на одну букву в этом сообщении, равно:
И таким образом, общие количество информации в этом сообщении составляет 8*1,75 = 14 (bit), что меньше, чем при равномерном коде.
Отсюда следует, что неравная вероятность появления букв в сообщении приводит к уменьшению избыточности количества информации.
В том же 1948 году К.Шеннон (на фото) доказал теорему о том, что возможен такой способ кодирования, который приводит к уменьшению длины двоичного кода сообщения, в котором наблюдается неравная вероятность появления букв. Тогда же он совместно с Фано предложил алгоритм оптимального кодирования, позволяющий уменьшать длину сообщения. Этот алгоритм широко применяется в программах архивирования данных.
Мера Шеннона и алгоритмы, разработанные им для кодирования информации, широко применяются в практике программирования, в частности, при разработке алгоритмов архивации файлов, например таких, как pkzip, arj, zip, 7zip, rar и ряда других, а также в системах обнаружения и исправления ошибок при передаче данных.