Измерение количества информации


 

В настоящее время получили распространение подходы к определению понятия «количество информации», основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле ее новизны или, иначе, уменьшения неопределенности наших знаний об объекте. Т.е. с точки зрения теории информации информация - это сведения, устраняющие или уменьшающие неопределенность.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривал как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определяет как двоичный логарифм N:

I = log2(N).

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log2100 » 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Или требуется определить какое количество информации содержится в сообщении, что наугад выбранная карта из 32 крат колоды будет бубновая десятка?

Поскольку вытащить любую карту из данной колоды равновероятное событие (карту с «картинкой» или «числом»), то применяя формулу Хартли, имеем:

I = log2(32)=5, т. е. потребуется 5 единиц информации.

Количество единиц информации можно определить и по количеству задаваемых вопросов, на которые можно ответить «Да» или «Нет». Причем сами вопросы должны сформулированы так, чтобы ответы на них отсекали половину возможных вариантов (событий). Для приведенного выше примера из колодой карт это будет выглядеть так:

Вытащенная карта черной масти? - Нет ( т.е. 0).

Масть вытащенной карты «черва»? - Нет (т.е. 0).

Вытащенная карта с «числом»? - Да (т.е. 1).

Число на карте больше 8? - Да (т.е. 1).

Число равно 9? - Нет (т. е. 0).

Тогда, собрав ответы на вопросы, получим следующее сообщение о вытащенной карте: 00110.

Приведем другие примеры равновероятных сообщений:

1) при бросании монеты: «выпала решка», «выпал орел»;

2) на странице книги: «количество букв четное», «количество букв нечетное».

Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

На количество информации, получаемой из сообщения, влияет фактор неожиданности его для получателя, который зависит от вероятности получения того или иного сообщения. Чем меньше эта вероятность, тем сообщение более неожиданно и, следовательно, более информативно. Сообщение, вероятность которого высока и, соответственно, низка степень неожиданности, несет немного информации.

Р. Хартли понимал, что сообщения имеют различную вероятность и, следовательно количество информации, он пытался полностью исключить фактор «неожиданности». Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы. На практике эти условия выполняются редко. При определении количества информации необходимо учитывать не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность их получения.

Для задач такого рода американский ученый Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе. Формула Шеннона:

I = – ( p1 log2 p1 + p2 log2 p2 + . . . + pN log2 pN ),

где pi - вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие.

В качестве единицы информации условились принять один бит (англ. bit - binary, digit - двоичная цифра).

Бит в теории информации - количество информации, необходимое для различения двух равновероятных сообщений («орел-решка», «чет-нечет» и т.п.).

А в вычислительной технике битом называют наименьшую «порцию» памяти, необходимую для хранения одного из двух знаков «0» и «1», используемых для внутримашинного представления данных и команд.

Формула Хартли широко применяется при кодировании информации, поскольку позволяет рассчитать минимальную длину кода I (т.е. количество разрядов памяти, выделяемое для хранения информации в двоичном коде) в двоичном алфавите при известном количестве символов N, подлежащих кодированию.

Например, рассчитаем, сколько нужно разрядов памяти для хранения чисел в диапазоне от 0 до 17. Здесь количество символов, подлежащих кодированию N = 18, тогда используя формулу Хартли, имеем I = log218 » 4,17, т.е. для хранения таких чисел необходимо 5 разрядов памяти (5 бит).

Решим обратную задачу. Пусть известно отведенная память для хранения символов, например I = 12 бит, требуется найти количество символов N, которые можно закодировать с помощью нулей и единиц, т.е. в двоичном коде. Используя формулу Хартли 2I = N, имеем 212 = 4096 символов.

Поскольку бит - слишком мелкая единица измерения, на практике чаще применяется более крупная единица - байт, равная восьми битам. В частности, восемь бит требуется для того, чтобы закодировать любой из 256 символов основного компьютерного кода ASCII (256 = 28).

Используются также более крупные производные единицы информации:

Килобайт (Кбайт) = 1024 байт = 210 байт;

Мегабайт (Мбайт) = 1024 Кбайт = 220 байт;

Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объемов обрабатываемой информации входят в употребление такие производные единицы, как:

Терабайт (Тбайт) = 1024 Гбайт = 240 байт; Петабайт (Пбайт) =
1024 Тбайт = 250 байт и пр.

Для описания скорости передачи данных можно использовать термин бод. Число бод равно количеству значащих изменений сигнала (потенциала, фазы, частоты), происходящих в секунду. Для двоичных сигналов нередко принимают, что бод равен биту в секунду.

 

§ 1.7. Общая характеристика процессов сбора, передачи,