Энтропия

Схема передачи информации

 

Поясним технические термины на простом примере. Вася передает Пете свое имя. Они сидят по разные стороны стола. Вася пишет на листе бумаги букву и передвигает лист к Пете. Петя читает букву и переносит ее на свой лист бумаги. Если передача завершится успешно, на листе у Пети будет последовательность: «ВАСЯ». Если по столу бегает котенок, который все время норовит столкнуть передаваемый листок на пол или расцарапать бумагу, то аналогия с шумом при передаче дискретного сообщения будет полной.

Вася здесь — Источник сообщений. Лист бумаги и написанный на нем символ (буква русского алфавита), рука, которая передвигает лист — Передатчик. Стол — Канал связи. Котенок — Источник шума (особенно если любит помяукать). Петя, получающий лист с написанной на нем буквой, — Приемник. Он копирует букву на свой лист. Если Петя понимает то, что прочел (то есть он умеет читать и ни один символ не был утрачен во время передачи), значит, Сообщение дошло до Получателя. Если Петя читать не умеет — передача Сообщения не состоится. Получатель — не может его принять. Эта простая схема воспроизводится в любой сколь угодно технически изощренной системе передачи информации.

 

 

Разные сообщения несут в себе разные объемы информации. Попробуем сравнить следующие два вопроса:

1. На каком из пяти курсов университета учится студент?

2. Как упадет монета при подбрасывании: вверх «гербом» или «цифрой»?

В первом случае возможны пять равновероятных ответов, во втором – два. Следовательно, вероятность какого-то ответа во втором случае больше, чем в первом (1/2 > 1/5), в то время как неопределенность, снимаемая ответами, больше в первом случае. Любой из возможных ответов на первый вопрос снимает большую неопределенность, чем любой ответ на второй вопрос. Поэтому ответ на первый вопрос несет больше информации.

Следовательно, чем меньше вероятность какого-либо события, тем большую неопределенность снимает сообщение о его появлении и, следовательно, тем большую информацию оно несет.

Мерой количества информации Шеннон предложил считать функцию, названную им энтропией.

Пусть сообщение — осмысленное предложение на русском языке. Шеннон заметил, что при передаче различных букв мы передаем разное количество информации. Если мы передаем часто встречающиеся буквы, то информацияменьше; при передаче редких букв — больше (Рисунок 2.5). Это видно при кодировании букв алфавита азбукой Морзе (Рисунок 2.6). Наиболее частые буквы передаются коротко, а для редких используют более длинные цепочки. Так, буква «Е» кодируется одной точкой «.», а редкая «Ш» — четырьмя тире «– – – –» (это самая длинная последовательность на букву в азбуке Морзе). Следует учитывать, что изначально азбука Морзе разрабатывалась для английского языка с несколько иным распределением частот букв.

 

Буква Частота встречи, %
о 10,92 ****************************************
а 8,89 *********************************
е 8,10 ******************************
н 6,43 ************************
и 6,39 ***********************
л 5,87 **********************
т 5,76 *********************
с 5,11 *******************
к 4,57 *****************
р 4,16 ***************
в 3,65 *************
м 3,08 ***********
д 3,06 ***********
у 3,03 ***********
п 2,71 **********
ь 2,32 ********
ы 2,12 ********
з 2,00 *******
я 1,88 *******
г 1,69 ******
ч 1,67 ******
б 1,55 ******
й 1,19 ****
ш 1,01 ****
ж 0,92 ***
х 0,84 ***
ю 0,33 *
ц 0,29 *
щ 0,26 *
э 0,14 *
ф 0,06  
ъ 0,03  

 

Рисунок 2.5 – Гистограмма частот букв русского языка.

 

 

А, А ×- К, K -×- Ф, F ××-×
Б, B ×--- Л, L ×-×× Х, H ××××
В, W ×-- М, M -- Ц, C -×-×
Г, G --× Н, N Ч ---×
Д, D -×× О, O --- Ш ----
Е, E × П, P ×--× Щ, Q --×-
Ж, V ×××- Р, R ×-× Ь, X -××-
З, Z --×× С, S Ы, Y -×--
И, I ×× Т, T - Ъ ×--×-×
Й, J ×--- У, U ××- Э ×××-×××
Ю ××-- Я ×-×- ×----
××--- ×××-- ××××-
××××× -×××× --×××
---×× ----× -----
. ×-×-×- , -×--×- " ×----×
- -××××- / -××-× ? ××--××
: ---×××        

 

Рисунок 2.6 – Кодировка азбуки Морзе.

 

Количество информации на букву связано с частотой употреблений этой буквы во всех сообщениях, формируемых на языке. Чем более редкую букву мы передаем, тем больше в ней информации.

Энтропия— мера непредсказуемости. Это понятие Шеннон взял из статистической термодинамики. Пусть вероятность i-го символа алфавита, состоящего из n символов (мера частоты, с которой встречается символ во всех сообщениях языка), равна pi. Тогда информацияодного символа:

(здесь log2 — логарифм по основанию 2). Шеннон пишет: «Величина H играет центральную роль в теории информации в качестве меры количества информации, возможности выбора и неопределенности». Количество информации, передаваемое в сообщении, тесно связано с мерой неопределенности, или непредсказуемости передаваемых символов.

Знак "минус" в формуле Шеннона не означает, что количество информации в сообщении – отрицательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, (log pi) – величина отрицательная, то произведение вероятности на логарифм числа будет положительным.