Алфавитный подход к определению количества информации

Пример

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется:

использовать формулу (1) I = log2100 > 6,644

Ответ:

Сообщение о верно угаданном числе (мощность алфавита = 100) содержит количество информации, приблизительно равное 6,644 единицы информации на каждый знак числа из ста.

При хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность символов — знаков (букв, цифр, кодов цветов точек изображения и т.д.)

Алфавит- набор всех допустимых символов знаковой системы.

(3)
Алфавит можно рассматривать как различные возможные состояния (события). Тогда, если считать, что появление символов в сообщении равновероятно, по формуле (2) можно рассчитать, какое количество информации несет в себе каждый символ или знак (например, запятая в числе с фиксированной запятой).

N = 2I

Iс = I·K (4)

где N – мощность алфавита, I- количество информации, которое несет в себе каждый символ алфавита, K-количество знаков в сообщении, Iс- количество информации в сообщении при алфавитном подходе

Например, мощность алфавита из русских букв и дополнительных символов: 32 буквы + 10 цифр + 11 знаков препинания + скобки + пробел = 56

 

Алфавитный подход позволяет измерять количество информации в тексте (символьном сообщении), составленном из символов некоторого алфавита.

Формула (3) связывает между собой количество возможных информационных сообщений N и количество информации I, которое несет полученное сообщение. Тогда в рассматриваемой ситуации N - это количество знаков в алфавите знаковой системы, а I - количество информации, которое несет каждый знак.

Так количество букв в русском алфавите составляет 32 (без буквы Ё).

Информационная емкость одной буквы при допущении равновероятностного появления всех букв (в действительности это не так) :

32= 25 = 2I, т.е. I = 5 битов на 1 букву

Iс - количество информации в сообщении при алфавитном подходе.

На основании алфавитного подхода можно подсчитать количество информации в сообщенииIc , для этого необходимо умножить количество информации, которое несет один символ I, на количество символовК в сообщении

Ic = I*K

Для компьютера применяется ASCII – кодировка или UNICODE – кодировка.

N = 2I

IASCII = 8 бит = 1 байт NASCII = 28 = 256 символов

IUNICODE = 16 бит = 2 байта NUNICODE = 216 = 65 536 символов

Пример:

Имеем набор символов в слове“Город”.

1. какое количество информации в сообщении ? будет иметь слово “Город” .

2. Какойинформационный объем текста в 8 – битовой кодировке? ;

1. Количество информации в сообщении слова “Город”