Определение количества информации, представленной с помощью знаковых систем.

Представления и кодирование информации

Алфавитный подход.

Единицы измерения количества информации.

В информатике система единиц измерения количества информации несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например, Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10n, где п = 3, 6, 9 и т.д., что соответствует десятичным приставкам кило (103), мега (106), гига (109) и т.д.

Компьютер оперирует числами не в десятичной, а в двоичной системе счисления, поэтому в кратных единицах измерения количества информации используется коэффици­ент 2".

Следующей по величине единицей измерения количества информации является байт, причем

1 байт = 23 бит = 8 бит.

Кратные байту единицы измерения количества информации вводятся следующим образом:

1 Кбайт = 210 байт = 1024 байт

1 Мбайт = 210 Кбайт = 1024 Кбайт

1 Гбайт = 210 Мбайт = 1024 Мбайт

Информация хранится , передается, обрабатывается в символьной (знаковой) форме. Одна и также информация может быть представлена в разной форме, с помощью различных знаковых систем.

Язык – это определенная знаковая система представления информации. В основе языка лежит алфавит, т.е. набор символов (знаков) различных по начертанию.

Существуют естественные (разговорные) языки и формальные языки. Примеры формальных языков: язык музыки (нотная грамота), язык математики (цифры и математические знаки) и др.

Кодирование информации – процесс формирования определенного представления информации. В узком смысле – это замена символов одного алфавита символами другого. Достаточным алфавитом для кодирования любого другого является двоичный алфавит, содержащий два знака 0 и1.

При хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цвета точек изображения и т.д.).

Множество символов, используемых для записи текста, называется алфавитом. Полное количество символов алфавита, называется его мощностью (или размером). Если допустить, что все символы алфавита встречаются в тексте одинаково часто, то количество информации, которую несет каждый символ, определяется по формуле Хартли

, (5)

где N – мощность алфавита.

Следовательно, в 2-символьном алфавите каждый символ весит 1 бит, в 4-символьном – 2 бита, 8-символьном – 3 бита и т.д.

Один символ из алфавита мощностью 256 (28) несет в тексте 8 бит информации.

Если весь текст состоит из К символов, то при алфавитном подходе размер содержащейся в нем информации равен:

, (6)

где i – информационный вес одного символа, используемого алфавита.

Примеры.

1. Книга, изданная на русском языке содержит 150 стр.; на каждой странице – 40 строк, в каждой строке – 60 символов. Каков объем информации в книге?

Дано: N=32 (мощность русского алфавита, буква «ё» не используется),

К=40*60*150=360000 символов русского алфавита в книге.

Решение:

1. Найдем по формуле (5) информационный вес одного символа русского алфавита

i=log232=5 бит

2. Найдем объем информации в книге по формуле (6)

I=360000*5=1800000 бит, 225000 байт, 219,72Кб.

Ответ: объем информации в книге равен 219,72 Кб.

 

2. Информационное сообщение объемом 192 байта содержит 384 символа. Сколько символов содержит алфавит, при помощи которого было записано это сообщение?

Дано: К=384 (количество символов в сообщении)

I= 192 (информационный объем сообщения)

Решение:

1. Найдем информационный объем сообщения в битах I=1536 бит

2. Из формулы (6) определим i= I/K=1536/384=4 бит

3. По формуле (5) найдем 4=log2N, по определению логарифма 24=16

Ответ: мощность алфавита, при помощи которого записано сообщение 16 символов.