Определение количества информации, представленной с помощью знаковых систем.
Представления и кодирование информации
Алфавитный подход.
Единицы измерения количества информации.
В информатике система единиц измерения количества информации несколько отличается от принятых в большинстве наук. Традиционные метрические системы единиц, например, Международная система единиц СИ, в качестве множителей кратных единиц используют коэффициент 10n, где п = 3, 6, 9 и т.д., что соответствует десятичным приставкам кило (103), мега (106), гига (109) и т.д.
Компьютер оперирует числами не в десятичной, а в двоичной системе счисления, поэтому в кратных единицах измерения количества информации используется коэффициент 2".
Следующей по величине единицей измерения количества информации является байт, причем
1 байт = 23 бит = 8 бит.
Кратные байту единицы измерения количества информации вводятся следующим образом:
1 Кбайт = 210 байт = 1024 байт
1 Мбайт = 210 Кбайт = 1024 Кбайт
1 Гбайт = 210 Мбайт = 1024 Мбайт
Информация хранится , передается, обрабатывается в символьной (знаковой) форме. Одна и также информация может быть представлена в разной форме, с помощью различных знаковых систем.
Язык – это определенная знаковая система представления информации. В основе языка лежит алфавит, т.е. набор символов (знаков) различных по начертанию.
Существуют естественные (разговорные) языки и формальные языки. Примеры формальных языков: язык музыки (нотная грамота), язык математики (цифры и математические знаки) и др.
Кодирование информации – процесс формирования определенного представления информации. В узком смысле – это замена символов одного алфавита символами другого. Достаточным алфавитом для кодирования любого другого является двоичный алфавит, содержащий два знака 0 и1.
При хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассматривать ее как последовательность знаков (букв, цифр, кодов цвета точек изображения и т.д.).
Множество символов, используемых для записи текста, называется алфавитом. Полное количество символов алфавита, называется его мощностью (или размером). Если допустить, что все символы алфавита встречаются в тексте одинаково часто, то количество информации, которую несет каждый символ, определяется по формуле Хартли
, (5)
где N – мощность алфавита.
Следовательно, в 2-символьном алфавите каждый символ весит 1 бит, в 4-символьном – 2 бита, 8-символьном – 3 бита и т.д.
Один символ из алфавита мощностью 256 (28) несет в тексте 8 бит информации.
Если весь текст состоит из К символов, то при алфавитном подходе размер содержащейся в нем информации равен:
, (6)
где i – информационный вес одного символа, используемого алфавита.
Примеры.
1. Книга, изданная на русском языке содержит 150 стр.; на каждой странице – 40 строк, в каждой строке – 60 символов. Каков объем информации в книге?
Дано: N=32 (мощность русского алфавита, буква «ё» не используется),
К=40*60*150=360000 символов русского алфавита в книге.
Решение:
1. Найдем по формуле (5) информационный вес одного символа русского алфавита
i=log232=5 бит
2. Найдем объем информации в книге по формуле (6)
I=360000*5=1800000 бит, 225000 байт, 219,72Кб.
Ответ: объем информации в книге равен 219,72 Кб.
2. Информационное сообщение объемом 192 байта содержит 384 символа. Сколько символов содержит алфавит, при помощи которого было записано это сообщение?
Дано: К=384 (количество символов в сообщении)
I= 192 (информационный объем сообщения)
Решение:
1. Найдем информационный объем сообщения в битах I=1536 бит
2. Из формулы (6) определим i= I/K=1536/384=4 бит
3. По формуле (5) найдем 4=log2N, по определению логарифма 24=16
Ответ: мощность алфавита, при помощи которого записано сообщение 16 символов.