При двоичном кодировании объем информации, выраженный в битах, равен длине двоичного кода, в котором информация представлена.
Объемный подход (или алфавитный)
Информация рассматривается как последовательность символов – знаков (цифр, букв, кодов цветов точек изображений и т.д.).
Алфавитный подход к измерению информации не связывает количество информации с содержательным сообщением. Алфавитный подход является объективным, т. е. он не зависит от человека, воспринимающего текст.
Рассмотрим этот подход на примере текста, написанного на каком-нибудь языке, например, на русском. Все множество используемых в языке символов будем называть алфавитом. Полное количество символов алфавита будем называть мощность алфавита. Информационная емкость знаков зависит от их количества в алфавите (мощности алфавита): чем больше их количество, тем больше количества информации несет один знак.
Например, в алфавит мощностью N=256 символов можно поместить все необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, знаки препинания и т.д. Представим себе, что текст, состоящий из 256 символов, поступает последовательно, и в каждый момент времени может появиться любой из них. Тогда по формуле (1):
2i = 256, → i=8 (бит)
Таким образом, один символ алфавита мощностью 256 символов имеет информационную емкость 8 бит.
2i=N |
где N –объем информации или мощность алфавита,
i – длина кода символа.
Как правило, компьютер работает не с отдельными битами, а с восемью битами сразу. Восемь последовательных битов образуют байт. В одном байте можно закодировать значение 1 символа из 256 возможных (256=28).
1Кб=1024Б=210 байт
1Мб=1024Кб=220 Байт
1Гб=1024Мб=230 Байт.
1Терабайт = 1024Гбайт = 240 Байт.
Условно часто считают, что 1Кбайт равен 1000 байтам.
Информационный объемтекста в памяти компьютера измеряется в байтах. Он равен количеству знаков в записи текста, умноженную на длину кода.
I=K*i
где К – количество знаков в тексте,
i – длина кода 1 символа или количество информации, которое несет 1 символ.
Одна страница текста на листе А4, 12 шрифт, одинарный интервал – объем 40000 байтов, т.к. помещается 40000 знаков.
Задача.Система оптического распознавание символов позволяет преобразовывать отсканированные изображения страниц документа в текстовый формат со скоростью 4 страницы в минуту и использует алфавит мощностью 65536 символов. Какое количество информации будет нести текстовый документ, каждая страница которого содержит 40 строк по 50 символов, после 10 минут работы приложения?
Решение:
1. Определим информационную емкость алфавита:
2i=N | 2i=65536 | i = 16 битов |
2. Определим количество информации на странице:
I=K*i | 16*40*50=32000 | I = 32000 битов=4000байтов |
3. Определим количество информации, которое будет нести текстовый документ:
4000 байтов*4 листа*10 минут=160000 байтов = 156 Кбайт
Самостоятельно:
Задача. Пользователь компьютера может вводить в минуту 200 знаков. Мощность используемого алфавита равна 256. Какое количество информации может ввести пользователь за 5 минут? (Ответ – 8000 бит = 1000 байт)