Измерение информации
Юникод. UTF-8
Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=216=65 536 символов.
Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.
С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.
В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.
Для символов кириллицы в Юникоде выделено два диапазона кодов:
Cyrillic (#0400 — #04FF)
Cyrillic Supplement (#0500 — #052F).
Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.
Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.
При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).
Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).
Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2i .
Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i.
Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе:
N=2i | i | Информационный вес символа, бит |
N | Мощность алфавита | |
I=K*i | K | Количество символов в тексте |
I | Информационный объем текста |
Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:
Тип | Дано | Найти | Формула | |
i | N | N=2i | ||
N | i | |||
i,K | I | I=K*i | ||
i,I | K | |||
I, K | i | |||
N, K | I | Обе формулы | ||
N, I | K | |||
I, K | N |
Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?
Решение:
Дано:
i=4 | По формуле N=2i находим N=24, N=16 |
Найти: N - ? |
Ответ: 16
Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?
Решение:
Дано:
i=8 | По формуле N=2i находим N=28, N=256 |
Найти: N - ? |
Ответ: 256
Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?
Решение:
Дано:
N=32 | По формуле N=2i находим 32=2i, 25=2i, i=5 |
Найти: i- ? |
Ответ: 5
Задача 4.Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?
Решение:
Дано:
N=100 | По формуле N=2i находим 32=2i, 25=2i, i=5 |
Найти: i- ? |
Ответ: 5
Литература:
1. Информатика:учебник. Под ред.Н.Макаровой –М.:Финансы и статистика, 2000, 768с.
2. Симонович В.С. Информатика базовый курс:Учебник –М.:Питер, СПб,2000 – Пресс, 2000, 680с.
3. Симонович В.С. Информатика для экономистов и юристов:Учебник – М.:Питер, СПб, 2000-Пресс, 2000, 680с.
4. Операционная система Windows 95. Для программиста –М.: ДИАЛОГ-МИФИ, 1996.-288с.
Вернуться в Подготовку к семинару
Вернуться в Подготовку к практическому