Измерение информации

Юникод. UTF-8

Теоретически давно существует решение этих проблем. Оно называется Unicode (Юникод). Unicode – это кодировочная таблица, в которой для кодирования каждого символа используется 2 байта, т.е. 16 бит. На основании такой таблицы может быть закодировано N=216=65 536 символов.

Юникод включает практически все современные письменности, в том числе: арабскую, армянскую, бенгальскую, бирманскую, греческую, грузинскую, деванагари, иврит, кириллицу, коптскую, кхмерскую, латинскую, тамильскую, хангыль, хань (Китай, Япония, Корея), чероки, эфиопскую, японскую (катакана, хирагана, кандзи) и другие.

С академической целью добавлены многие исторические письменности, в том числе: древнегреческая, египетские иероглифы, клинопись, письменность майя, этрусский алфавит.

В Юникоде представлен широкий набор математических и музыкальных символов, а также пиктограмм.

Для символов кириллицы в Юникоде выделено два диапазона кодов:

Cyrillic (#0400 — #04FF)

Cyrillic Supplement (#0500 — #052F).

Но внедрение таблицы Unicode в чистом виде сдерживается по той причине, что если код одного символа будет занимать не один байт, а два байта, то для хранения текста понадобится вдвое больше дискового пространства, а для его передачи по каналам связи – вдвое больше времени.

Поэтому сейчас на практике больше распространено представление Юникода UTF-8 (Unicode Transformation Format). UTF-8 обеспечивает наилучшую совместимость с системами, использующими 8-битные символы. Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. Остальные символы Юникода изображаются последовательностями длиной от 2 до 4 байтов. В целом, так как самые распространенные в мире символы – символы латинского алфавита - в UTF-8 по-прежнему занимают 1 байт, такое кодирование экономичнее, чем чистый Юникод.

 

 

 

При хранении и передаче информации с помощью технических устройств информацию следует рассматривать как последовательность символов - знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаковой системы (алфавит) можно рассматривать как различные возможные состояния (события).

Тогда, если считать, что появление символов в сообщении равновероятно, количество возможных событий N можно вычислить как N=2i .

Количество информации в сообщении I можно подсчитать, умножив количество символов K на информационный вес одного символа i.

Итак, имеются формулы, необходимые для определения количества информации в алфавитном подходе:

N=2i i Информационный вес символа, бит
  N Мощность алфавита
I=K*i K Количество символов в тексте
  I Информационный объем текста

Возможны следующие сочетания известных (Дано) и искомых (Найти) величин:

 

Тип Дано Найти Формула
i N N=2i
N i  
i,K I I=K*i  
i,I K  
I, K i  
N, K I Обе формулы  
N, I K  
I, K N  

 

 

Задача 1. Один символ алфавита «весит» 4 бита. Сколько символов в этом алфавите?

Решение:

Дано:

i=4 По формуле N=2i находим N=24, N=16
Найти: N - ?  

Ответ: 16

Задача 2. Каждый символ алфавита записан с помощью 8 цифр двоичного кода. Сколько символов в этом алфавите?

Решение:

Дано:

i=8 По формуле N=2i находим N=28, N=256
Найти: N - ?  

Ответ: 256

Задача 3. Алфавит русского языка иногда оценивают в 32 буквы. Каков информационный вес одной буквы такого сокращенного русского алфавита?

Решение:

Дано:

N=32 По формуле N=2i находим 32=2i, 25=2i, i=5
Найти: i- ?  

Ответ: 5

Задача 4.Алфавит состоит из 100 символов. Какое количество информации несет один символ этого алфавита?

Решение:

Дано:

N=100 По формуле N=2i находим 32=2i, 25=2i, i=5
Найти: i- ?  

Ответ: 5

 

 

Литература:

1. Информатика:учебник. Под ред.Н.Макаровой –М.:Финансы и статистика, 2000, 768с.

2. Симонович В.С. Информатика базовый курс:Учебник –М.:Питер, СПб,2000 – Пресс, 2000, 680с.

3. Симонович В.С. Информатика для экономистов и юристов:Учебник – М.:Питер, СПб, 2000-Пресс, 2000, 680с.

4. Операционная система Windows 95. Для программиста –М.: ДИАЛОГ-МИФИ, 1996.-288с.

Вернуться в Подготовку к семинару

 

Вернуться в Подготовку к практическому