Универсальная система кодирования текстовых данных

Краткая информация о других системах кодирования.

Системы кодирования текстовых данных были разработаны и в других странах. Так, например, в СССР в этой области действовала система кодирования КОИ-7, КОИ-8.

КОИ-8

Все символы в компьютерном алфавите пронумерованы от 0 до 255. Каждому номеру соответствует 8-разрядный двоичный код (от 00000000 до 11111111). Этот код есть порядковый номер символа в двоичной системе счисления.

Кодировка символов русского языка, известная как кодировка UTF-8, была введена "извне" – компанией Microsoft, но учитывая широкое распространение операционных систем и других продуктов этой компании в России она нашла широкое распространение в России. Эта кодировка используется на большинстве локальных компьютеров, работающих на платформе Windows.

Другая распространенная кодировка носит название КОИ-8 (код обмена информацией, восьмизначный) – ее происхождение относится ко времени действий Совета Экономической Взаимопомощи государств Восточной Европы. Сегодня кодировка КОИ-8 имеет широкое распространение в компьютерных сетях на территории России и в российском секторе Интернета.

Международный стандарт, в котором предусмотрена кодировка символов русского алфавита, носит название ISO (International Standard Organization – Международный институт стандартизации). На практике данная кодировка используется редко.

Подводя некоторый итог, можно сказать, что текст в компьютере (текстовый файл) – это файл, в котором каждый байт интерпретируется как изображаемый символ в некоторой системе кодировки. Кроме кодов изображаемых символов, текстовые файлы включают также ряд управляющих кодов, например, код перевода строки, конца файла и др.

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В то же время, очевидно, что если, например, кодировать символы не восьмиразрядными двоичными числами, а числами с большим количеством разрядов, то и диапазон возможных значений кодов станет намного больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной Unicode. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65536 различных символов – этого поля достаточно для размещения в одной таблице символов большинства языков планеты.

Сегодня наблюдается постепенный переход документов и программных средств на универсальную систему кодирования.

Таким образом в интерпретации файла в формате Unicode каждые два байта интерпретируется как изображаемый символ. как и в других кодировках кроме кодов изображаемых символов, файл в формате Unicode включат ряд управляющих кодов, например, перевода строки, конца файла. и др.

Контрольные вопросы:

1. Три уровня проблем передачи информации.

2. Вероятностный и объемный поход к измерению количества информации.

3. Понятие энтропии.

4. Меры информации

5. Объем информации V (объемный подход).

6. Количество информации / (энтропийный/вероятностный подход)

7. Кодирование символьной информации. Математическая постановка задачи кодирования.

8. Равномерное алфавитное кодирование. Преставление символьной информации в компьютере. Системы кодирования.

5rik.ru

Материалы для учебы и работы

Универсальная система кодирования текстовых данных