Кодирование текстовой информации

Кодирование графической информации

Любой цвет можно представить в виде трех основных цветов: красного, зеленого и синего. В связи с этим цвета кодируются с помощью трех байтов. Первый отвечает за красный цвет, второй – за зеленый, а третий - за синий. Чем больше значения байта цветовой составляющей, тем выше яркость этого цвета. Задавая любые значения от 0 до 255 для каждого из байтов, можно закодировать любой из 16.5 млн. цветов.

При кодировании изображение разбивается на точки (пиксели). Чем больше количество таких точек, тем выше качество изображения. Когда рисунок разбит на точки, тогда можно, двигаясь по строкам, закодировать цвет каждой точки. В некоторых форматах кроме трех основных цветов может добавляться байт прозрачности, определяющий, на сколько тот или иной цвет прозрачен по отношению к базовому. Размер получившегося файла можно рассчитать по формуле , где H – Высота изображения, W – ширина изображения, q – количество байт, которыми кодируется одна точка.

В файле рисунка храниться информация о высоте и ширине изображения. Это необходимо для того, чтобы при раскодировании изображения у нас получилась двумерная картинка, а не линейная последовательность цветов.

 

Любой текст состоит из последовательности символов. Символами могут быть буквы, цифры, знаки препинания, знаки математических действий, круглые и квадратные скобки и т.д.

Текстовая информация, как и любая другая, хранится в памяти компьютера в двоичном виде. Для этого каждому символу ставится в соответствие некоторое неотрицательное число, называемое кодом символа, и это число записывается в память ЭВМ в двоичном виде. Конкретное соответствие между символами и их кодами называется системой кодировки.

В современных ЭВМ, в зависимости от типа операционной системы и конкретных прикладных программ, используются 8-разрядные и 16-разрядные (Windows 95, 98, NT) коды символов. Использование 8-разрядных кодов позволяет закодировать 256 различных знаков, этого вполне достаточно для представления многих символов, используемых на практике. При такой кодировке для кода символа достаточно выделить в памяти один байт. Так и делают: каждый символ представляют своим кодом, который записывают в один байт памяти.

В персональных компьютерах обычно используется система кодировки ASCII (American Standard Code for Information Interchange - американский стандартный код для обмена информации). Он введен в 1963 г. и ставит в соответствие каждому символу семиразрядный двоичный код. Легко определить, что в коде ASCII можно представить 128 символов.

В системе ASCII закреплены две таблицы кодирования базовая и расширенная. Базовая таблица закрепляет значения кодов от 0 до 127, а расширенная относится к символам с номерами от 128 до 255.

Если проанализировать организационные трудности, связанные с созданием единой системы кодирования текстовых данных, то можно прийти к выводу, что они вызваны ограниченным набором кодов (256). В то же время, очевидно, что если, кодировать символы не восьмиразрядными двоичными числами, а числами с большим разрядом то и диапазон возможных значений кодов станет на много больше. Такая система, основанная на 16-разрядном кодировании символов, получила название универсальной - UNICODE. Шестнадцать разрядов позволяют обеспечить уникальные коды для 65 536 различных символов - этого поля вполне достаточно для размещения в одной таблице символов большинства языков планеты.