Кодирование

Лекция 4 СЛАЙД 52

Сама по себе информация нематериальна, но она передается в виде сообщений и может быть представлена в различных материальных формах. Чаще всего сообщения формируются из отдельных знаков. Такие сообщения называют дискретными (от лат. discretus – прерывистый).

Для того чтобы извлечь информацию из сообщения, нужно знать правила истолкования сообщений, ибо одно и тоже сообщение может нести различную информацию. Например, звонок в школе может означать начало урока или конец перемены. И наоборот, одна и та же информация может быть записана на различных языках (русском, китайском).

Конечное упорядоченное множество символов называется алфавитом. Под символами будем понимать не только буквы и цифры, но и любые отличимые друг от друга объекты. Мощностью алфавита называется количество содержащихся в нем символов.

Совокупность правил построения сообщений из символов некоторого алфавита и правил истолкования этих сообщений называется языком.

Процесс перевода сообщения с одного языка на другой называется кодированием. При вводе в компьютер информация кодируется, а при выводе – декодируется. Кодирование используется для представления информации в удобной для обработки форме, а иногда – для обеспечения секретности передаваемой информации. В последнем случае обычно говорят не “кодирование”, а “шифрование ”.

Особое место в информатике занимает двоичный алфавит, который является алфавитом минимальной мощности, пригодным для представления информации. Любые дискретные сообщения (числа, тексты, картинки, фильмы и аудиозаписи) можно закодировать с помощью двоичного алфавита, представив их в виде последовательности нулей и единиц. Такое кодирование называется двоичным кодированием, а код – двоичным кодом. Знаки двоичных алфавитов легко используются в технических устройствах (один знак – нет сигнала, другой знак – есть сигнал), в математике (0 и 1), в логике («истина» и «ложь»).

Если информация представлена в виде дискретного сообщения, то логично считать количеством информации его длину, то есть общее число символов в сообщении. Но длина сообщения зависит не только от содержащейся в нем информации - на нее влияет мощность алфавита используемого языка.

Информационный объем сообщений принято измерять в битах. Один бит (binary digit –двоичная цифра) соответствует одному знаку двоичного алфавита (0 или 1).

Чтобы измерить длину (объем) сообщения, его нужно представить в двоичном виде и подсчитать количество двоичных знаков – битов. Одним битом (0 или 1) можно закодировать два символа алфавита. Двумя битами можно выразить четыре различных символа: 00 01 10 11. Тремя битами можно закодировать восемь различных символов: 000 001 010 011 100 101 110 111

Пусть сообщение в двоичном алфавите выглядит следующим образом: 000100010010. Мы не знаем, какая информация была заложена в этом сообщении, но его длина 12 двоичных знаков, и, следовательно, его информационный объем равен 12-ти битам.

Если алфавит содержит 2n символов, то каждый из его символов можно закодировать с помощью n знаков двоичного алфавита. Таким образом, объем информации, содержащейся в сообщении длиной m (где m – число кодируемых символов) при использовании алфавита мощностью 2n, равен m*n бит. Информационный объем слова Computer, состоящего из 8 символов (m=8), при использовании алфавита мощностью 2n = 28 составит m*n = 8*8 = 64 бита.

Мы обычно выполняем арифметические действия, используя десятичную систему счисления (основание системы 10).

Исходные данные, такие как текст, визуальные изображения, звук или другие формы, должны быть введены первоначально в компьютер и соответствующим образом преобразованы, чтобы они могли обрабатываться и использоваться в компьютерной системе. Компьютеры выполняют все операции, используя двоичную систему счисления (основание системы 2). Все программные коды и данные хранятся и обрабатываются в двоичной форме. Данные, вводимые как буквы, цифры и знаки препинания, известны как буквенно-цифровые данные.

Чаще всего используют два буквенно-цифровых кода. Один, известный, как 8- битный буквенно-цифровой код ASCII (American Standard Code for Information Interchange, произносится “as-key”- Американский Стандартный Код для Обмена Информацией), с помощью которого можно закодировать 2n = 28 = 256 различных символов, каждый из которых кодируется группой из 8 двоичных знаков или 8 бит (например, 00010011). Другой - как 16-битный код Unicode, который может закодировать 2n = 216 = 65 536 различных символов, каждый из которых кодируется группой из 16 бит.

Найдем информационный объем слова SOS, записанного в компьютерной кодировке. В слове SOS три символа, следовательно, его информационный объем 3*8=24 бит (при использовании кода ASCII) или 3*16=48 бит (при использовании кода Unicode).

Различают следующие системы счисления: двоичную BIN - binary (в этой системе всего два знака – 0 и 1), восьмеричную OCT - octal (в этой системе счисления 8 знаков: 0, 1, 2, 3, 4, 5, 6, 7), десятичную DEC - decimal (в системе 10 знаков: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9) и шестнадцатеричную HEX - hexadecimal ( 16 знаков: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F).

Основание системы счисления – это количество различающихся цифр, включая 0, которые используются в этой системе счисления.


Приведем таблицу некоторых чисел, записанных в системах счисления с основаниями 10, 8, 2 и 16.


Число в десятичной системе счисления
В восьмеричной
В двоичной
В шестнадцатеричной A B C D E F

 

Бит – это очень мелкая единица, с которой не всегда удобно работать, поэтому для практических нужд вводят более крупные единицы. Биты обычно используются в группах по 8 (известные как байт), 16 (полуслово), 32 (слово) и 64 бит (двойное слов). Число битов в группе, при выполнении вычислений, влияет на точность и величину числа, обрабатываемого компьютером.

Наиболее используемой единицей является байт - 8 бит памяти (можно закодировать 256 различных символов), когда каждой букве или символу шрифта присваивают уникальный двоичный код от 00000000 до 11111111. При нажатии на клавишу клавиатуры с каким-либо символом шрифта в память компьютера поступает сигнал из восьми строго определенных импульсов. Процесс вывода символа на экран или в печать заключается в обратном преобразовании - декодировании.

Для удобства, помимо бита и байта используются более крупные единицы измерения количества информации. Вот соотношения между ними:

1 байт = 23 бит = 8 бит

1 килобайт (Кб) = 210 байт = 1024 байт

1 мегабайт (Мб) = 1024 Кб

1 гигабайт (Гб) = 1024 Мб

1 терабайт (Тб) = 1024 Гб

Таким образом, один бит – наименьшая единица передачи или хранения информации. Один байт – состоит из 8 бит и способен передать или сохранить один символ (букву, число, пробел или знак препинания).