Избыточность информации, причины ее появления.
Лекция 3
Тема 3. Эффективное кодирование источника дискретных сообщений в канале без помех.
Для нахождения максимальной пропускной способности системы связи необходимо уметь определять максимальное количество информации, которое может быть передано при помощи символов данного алфавита за единицу времени. Известно, что максимальное количество информации на символ сообщения H=logN можно получить только в случае равновероятных и независимых символов. Реальные источники сообщений редко полностью удовлетворяют этому условию, поэтому информационная нагрузка на каждый их символ обычно меньше той, которую они могли бы переносить.
Как правило символы первичного источника при передаче в канал связи подвергаются кодировке для приведения их к виду, необходимому для передачи в канал, например кодируются в двоичный код. При этом одному первичному символу соответсвует кодовое слово кодера первичного источника.
Поскольку информационная нагрузка на каждый символ первичного источника обычно меньше той, которую они могли бы переносить, то символы информационно недогружены и само сообщение обладает информационной избыточностью.
Понятие избыточности в теории информации и кодирования введено для количественного описания информационного резерва кода, из которого составлено сообщение. Сама постановка такой задачи стала возможной именно потому, что информация является измеримой величиной, каков бы ни был частный вид рассматриваемого сообщения.
Статистическая избыточность обусловливается неравновероятностным распределением символов первичного алфавита и их взаимозависимостью.
Например, для английского алфавита, состоящего из 26 букв, максимальное значение энтропии
Hmax=log2m=log226=4,7 бит
При учете частоты появления букв в текстах, передаваемую информацию можно значительно сжать, сократить.
Отношение μ=H/Нmах называют коэффициентом сжатии, или относительной энтропией, а величину
избыточностью.
Из этого выражения очевидно, что избыточность меньше у тех сообщений, у которых больше энтропия первичного алфавита.
Энтропия может быть определена как информационная нагрузка на символ сообщения. Избыточность определяет недогруженность символов. Если Н = Hmах, то согласно выражению недогруженности не существует и D=0.
В остальных случаях тем же количеством кодовых слов может быть предано большее символов. Например, кодовым словом их трех двоичных разрядов мы можем передать и 5 и 8 символов.
Фактически для передачи первичного символа в двоичном коде достаточно иметь длину кодовой комбинации при кодировании первичных символов.
где N — общее количество передаваемых символов, m число символов вторичного алфавитов. Для N=5
Однако эту цифру необходимо округлить до ближайшего целого числа, так как длина кода не может быть выражена дробным числом. Округление производится в большую сторону.
В общем случае избыточность от округления
k — округленное до ближайшего целого значение µ.
Для нашего примера
Цифра 0,227 характеризует степень недогруженности кода.
Рассмотрим, что можно сделать для уменьшения избыточности первичного алфита (источника символов). Рассмотрим источник сообщений, выдающий сиволы А с вероятностью появления p(A)=0.9 и В с p(B)=0.1
В этом случае энтропия источника Н=0.47 бит/с, Нмах=log2=1бит/с.
Избыточность D=1-(0.47/1)=0.53.
Как её уменьшить?