Эта величина одновременно характеризует неопределенность появления отдельных символов алфавита в сообщении (сигнале) и называется энтропией.


Информационная емкость показывает, какое предельное количество информации может хранить, выдавать или перерабатывать система, если она обладает конкретным алфавитом в m символов и разрядностью в n позиций.

Количество знаков алфавита или число страниц текста принято как эталон количества информации, например, в полиграфии. Цифровая информация в действительности представляет собой частный случай так называемого алфавитного способа представления дискретной информации.

Примерами сообщений являются текст телеграммы, речь оратора, показания измерительного прибора, команды управления, изображение на экране телевизора и т.д.

Под сообщением подразумевают обычно информацию выраженную в определенной форме и подлежащую передаче. Сообщение - это форма представления информации.

При определении количества информации обычно руководствуются следующим определением информации, а именно, информация - это отражение предметного мира, воспринимаемое человеком с помощью его собственных органов чувств и различной измерительной аппаратуры и выражаемое в виде сигналов и символов.Представление этой информации может бытьнепрерывным (аналоговым) или дискретным (цифровым). Если непрерывную информацию разбить на сколь угодно маленькие шаги и измерить на каждом из шагов, то получим дискретное представление той же самой информации. Поскольку точность измерения (равно как и человеческого восприятия) всегда ограничена, то фактически, даже имея дело с непрерывной информацией, человек воспринимает ее в дискретном виде. Но любая непрерывная информация может быть аппроксимирована дискретной информацией с любой степенью точности, поэтому можно говорить об универсальности дискретной формы представления информации.

Информация передается с помощью языков. Основой любого языка является алфавит.Алфавит - произвольный фиксированный конечный набор символов любой природы, из которых конструируются сообщения на данном языке. Алфавит может быть русским, латинским, десятичных чисел, двоичных чисел и т.д.

В технических информационных системах каждый новый сигнал требует ресурсов для своего отображения. Для этого используется двоичная система исчисления, где бит - это единица информации в двоичной системе ноль или единица, а байт состоит из восьми двоичных единиц.

С точки зрения теории информации (теория информации возникла в 40-ых годах с развитием техники связи) понятие "количество информации" получило точное определение во многом связанное с нашей интуитивной оценкой того нового, что несет информация, но абстрагированное от ее смыслового содержания и степени полезности для получателя. Известно, что источник информации и получатель образуют единую систему связи. В этой системе существует неопределенность относительно того, какое именно конкретное сообщение из множества сообщений источника будет выбрано для передачи. Поэтому оценка количества информации основывается на законах теории вероятностей.

Пусть алфавит данного множества дискретных сообщений состоит из m символов, а разрядность сообщения из n позиций (число возможных сообщений N = m^n), тогда информационную емкость Q принято, оценивать логарифмом числа возможных сообщений

 

 

где а - основание логарифма.

Выбор основания логарифма в принципе безразличен.

Обычно принимают а = 2. В этом случае источник. обладающий алфавитом всего из двух символов (m=2) и одной позиции (n=1), будет обладать емкостью:

 

 

Эта минимальная величина информационной емкости называется двоичной единицей информации. Она служит единицей информационной емкости различных источников и называется "бит".

Однако при этом ничего не говорится об информации, действительно содержащейся в этой системе. Чтобы подойти к определению количества информации, необходимо представить себе, как заполняется информационная емкость системы и какая ее часть действительно используется при хранении, передаче или выдаче информации.

Пусть мы имеем код с основанием m символов и разрядностью n позиций. Предположим, что символами кода являются :

вероятности появления которых не равны и составляют соответственно:

Это значит, что в сообщениях, составленных с помощью нашего кода, символ hi в среднем будет встречаться с вероятностью pi.

Составим с помощью кода сообщение. Пусть в этом сообщении hi-ым символом занято ni позиций. Искомое сообщение будет представлять собой одну из возможных комбинаций символов и позиций.

Тогда вероятность появления искомого сообщения равна :

 

 

Информационную емкость одной позиции кода сообщения можно определить по формуле:

 

 

Действительно, если вероятность появления какого-либо одного символа в данном сообщении равна единице, то при этом вероятность появления всех остальных символов равна нулю, поскольку

 

 

В этом случае энтропия сообщения равна нулю:

 

 

Важную роль в развитии теории информации сыграли математические исследования которые привели к новым определениям количества информации: комбинаторному и алгоритмическому.