В общем случае каждый из знаков появляется в сообщении с различной вероятностью.

Кількість інформації за К. Шеноном

Рассмотренная выше оценка информации по Р.Хартли основана на предположении о равновероятности всех знаков алфавита источника сообщения.

К. Шеннон рассматривал порождение знаков сообщений в условиях вероятностной схемы:

, , ,

где каждый знак сообщения, а значит и само сообщение, имеет разную вероятность появления.

Относительно количества информации, содержащегося в сообщении длины , составленном по схеме независимых испытаний, К. Шеннон высказал следующие требования:

a. Пустое сообщение не содержит информации.

b. Количество информации, содержащееся в сообщении, пропорционально его длине.

 

Пусть на основании статистического анализа известно, что в сообщении длиныn знак ai появляется ni раз, т.е. вероятность появления знака из m-значного алфавита в сообщении длиныn:

, i = 1,2,3, ... , m

Все знаки алфавита составляют полную систему случайных событий, поэтому:

.

Найдем оценку среднего значения количества информации знака алфавита в сообщении длины в виде:

 

где ni ‑ частота появления i-го знака в заданном множестве A;

n – длина сообщения;

m ‑ количество знаков в алфавите сообщения;

Ii ‑ количество информации i-го сообщения.

 

Тогда при , получим:

 

Переходя к произвольным основаниям логарифмов, получают формулы Шеннона для энтропии источника сообщения и количества информации в сообщении длины :


Таким образом, энтропия источника сообщения является суммой с противоположным знаком всех произведений вероятности появления i-го знака (элементарного сообщения источника), умноженных на их же двоичные логарифмы.

 

Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.

Энтропия — мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.

Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии n-ого порядка) встречаются очень редко, то неопределённость ещё более уменьшается.