В общем случае каждый из знаков появляется в сообщении с различной вероятностью.
Кількість інформації за К. Шеноном
Рассмотренная выше оценка информации по Р.Хартли основана на предположении о равновероятности всех знаков алфавита источника сообщения.
К. Шеннон рассматривал порождение знаков сообщений в условиях вероятностной схемы:
, , ,
где каждый знак сообщения, а значит и само сообщение, имеет разную вероятность появления.
Относительно количества информации, содержащегося в сообщении длины , составленном по схеме независимых испытаний, К. Шеннон высказал следующие требования:
a. Пустое сообщение не содержит информации.
b. Количество информации, содержащееся в сообщении, пропорционально его длине.
Пусть на основании статистического анализа известно, что в сообщении длиныn знак ai появляется ni раз, т.е. вероятность появления знака из m-значного алфавита в сообщении длиныn:
, i = 1,2,3, ... , m
Все знаки алфавита составляют полную систему случайных событий, поэтому:
.
Найдем оценку среднего значения количества информации знака алфавита в сообщении длины в виде:
где ni ‑ частота появления i-го знака в заданном множестве A;
n – длина сообщения;
m ‑ количество знаков в алфавите сообщения;
Ii ‑ количество информации i-го сообщения.
Тогда при , получим:
Переходя к произвольным основаниям логарифмов, получают формулы Шеннона для энтропии источника сообщения и количества информации в сообщении длины :
Таким образом, энтропия источника сообщения является суммой с противоположным знаком всех произведений вероятности появления i-го знака (элементарного сообщения источника), умноженных на их же двоичные логарифмы.
Энтропия — это количество информации, приходящейся на одно элементарное сообщение источника, вырабатывающего статистически независимые сообщения.
Энтропия — мера неопределённости или непредсказуемости информации, неопределённость появления какого-либо символа первичного алфавита. При отсутствии информационных потерь численно равна количеству информации на символ передаваемого сообщения.
Например, в последовательности букв, составляющих какое-либо предложение на русском языке, разные буквы появляются с разной частотой, поэтому неопределённость появления для некоторых букв меньше, чем для других. Если же учесть, что некоторые сочетания букв (в этом случае говорят об энтропии n-ого порядка) встречаются очень редко, то неопределённость ещё более уменьшается.