Обоснование вида функции энтропии.
Количество информации I можно оценить величиной неопределенности, устраняемой в результате принятия сообщения.
Пусть существует объект L, о котором в настоящий момент времени получатель не имеет сведений. Тогда его неопределенность H(L) равна полному незнанию об источнике данных. С получением сообщения a часть неопределенности об источнике сообщения снята, но какое-то незнание осталось – Ha (L). Тогда количество информации в сообщении можно измерить как разность между неопределенностью об источнике до сообщения и неопределенностью, оставшейся после получения сообщения:
I (L) = H (L) – Ha (L).
Мера неопределенности об источнике сообщений получила название энтропия.
Энтропия является мерой неопределенности опыта, в котором проявляются случайные события, и равна средней неопределенности всех возможных его исходов.
Для практики важно иметь возможность произвести численную оценку энтропии разных опытов.
Пусть опыт имеет n равновероятных исходов. Исходы равновероятны, если ни одно из них не имеет преимущества перед другими. Очевидно, что энтропия данного опыта зависит от величины n, т.е. является функцией числа возможных равновероятных исходов f (n):
1. f (1) = 0, поскольку возможный исход не является случайным;
2. f (n) возрастает с ростом числа возможных исходов n, поскольку чем больше число возможных исходов, тем трудней предугадать результат опыта.
Пусть проводятся два (или больше) независимых опыта a и b с количествами равновероятных исходов в каждом соответственно na и nb. Очевидно, мера суммарной неопределенности опытов a ^ b равна сумме неопределенностей:
3. f (na * nb) = f (na) + f (nb) – свойство аддитивности.
Таким образом, энтропия должна описываться функцией, обладающей тремя необходимыми свойствами – 1,2,3. Такому набору свойств соответствует лишь логарифмическая функция, причем ее основание не имеет значения (loga x = logb x * loga b). На практике выбирают основание 2, так как это оказывается удобным при принятии единицы информации бит - при n = 2 равновероятных исходах log2 n = 1 бит. Энтропия опыта с n равновероятными исходами – H (a) = log 2 (n).
Энтропия одного исхода в опыте с возможными n равновероятными исходами:
H = (1/ n) * log 2 (n) = -(1/n) * log 2 (1/n) = - p*log2 p,
где p = 1/n – вероятность любого из отдельных исходов.
Таким образом, энтропия каждого возможного исхода равна
H = - p*log2 n.
Обобщая это выражение на опыт с n не равновероятными исходами A1…An получим:
H (a) = -∑p (Ai) * log2 p (Ai).
Энтропия обладает рядом свойств:
H (a) – вещественная и неотрицательная величина (знак минус учитывает, что значение величины под логарифмом меньше единицы, т.е. 0 < pi < 1 дробное).
1. Энтропия не учитывает содержательную сторону информации, т.е. ее ценность.
2. Энтропия нескольких независимых источников сообщений равна сумме энтропии каждого из них: H (a*b) = H (a) + H (b).
3. Энтропия – величина ограниченная. При прочих равных условиях наибольшую энтропию имеет опыт с равновероятными исходами.
H
p
0, 5
Энтропия опыта равна той информации, которую получаем в результате его осуществления, т.е. I = H(a) – информация опыта равна среднему количеству информации одного его исхода.
I =–∑p (Ai) * log2 p (Ai).
Для случая, когда все n исходы равновероятны p (Ai) = 1 / n и
I =–∑p (Ai) * log2 p (Ai) =–∑(1/n) * log2 (1/n) =∑(1/n) * log2 (n) = log2 (n)
Таким образом, в случае равновероятных исходов по формуле Р. Хартли количество информации определяется числом возможных исходов. Данная формула связывает количество равновероятных состояний (n) и количество информации в сообщении (I), что любое из этих состояний реализовалось. Ее смысл в том, что, если некоторое множество содержит n элементов и x принадлежит данному множеству, то для его выделения (однозначной идентификации) среди прочих требуется количество информации, равное log2 (n).
Алфавитный (кибернетический) подход – это единственный способ измерения информации, циркулирующей в информационной технике (компьютерах). Здесь речь идет об измерении информации в тексте (символьном сообщении), составленном из символов некоторого алфавита. К содержанию текста (семантике сообщения) такая мера информации отношения не имеет. Поэтому такой подход можно назвать объективным, т.е. не зависящим от воспринимающего его субъекта.
Базовым понятием в данном подходе является понятие алфавита. Алфавит – это конечное множество символов, используемых для представления информации. Число символов в алфавите называется мощностью алфавита. В предположении, что вероятности появления каждого символа алфавита одинаковы (что на практике далеко не так), количество информации, которое несет в тексте каждый символ (i) вычисляется из уравнения Хартли: 2 ^ i = N, где N – мощность алфавита. Величину (i) можно назвать информационным весом символа. Отсюда следует, что количество информации во всем тексте, состоящим из K символов, равно произведению информационного веса символа на их количество:
I = i * K.
Величина I - информационный объем текста. Поэтому данный подход носит название объемного подхода.
Минимальная мощность алфавита, пригодного для передачи информации, равна 2. Такой алфавит называют двоичным. Информационный вес символа в двоичном алфавите: поскольку 2 ^ i = 2, то i = 1. Эта величина получила название бит. Один символ двоичного алфавита несет 1 бит информации.
Бит – основная единица измерения информации. Существуют и производные единицы измерения: 1 байт = 8 бит (256 = 2 ^8 – мощность алфавита ПК); 1 килобайт = 1024 байта, т.е больше 1 байта в 2^10 раз; 1 мегабайт = 1024 килобайта.
Говоря о символьном сообщении как последовательности знаков определенного алфавита и считая вероятность появления каждого отдельного знака неизменной во времени (шенноновское сообщение) можно определить среднее количество информации одного знака в сообщении.
Если за исходное положение принять равную вероятность появления каждого знака в сообщении, то количество информации, приходящееся на один знак алфавита, находим по формуле Хартли:
I0 = log2 (n).
Для английского алфавита I = log2 (n)=log2 27 = 4,755 бит, а для русского алфавита I = log2 (n)=log2 34 = 5,087 бит.
Определим среднее количество информации, приходящейся на один знак, если вероятности появления различных букв алфавита в сообщении не одинаковы:
I1 =–∑p i * log2 p i.
Эту формулу открыл К. Шеннон, с работы которого (1948) принято начинать отсчет возраста информатики, как самостоятельной науки.
Следующим приближением при оценке значения информации, приходящейся на один знак алфавита, должен быть учет корреляции, т.е. связей между буквами в словах. Значение I∞, полученное после учета бесконечного числа корреляций между буквами данного алфавита в словах, является предельным значением количества информации на один знак данного алфавита, отражающей минимальную неопределенность выбора знака алфавита без учета семантических особенностей языка.
Относительная избыточность языка R = 1 – (I∞ / I0) показывает долю лишней информации текстов данного языка. Лишней в том отношении, что эта доля определяется структурой самого языка и может быть восстановлена в сообщении без явного выражения в буквенном виде.