Энтропия и информация
Один из создателей кибернетики Н. Винер писал: «Если XII столетие и начало XIII столетия — век часов, а конец XVIII и все XIX столетие — век паровых машин, то настоящее время есть век связи и управления». Связь, без которой не может быть управления, — это передача информации, т.е. сведений, которыми обмениваются саморегулирующиеся системы (живые организмы и искусственно созданные человеком автоматы) для своей деятельности. Наука о способах измерения информации и условиях ее оптимальной передачи и хранения называется теорией информации.
Для измерения количества информации К. Шеннон предложил использовать вероятностную энтропийную функцию Больцмана. Это было сделано на основе следующих соображений.
Выпадение орла или решки при бросании монеты означает получение определенного количества информации о результате бросания. Вероятность выпадения орла Р = 1/2. Число равновероятных возможностей или так называемый статистический вес состояния брошенной монеты Γ = 2. При бросании кубической игральной кости выпадение, скажем, трех очков происходит с вероятностью Р = 1/6. Статистический вес состояния брошенной кости Γ = 6. При падении кости получаемая информация больше, чем при падении монеты. Реализация менее вероятного события, имеющего соответственно больший статистический вес, дает больше информации. Связь информации со статистическим весом Γ находится на основе тех же соображений, которые привели к уравнению, связывающему энтропию с термодинамической вероятностью состояния. Информация подчиняется правилу аддитивности (складывается), а статистический вес — правилу мультипликативности (умножается).
Этому условию удовлетворяет логарифмическая функция. В теории информации константа была принята равной единице, а основание логарифма — двум. Таким образом, количество информации стало определяться выражением I = log2Γ.
В качестве единицы измерения информации, названной бит, принята информация, получаемая при бросании монеты (или ответе на вопрос в форме «да» или «нет»), когда Γ = 2 (I = log22 = 1).
Для вычисления статистического веса в уравнении К. Шеннон применил функцию Больцмана, которую тот ввел, выражая термодинамическую вероятность состояния (статистический вес) равновесной изолированной молекулярной системы – идеального газа — в уравнении через вероятностные характеристики распределения молекул в нем. Формула Больцмана для энтропии газа, приходящейся на одну молекулу (статистическая энтропия), имеет вид , где Pi = = Ni/N — вероятность появления молекул с энергией Ei; N – общее число молекул.
К. Шеннон, использовав функцию Больцмана вместо логарифма статистического веса, записал выражение для количества информации в сообщении (тексте), содержащем N букв из M-буквенного алфавита (где М = 32 с учетом пробела, мягкого и твердого знаков), в виде , где Pi = Ni/N — вероятность появления данной буквы в тексте; a N – общее число букв. Данная функция была названа Шенноном энтропией информации.
Следует сразу же подчеркнуть, что термином энтропия, которым в термодинамике была названа функция состояния макроскопической системы (тепловая координата состояния), здесь названо нечто совершенно иное, ничего общего не имеющее с состоянием материальной системы.
Путем статистического анализа множества текстов было установлено фактическое значение вероятности появления отдельных букв: Pпробел = 0,175; Р0 = 0,090; Ра = 0,072; Ре = 0,062; Ри = 0,062; Рт = 0,053; Рн = 0,053; Рс = 0,045; Рр = 0,040 и т.д. Подстановка фактических значений вероятностей в формулу дает энтропию информации P = 4 бит на букву. Т.е. количество информации в сообщении, приходящейся на букву, уменьшилось, так как мы уже располагаем предварительной информацией о частотах встречаемости букв.
Уменьшение энтропии информации системы при накоплении информации, связанное с увеличением неоднородности распределения вероятностей Pi в системе, послужило основанием для расширенного толкования энтропии информации как меры упорядоченности любых статистических форм движения материальных систем. Возникла идея рассматривать энтропию в качестве обобщенной математической модели всех протекающих в мире эволюционных процессов, сопровождающихся переходом от предельно стохастического состояния системы (при котором все Pi равны между собой) к детерминированному состоянию с максимально дифференцированными значениями Pi.
Многие ученые, в том числе и К. Шеннон, не разделяют идею расширенного всеобъемлющего толкования функции Больцмана и термина энтропии при анализе различных явлений. Термин «энтропия» и в теории информации далек по смыслу от того, что было Р. Клаузиусом названо энтропией. Формальное расширение области его приложения будет только усложнять изучающим понимание тех или иных проблем, и создавать иллюзию об энтропии как некой универсальной величине, характеризующей системы самой разнообразной физической (и даже нефизической) природы.
В этой связи полезно привести слова того же Шеннона: «Очень редко удается открыть несколько тайн природы одним и тем же ключом».
Лекция 15 Явление переноса.