Как измеряется количество информации?

Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероятности, даст не скоро. А возможно ли объективно измерить количество информации? Важнейшим результатом теории информации является следующий вывод:

В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия "количество информации", основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.

Подходы к определению количества информации. Формулы Хартли и Шеннона. Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.

Формула Хартли: I = log₂N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log₂100 > 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений:

при бросании монеты: "выпала решка", "выпал орел";
на странице книги: "количество букв чётное", "количество букв нечётное".

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = — ( p₁log₂ p₁ + p₂ log₂ p₂ + . . . + p_N log₂ p_N), где p_i — вероятность того, что именно i-е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p₁, ..., p_N равны, то каждая из них равна 1 / N, и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра).

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"—"решка", "чет"—"нечет" и т.п.). В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2⁸).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 2¹⁰ байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 2²⁰ байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 2³⁰ байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тбайт) = 1024 Гбайт = 2⁴⁰ байт,
1 Петабайт (Пбайт) = 1024 Тбайт = 2⁵⁰ байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

При этом важно отличать двоичные кратные приставки от соответствующих десятичных:

"один К" – 1 К=2¹⁰=1024 от "один кило" – 10³=1000,

"один М" – 1 М=2²⁰=1048576 от "один мега" – 10⁶=1000000 и т.д.

Этим часто злоупотребляют производители компьютерной техники, в частности, производители жестких магнитных дисков, которые при указании их информативной емкости используют меньшую единицу измерения с тем, чтобы результирующее значение выражалось бóльшим числом (как в известном мультфильме – "А в попугаях-то я длиннее!").

Очевидно, что универсального способа измерения количества информации без учета аспекта такого измерения не существует (например, сколько содержится информации в тексте литературного, музыкального, скульптурного или художественного произведения – однозначного ответа получить нельзя).

Однако, важнейшим результатом теории информации является вывод: в определенных условиях можно пренебречь качественными особенностями информации и выразить ее количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

Обработка является одной из основных операций, выполняемых над информацией, и главным средством увеличения объема и разнообразия информации. Средства обработки информации – это всевозможные устройства и системы, созданные человеком. В первую очередь, это компьютер – универсальная машина, обрабатывающая информацию путем выполнения определенных алгоритмов.

Понятие "алгоритм" так же, как и понятие "информация" относится к фундаментальным неопределяемым понятиям информатики, а также математики. Свое происхождение термин "алгоритм" берет от имени узбекского ученого, жившего в XII веке в Ташкенте – Абу Мухаммед ибн Муса аль-Маджус аль-Хорезми, который разработал правила письменных арифметических вычислений для чисел, записанных в позиционной десятичной системе счисления. В процессе перевода его научного труда на латинский язык имя автора было усечено до последней компоненты и трансформировано (в силу фонетических особенностей латиницы) в слово "Algorithmi", которым долгое время обозначались изобретенные им методы вычислений.

В наши дни этот термин имеет другое смысловое наполнение:

5rik.ru

Материалы для учебы и работы

Как измеряется количество информации?