Измерение информации

И кодирование информации.

Введение. История информатики. Измерение

Лекция 1.

Практические рекомендации

1. Используйте различные инструменты для поиска информации разного профиля. Поиск в каталоге дает представление о структуре вопроса, поисковая система позволяет найти конкретный документ.

2. Избегайте общих слов, осуществляя поиск в поисковой машине. Чем уникальнее ключевое слово, по которому осуществляется поиск, тем скорее вы его найдете. Логика здесь очевидна, однако факты позволяют лучше понять ситуацию: 400 наиболее часто употребляемых слов русского языка со всеми словоформами (около 2 тысяч) составляют одну треть всех слов в среднестатистическом тексте, а частотный список на 8 тыс. слов покрывает уже 80 % всех словоупотреблений в текстах.

3. Ищите больше чем по одному слову. Сократить объем ссылок можно, определив несколько ключевых слов. Используйте синонимы.

4. Не пишите прописными буквами. Избегайте написания ключевого слова с прописной буквы. В ряде поисковых систем заглавные буквы позволяют искать имена собственные, например фирма Intel .

5. Используйте функцию Найти похожие документы. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку Найти похожие документы.

6. Пользуйтесь языком запросов. С помощью языка запросов можно сделать запрос более точным.

7. Пользуйтесь расширенным запросом. Во многих поисковых системах есть форма расширенного запроса, в которой можно использовать основные механизмы сужения поиска.

8. Пользуйтесь метапоисковыми системами, если по теме мало документов

Интуитивно мы понимаем, что такое информация и, поэтому, при получении сообщения используем различные выражения, например:

“ это сообщение не дает мне никакой информации”,

что приводит к пониманию взаимоотношения между информацией и передаваемым сообщением.

В связи с этим и было введено первоначальное понятие: информация (от латинского informatio) - разъяснение, изложение, осведомленность. В дальнейшем, в связи развитием информатизации общества понятие существенно расширилось. Таким образом, широта применения информатики влечет за собой колоссально большую “емкость" понятия информации и, следовательно, большую степень неопределенности и избыточности.

В социальных, “ручных” системах основной носитель информации - документы и, соответственно, - знаки, символы, графики, рисунки, чертежи.

Функция, выдаваемая источником, x(t) может быть непрерывная, дискретная и смешанная (рис.1.1):

- непрерывные функции x(t) c непрерывным аргументом t, т.е. значение функции может иметь бесконечное число значений в интервале (x_min, x_max ) и бесконечное число значений в интервале (t_min , t_max );

- непрерывные функции x(t) с дискретным аргументом t , т.е. значения функции имеют существенные значения только в определенные выделенные моменты времени t_i, i = 1 ¸ n ;

- дискретные функции x_i(t), с непрерывным аргументом t, т.е. функция может принимать только конечное число значений, в заданном интервале, x₁ (t), x₂ (t),..., x_n (t), в то время как аргумент t - произвольное количество значений в заданном интервале;

- дискретные функции x_i(t), с дискретным аргументом t_i, т.е. и функция и аргумент принимают конечное число значений в заданных интервалах.

Отметим, что каковы бы не были источники информации, ИС могут обрабатывать, передавать и хранить только ограниченное количество значений функций и аргумента. Преобразование осуществляется следующим образом.

Съем информации по времени t осуществляется только в определенные моменты t_i,, i = 1 ¸ n, например, через равные промежутки Dt (в принципе интервалы могут быть любыми) (рис.1). Такое преобразование называют дискретизацией (рис.1.1а).

Аналогичные преобразования производят и по значениям функции. Для этого на интервале значений функции (x_min, x_max) выделяют несколько значений, уровней, например, через равные промежутки (случай, аналогичный предыдущему). Такое преобразование называют квантованием по уровню (рис.1.1б,в).

Каждой выделенной точке можно сопоставить символ, букву, число (как символ) и т. п., т.е. кодировать, представить в виде некоторых данных, для чего выбираются методы кодирования.

Кодирование- установление соответствия между элементом данных и совокупностью символов, называемой кодовой комбинацией (словом кода); отожествление данных с их кодовой комбинацией.

Несмотря на то, что исходная информация весьма разнообразна, после преобразования требуется представить ее так, чтобы можно было передавать, обрабатывать и хранить в виде данных с помощью универсальных средств (цифровых устройств).

Рис.1.1. Преобразование исходной информации

Информация преобразуется к двоичному представлению, при хранении – это биты, и каждый элемент данных формируется как знаки “1” и “0”. Преобразователи сопоставляют знакам электрические сигналы. На рис. 1.2а. “1”- соответствует высокий потенциал, “0” - низкий на рис.1.2б. - “1” - соответствует серия импульсов, 0” – их отсутствие (динамическая форма).

0 1 0 0 1

Рис.1.2. Представление сигналов в дискретном виде

Таким образом, здесь фактически выбран алфавит из знаков “1” и “0”.

Бурное развитие средств и систем связи в 30-х годах нашего столетия привело к необходимости разработки методов оценки количества информации. Основные теоретические положения были сформулированы в 40-х годах в работах К. Шеннона в связи с необходимостью развития системы передачи военной информации. В качестве единицы количества информации было принято то количество информации, которое содержится в некотором стандартном сообщении.

Одно из представлений направлений включает следующие системы показателей: прагматическая, семантическая, синтаксическая, познавательная.

Прагматическое направление и показатели предназначено для систем передачи обработки и хранения информации, т.е. для технических параметров систем информации.

Дискретные значения аргумента и функции представляют в виде набора символов некоторого алфавита. Если обработка этих значений осуществляется арифметическими преобразованиями, то символы определяются цифровыми символами в выбранной системе счисления.

Для однозначного описания каждого уровня функции (или точки аргумента t_i рис.1.6) выделим некоторое количество символов - q, например, знаков выбранного алфавита (в русском q будет равно 33, в английском – 26 и т.п.) и некоторое количество позиций, длину слова, - n . Тогда общее возможное количество описываемых уровней функции будет определяться количеством общим числом комбинаций (числом произвольных слов, смысловая составляющая здесь не учитывается) и определится как N = qⁿ. При слове длины n = 2 и русском алфавите, число комбинаций N = 33²= 1089, т.е. можно обозначить такое количество уровней.

В ИС, для простоты реализации, в цифровых системах, практически всегда выбирают двоичный алфавит, состоящий только из символов “1” и “0” Количество комбинаций двоичного слова длины n будет N = 2ⁿ. Двоичное слово длины n называют байтом, в настоящее время принято считать n=8.

Объем информации может измеряться длиной необходимого слова в выбранном алфавите, так если имеется N – “количество информации”, число уровней, и выбран алфавит размерности q, то требуется найти n. Так как N = qⁿ, то n = log_q N , это для технической информатики не выгодно (средства реализации!), поэтому все (количество информации - I(q)) сводят к определению количества необходимых бит

I(q) = n log₂ q

Один бит соотносят одному элементу информации, тогда общее количество информации от множества k источников с алфавитами длиной q_i, равно

I(q_1,q₂, q_k) = I(q₁) + I(q₂) + I(q₃) + ….+ I(q_k)

Рассмотренный метод оценки количества называется аддитивной (суммарной) мерой информации (по Хартли), где q – глубина числа, количество символов принятых для представления информации, n – число позиций, необходимых и достаточных для представления чисел заданной величины.

В целом заранее не известен вид и количество информации поступающей информации об объектах, она может быть произвольной, случайной. Аддитивная мера, в условиях неопределенности, “полагает”, что каждый знак поступает с равной вероятностью (“приближенно” – с равной частотой, возможностью).

В реальных условиях в сообщениях информация поступает с разной возможностью (вероятностью) для различных знаков. В этом случае объем информации определяют как

I = - S p_i log₂ p_i,

где i – номер знака (символа), i - 1¸ n, p_i– вероятность (возможность) появления знака (символа) в сообщении, p_iпринимает значение 0£p_i£ I. I – называют энтропией , очевидно, что она определяет возможность появления различных знаков в условиях “неопределенности”, случайного появления знаков. Подобная оценка называется статистической мерой информации и широко используется в технических системах.

В систему показателей количества и качества информации включаются следующие показатели:

- важность - значимость информации с точки зрения тех задач, для решения которых используется оцениваемая информация, полнота информации для решаемых задач;

- адекватность - соответствие текущему состоянию соответствующих объектов или процессов;

- релевантность информации, поступающей для обеспечения решаемых задач;

- толерантность поступающей информации

Важность информации всецело определяется необходимостью и достаточностью для решения конкретных задач.

Под адекватностью информации понимается “…степень ее соответствия действительному состоянию тех реалий, которые отображает оцениваемая информация”. Определение адекватности осуществляется по двум параметрам: объективностью получения информации о предмете, процессе или явлении и продолжительностью интервала времени между моментом получения информации и текущим моментом, т. е. до момента оценивания ее адекватности.

Объективность, очевидно, зависит от способа получения значений характеристик предмета, процесса или явления и качества реализации (использования) способа в процессе получения этих знаний. Значения адекватности точно определить сложно (в отличие от статистических методов), поэтому методы сводятся к введению некоторых характеристик и коэффициентов.

Релевантность - характеристика соответствия содержания потребностям решаемой задачи. Количественно релевантность определяется коэффициентом К^p = N_p / N_o, где - N_p - количество релевантной информации, N_o - общее количество информации. Проблема заключается в сложности, а порою и невозможности, определения количества информации.

Толерантность - показатель удобства восприятия и использования информации для решаемых задач. Определение является неопределенным, субъективным и значение показателя представляется качественно.

Система семантических показателей - характеризует смысловое содержание оцениваемой информации. Оценки ценности информации осуществляется двумя методами.

1. Оценивается количество ссылок на информацию в различных источниках. Ранее определяли ссылки только в документах, а в настоящее время такие же оценки можно осуществлять анализируя и файловую информацию (ряд оценок можно добавлять исходя из информации в Internet). В кибернетике и математической лингвистике такие методы хорошо разработаны.

2. Вводится понятие элементарной информационной семантической единицы, под которой понимается некоторая законченная мысль. Показатель информации, в этом случае, определяется как количество таких единиц в общем количестве информации. Определение достаточно сложное и система только разрабатывается.

Остальные показатели используются в различных направлениях и находятся в стадии разработки.

Таким образом: количество, качество и ценность информации в целом по информационной системе определяется оценкой по всей системе показателей.

. Раздел 2

5rik.ru

Материалы для учебы и работы

Измерение информации