Оценка эффективности информационного поиска.

Классификация информационно-поисковых систем.

Простой и расширенный поиск информации в Интернет.

Поисковый сервис Интернет.

Структурно-функциональная организация типовой поисковой машины Интернет.

Сравнительный анализ информационно-поисковых систем.

Оценка эффективности информационного поиска.

Классификация информационно-поисковых систем.

ТЕМА 9 Информационно-поисковые системы. пРАВИЛА поиска информации. ПРАКТИКУМ. (4ч.)

Тема 8 Основы правового регулирования на информационном рынке (2ч.)

Самостоятельно

Информационно-поисковые системы (ИПС) подразделяются на три класса (рис.9.1): документальные, фактографические и гипертекстовые (ГИПС).

Документальные ИПС хранят и выдают сведения о документах, основное содержимое которых представлено в виде связанного текста на естественном языке (ЕЯ).

Признаки документа, отражающие его содержание в ИПС, называют поисковым образом, а признаки запроса к ИПС — поисковым предписанием.

Процедура перевода документа и запроса в форму представления, принятую в ИПС, связана с ее индексированием. При сопоставлении поискового образа и поискового предписания используется тот или иной критерий смыслового соответствия (релевантности).

Рис. 9.1 Классификация информационно-поисковых систем

Основным объектом информационного фонда документальной ИПС является аннотация (реферат) и библиографическое описание документа (книги, события, предмета). Реферат (аннотация) выражается на ЕЯ и отражает основные характеристики документа, представляющие интерес для пользователей. Предполагается, что в подобном описании можно выделить ряд слов и словосочетаний, число которых значительно меньше общего числа слов в описании.

В то же время выделенная информация достаточно точно характеризует описание. Такие слова и словосочетания называются ключевыми словами или дескрипторами. Запрос к документальной ИПС формулируется в виде перечня дескрипторов, которые, по мнению пользователя, характеризуют искомый документ.

При вводе в ИПС нового объекта (реферата) его дескрипторы автоматически включаются в словарь дескрипторов. Каждому дескриптору присваивается номер, называемый индексом дескриптора. Совокупность индексов, соответствующих полному набору дескрипторов реферата, составляет его поисковый образ. Новый поисковый образ снабжается уникальным идентификатором и включается в массив поисковых образов. Тем же идентификатором помечается новый реферат, заносимый в массив рефератов.

Поиск в дескрипторной ИПС организуется следующим образом. Запрос, сформулированный на ЕЯ, подвергается анализу, в рамках которого в нем выделяются дескрипторы, входящие в словарь дескрипторов. Их совокупность образует поисковое предписание, соответствующее запросу. Оно сопоставляется с поисковыми образами, в результате чего определяется их релевантность. Если поисковый образ и предписание релевантны, то из поискового образа извлекается идентификатор реферата, выдаваемого пользователю.

Ответом на запрос является множество рефератов, соответствующих отобранным в процессе поиска идентификаторам.

В целях ускорения поиска для каждого дескриптора в словаре дескрипторов указывается список идентификаторов рефератов, в которых он встречается. Такая информационная структура ИПС называется индексом.

С помощью дескрипторов можно лишь приблизительно отразить смысл документов. Это же относится к переводу запросов в поисковые предписания. Документальный поиск относится к числу сложных информационных процессов, поскольку он связан с проблемой оценивания смыслового соответствия документа и запроса. Из-за субъективности и неоднозначности подобного оценивания этот вид поиска, в принципе, не может быть исчерпывающе точным и полным, в нем всегда будет присутствовать элемент нечеткости.

Развитием поиска по дескрипторам является полнотекстовый поиск, где индекс формируется на основе всех слов и словосочетаний, содержащихся в документах, за исключением служебных неинформативных слов.

В фактографических ИПС хранятся не документы, а собственно сведения (факты) об объектах предметной области. Подобные ИПС реализуются, в частности, на основе реляционных БД. С точки зрения обеспечения релевантности результатов поиска (выборки данных) запросу фактографический поиск в отличие от документального является точным и полным.

В гипертекстовых ИПС кроме содержимого документов отражается их семантическая структура. Поэтому по глубине формализации ГИПС занимают промежуточное положение между документальными и фактографическими ИПС.

Еще одно направление развития технологии документальных ИПС связано со структуризацией и унификацией сведений о документах. Такие сведения по отношению к исходным документам играют роль метаданных. Примером метаданных служит библиографическое описание, содержащее информацию об авторах документа, дате его создания, объеме, форме представления и т. д. Ключевые слова также относят к метаданным.

Поиск по метаданным сближает технологии документальных и фактографических ИПС. С одной стороны, метаданные представляют документы. С другой стороны, некоторые элементы метаданных допускают четкое определение релевантности запроса и записи в БД (экземпляра метаданных, ассоциируемых с конкретным документом), что характерно для фактографических ИПС. В настоящее время хранилища метаданных обычно реализуются на основе реляционных и XML-ориентированных БД и используют механизмы поиска, воплощаемые в соответствующих системах управления БД (СУБД).

Эффективность информационного поиска документов, обеспечиваемая ИПС, оценивается по информационной полноте и информационному шуму. Названные показатели выражаются коэффициентами полноты К_n и шума К_ш соответственно. Коэффициенты К_n и К_ш принимают значения в интервале от 0 до 1. В некоторых источниках эти коэффициенты выражают в процентах.[1]

Пусть ИПС предъявлен i-й запрос. Информационно-поисковая система содержит множество документов релевантных этому запросу. В результате поиска получено множество . Возможны следующие варианты.

1. . Идеальный вариант: полнота максимальна (К_n = 1), а шум нулевой (К_ш = 0).

2. . Имеет место неполнота (0 К_n < 1), а шум отсутствует (К_ш = 0).

3. . Неполнота исключается (К_n = 1), но есть шум (0К_ш <1).

4. Ø & Ø & Ø. Худший вариант: нулевая полнота (ни один релевантный документ не найден; К_n = 0) и максимальный шум (все, что выделено, не соответствует запросу; К_ш = 1).

5. Ø &&&. Имеют место и неполнота (0 К_n < 1 ), и шум (0 К_ш < 1).

Определим коэффициенты полноты и шума [1]:

(3.1)

(3.2)

где m — достаточно большое число, чтобы по теореме о больших числах обеспечить требуемую достоверность результата эксперимента по определению К_n и К_ш.

Смысл коэффициентов полноты и шума на теоретико-множественном уровне иллюстрирует рис.9.2.

Анализируя этот рисунок, нетрудно заметить, что успешность поиска формально определяется степенью совпадения множеств и (в идеале, при ,- выборка содержит все релевантные документы и ни одного не релевантного). Это дает возможность ввести оценку эффективности информационного поиска на основе мощностей множеств , и :

Рис.9.2 Графическая интерпретация коэффициентов полноты и шума

Эффективность информационного поиска выражается через коэффициенты К_n и К_ш, что позволяет рассматривать ее в качестве интегрального показателя эффективности информационного поиска ИПС.

(3.3)

В литературе в функции (К_n, К_ш) вместо К_ш принято использовать обратный ему показатель — коэффициент точности К_m.

(3.4)

Таким образом, запишем данную функцию в виде:

(3.5)

В теории информационного поиска предложен обобщенный комплексный показатель эффективности (мера Ван Ризбергена), позволяющий учитывать предпочтение, отдаваемое пользователем ИПС точности или полноте:

(3.6)

где β — параметр, отражающий предпочтение пользователя ИПС одному из показателей эффективности, входящих в (точности, полноте).

При β = 1 точность и полнота одинаково важны. На интервале β [0; 1] приоритет имеет точность, а на интервале β ]1; [ — полнота.

5rik.ru

Материалы для учебы и работы

Оценка эффективности информационного поиска.