Лекция 7
Автоматизированные ИПС (продолжение)
Первые попытки механизации поиска документов относятся к 1904 году (использование карт с краевой перфорацией). В 1915 году американец Тейлор получил патент на способ поиска информации с помощью суперпозиционных перфокарт, однако практическое применение они нашли только в 1939 году. В СССР в середине 50-х годов была практически осуществлена идея использования перфорационных вычислительных машин для поиска документальной информации.
Новая эра в автоматизации поиска информации в документальных массивах началась с введением современных ЭВМ. В настоящее время разработаны и функционируют большое число автоматизированных информационно-поисковых систем.
ИПС в зависимости от объектов поиска разделяется на 2 группы: документальные и фактографические.
Документальные системы целью поиска имеют документ.
В фактографических это поиск разнообразных данных, числовых характеристик и т.п.
Любая документальная ИПС включает следующие элементы:
1 Информационный поисковый язык (ИПЯ);
2 Правила перевода документов и запросов с естественного языка (ЕЯ) на ИПЯ;
3 Формальные правила (алгоритмы поиска);
4 Технические устройства, реализующие алгоритмы поиска;
5 Фонд документов и их адресов, записанных на каких-либо носителях информации.
В документальных ИПС существует целый ряд проблем организации эффективного поиска нужной информации. Одной из наиболее важных является, так называемая, лингвистическая проблема ИПС. При поиске нужных документов, как правило, ориентируются не на полные тексты документов, а на их сокращенное описание (например, аннотация).
Сокращение описания документов могут быть разного уровня вплоть до описания документов в виде его названия и фамилии авторов или даже сокращенного названия документов. Например, сокращенные описания документов могут быть индексы УДК или какой-либо другой классификации; перечнем авторов документа, тематическими рубриками и т.д.
Переход документа к его сокращенному описанию с целью использования этого описания для последующего поиска в теории ИПС представляется как перевод документа в ИПЯ.
Т.о. Михайлов, Черный, Гелеревский дали определение:
ИПЯ – это специализированный искусственный язык, предназначенный для выражения основного смыслового содержания документов или информационных запросов с целью отыскания в некотором множестве документов таких, которые отвечают на поставленный информационный запрос.
Описание содержания документа с помощью ИПЯ называется поисковым образом документа (ПОД).
Описание содержания запроса на ИПЯ называется поисковым образом запроса (ПОЗ).
Правило составления ПОД и ПОЗ является правилами перевода текстов с ЕЯ на ИПЯ.
При наличии массива документов и соответствующих им ПОД поиск документов по запросу сводится к сопоставлению ПОД и ПОЗ. Для того, чтобы оценить степень соответствия ПОД и ПОЗ необходимо сформулировать критерий смыслового соответствия.
Критерий смыслового соответствия – это формальное привило, по которому поисковые образы документа и запроса считаются совпадающими или не совпадающими.
При формальном соответствии ПОД и ПОЗ документы считаются отвечающими на запрос. Однако такое совпадение в общем случае не означает, что содержание выданного документа соответствует запросу. Если смысловые содержание документа соответствует смысловому запросу, то такой документ называется релевантным документом.
На практике ИПЯ не точно выражает смысл документов и запросов, поэтому может оказаться, что близкие по смыслу документы и запросы обладают разными поисковыми образами. И наоборот, у далеких по смыслу документов поисковые образы оказываются сходными.
Явление, при котором система в ответ на запрос выдает нерелевантные документы, называется поисковым шумом.
Если часть документов, которые по содержанию соответствуют запросу, но система их не обнаружила в виду того, что ПОД составлен не так, то говорят о потерях информации.
Информационный шум и потеря информации может быть количественно выражена с помощью коэффициента полноты и точности поиска. Это коэффициенты являются показателями технической эффективности ИПС.
; ;
R – коэффициент полноты поиска;
P – коэффициент точности поиска;
a – число релевантных документов выдачи;
b – число выданных не релевантных документов (поисковый шум);
с – число релевантных документов оставшихся не выданными (потеря информации).
Коэффициент Р можно определить по результатам поиска. Он выражает в долях единицы ту часть документов, выдача которых является релевантным. Например, Р = 0.8 означает, что из 10 документов 8 релевантных, а 2 являются информационным шумом.
Коэффициент полноты поиска R определить сложно, поскольку неизвестно, сколько документов остались невыданными.
Коэффициенты R и P принимают значения в интервале от 0 до 1, причем лучшему значению коэффициента соответствует 1, худшему - 0.
Возникает вопрос: «Возможен ли такой ИПЯ, который обеспечивает максимальную полноту и точность поиска?».
Теория и практика отвечают на этот вопрос и говорят, что принципиально невозможно одновременное достижение 100% полноты и такой же точности при поиске некоторых категорий документов, например, научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность - уменьшаем полноту.
Для некоторых типов документов возможна 100% полнота и точность поиска. Например, поиск служебной записки от конкретного автора среди всех служебных записок, поиск документов в поисковой системе КОДЕКС.
Перевод содержания документов на ИПЯ называется индексированием. Точному индексированию препятствует субъективное восприятие информации.