Основные принципы построения ИПС

Предположим, что имеется некоторое множество документов (например, электронная библиотека). В определенный момент времени у некоторого пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка.

Рис. 1. Информационно-поисковая система

Эта потребность часто не может быть точно выражена словами, а выражается только в оценке просматриваемых документов – подходит ли данный документ пользователю или не подходит. В теории информационного поиска вместо слова "подходит" используется термин пертинентный[2], а вместо "не подходит" – непертинентный.

Качество поиска в информационно-поисковых системах обычно характеризуется двумя критериями – полнотой и точностью. Полнота поиска определяется общим количеством найденных документов, а точность – соотношением между найденными пертинентными и непертинентными документами. В большинстве случаев человек в состоянии оценить пертинентность данного документа только в сравнении с другими. Поэтому абсолютного критерия точности поиска не существует, и в результатах любого поиска всегда присутствуют как пертинентные, так и непертинентные документы.

Непертинентные документы, которые сравниваются с пертинентными, называются шумом, по аналогии с теорией передачи информации К. Шеннона. Пертинентные документы в таком случае можно называть сигналом, а эффективность поиска оценивать по соотношению "сигнал-шум".

Слишком большой шум затрудняет выделение пертинентных документов из множества найденных, а слишком малый не даёт уверенности в достаточной полноте поиска. Практика показывает, что пользователь, который ищет информацию, полагает число найденных документов удовлетворительным, когда количество непертинентных документов лежит в интервале 10–30% от общего числа найденных.

Информационная потребность выражается пользователем на естественном языке. Однако информационно-поисковые системы не могут использовать для поиска документов естественный язык из-за сложности его интерпретации. Поэтому информационная потребность в ИПС формулируется в виде запроса на специальном информационно-поисковом языке.

Поскольку информационно-поисковый язык является формальным языком, для сравнения запросов и документов можно применять формальные критерии. Степень соответствия документа сформулированному запросу называется релевантностью. Релевантность можно также представить как меру близости между реально полученными документами и тем, что следовало бы получить из системы. В отличие от пертинентности, релевантность документа можно рассчитать без участия пользователя. Для этого используются различные математические методы.

Релевантный документ может оказаться непертинентным. Например, если в неспециализированной ИПС искать информацию о компьютерных манипуляторах типа "мышь", и использовать для этого запрос, состоящий из слова "мышь", то велика вероятность получения ряда непертинентных документов из области зоологии и географии, описывающих мышей-грызунов. При этом непертинентные документы будут релевантными, так как в их тексте содержится термин запроса – "мышь".

Существует два базовых подхода к поиску информации. Один из них заключается в использовании специальных тематических каталогов и реализуется в классификационных ИПС. Второй подход, применяемый в словарных ИПС, использует для поиска словари, составленные из индексированных документов, с которыми работают программные средства, называемые поисковыми машинами. Наиболее продуктивной схемой поиска является комплексное использование обоих основных подходов.

Независимо от типа поисковой системы, все операции информационного поиска можно разбить на четыре группы:

- информационный анализ,

- хранение информации,

- поисковые операции,

- выдача информации.

Рис. 2. Общая схема процесса поиска

Общая схема процесса поиска в информационно-поисковой системе представлена на рис. 2.

Содержание документов и запросов в информационно-поисковых системах идентифицируется некоторыми наборами терминов, состоящих из отдельных слов или словосочетаний. Часто для характеристики терминов используются их веса, которые отражают предполагаемую важность каждого из терминов. Решение о выдаче того или иного документа принимается в результате сравнения наборов терминов, относящихся соответственно к документам и запросам. Вниманию пользователя предлагаются те документы, наборы терминов которых совпадают с наборами терминов запросов.