Проблемы поиска


Полнота и точность. Под полнотой и точностью понимают релевантность результатов поиска поисковому предписанию и наличие в этих результатах информационного шума. Так, стопроцентная полнота достигается, когда в выборке присутствуют все имеющиеся документы, релевантные поисковому предписанию. Стопроцентная точность — это отсутствие в выборке документов, нерелевантных поисковому предписанию.

Cтопроцентных полноты и точности удается достигнуть только в рамках одной базы данных, а поиск по разрозненным источникам информации неминуемо приводит к снижению этих показателей. Наличие информационного шума обуславливает необходимость вторичной идентификации выбранных по запросу документов: нужно вручную отобрать только релевантные документы и уже потом продолжить их обработку, в полной мере используя естественный интеллект. На показатели полноты и точности можно влиять с помощью алгоритмов идентификации и индексирования (синтаксический и морфологический анализ русскоязычных текстов, синонимия, служба ведения словарей имен собственных и т.д.).

Исторически наибольшую потребность в поиске документов, поступивших из разных источников, испытывали спецслужбы. Для них, в первую очередь, и создавались системы, способные обрабатывать и находить документы на разных языках. Сегодня эти разработки становятся доступными и на ИТ-рынке.

Актуальность и достоверность. Своевременное обновление быстро изменяющихся данных — требование бизнеса, а удаление неактуальной информации позволяет защитить его от риска случайного использования таких данных. Современные программы сканирования Сети в поисках нужной информации (crawler) отслеживают обновление источников данных с заранее заданной периодичностью. Важно, чтобы при вводе в корпоративное хранилище новых (обновленных) данных происходила автоматическая идентификация подобных, но уже устаревших данных, и в этом случае вновь требуется вторичная идентификация.

Проблема достоверности данных напрямую связана с источником их происхождения. Распыление информации по Сети привело к изменению отношения к проблеме доверия и в дальнейшем существенно повлияет на разработку новых поколений информационных систем. Сегодня достоверными принято считать источники, доступные в пределах корпоративной сети, а также сайты крупнейших компаний. Для остальных данных, как и прежде, существует процедура проверки с использованием нескольких независимых источников.

Фрагментарность. Пополнение традиционной базы данных новым документом обычно сопровождается контролем над заполнением минимально необходимого состава реквизитов. Это продиктовано желанием однозначно идентифицировать реальные объекты в конкретной информационной системе и стремлением к устранению информационного шума. Если в традиционной базе данных выполняется операция пополнения/изменения какого-либо документа, то изменяемый фрагмент может быть сколь угодно малым (например, всего один реквизит). В информационных хранилищах индексируются все документы первоисточников, независимо от состава данных и полноты реквизитов, описывающих тот или иной объект.

Как правило, документы содержат только фрагменты этих описаний. То, что считается «мусором» в традиционных базах данных, в информационных хранилищах является «сырьем» для сведения в единое целое фрагментов описания объектов, поступивших из различных источников. Процесс сведения фрагментов — это интеллектуальный процесс выявления тождеств, связанный с сопоставлением подобий. Поиск подобных фрагментов осуществляется поисковой машиной, а их сведение, отождествление описания реального объекта, как правило, выполняется человеком в процессе вторичной идентификации.

Безопасность. Теоретически, информационные хранилища могут сохранять схему разграничения прав доступа как совокупность (суперпозицию) схем разграничения, заимствованных из первоисточников. Так, некоторые документы не будут участвовать в поиске при выполнении запроса, не допущенного к ним пользователя. На практике выявление устаревших и дезинформирующих документов может потребовать наделения некоторого количества специалистов полномочием чтения всех документов для выполнения вторичной идентификации. Эти специалисты могут не иметь полномочий удаления устаревших, на их взгляд, документов. Однако эту особенность информационных хранилищ неформатированной информации, поступившей из разрозненных источников, следует учитывать при работе с заказчиками.