Векторная модель текста

Индексирование документов

Представление информации в ИПС

Первая задача, которую должна решить информационно-поисковая система – это приписывание документу (информационному ресурсу) списка ключевых слов. Такая процедура называется индексированием.

Цель процесса индексирования – поставить в соответствие каждому документу некоторое множество ключевых слов, отражающих содержание документа. Ключевые слова называются также идентификаторами, индексационными терминами, дескрипторами и понятиями. Ключевые слова управляют поиском, приводя в результате к тем документам, термины которых оказываются наиболее сходными с терминами запроса. Результатом индексирования является поисковый образ документа.

Обычный процесс индексирования состоит из следующих операций:

- отбор индексационных терминов, используемых для описания содержания документа;

- приписывание этим терминам некоторого веса, который отражает предполагаемую важность терминов. Расчеты весовых коэффициентов обычно основаны на частоте появления данного термина в документе, или его частоте во всем массиве, или на распределении частоты по всем документам массива

- отнесение каждого термина к некоторому типу (например, к классу действий, свойств или объектов);

- определение отношений (синонимических, иерархических, ассоциативных и т.д.) между терминами.

В зависимости от принятой модели индексирования и поиска документов некоторое операции из вышеперечисленного списка могут быть исключены.

В большинстве ИПС для описания содержания документов и запросов используются полученные таким образом множества терминов с весами (или без весов). Для повышения качества поиска вводятся дополнительные уточнения. Например, в качестве терминов используются словосочетания, полученные после определения отношений (связей) между парами или тройками слов. Можно также добавлять к взвешенным терминам, которые были получены из исходного текста, новые родственные термины. Эти дополнительные термины определяются на основе статистического анализа лексики всего информационного массива и обычно хранятся в специальных словарях синонимов (тезаурусах).

Большинство современных алгоритмов поиска и индексации основано на векторной модели текста, предложенной Дж. Солтоном в 1973 году. В векторной модели каждому документу приписывается список терминов, наиболее адекватно отражающих его смысл. Иными словами, каждому документу соответствует вектор, размерность которого равна числу терминов, которыми можно воспользоваться при поиске. Существуют и другие модели описания документов: модель поиска в нечетких множествах и вероятностная модель информационных потоков и поиска.