Структура ДИПС
Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.
В ДИПС входят 4 подсистемы:
1. Ввод и регистрация;
2. Обработка;
3. Хранение;
4. Поиск.
1. Подсистема ввода решает следующие вопросы:
· создание электронных копий (сканирование, распознавание, ввод с клавиатуры);
· подключение к каналам доставки электронных документов (электронная почта и т.д.);
· преобразование форматов электронных документов;
· присваивание электронным документам уникальных идентификаторов;
· синхронизация имен.
2. Подсистема обработки формирует для каждого документа поисковый образ, который необходим для дальнейшего поиска. Образец хранится в индексе (индекс-таблице). Индекс- это таблица, в строках которой стоят IDдокумента, а в столбцах — информационные признаки, на основе которых строится данный образ документа. Данные, как правило, бинарные. Поскольку таблицы сильно разряжены, то для их хранения обычно используют свертку. Запрос пользователя в системе преобразуется в поисковое предписание (ПП) и передается в систему поиска.
3. Подсистема хранения содержит исходные документы без изменения. При этом для хранения используют средства сжатия документов и быстрого поиска. Обычно используют доступ по индексу, системы архивации. В подсистему хранения подаются идентификаторы релевантных документов, и она осуществляет их выдачу.
4. Подсистема поиска осуществляет поиск в индексе тех документов, ПОД которых удовлетворяют ПП, с точки зрения КСС.