Структура ДИПС

Критерий может задаваться явно или неявно. КСС строится на основе формальной релевантности. Фактическую релевантность и пертинентность документов определяет пользователь.

В ДИПС входят 4 подсистемы:

1. Ввод и регистрация;

2. Обработка;

3. Хранение;

4. Поиск.

1. Подсистема ввода решает следующие вопросы:

· создание электронных копий (сканирование, распознавание, ввод с клавиатуры);

· подключение к каналам доставки электронных документов (электронная почта и т.д.);

· преобразование форматов электронных документов;

· присваивание электронным документам уникальных идентификаторов;

· синхронизация имен.

2. Подсистема обработки формирует для каждого документа поисковый образ, который необходим для дальнейшего поиска. Образец хранится в индексе (индекс-таблице). Индекс- это таблица, в строках которой стоят IDдокумента, а в столбцах — информационные признаки, на основе которых строится данный образ документа. Данные, как правило, бинарные. Поскольку таблицы сильно разряжены, то для их хранения обычно используют свертку. Запрос пользователя в системе преобразуется в поисковое предписание (ПП) и передается в систему поиска.

3. Подсистема хранения содержит исходные документы без изменения. При этом для хранения используют средства сжатия документов и быстрого поиска. Обычно используют доступ по индексу, системы архивации. В подсистему хранения подаются идентификаторы релевантных документов, и она осуществляет их выдачу.

4. Подсистема поиска осуществляет поиск в индексе тех документов, ПОД которых удовлетворяют ПП, с точки зрения КСС.