Общая функциональная структура документальных ИПС

Пертинентность и релевантность

Документальные ИС

 

lКлассические модели и методы в теории ИС изначально ориентировались на организацию хранения и обработки детально структурированных данных.

lОднако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов.

lИтак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру.

Наиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке.

В отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.

 

Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности.

l

lЧастное значение информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе.

В теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность.

lДокументы, содержание которых удовлетворяет информационной потребности, называют пертинентными (от англ. pertinence – уместность, связь, отношение).

lРелевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован.

Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД).

lДля записи ПП и ПОД применяются специальные информационно-поисковые языки.

Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП.

lТакой набор правил получил название критерия смыслового соответствия (КСС).

lВ состав типичной ДИПС входят четыре основные подсистемы:

1. Подсистема ввода и регистрации.

2. Подсистема обработки.

3. Подсистема хранения

4. Подсистема поиска.

Задачи подсистемы ввода и регистрации:

· Создание электронных копий бумажных документов (сканирование, распознавание, ввод с клавиатуры);

· Обеспечение подключения к каналам доставки электронных документов;

· Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхро-низации имен;

· Преобразование формата эл.документов.

 

qСистема хранения:

· Средства архивации

· СУБД для доступа к данным по идентификатору.

q

qПодсистема обработки формирует для каждого документа ПОД.

ПОД сохраняются в индексе. Логически индекс – таблица, строки которой соответствуют документам, а столбцы информационным признакам.

qВ ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе.

qТакая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.

 

При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

 

Для хранения документов применяют средства сжатия и быстрого поиска информации.