Общая функциональная структура документальных ИПС
Пертинентность и релевантность
Документальные ИС
lКлассические модели и методы в теории ИС изначально ориентировались на организацию хранения и обработки детально структурированных данных.
lОднако, на практике оказалось, что информация чаще представлена в виде простых текстовых документов.
lИтак, ДИС – это системы, ориентированные на работу с текстовыми документами, с данными, имеющими приближенное представление, сложную структуру.
Наиболее распространенный тип документальных систем – информационно-поисковые системы (ДИПС), предназначенные для накопления и поиска по различным критериям документов на естественном языке.
В отличие от ФИПС, которые в ответ на запрос потребителя осуществляют выдачу конкретных сведений (фактов), ДИПС в результате поиска предоставляет потребителю совокупность документов, смысловое содержание которых соответствует запросу.
Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности.
l
lЧастное значение информационной потребности в определенные моменты времени, выраженное на ЕЯ, представляет собой информационный запрос, с которым пользователь обращается к системе.
В теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность.
lДокументы, содержание которых удовлетворяет информационной потребности, называют пертинентными (от англ. pertinence – уместность, связь, отношение).
lРелевантность (от англ. relevance – уместность) представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образцов документов (ПОД).
lДля записи ПП и ПОД применяются специальные информационно-поисковые языки.
Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИСП определяется степень смысловой близости между ПОД и ПП.
lТакой набор правил получил название критерия смыслового соответствия (КСС).
lВ состав типичной ДИПС входят четыре основные подсистемы:
1. Подсистема ввода и регистрации.
2. Подсистема обработки.
3. Подсистема хранения
4. Подсистема поиска.
Задачи подсистемы ввода и регистрации:
· Создание электронных копий бумажных документов (сканирование, распознавание, ввод с клавиатуры);
· Обеспечение подключения к каналам доставки электронных документов;
· Присвоение эл.документам уникальных идентификаторов, ведение таблицы синхро-низации имен;
· Преобразование формата эл.документов.
qСистема хранения:
· Средства архивации
· СУБД для доступа к данным по идентификатору.
q
qПодсистема обработки формирует для каждого документа ПОД.
ПОД сохраняются в индексе. Логически индекс – таблица, строки которой соответствуют документам, а столбцы информационным признакам.
qВ ячейках таблицы могут хранится либо 1, либо 0 – в зависимости наличия или отсутствия данного признака в данном документе.
qТакая таблица сильно разрежена, на практике хранят свертку таблицы по строкам и столбцам. Такую форму хранения называют прямой или инверсной.
При поступлении на вход системы запроса пользователя он преобразуется в ПП и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.
Для хранения документов применяют средства сжатия и быстрого поиска информации.