Технология обработки данных

Система индексирования

Проблема индексирования связана с семантическим анализом текстов документов. Сложность заключается в том, что индексирование документов и запросов разнесены во времени. Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для выделения наиболее значимых ключевых слов, дескрипторов, фраз.

Важность определяется на основе частоты использования термина в документе; на основе высказываний автора; с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в тексте; по критериям важности, сформированным пользователем, для чего при индексировании могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС, в основном, определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами.

Существуют следующие типы систем индексирования.

Системы свободного индексирования-из индексируемого документа записывают слова или словосочетания, которые отражают содержание индексируемого документа. Выписанные элементы упорядочиваются по алфавиту.

Система полусвободного индексирования - из документа выписываются слова и словосочетания, выписанные слова сравниваются с фиксированным словарем, не найденные в нем исключаются, оставшиеся упорядочиваются по алфавиту.

Система со статистическим подходом-выбор слов (выражений) производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. Статистические критерии могут быть основаны на сопоставлении относительной частоты употребления слова в представленном массиве документов (т.е. в репрезентативной статистической выборке).

Системы индексирования, контролируемые заданным словарем (тезаурусом).Каждое слово текста сравнивается с точностью до основы со словарем, совпадающие записываются в ПОД. (пример -УДК -универсальная десятичная классификация).

Перспективным представляется индексирование с использованием специально разработанных иерархических классификаций, отражающих цели поиска использования документов.

 

Структура и функционирование конкретной ИПС (рис. 8) зависят от вида и состава информационных источников, от способов реализации информационного поиска.

Под ИПС понимается некоторый комплекс связанных друг с другом отдельных частей, предназначенных для выявления в некотором множестве элементов информации, которая отвечает на информационный запрос, предъявляемый к системе.

ИПС можно рассматривать в виде совокупности 4-х основных компонентов:

IPSdef ≡ < LS,D,TS,N >;

D - некоторое множество документов (поисковый массив);

LS - логико-семантический аппарат (т.е. информационно-поисковые языки - один или более, правила индексирования и критерии выдачи);

TS - технические средства;

N - люди, взаимодействующие с системой (пользуются и обслуживают).

Рис. 8. Схема функционирования ИПС: Д- документ; З - запросы

Процедура информационного поиска документальной информации делят на 2 контура.

1. Семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов.

2. Отыскание самих документов (вручную или с помощью специальных технических средств, если ими оборудовано хранилище).

Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.

Под логикой ИПС понимают критерий выдачи или критерий смыслового соответствия (обязательный элемент), базисные (парадигматические) отношения и текстуальные (синтагматические) отношения между словами ИПЯ (могут отсутствовать).