Информационно-поисковый язык

Основные понятия и классификация документальных ИС.

Документальные информационные системы

В развитии программного обеспечения СУБД в 70-е – 80-е годы превалировало направление, связанное с фактографическими информационными системами, т.е. с системами, ориентированными на работу со структурированными данными. Были разработаны основы и модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы специальные языки запросов к базам данных и решен целый ряд других задач по эффективному управлению большими объемами структурированной информации. В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические информационные системы, вобравшие в себя в совокупности колоссальный объем структурированных данных.

Потребности в системах, ориентированных на накопление и эффективную обработку неструктурированной или слабоструктурированной информации привели к возникновению еще в 70-х годах отдельной ветви программного обеспечения систем управления базами данных, на основе которых создаются документальные информационно-поисковые системы.

Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т.п. которых адекватны его информационным потребностям. Поэтому можно дать следующее определение документальной ИС - единое хранилище документов с инструментарием поиска и отбора необходимых документов.

Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС.

Соответствие найденных документов информационным потребностям пользователя называется пертинентностъю.

В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя, как будет рассмотрено ниже, может выражаться определенными количественными показателями.

В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы:

· системы на основе индексирования;

· семантически-навигационные системы.

Семантика (от греч. «semantikos» - обозначающий) — смысловая сторона языка, отдельных слов и частей слова, а также раздел языкознания, изучающий значения слов.

В семантически-навигационных системах документы, помещаемые в хранилище (в базу) документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса (ПОЗ) к базе документов.

Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователя называется релевантностью. Схематично общий принцип устройства и функционирования документальных ИПС на основе индексирования иллюстрируется на Рис.2.1.

Рис.2.1. Общий принцип функционирования документальных ИПС на основе индексирования

Поиск информации предполагает сравнение смыслового содержания запроса со смысловым содержанием документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов.

Естественный язык для этой цели не подходит в силу своей многозначности и высокой сложности. Таким образом, поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основе языков документальных баз данных, называемых информационно-поисковыми языками (ИПЯ).

Информационно-поисковый язык представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых документов. По аналогии с языками баз данных фактографических систем ИПЯ можно разделить на структурную и манипуляционную составляющие.

Основными элементами ИПЯ являются: алфавит, лексика и грамматика.

Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ.

Лексика, или словарный состав ИПЯ, - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.

Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология - совокупность средств и способов построения и изменения слов. Синтаксис - совокупность средств и способов соединения слов в выражения и фразы.

Можно указать следующие требования, которым должен удовлетворять ИПЯ:

· располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

· не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

· отображать только объективные характеристики предметов и отношений между ними;

· быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).

Парадигматические отношения - это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами. Наиболее важны следующие парадигматические отношения:

· "вид-род", например, "шкаф-мебель". В данном случае понятие "шкаф" является видовым по отношению к понятию " мебель" - понятие "мебель" является родовым по отношению к понятию "шкаф". Родовое понятие всегда включает в себя видовое;

· "часть-целое", например "лезвие-нож". Лезвие является частью ножа;

· "причина-следствие", например "лампа-свет";

· "функциональное сходство", например "лопата-экскаватор".

Естественный язык (ЕЯ) обладает высокой многозначностью. Это создает богатство его форм и содержания. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов ЕЯ, используемых в ИПЯ.

Омонимия — это совпадение слов по написанию или звучанию, и несовпадение по смыслу.

Полисемия слова состоит в том, что одно и тот же слово выражает пучок родственных понятий. Например, знак "соль" обозначает вещество, а также понятие смысла. Оба значения близки по смыслу.

Синонимия — это совпадение слов по значению, и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

Синтагматические отношения - отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий.

По способу организации понятий различают предкоординируемые (классификационные) ИПЯ и посткоординируемые (дескрипторные) ИПЯ.

Предкоординация - предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка.

Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т. е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ - ключевых слов и дескрипторов.

Координатное индексирование - индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов. Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т. е. в качестве ключевого слова не может выступать предлог, союз и др.).

К классификационным языкам относят:

· информационно-поисковый язык иерархического типа;

· информационно-поисковый язык фасетного типа;

· алфавитно-предметную классификацию.