Информационно-поисковый язык (ИПЯ)

Структура АИПС.

Порядок функционирования ДИС.

Ядром документальной ИС является АИПС. АИПС предназначена для ввода, хранения, обработки и поиска семантической информации., т.е. предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в АИПС документов.

Для этой цели необходимо использование специального языка – ИПЯ.

ИПЯ – специальное языковое средство представления информации, позволяющее однозначно описать основное смысловое содержание документов и запросов. Процесс функционирования АИПС состоит из этапов:

1. перевод содержания документа и/или запроса с естественного языка на ИПЯ (индексирование текстов). В результате индексирования полный текст документа заменяется некоторой характеристикой, которая называется ПОД и /или ПОЗ (или поисковым предписанием).

2. представление ПОД и ПОЗ в машинных кодах (кодирование). Иногда эти этапы совместимы. Организация массивов ПОД и ПОЗ, обработка элементов массивов и и представление их в наиболее удобном виде для поиска.

3. поиск информации на основе критерия смыслового соответствия ПОЗ и ПОД (критерий выдачи)

4. выдача пользователю информации

5. корректировка запросов (если пользователь не удовлетворен результатом)

Результатом выдачи могут быть копии оригиналы, адреса или документов, данные и факты, которые содержатся в документах в явном или не явном виде.

 

Состав АИПС можно рассматривать на основе пяти декомпозиций:

1. - функциональная (разбивка на функциональные подсистемы);

· Отбор информации из внешней среды

· Предмашинная обработка и ввод информации

· Обработка и хранение информации

· Поиск и выдача информации

· Информационное обслуживание потребителей информации

2. - покомпонентная (выделение программных, технических, информационных и трудовых компонентов):

Программные средства,

Технические средства

Информационная база

3. Организационные средства

-обеспечивающие – разбивка на обеспечивающие подсистемы)

Организационная – разбивка на организационные составляющие, например – вычислительный центр, отдел, лаборатория и т.д.

4. Методологическая - декомпозиция логико-семантических средств, обеспечивающая создание и функционирование АИПС. В результате образуется логико-семантический комплекс, представляющий собой теоретическую и практическую базу создания и функционирования АИПС и ей составляющих.

 

ИПЯ является семантической системой, обеспечивающей передачу (запись) содержания документа в объеме, необходимом для целей поиска.

Задачей ИПЯ является перевод содержания документа в поисковое предписание или поисковый образ документа ( при вводе документа в ИПС) и перевод содержания запросов пользователя в поисковый образ запроса (поисковое предписание).

Первые исследователи в качестве составляющих ИПЯ выделяли: алфавит (набор буквенных и цифровых символов); слова, формируемые из алфавита с помощью морфологических правил - морфологии, словарь перевода,(в которомкаждому слову или осмысленной конструкции естественного языка сопоставлено слово или словосочетание ИПЯ); правила, отражающие взаимоотношения между словами реализуются, например, с помощью текстуальных или контекстуальныхотношений, или с помощью специальных правил грамматики - синтаксиса.

Словарь может состоять из ключевых слов (словосочетаний) или дескрипторов. Под дескриптором понимается некоторый (выбранный разработчиком ИПЯ) обобщающий термин для отображения группы синонимов или слов, которые для целей поиска в конкретной ИПС можно считать синонимами. Такие слова объединяются в класс условной эквивалентности, обобщаемый соответствующими дескрипторами. Если в тексте документа или запроса встречается слово из данного класса, то оно заменяется дескриптором. Т.е. дескриптор-имя класса условной эквивалентности.

Словарь может иметь достаточно сложную структуру, т.е. представлять собой тезаурус, который может включать в себя и алфавит, и слова, и словосочетания, и более сложные конструкции. Удобно пользоваться одним из принятых в лингвистике определений тезауруса-как множества смысловыражающих элементов языка с заданными смысловыми отношениями.

Это определение позволяет представить структуру языка в виде уровней (страт) множеств (слов, словосочетаний, предложений, абзацев и т.п.), смысловыражающие элементы каждого из которых формируются из смысловыражающих элементов предыдущих уровней.

Можно говорить о глубине тезаурусатого или иного языка, характеризуемой числом уровней, о видах уровней обобщения, и, пользуясь этими понятиями, сравнивать языки.

Морфологию и синтаксис объединяют единым термином - грамматика.Под грамматикой понимают правила, с помощью которых формируется смысловыражающие элементы языка. При создании и использовании искусственных языков для информационно-логических систем применяют такие понятия структурной лингвистики, как порождающаяи распознающаяграмматика. Порождающая грамматика-совокупность правил, с помощью которых обеспечивается возможность формирования (порождения) из первичных элементов (словаря) синтаксически правильных конструкций. Распознающая грамматика-правила, с помощью которых обеспечивается возможность распознания синтаксической правильности предложений, фраз или других фрагментов языка.

При создании ИПЯ с тезаурусом и грамматикой важную роль играют понятия семантикии прагматики. Семантика -содержание, значение, смысл формируемых или распознаваемых конструкций языка. Прагматика - полезность для данной цели, задачи.

Виды и классификация ИПЯ. В зависимости от используемых компонентов ИПЯ бывают разных видов. В качестве первоначально использовавшихся ИПЯ Ч. Мидоу выделяет следующие.

Иерархические классификации-имеют возможность расширения "вниз", т.е. уточнения описания документа, но они отличаются жесткостью, их достаточно трудно изменять (классификация Библиотеки Конгресса США).

Язык предметных заголовков- подобно иерархической классификации использует фиксированное число предметных классов (часто располагаемых по алфавиту), но для его терминов обычно используется определенный код. Язык позволяет любому документу приписывать более чем один термин, почти не имеет структуры и структуры и средств для выражения взаимоотношений между терминами. Предметные заголовки используются, например, в журналах (рубрики), в классификаторах специальностей вузов.

Система ключевых слов с фиксированным словарем.Такие языки могут применяться для узкоспециализированных ИПС с достаточно формализованной (унифицированной) терминологией. Словарный состав фиксирован, отсутствуют средства установления связей между словами (синтаксис), но включение набора слов в ПОД или ПОЗ позволяет как бы угадывать эти связи, что помогает более полно описать исходный документ или запрос.

Система ключевых слов со свободным словарем. Такие языки позволяют выбрать для описания документа любые слова (за исключением союзов и предлогов), руководствуясь их ролью в отражении содержания документа.

Языки с синтаксисом (грамматикой). Простейший язык этого вида - язык помеченных дескрипторов, с помощью которого отображение смысла осуществляется путем присоединения к основному дескриптору (или ключевому слову) уточняющих дескрипторов (ключевых слов), роль которых состоит в том, чтобы либо классифицировать основной дескриптор как имя собственное, характерный признак или действие, либо объединить в одну группу дескрипторы, относящиеся к одному и тому же предмету документа.

Язык фасетного индексирования. В более развитых в синтаксическом отношении вариантах такого языка различные дескрипторы могут изменять значения друг друга. Различные роли, которые играют дескрипторы в таких языках, называют фасетами. Для фасет могут быть использованы дескрипторы из одного и того же словаря. Располагаются фасеты в порядке значимости дескрипторов для отображения содержания индексируемого документа. В отличие от иерархической классификации фасеты можно располагать в произвольном порядке.

Язык фраз. В качестве основных элементов используются индексирующие фразы. В этом случае контекст ключевых слов позволяет частично снять проблемы семантической неоднозначности. Трудность состоит в выборе фраз, включаемых в язык.

Язык пермутационного индексирования. Пермутационный указатель включает контекст каждого слова, содержащегося в фразе и называется указателем ключевых слов, взятых в контексте, или указатель типа KWIC.

Пример

Системы индексирования документов

Системы индексированиядокументов

Системы индексирования документов

При этом образуется колонка ключевых слов в центре, расположенных по алфавиту. Пермутационное индексирование трудоемко и неэффективно экономически.

Естественный язык. Наиболее точно отражает семантику текста, однако помимо трудоемкости и экономической неэффективности, возникают проблемы синонимии и др. неоднозначностей естественного языка, затрудняющие алгоритмизацию поиска. Уменьшает неоднозначность словарь. В истории развития информационного поиска разрабатывались и применялись разные словари: словарь синонимических пар, словарь с многократными связями, словарь-тезаурус и др.

Существуют различные классификации ИПЯ (предкоординорованные, перечислительные, фасетные и др.). На практике конкретный ИПЯ нельзя строго отнести к тому или иному классу, т.к. некоторые языки могут работать и в режиме без грамматики и в режиме с грамматикой.

При выборе ИПЯ необходимо оценивать их эффективность. Для этого используется ряд критериев. Ч. Мидоу предлагает четыре меры: семантическую силу, многозначность, компактность и стоимость.