Распределенная информационная система WAIS

Распределенная информационная система WAIS (Wide Area Information Servers) — исторически первый сетевой аналог традиционных информационно-поисковых систем, позволявший пользователям сети осуществлять поиск в полнотекстовых базах данных с использованием традиционного для И ПС информаци- онно-поискового языка, поисковые предписания которого строятся на основе ключевых слов и/или их усечений, связанных между собой логическими операторами OR или AND.

Реально WAIS стала широко применяться только с появлением версии Free WAIS для операционных систем Unix. В настоящее время существует большое количество реализаций WAIS, главным образом коммерческих, и система стала своеобразным стандартом информационно-поисковой машины для Internet.

Концептуальная модель WAIS. Система состоит из двух основных компонентов: поисковой машины и интерфейса пользователя. Поисковая машина и интерфейс связаны между собой универсальным протоколом WAIS, который базируется на стандарте Z39.50.

Протокол Z39.50. Разработка протокола передачи гипертекста (HTTP) в 1989 г. оказала значительное влияние на развитие Internet — возникла гипертекстовая сеть, получившая название «Всемирная паутина» (WWW — World Wide Web). Одним из основных достоинств HTTP является его простота: протокол не имеет «памяти» (Stateless). Это достоинство протокола позволило создать множество серверов и клиентов. Но это достоинство явилось и существенным недостатком протокола при попытке применения его для решения сколько-нибудь сложных задач поиска и обработки информации, отличающихся от простого перемещения по гипертекстовым связям.

Этот недостаток HTTP проявляется в отстутствии каких-либо средств сохранения уже найденной информации (или хотя бы сведений об уже найденной информации) — в протоколе отсутствует понятие о сеансе (session). Уже ранние программы навигации в WWW (browsers) стали пытаться преодолеть этот недостаток, фиксируя историю навигации в отдельном сеансе работы с программой. Все современные программы навигации в WWW содержат и другое средство сохранения сессионной информации — закладки. Существует и множество отдельных дополнительных средств работы с закладками. Несколько позже стали развиваться средства поддержания сеансов со стороны серверов — cookie и различного рода сценарии, включаемые в гипертекст (Java, JavaScript, PerlScript, ActiveX).

Дело в том, что при работе с достаточно сложной информацией, содержание которой не может быть быстро оценено пользователем, необходимо многократное возвращение к тем или иным опорным точкам с тем, чтобы исследовать многие возможные варианты навигации от той точки, оценка которой как относительно полезной уже сложилась. Несомненно, описания программного обеспечения для высокопроизводительных вычислений относятся к именно такой сложной информации. В то же время уже в 80-е гг. сложился стандарт на языки поиска вторичной информации — типа библиографической и реферативной — на базе языка информационно-поисковой системы STAIRS (Storage & Information! Retrieval System) разработки IBM, получивший статус стандарта ISO. Этот стандарт, помимо собственно языка запросов, включает сессионную информацию (результаты прежних поисков, на которые можно ссылаться в дальнейшем) и средства управления объемом получаемой информации (легко представить себе, что при поиске в полнотекстовой базе данных объем результата может быть столь велик, что время на передачу результата может оказаться чрезмерно большим).

Обеспечение доступа через Internet к серверам, поддерживающим STAIRS-подобные языки запросов (и содержащим, прежде всего, библиографическую и реферативную информацию), потребовало создания специального поискового протокола, содержащего средства поддержания сеанса. Такой протокол был создан группой организаций США во главе с Библиотекой Конгресса США и стандартизован ANSI.

В 1994 г. правительство США выступило с инициативой превращения Internet в информационную супермагистраль. В качестве информационного наполнения программы были предложены несколько составляющих, и одной из них стало программное обеспечение для высокопроизводительных вычислений. В качестве стандарта для доступа к вторичным информационным ресурсам (т. е. описаниям других информационных ресурсов) было решено использовать протокол Z39.50.

С появлением в США института High Performance Computing Centers Software Exchange (Биржа программного обеспечения центров высокопроизводительных вычислений), принявшего протокол Z39.50 в качестве стандартного, применение этого протокола стало естественным шагом при создании информационных систем по программному обеспечению для высокопроизводительных вычислений. Этот протокол нашел применение при размещении в Internet библиотечных коллекций, для этого в реестр протокола был внесен формат MARC (USMARC, IKMARC, UNIMARC), призванный хранить библиографические данные.

Рассматривая различные подходы к проблеме размещения баз данных в Internet, можно подразделить решения этой проблемы на две группы:

• крупные программные комплексы (DB2, MS SQL, Sybase, Ultraseek Server и др.);

• малое программное обеспечение (Microsoft Index Server, Search Engines for Web-Servers).

Стоит отметить, что первая категория решений предоставляет максимальные возможности, но очень требовательна к аппаратному уровню, сложна в использовании, требует больших затрат, а последняя категория предоставляет минимум возможностей, но очень проста в использовании. Следовательно, можно было говорить о нехватке «промежуточного» звена в этой иерархии. Создание таких комплексов позволяет решать ряд задач, не «доросших» до крупных комплексов, максимально экономя ресурсы и добиваясь максимальных возможностей. Особенностями протокола Z39.50 является возможность сохранения состояний системы и присвоение каждому состоянию соответствующего идентификатора. Эта особенность протокола позволяет производить «навигацию во времени», т. е. в любой момент можно вернуться в определенную точку поиска, произведенного ранее. Наличие памяти в протоколе позволяет также использовать результаты поиска, полученные ранее в составлении дальнейших запросов. Например, возможно составление запроса типа: (Resultl) AND NOT (Result2) и др.

В качестве дополнительных возможностей протокол предоставляет возможность выполнять параллельные операции поиска, уведомлять пользователя о состоянии сервера, сортировать данные на сервере, получать информацию о подключенных базах, наборах атрибутов, синтаксисах записей и т. д. Для описания баз данных внутри протокола был создан соответствующий абстрактный формат описания.

Следует заметить, что ни в одной сети не существует программных комплексов, реализующих полностью стандарт Z39.50. Существующие системы в той или иной степени реализуют лишь его подмножества, опуская подчас важные элементы, которые связаны как с обработкой запросов, так и с генерацией отчетов на эти запросы.

Z39.50 описывает прикладной уровень взаимодействия распределенных информационно-поисковых систем. Протокол определяет сам механизм информационного обмена в процессе обработки поисковых запросов и протокол обмена данными в системах, которые осуществляют поиск. Область применения протокола — библиотечные системы и системы научно-технической информации. Стандарт не определяет протоколы взаимодействия с физическими устройствами или их виртуальными аналогами, например терминалами. В настоящее время область применения протокола значительно шире вышеперечисленных приложений, он применяется в информационно-поисковых системах общего назначения.

При разработке протокола подразумевалось, что он будет описывать порядок обмена информацией между пользователями информационной системы и ядром системы через сеть передачи данных. При этом сами системы могут управлять данными, используя разные модели данных и различные языки манипулирования этими данными. Таким образом, информационно-поисковую систему можно построить на основе любой системы управления данными, будь то обычная И ПС или объектно-ориентированная СУБД.

База данных. Термин база данных в спецификации Z39.50 означает набор файлов, каждый из которых имеет свое уникальное имя. Группа файлов внутри базы данных может также иметь свое собственное имя и образовывать отдельную базу данных. Такой подход аналогичен понятию схемы и подсхемы для систем управления базами данных. Единицей хранения информации, которая может быть найдена при обращении к базе данных, является запись файла. Все записи одного файла должны иметь одинаковую структуру (т. е. состоять из одного и того же набора элементов и точек доступа). Точка доступа — это уникальный или неуникальный ключ, который может быть использован самостоятельно или в совокупности с другими ключами для задания критерия поиска. Ключ может быть элементом данных, состоять из нескольких элементов или быть частью элемента.

Запрос выполняется по всей базе данных. При этом проверяется совпадение точек доступа записей и элементов запроса. Набор записей, удовлетворяющих запросу, является ответом системы на запрос. Ответ может быть использован для последующих поисков в базе данных (расширение или сужение запроса пользователя). Если говорить более точно, то при формулировании запроса можно ссылаться на результаты поисков по предыдущим запросам.

В общем случае предполагается, что выполнение запроса на поиск информации не требует физического доступа к базе данных. В отчет о проведенном поиске включаются только идентификаторы записей, удовлетворяющих запросу, но не сами записи.

В рамках работы распределенной информационно-поисковой системы рассматриваются два типа прикладных задач:

• задача, инициирующая взаимодействие и посылающая запросы на обслуживание;

• задача, отвечающая за ответы на запросы первой задачи.

Первая задача называется «источник» (origin), а вторая —

«мишень» (target). Взаимодействие источника и мишени осуществляется путем установки соединения. Соединение может быть инициализировано только источником и может быть разорвано либо другим источником, либо мишенью, либо по внешним причинам (например, физический разрыв линии связи). В процессе взаимодействия источник и мишень не могут поменяться ролями. Таким образом, протокол Z39.50 описывает интерактивную сессию между источником запросов и мишенью, которая эти запросы обслуживает, т. е. реализует типичное взаимодействие по схеме «клиент — сервер».

Согласно Z39.50 существует семь основных видов информационного обмена в рамках распределенной информационно-поисковой системы:

• инициализация сессии;

• поиск информации по запросу;

• представление результатов поиска;

• удаление результатов поиска;

• контроль доступа к информационному ресурсу;

• контроль прав доступа к информационному ресурсу;

• завершение сессии.

Инициализация. При инициализации сессии источник и мишень должны договориться о возможности использования отдельных баз данных, которые поддерживает мишень, — проидентифици- ровать пользователя и его права доступа к различным режимам обмена информацией. Разрешение на использование того или иного режима запрашивает источник, а мишень подтверждает или отвергает эти запросы. Обычно источник запрашивает режимы search, present и delete. В свою очередь существует два типа запросов мишени: на управление ресурсом и управление доступом. Кроме установления возможностей использования различных режимов доступа протокол регламентирует и физические параметры сеанса:

• рекомендованную длину записи данных при обмене;

• максимальную длину записи данных при обмене.

Поиск. При реализации запроса на поиск информации подразумевается следующая логика его выполнения: «Из обозначенного набора единиц хранения идентифицировать те, которые удовлетворяют запросу».

Набор проидентифицированных записей называется результатом поиска, и он может быть использован для последующих поисков информации. В зависимости от параметров запросов ответ сервера может варьироваться.

Получение найденной информации осуществляется с помощью указания идентификатора документа в виде text-address@domain. host.zone, где text-address — местоположение документа на сервере, domain.hosl.zone — адрес машины. В реальных системах документ хранится под идентификатором, который и указывают при запросе результатов поиска.

Из оставшихся режимов реально используется только режим завершения работы. Режимы удаления, контроля доступа и наличия доступа к ресурсу либо совмещены с режимом инициирования, либо просто не реализованы.

Интерфейс WAIS реализуется в виде программы-клиента, в основу которой заложен принцип навигации по контексту. Под этим понимают, что запрос составляется из ключевых слов. В ответ на запрос выдается список документов, удовлетворяющих критерию смыслового соответствия запроса.

Описание поискового предписания отличается от традиционного, принятого в локальных ИПС. Это выражено в том, что явно введено понятие близости документов запросу, который сам рассматривается как виртуальный документ. Такой подход допускает использование различных мер близости. Понятие меры используется только в протоколе, но на практике не всегда.

Другим фундаментальным понятием WAIS-интерфейса являются динамические списки (динамические папки). Динамический список — это результат выполнения запроса. Само понятие Dynamic folders было введено Apple для работы в системе HyperCard. Набор соответствующих поисковому критерию документов выдается в любой ИПС, но здесь он имеет специальное значение, поскольку это не набор документов, а список указателей на эти документы.

Список является результатом выполнения запроса. В традиционной ИПС список документов скрыт от пользователя. Пользователь реально просматривает сами документы. Однако пользователь может вернуться к результатам предыдущих поисков, что говорит о том, что списки все-таки существуют и хранятся системой. В WAIS пользователь реально получает список документов и только после его изучения переходит к просмотру документов из списка.

Список представляет собой такой же элемент хранения, как и обычный документ. Он может быть включен в другой список, если его образ соответствует критерию другого запроса. При поиске в качестве образа списка выступает запрос, по которому он был получен. Наиболее убедительно это выглядит в системах, где запрос формулируется на естественном языке и выглядит осмысленной фразой.

Динамический список может изменяться со временем. Это происходит из-за того, что базы данных постоянно меняются: старые документы удаляются, новые вводятся. При одном и том же запросе могут быть получены различные результаты. В этом смысле список выполняет функции постоянно действующего запроса обычных ИПС.

Следует отметить, что кроме механизма поиска по поисковому критерию, который выполняется сервером, существует еще один механизм отбора документов — фильтрация — отсеивание документов из ответа сервера по дополнительным критериям, не входящим в поисковый критерий. Фильтрацию различают удаленную и местную.

Удаленная фильтрация осуществляется сервером WAIS. После того как документы отобраны на основе анализа индексов в соответствии с поисковым критерием, они перед отправкой просеиваются через фильтр и только после этого высылаются клиенту.

Местная фильтрация выполняется клиентом при получении документов. Отображаются только те, которые прошли входной фильтр.

Для быстрого отображения документов в системе предусмотрен их «захват». Под «захватом» понимают пересылку документа по сети и временное хранение его на машине пользователя. Данная возможность реально ограничивается параметрами машины пользователя. При этом с позицией в динамической папке связан не удаленный документ, а местный. Это существенно повышает скорость доступа к «захваченному» документу, но может привести к тому, что пользователь будет иметь устаревшую версию документа. Поэтому при работе с динамическими папками «захват» документов лучше отменить.

Взаимодействие с сервером. Во время работы все клиенты ведут учет обращений к WAIS-серверам и времени отклика на них. Реальную настройку клиента пользователь осуществляет вручную. Это важно в том случае, когда запрос отправляется на выполнение нескольким серверам, когда выдачу результата будет тормозить самый медленный сервер.

Сервер WAIS установлен на сети и отвечает на запросы WAIS-клиентов. Реально существует три программы, которые совместно образуют WAIS-сервер: программа построения индексов, поисковая и программа отправки документов.

Программа построения индексов создает инвертированные списки слов, которые используются системой для быстрого выполнения запроса. Фактически они позволяют реализовать ин- дексно-последовательный поиск.

Программа поискаосуществляет поиск документов, удовлетворяющих запросу. При этом она использует индексы для сокращения времени поиска. Реально поиск по полному списку (лобовой просмотр документов) в WAIS не применяется, используются только индексы. В качестве результата поиска клиенту возвращается динамический список.

Программа отправки документовотправляет найденные документы пользователя для их реального просмотра.

Дополнительной услугой является возможность конфигурирования сервера как ргоху-сервера. Собственно, любой WAIS- сервер — это посредник, так как он может переадресовывать запрос на другие серверы, однако эта возможность сервера используется редко.

Пример экрана WAIS-клиента приведен на рис. 7.14.

5rik.ru

Материалы для учебы и работы

Распределенная информационная система WAIS