Документальные информационные системы

 

Документальные системы (предназначенные для обработки, по­иска, представления полнотекстовых документов или справочно-реферативной информации) ведут свое происхождение от библиотечно-реферативных служб или информационных центров, выпускаю­щих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы).

В данных системах единицей данных является документ.

В докумен­тальных системах моделью является наполнение, содержание БД, в том числе словарей, тезаурусов и т. д., поэтому основное внимание уделяется языковым, семантическим проблемам.

Примерами документальных поисковых систем являются библиотечные каталоги, в которых книга (документ) индексируется по фамилии авторов, тематике, году выпуска, по ключевым словам, содержащимся в тексте (в принципе, это и есть признак документального поиска, так другие перечисленные индексы могут быть реализованы и в фактографической ИС) и т.п.

ИПС ­­­– информационно-поисковая система, позволяет находить документы по определенным критериям, признакам или ключевым словам. Примером является функция «Поиск» в Windows, доступная из главного меню.

Документальный информационный поиск в сети Интернет.

Поисковые задачи в сети Интернет имеют следующие особен­ности:

1. Огромный объем доступной информации. За последние годы было предпринято множество попыток оценить размер ресурса Ин­тернет, и, хотя оценки не полностью совпадают, все они единоглас­ны в том, что в Интернет содержится более миллиарда страниц и их число увеличивается экспоненциально.

2. Высокий процент временной информации. Информация в Ин­тернет очень динамична, информационные ресурсы непрерывно появляются, пропадают, перемещаются, обновляются. В среднем, ежемесячно изменяется около 40 % информации, среднее время жизни половины страниц в Интернет не превышает 10 дней.

3. Неконтролируемое качество информации. Отсутствие редактор­ского контроля над публикуемой информацией в Интернет обуслав­ливает проблему ее качества - информация может быть некоррект­ной (например, устаревшей), ложной, плохо сформулированной, содержать ошибки (опечатки, грамматические ошибки, ошибки оцифровки и т. п.). Так, по некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребляемых сло­вах или в трех иностранных фамилиях.

4. Разнородность информации. Кроме различных форматов пред­ставления информации, используется также множество различных языков и алфавитов. Около 30 % информации в Интернет составля­ют точные или приблизительные копии других документов.

5. Структура процессов в поисковых системах WWW.Ключевым отличием данных систем от классических АИПС является нали­чие сетевых роботов - программных модулей-агентов, занимаю­щихся сбором информации о доступных WWW-pecypcax. Они осуществляют сканирование и, начиная с некоторого множества ссылок (URL) на WWW-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки из получаемых документов.

Собранная информация помещается в хранилище, содержимое которого определяет набор документов, по которым идет поиск.

Как и в классических ИПС, для достижения приемлемой эф­фективности поиск производится не напрямую по документам в хранилище, а по индексным структурам, за создание которых отве­чает модуль индексирования.

Получение и выполнение запросов пользователей - это задача модуля поисковой машины.

При исследовании задачи сканирования возникает ряд вопросов.

1. Выбор WWW-ссылок для индексирования. Обычно робот имеет информацию о существовании множества еще не отсканиро­ванных ресурсов и может выбирать, какой из них «посетить» сле­дующим. Этот выбор осуществляется согласно используемой робо­том стратегии сканирования, которая напрямую определяет множе­ство страниц, которое будет обработано роботом и, как следствие, какие страницы будут известны поисковой системе.

2. Частота обновления индекса. В связи с высокой динамикой изменений в WWW собранная информация о многих посещенных страницах довольно быстро перестает отражать их реальное текущее содержание.

3. Минимизация нагрузки на WWW-серверы. Робот не должен перегружать сервер своими запросами или сканировать информа­цию против воли владельца сервера.

4. Организация параллельного сканирования. Одним из спосо­бов повышения производительности является параллельный запуск нескольких роботов на разных машинах, но при этом необходим хо­рошо масштабируемый механизм координации их действий (напри­мер, чтобы они одновременно не сканировали один и тот же адрес).