Информационно-поисковые системы Internet
Информационно-поисковые системы Internet могут быть разделены по функционально-структурному принципу на следующие классы:
• полностью распределенные системы, где реализуются принципы распределенных вычислений и распределенного хранения данных;
• частично распределенные — распределенные данные и локализованная обработка;
• локальные системы — локализованные данные и их обработка (функционально соответствуют он-лайновым хостам, рассмотренным выше).
К первому типу относятся системы, использующие принципы WAIS. Здесь процесс поиска реализуется на совокупности распределенных по сети серверов, которые опрашивают друг друга при обработке запроса, причем исходные и промежуточные данные поиска также имеют распределенный характер. В частности, первичные файлы (тексты и бинарные данные), вторичные файлы (реферативная информация в текстовой форме), индексные и частотные словари в данном случае образуют распределенные информационные ресурсы (ИР).
Ко второму типу относятся системы, использующие данные, находящиеся на Web-cepeepax, в качестве распределенных первичных ИР; вторичные и индексные данные сосредоточены на поисковом сервере, осуществляющем обслуживание пользователей. Это такие системы, как AltraVista, Lycos, OpenText и пр.
Системы третьего типа — локальные, представляют собой функциональный аналог ранее рассмотренных BBS и он-лайно- вых хостов, обеспечивая доступ удаленных пользователей к ресурсам, сосредоточенным на поисковом сервере; основным отличием от ранее рассмотренных средств является использование Web-технологий (HTTP, CGI, Web-серверов).
Появление информационно-поисковых систем в Internet — это отражение того факта, что иерархическая модель Gopher или гипертекстовая модель World Wide Web не решают проблему поиска информации в больших объемах разнородных документов, и на сегодняшний день не существует какого-либо другого способа быстрого доступа, кроме поиска по ключевым словам.
При использовании иерархической модели Gopher пользователю приходится довольно долго «бродить» по дереву каталогов для выборки нужной информации. Эти каталоги должны как-то поддерживаться, и при этом их тематическое разбиение должно совпадать с информационными потребностями пользователя. Понятно, что из-за анархичности Internet и огромного разнообразия интересов пользователей сети кому-то может и не повезти, и в сети не будет каталога, отражающего конкретную предметную область. Именно по этой причине для множества серверов Gopher, которое называется GopherSpace, была разработана информационно-поисковая программа Veronica (Very Easy Rodent-Oriented Net-wide Index of Computerized Archives) — см. рис. 6.16.
Аналогичное развитие событий мы видим и в World Wide Web. Собственно, еще в 1988 г. в специальном выпуске «Communication of the АСМ» среди прочих проблем разработки гипертекстовых систем и их использования Франк Халаз назвал проблему организации поиска информации в больших гипертекстовых сетях в качестве первоочередной задачи для следующего поколения систем этого типа. До сих пор многие идеи, высказанные в этом разделе, не нашли своей реализации. Естественно, что система, предложенная Бернерсом-Ли и получившая такое широкое распространение в Internet, должна была столкнуться с теми же проблемами, что и ее локальные предшественники. Реальное подтверждение этому было продемонстрировано на второй конференции по World Wide Web осенью 1994 г., на которой были представлены доклады о разработке информационно-поисковых систем для Web, а система World Wide Web Worm, разработанная Оливером Мак-Брайном из Университета Колорадо, получила приз как лучшее навигационное средство. Следует также отметить, что все-таки долгая жизнь суждена не хорошим программам талантливых одиночек, а средствам, которые являются результатом долгосрочного планирования последовательного движения к поставленной цели научных и производственных коллективов.
Рано или поздно этап исследований заканчивается, и наступает этап эксплуатации систем, а это уже совсем другой род деятельности. Именно такая судьба ожидала два других проекта, представленных на той же конференции: Lycos, поддерживаемый компанией Microsoft, и WebCrawler, ставший собственностью America On-line.
Разработка новых информационных систем для Web не завершена, причем как на стадии написания коммерческих систем, так и на стадии исследований. За прошедшие годы снят только верхний слой возможных решений. Однако многие проблемы, которые ставит перед разработчиками И ПС Internet, не решены до сих пор. Именно этим и вызвано появление проектов типа AltaVista компании Digital, главными целями которого являются разработка программных средств информационного поиска для Web и подбор архитектуры для информационного сервера Web.