Поиск информации в World Wide Web


Интернет имеет три функции: коммуникационную, информационную и управленческую. Разные службы могут обеспечивать разные функции. Хотя в рамках службы World Wide Web есть сервисы, исполняющие коммуникационные и управленческие функции, основное назначение этой службы — информационное.

Поисковая система представляет собой специализированный Web-узел. Пользователь сообщает поисковой системе данные о содержании искомой Web-страницы, а поисковая система выдает список гиперссылок на страницы, на которых упоминаются соответствующие сведения. Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность — это поисковые каталоги и поисковые указатели.

Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к поисковому каталогу, мы находим на его основной странице сокращенный список крупных тематических категорий, например таких, как Наука (Science) и др. Каждая запись в списке категорий — это гиперссылка. Щелчок на ней открывает следующую страницу поискового каталога, на котором данная тема представлена подробнее. Продолжая погружение в тему, можно дойти до списка конкретных Web-страниц и выбрать себе тот ресурс, который лучше подходит для решения задачи.

Пример. Если нужно выяснить, какая в мире имеется информация о пище динозавров, достаточно спуститься по иерархии:

Наука ==> Палеонтология ==> Динозавры ==> Пища.

Поисковые каталоги принято использовать для первичного, реферативного поиска информации по заданной теме. Если для пользователя тема является совершенно новой и неисследованной, то ему, прежде всего, нужны указатели на классические, наиболее содержательные ресурсы, а именно это и обеспечивают поисковые каталоги.

Поисковые указатели. Основной принцип работы поискового указателя заключается в поиске Web-pecypсов по ключевым словам. Пользователь описывает искомый ресурс с помощью ключевых слов – нескольких специфических терминов из соответствующей области, после чего дает задание на поиск. Поисковая система анализирует данные, хранящиеся в своей базе, и выдает список Web-страниц, соответствующих запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах, на основании которых пользователь может выбрать нужные ему ресурсы.

Разные поисковые указатели применяют разные информационные технологии для обработки запросов пользователей. Чтобы эффективно выполнять поиск информации в WWW, надо хотя бы в общих чертах понимать принципы их работы.

Работу поискового указателя можно условно разделить на три этапа. Из них два этапа являются подготовительными — они незаметны для клиента, и лишь на третьем этапе происходит взаимодействие с пользователем.

1. Сбор первичной базы данных. На первом этапе поисковая система занимается сканированием информационного пространства World Wide Web. Для этого используют специальные агентские программы – черви. (Не следует путать агентов поисковых систем с разновидностью сетевых компьютерных вирусов, тоже именуемых червями. Черви поисковых систем совершенно безобидны для серверов и клиентов WWW.) По своей сути это очень эффективные малоразмерные браузеры. Их задача состоит только в том, чтобы автоматически разыскивать Web-ресурсы, следуя по гиперссылкам, и, убедившись, что этот ресурс системе еще не известен, копировать его в свою базу данных. Так же происходит и обновление ранее принятых документов, но измененных за время после предыдущего копирования.

2. Индексация базы данных. Собрать базу данных сетевых Web-ресурсов – еще не значит получить функционирующую поисковую систему. Поиск ключевых слов, введенных пользователем, в обширной базе – это весьма продолжительная операция. Чтобы не задерживать клиента более чем на доли секунды, собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы – поисковые указатели.

3. Рафинирование результирующего списка. В ходе этого этапа осуществляется взаимодействие с пользователем. Создается список ссылок, который будет передан пользователю в качестве результирующего. Рафинирование заключается в фильтрации и ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же Web-pecypcy, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.

Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные — в его конце. Понимание критерия «полезности» для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.

 

Тема 8. Защита информации