Средства поиска информации в WWW

Доступ к телеконференциям

Для доступа к телеконференциям USENET следует выполнить команду Вид ► Переход ► Чтение новостей или нажать кнопку Discuss. В результате в диалого­вом окне появится список тем телеконференций. Выбрав интересующую вас тему, вы сможете читать опубликованные в Интернете сообщения и посылать в группу новостей свои собственные.

Поиск нужной информации в Интернете (определение адресов тех документов, которые содержат интересующую вас информацию) представляет собой весьма трудоемкую задачу для новичка.

Возможные варианты поиска:

· заимствование адресов необходимых документов из бумажных справочников, сборников наподобие «Желтых страниц» и т. п.;

· использование справочно-поисковых систем.

 

Все существующие типы справочно-поисковых систем обрабатывают массивы неоднородной информации, содержащейся в Сети, но в их основе лежат различ­ные механизмы поиска и отображения информации. Их можно условно разде­лить на группы:

· поисковые машины;

· поисковые каталоги;

· базы данных адресов электронной почты;

· системы поиска в архивах Gopher;

· системы поиска на FTP-серверах;

· системы поиска в USENET.

 

Для WWW наиболее характерны поисковые машины и поисковые каталоги.

Поисковые машиныпостоянно автоматически исследуют Сеть с целью попол­нения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Сетевой агент – автоматический робот («паук» – spider) обходит все заданные ему web-серверы и собирает у себя индекс – информа­цию о том, что и на какой странице найдено. Но индексация выполняется чисто формально, проверяется наличие заданных ключевых слов в текстах документов, и по этим подчас случайным совпадениям делаются содержательные выводы. Поэтому никакой осмысленной классификации в поисковых машинах не выпол­няется. Такие системы часто называют индексаторами.

Каталогив отличие от поисковых машин пополняют свою информацию по ини­циативе человека. Добавляемая страница должна быть жестко привязана к при­нятым в каталоге тематическим разделам. Каталог представляет собой упорядо­ченную по темам коллекцию ссылок на многочисленные web-страницы и сайты. Каталог, как правило, составляется, обслуживается и поддерживается специалиста­ми разного профиля, которые по заявкам владельцев сайтов или самостоятельно пополняют перечень ссылок и составляют обзоры web-страниц, содержащие краткое описание информационного ресурса, его сетевой адрес и определенные ключевые слова. Каталоги часто называют классификаторами, поскольку они представляют собой иерархические структуры, где все информационные ресур­сы расклассифицированы по темам. Классификацию выполняют либо нанятые специалисты, и тогда она бывает качественной (например, каталог «Желтые страницы Internet» – http://yp.piter.com), либо владельцы каталога — тогда она весьма специфична и качественна не всегда.

Наиболее мощные и популярные международные поисковые системы: Google, Alta Vista, Yahoo, InfoSeek, WebCrawler, Asc Jeewes, Exciteи т. д. Но поиск в них информации по русским наименованиям тем (ключевым словам) часто бывает затруднительным, а иногда и невозможным. Поэтому для русскоязыч­ного поиска более удобными являются отечественные поисковые системы Rambler (www.rambler.ru), Yandex (www.yandex.ru) и Aport(www.aport.ru), а также русско­язычные версии Lycos (www.lycos.ru) и Google(www.google.com.ru). Основные достоинства этих систем: высокая скорость формирования ответа и про­стота использования — пользователь обращается на поисковый сервер, задает образ для поиска — ключевые слова интересующей его темы и управляющие элементы синтаксиса запросов, выполняет запрос, и система выдает списки и ад­реса тех документов, в которых эти ключевые слова встречаются. Все поисковые системы имеют текстовое поле, в которое вводятся используемые для поиска документов ключевые слова. Для каждой поисковой системы приня­ты свои правила составления запросов (хотя и похожие), поясняемые обычно на страницах справки этих поисковых серверов. Общие рекомендации для результативного поиска:

· четкое формулирование цели и темы поиска;

· тщательный подбор ключевых слов с исключением слов общего характера
предлогов, союзов и вспомогательных слов (обычно поисковые системы игнорируют незначащие слова, но осторожность не мешает);

 

· подбор к ключевым словам максимального количества синонимов и альтернативных слов. Почти все поисковые системы позволяют выполнять:

· простой поиск, когда задаются лишь ключевые слова без указания структур­но-логических отношений между ними;

· расширенный поиск с учетом структурно-логических отношений между словами запроса, с указаниями зон поиска и других ограничений.

Таким образом, соединение по протоколу HTTP является одноразо­вым. Это было эффективно в те далекие годы, когда Web-документы были текстовыми. Сегодня же средняя Web-страница содержит в себе десятки встроенных объектов, и инициализировать ТСР-соединение для получения каждого из них было бы слишком утомительно. Поэтому современные броузеры, идя навстречу клиенту, сами автоматически запрашивают поставку встроенных объектов. Впрочем, если в совре­менном броузере отключить загрузку графики, объектов мультимедиа и прочих, то он вернется к древнему режиму работы: один запрос — одно соединение, при котором от каждой Web-страницы загружается только ее текстовое ядро. Этим приемом пользуются для заметного ускорения работы в Сети при беглом поиске нужной информации, когда нет времени дожидаться загрузки малонужных объектов.

Существуют специальные расширения броузеров, способные выпол­нять упреждающее чтение. Пока мы просматриваем принятую Webстраницу, они анализируют гиперссылки, ведущие от нее к другим документам, и незаметно для нас запрашивают их по принципу «авось пригодится». Если пользователь действительно воспользуется гипер­ссылкой, ведущей к предварительно загруженному ресурсу, то он получит новую Web-страницу гораздо быстрее. Такие услуги, в част­ности, оказывает программа Interquick (www.interquick.com).

Существуют также программы, позволяющие принять не только одну Web-страницу, но и те страницы, к которым ведут ее ссылки, а также страницы, к которым ведут ссылки с этих страниц, и т. д. В этих про­граммах глубиной погружения можно управлять, используя специ­альные настройки. Такие программы называют средствами автоном­ного просмотра, поскольку они очень удобны, чтобы скопировать в ночное время обширный комплекс страниц, а потом днем, отключив­шись от Интернета, спокойно просмотреть все, что было принято в автономном режиме. Наиболее популярные продукты этой категории — программы Offline Explorer (www.metaproducts.com) и Teleport Pro (www.tenmax.com).

Тот факт, что броузер сам анализирует гиперссылки, встреченные на странице, и сам генерирует запросы на загрузку объектов, связанных с этими гиперссылками, используют для создания «интеллектуаль­ных» расширений броузеров, способных блокировать поставку рек­ламы. Они «знают» характерные признаки ссылок, ведущих к рек­ламным модулям, и просто не обращаются за поставкой этих ресурсов. В качестве примера можно привести программу Internet Junkbuster (www.junkbusters.com), способную эффективно облегчить рекламную и другую неактуальную нагрузку на канал связи.