Средства поиска информации в WWW

Доступ к телеконференциям

Для доступа к телеконференциям USENET следует выполнить команду Вид ► Переход ► Чтение новостей или нажать кнопку Discuss. В результате в диалоговом окне появится список тем телеконференций. Выбрав интересующую вас тему, вы сможете читать опубликованные в Интернете сообщения и посылать в группу новостей свои собственные.

Поиск нужной информации в Интернете (определение адресов тех документов, которые содержат интересующую вас информацию) представляет собой весьма трудоемкую задачу для новичка.

Возможные варианты поиска:

· заимствование адресов необходимых документов из бумажных справочников, сборников наподобие «Желтых страниц» и т. п.;

· использование справочно-поисковых систем.

Все существующие типы справочно-поисковых систем обрабатывают массивы неоднородной информации, содержащейся в Сети, но в их основе лежат различные механизмы поиска и отображения информации. Их можно условно разделить на группы:

· поисковые машины;

· поисковые каталоги;

· базы данных адресов электронной почты;

· системы поиска в архивах Gopher;

· системы поиска на FTP-серверах;

· системы поиска в USENET.

Для WWW наиболее характерны поисковые машины и поисковые каталоги.

Поисковые машиныпостоянно автоматически исследуют Сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Сетевой агент – автоматический робот («паук» – spider) обходит все заданные ему web-серверы и собирает у себя индекс – информацию о том, что и на какой странице найдено. Но индексация выполняется чисто формально, проверяется наличие заданных ключевых слов в текстах документов, и по этим подчас случайным совпадениям делаются содержательные выводы. Поэтому никакой осмысленной классификации в поисковых машинах не выполняется. Такие системы часто называют индексаторами.

Каталогив отличие от поисковых машин пополняют свою информацию по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге тематическим разделам. Каталог представляет собой упорядоченную по темам коллекцию ссылок на многочисленные web-страницы и сайты. Каталог, как правило, составляется, обслуживается и поддерживается специалистами разного профиля, которые по заявкам владельцев сайтов или самостоятельно пополняют перечень ссылок и составляют обзоры web-страниц, содержащие краткое описание информационного ресурса, его сетевой адрес и определенные ключевые слова. Каталоги часто называют классификаторами, поскольку они представляют собой иерархические структуры, где все информационные ресурсы расклассифицированы по темам. Классификацию выполняют либо нанятые специалисты, и тогда она бывает качественной (например, каталог «Желтые страницы Internet» – http://yp.piter.com), либо владельцы каталога — тогда она весьма специфична и качественна не всегда.

Наиболее мощные и популярные международные поисковые системы: Google, Alta Vista, Yahoo, InfoSeek, WebCrawler, Asc Jeewes, Exciteи т. д. Но поиск в них информации по русским наименованиям тем (ключевым словам) часто бывает затруднительным, а иногда и невозможным. Поэтому для русскоязычного поиска более удобными являются отечественные поисковые системы Rambler (www.rambler.ru), Yandex (www.yandex.ru) и Aport(www.aport.ru), а также русскоязычные версии Lycos (www.lycos.ru) и Google(www.google.com.ru). Основные достоинства этих систем: высокая скорость формирования ответа и простота использования — пользователь обращается на поисковый сервер, задает образ для поиска — ключевые слова интересующей его темы и управляющие элементы синтаксиса запросов, выполняет запрос, и система выдает списки и адреса тех документов, в которых эти ключевые слова встречаются. Все поисковые системы имеют текстовое поле, в которое вводятся используемые для поиска документов ключевые слова. Для каждой поисковой системы приняты свои правила составления запросов (хотя и похожие), поясняемые обычно на страницах справки этих поисковых серверов. Общие рекомендации для результативного поиска:

· четкое формулирование цели и темы поиска;

· тщательный подбор ключевых слов с исключением слов общего характера
предлогов, союзов и вспомогательных слов (обычно поисковые системы игнорируют незначащие слова, но осторожность не мешает);

· подбор к ключевым словам максимального количества синонимов и альтернативных слов. Почти все поисковые системы позволяют выполнять:

· простой поиск, когда задаются лишь ключевые слова без указания структурно-логических отношений между ними;

· расширенный поиск с учетом структурно-логических отношений между словами запроса, с указаниями зон поиска и других ограничений.

Таким образом, соединение по протоколу HTTP является одноразовым. Это было эффективно в те далекие годы, когда Web-документы были текстовыми. Сегодня же средняя Web-страница содержит в себе десятки встроенных объектов, и инициализировать ТСР-соединение для получения каждого из них было бы слишком утомительно. Поэтому современные броузеры, идя навстречу клиенту, сами автоматически запрашивают поставку встроенных объектов. Впрочем, если в современном броузере отключить загрузку графики, объектов мультимедиа и прочих, то он вернется к древнему режиму работы: один запрос — одно соединение, при котором от каждой Web-страницы загружается только ее текстовое ядро. Этим приемом пользуются для заметного ускорения работы в Сети при беглом поиске нужной информации, когда нет времени дожидаться загрузки малонужных объектов.

Существуют специальные расширения броузеров, способные выполнять упреждающее чтение. Пока мы просматриваем принятую Webстраницу, они анализируют гиперссылки, ведущие от нее к другим документам, и незаметно для нас запрашивают их по принципу «авось пригодится». Если пользователь действительно воспользуется гиперссылкой, ведущей к предварительно загруженному ресурсу, то он получит новую Web-страницу гораздо быстрее. Такие услуги, в частности, оказывает программа Interquick (www.interquick.com).

Существуют также программы, позволяющие принять не только одну Web-страницу, но и те страницы, к которым ведут ее ссылки, а также страницы, к которым ведут ссылки с этих страниц, и т. д. В этих программах глубиной погружения можно управлять, используя специальные настройки. Такие программы называют средствами автономного просмотра, поскольку они очень удобны, чтобы скопировать в ночное время обширный комплекс страниц, а потом днем, отключившись от Интернета, спокойно просмотреть все, что было принято в автономном режиме. Наиболее популярные продукты этой категории — программы Offline Explorer (www.metaproducts.com) и Teleport Pro (www.tenmax.com).

Тот факт, что броузер сам анализирует гиперссылки, встреченные на странице, и сам генерирует запросы на загрузку объектов, связанных с этими гиперссылками, используют для создания «интеллектуальных» расширений броузеров, способных блокировать поставку рекламы. Они «знают» характерные признаки ссылок, ведущих к рекламным модулям, и просто не обращаются за поставкой этих ресурсов. В качестве примера можно привести программу Internet Junkbuster (www.junkbusters.com), способную эффективно облегчить рекламную и другую неактуальную нагрузку на канал связи.

5rik.ru

Материалы для учебы и работы

Средства поиска информации в WWW