Роботы индексов или поисковые машины

Поисковые машины устроены несколько иначе. По сути, это сервер с огромной базой данных URL-адресов, который автоматически обращается к страницам WWW по всем этим адресам, изучает содержимое этих страниц, формирует и прописывает ключевые слова со страниц в свою базу данных (индексирует страницы). Более того, этот сервер обращается по всем встречаемым на страницах ссылками и переходя к новым страницам, проделывает с ними тоже самое. Так как почти любая страница WWW имеет множество ссылок на другие страницы, то при подобной работе поисковая машина в конечном результате теоретически может обойти все сайты в Интернет.

Самая популярная поисковая машина AltaVista (http://www.altavista.com) содержит десятки миллиардов слов, извлеченных из десятков миллионов WWW-страниц. Как пользоваться этим сервисом? Необходимо продумать строку запроса информации (не более чем 5 слов), как в случае с Yahoo! И также набрать ее в поле ввода. Над кнопкой Search (Поиск) находится ниспадающее меню с выбором языка. Перед нажатием Enter или кнопки Search необходимо выбрать язык представления информации. Кроме того, в запрос информации можно включать специальный символ *, расширяющий диапазон поиска. Скажем, что бы Altavista могла найти не только все вхождения слова "информатика", но и слова "информация", "информационные" и т.д., в запросе надо писать "информа***". Т.е. изменяющиеся буквы окончания заменяем на символ *.

Как и предыдущем случае, для поиска в русскоязычном Интернет Altavista не очень подходит. Если на запрос "information" Altavista сформирует список из тысяч URL-адресов, то по запросу "информация" появляется список ссылок на гораздо меньшее число узлов. Другая поисковая машина – Lycos.

Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (http://www.yandex.ru). В Яndex можно просто написать по-русски фразу, описывающую то, что вы хотите найти. Система самостоятельно проанализирует и обработает ваш запрос, а затем постарается найти все, что относится к заданной теме. Если нужных документов не обнаружится, то можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltavVista вряд ли дойдет, так как база Яndex содержит несколько миллионов документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать ваш запрос для сокращения этого списка до разумных пределов. Вы можете на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким вашим требованиям должна отвечать, интересующая вас информация. Ниже приведены некоторые из операторов языка запросов Яndex.

Синтаксис языка запросов (строгий поиск)

Синтаксис Что означает оператор Пример запроса
пробел или & логическое И (в пределах предложения) Информационные технологии
&& логическое И (в пределах документа) компьютер && (материнская плата)
| логическое ИЛИ винчестер | жесткий диск | HDD
() группирование слов (технология | изготовление) (микросхем | ЭЛТ)
~ бинарный оператор И НЕ (в пределах предложения) оценка ~ два
~~ бинарный оператор И НЕ (в пределах документа) руководство пользователя ~~ (сборка | компьютер)
/(n m) расстояние в словах (-назад +вперед) поставщики /2 компьютеров высшее /(-2 4) образование обучение ~ /+1 студентов
" " поиск фразы "материнская плата" (эквивалентно материнская /+1 плата)
&&/(n m) расстояние в предложениях (-назад +вперед) использование && /1 трансляторы

Поиск в элементах

Синтаксис Что означает оператор Пример запроса
$title (выражение) поиск в заголовке $title (CompTech)
$anchor (выражение) поиск в тексте ссылок $anchor (CompTech | Dialog)
#keywords=(выражение) поиск в ключевых словах #keywords=(поисковая система)
#abstract=(выражение) поиск в описании #abstract=(компьютер | поиск)
#image="значение" поиск файла изображения #image="monitor*"
#hint=(выражение) поиск в подписях к изображениям #hint=(screen | экран)
#url="значение" поиск на заданном сайте (странице) #url="www.eltech.ru*"
#link="значение" поиск ссылок на заданный URL #link="www.yandex.ru*"

 

Можно вспомнить о еще одной популярной российской поисковой машине Rambler (http://www.rambler.ru). У этого сервера еще более полная база данных адресов URL, чем у Яndex. Отличительной чертой Rambler является то, что этот сервер ведет статистику посещаемости ссылок из собственной базы данных. Вы всегда можете зайти в раздел "Рейтинг" на главной странице Rambler и увидеть содержимое тематического каталога, отсортированного по убыванию числа посещений сайтов и следовательно их популярности. Тем самым отсекаются явные аутсайдеры и вы не тратите на них свое время. Rambler также как и Yandex, позволяет, кроме простого запроса, запрос с языком запросов. Поддерживаются те же логические операторы И, ИЛИ, НЕ, метасимвол * (аналогично расширяющему диапазон запроса символу * в AltaVista), коэффициентные символы + и -, для увеличения или уменьшения значимости вводимых в запрос слов.

Также есть еще русскоязычная поисковая машина Апорт (http://www.aport.ru) и российский сервер ТЕЛА-поиск (http://tela.dux.ru).

Поисковые машины и тематические каталоги сегодня имеют много общего. У каталогов присутствует возможность поиска информации по строке запроса с использованием логических операторов, а поисковые машины содержат свои собственные тематические каталоги. И тем не менее лучше всего эти поисковые сервисы проявляют себя в своей первоначальной категории.

В настоящее время в Интернете представлено несколько десятков популярных роботов. Но, к сожалению, их обилие создает определенные проблемы для пользователя, поскольку принцип работы каждого из роботов уникален и поэтому одно и то же ключевое слово, введенное в разные поисковые машины (Rambler или Yandex), базы данных которых сформированны разными роботами, дает различный перечень сайтов, как по порядку их представления, так и по охвату.

Чем сложнее язык запросов - тем более тонкую настройку поиска оказывается возможным провести. В настоящее время не существует единого унифицированного языка запросов для поисковых систем. Разработка такого языка сделала бы возможной интеграцию различных поисковых сервисов в единую метасистему поиска. В феврале 1999 был начат проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших поисковых систем Интернета. В задачу проекта входит стандартизация работы поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com/).