Страница результатов поиска

Внутренняя структура поисковых систем

Механизм работы поисковиков

Каждая поисковая система – это комплекс программ.

Основные части программного комплекса:

1. Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она скачивает на диск поискового сервера содержимое исследуемых страниц.

2. Робот crawler (“путешествующий” паук). Его задача - собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.

3. Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он оставляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.

4. База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.

5. Система обработки запросов и выдачи результатов. Принимает запрос пользователя, формирует запрос к базе данных, получает оттуда результат и передает его пользователю.

Поисковые машины не только находят страницы, но и сообщают о находках много ценной информации!

За время существования поисковых машин выработался стандарт выдачи пользователю страниц результатов поиска. Разобравшись в форме выдачи результатов одной поисковой машины, можно уверенно пользоваться остальными поисковиками.

Каждый результат поиска содержит: