Страница результатов поиска
Внутренняя структура поисковых систем
Механизм работы поисковиков
Каждая поисковая система – это комплекс программ.
Основные части программного комплекса:
1. Робот spider (паук). Автономно работающая программа, которая перебирает страницы сайтов, стоящих в очереди на индексацию. Она скачивает на диск поискового сервера содержимое исследуемых страниц.
2. Робот crawler (“путешествующий” паук). Его задача - собирать все ссылки на исследуемой странице, находить среди них новые, неизвестные поисковой системе, и добавлять их в список ожидающих индексации.
3. Индексатор. Обрабатывает страницы из очереди на индексацию. Для этого он оставляет “словарь” странички, запоминает “частоту” использования слов. Особо отмечает ключевые слова, используемые в заголовках, выделенные в тексте жирным шрифтом. Помещает все это в особый файл - “индекс”.
4. База данных. Хранит ссылки на страницы, словарь встречаемых на странице слов и много другой информации, которая необходима для формирования результатов поиска.
5. Система обработки запросов и выдачи результатов. Принимает запрос пользователя, формирует запрос к базе данных, получает оттуда результат и передает его пользователю.
Поисковые машины не только находят страницы, но и сообщают о находках много ценной информации!
За время существования поисковых машин выработался стандарт выдачи пользователю страниц результатов поиска. Разобравшись в форме выдачи результатов одной поисковой машины, можно уверенно пользоваться остальными поисковиками.
Каждый результат поиска содержит: