Общие сведения о работе поисковой системы Рамблер
Все поисковые системы Интернета, и Рамблер в том числе, состоят из трех базовых компонентов:
· веб-паук (web spider);
· индексатор;
· поисковая машина
Web spider представляет собой программу, которая обходит страницы с заданными URL, скачивает их в базу данных, а затем архивирует и перекладывает в хранилище один раз в сутки. Робот размещается на нескольких машинах, каждая из которых выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не известны поисковой системе, а на другой - страницы, которые были скачены не менее месяца, но и не более года назад. При этом все машины используют одно и то же хранилище.
При необходимости, работу можно распределить другим способом: например, разбив список URL на N частей и раздав их N машинам. Параллельная работа веб-паука на нескольких машинах позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин. Данные, которые собирает web spider, размещаются в индексной базе.
Индексатор – это программа, которая занимается обработкой страниц, скаченных при помощи веб-паука. Ее задача - "прочесть" все документы, извлечь из них слова и разместить их в специальную базу данных - индекс. Информация, находящаяся в хранилище в сжатом виде, делится на несколько частей. Эти части постепенно распределяются между машинами, на которых запущена программа-индексатор. Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета, а вся обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается при помощи добавления машин в систему.
После того, как вся информация обработана, начинается объединение (слияние) результатов, а также расстановка помет: откуда взят тот или иной документ. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса. Так, если объединяются N новых частей, то в анализе участвует N+1 фрагмент (N новых + основная база предыдущей редакции). Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной и обнаруживать ошибки на более раннем этапе.
Специальная программа составляет таблицы перенумерации документов базы и объединяет содержимое всех частей. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании веб-адресов (URL) последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы. Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ.
Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура "сливания" частей проходит в несколько этапов. Вначале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы пересекаются с основной базой предыдущей редакции. Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно. Поэтапная работа незначительно замедляет формирование единого индекса и не отражается на качестве результатов.
Поисковая машина – обеспечивает точность и корректность обработки данных. От ее особенностей зависит, насколько быстро и точно пользователь найдет то, что его интересует. Когда пользователь вводит свой запрос, поисковая машина ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.
Поисковая система Рамблера "говорит" на том же языке, что и мы с Вами. Помимо русского разговорного языка, она знает несколько сотен других языков (носители которых создают сайты в Интернете), а также "понимает" специальные символы и формулы. Таким образом, Ваш поисковый запрос, как и вопрос в обычной речи, может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Например, если ввести в поисковую строку несколько слов без знаков препинания и специальных символов, поисковая машина найдет все документы, в которых содержатся эти слова (причем на ограниченном расстоянии друг от друга).
Однако можно научиться искать более эффективно. Для этого нужно:
· Точно представить, что именно Вы хотите найти.
· Попытаться описать искомое наиболее полно и емко. То есть если Вы хотите найти реферат по развитию герменевтики в России, необходимо. чтобы поисковый запрос содержал все три определяющие понятия: "реферат", "герменевтика", "Россия".
· Ввести поисковый запрос без ошибок. Если Вы ошибетесь - мы постараемся Вас поправить в списке ассоциативных запросов "У нас также ищут". Но желательно все-таки помнить, как пишется слово, которое Вы ищете.
· Использовать уточняющие слова. Если Вам требуется найти книгу Паркинсона, в запросе должны присутствовать оба слова: "книга" и "Паркинсон". В противном случае в результате поиска появятся страницы, посвященные болезни Паркинсона.
· Использовать синонимы и образные выражения. Если искомое слово не найдено, постарайтесь переформулировать свой запрос.
· Применять служебные символы (см. операторы, скобки и кавычки)