Поиск информационных ресурсов в Интернете

Наиболее мощными поисковыми машинами на сегодняшний день в мире являются: Google, Alta Vista (www.altavista.digital.com), Yahoo! (www.yahoo.com), Infoseek (www.infoseek.com), GoTo (www.goto.com), FTP search (ftpsearch.ntnu.no - поиск в системе FTP), а также отечественные: Rambler (www.rambler.ru), Yandex (yandex.ru), АПОРТ! (www.aport.ru), Следопыт (www.medialingua.ru/www/wwwsearc.htm), Compass (compass.tsu.ru), Russian FTP search (ftpsearch.city.ru - поиск в системе FTP).

Популярность приобретают мультипоисковые машины, которые переадресовывают запрос на поисковые машины, а за тем суммируют полученное и удаляют дублируемые записи. Например, Metabot.ru опрашивает Google, Alta Vista, Rambler, АПОРТ.

Функционирование поисковой машины включает два базовых процесса:

1) индексирование ресурсов Internet (автоматическое построение и обновление индекса);

2) поиск по индексу по запросам пользователей.

Поисковая машина – это программа которая составляет и хранит предметный указатель Интернета и находит в нем заданные ключевые слова ( в индексе). Количество поисковых машин перевалило в 2001 году за 2000.

Поисковая машина

1. Робот/Паук – мобильный индексный программный агент, который систематически посещает сайты, считывает их содержимое и записывает в базу данных.

2. Индексный программный агент выбирает новые страницы и добавляет их ключевые слова в индекс по алфавиту в индекс. Индекс представляет собой хранилище, которое содержит ссылки на номера страниц.

3. Индексная запись имеет следующую структуру:

Основа (номер страницы, номер страницы, …, номер страницы).

Основа это ключевое слово специально обработанное (без окончания). Если в обычном тексте мы идем от страницы к словам, то поисковая машина идет от слов к страницам. Поэтому индекс поисковой машины называется инвертированным (перевернутым).

4. Поисковая программа в соответствии с запросом пользователя перебирает индексы и выдает результаты с помощью прямого индекса, содержащего текстовую копию страниц Интернета.

Поисковые машины могут просмотреть не более трети всех сайтов в Интернете. Существует видимый и невидимый Интернет. Число документов невидимой части в 500 раз превышает ее видимую часть.

Поисковый образ документа (ПОД) хранится в индексе – таблице, строки которой соответствуют документам, а столбцы информационным признакам, на основании которых строится ПОД. Запрос выполняется в соответствии с поисковым предписание (ПП). В ячейках индекса хранятся либо 1, либо 0, в зависимости от наличия либо отсутствия признака в документе. Так как таблица сильно разряжена, поэтому делают ее свертку.

Машины поиска являются самыми распространенными средствами извлечения информации. В большинстве случаев используются роботы, перемещающиеся по сети от сайта к сайту. Роботы индексируют сайты: одни индексируют полностью, другие – частично.

Роботы, являясь программными агентами, отвечают за извлечение документов из сети. Для этого поисковый механизм находит свободного агента и передает ему задание на поиск. Агент приступает к работе и возвращает найденный документ. Одновременно в среднем используется до 15 агентов. Согласно работе [Гаврилова, Хорошевский] все поисковые агенты делятся на

- неспециализированные и

- специализированные.

Неспециализированные агенты обеспечивают поиск по ключевым словам и устойчивым словосочетаниям. Такие системы агентов объединяют ссылки на сайты, найденные множеством машин поиска. Используя агентов такого класса можно уменьшить число результирующих документов.

Специализированные агенты приспособлены искать сайты по видам (новости, музыка, акции, книги, видеоклипы и т.д.).