Поиск по индексу
Поиск по индексузаключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.
Текст, в пределах которого проверяется действие логических операторов, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. Например, можно искать документы, в которых два слова - "электрический" и "счетчик" - находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.
Поисковые машины- это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Важными показателями качества поисковой машины являются объем базы данных (количество документов), скорость обхода Сети (с этим связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные возможности (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.
Мощная поисковая машина обходит всю сеть за несколько дней. При этом составляется весьма свежий и довольно подробный индекс - опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что в индекс могут попасть дубликаты (один и тот же документ на разных сайтах, в разных кодировках). Поисковые машины индексируют фреймы покадрово, не индексируют редиректы, а иногда и скрипты. Кроме того, часть интернета для поисковых машин закрыта. Это информация, доступ к которой осуществляется по паролю, а также базы данных, доступ в которые осуществляется по запросу из формы (а не по ссылке).
Таблица 4
Яндекс | Rambler | Апорт! | AltaVista | ||
Зона поиска,объем базы данных | Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам. | Русская часть Интернета. | Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3 | Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео. | Специализи-рованный поиск по университе-там США, Apple, Linux, BSD |
Объем базы на начало 2001 года | Более 31 миллионов документов | Более 12 миллионов документов | Более 14 миллионов документов | Более 250 миллионов документов | 1,25 миллиарда страниц |
Тип индексации | полнотекстовая индексация | полнотекстовая индексация | полнотекстовая индексация и индексация по ссылкам | полнотекстовая индексация | полнотекстовая индексация и индексация по ссылкам |
Наличие дополнительных сервисов | Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.). | Система объединяет поисковую машину и рейтинг-классификатор Top100 | Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.) | Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.) | Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц. |
Синтаксис языка поиска | |||||
логическое И | пробел или & (в пределах предложения)&&(в пределах документа) | AND, &, пробел между словамипо умолчанию | И, AND, &,+, пробел между словами по умолчанию | AND, & (только при сложном поиске) | по умолчанию для всех слов поиска |
логическое ИЛИ | | | OR, | | ИЛИ, OR, | | OR (по умолчанию при простом поиске), | (только при сложном поиске) | OR |
бинарный оператор И-НЕ | ~ (в пределах предложения) ~ ~ (в пределах документа) | не используется | заменяется префиксным оператором "-" (AND - пробел по умолчанию); НЕ, NOT | AND NOT, ! (только при сложном поиске) | заменяется префиксным оператором "-" |
префиксы обязательных (+) и запрещенных (-) слов | +, - | не используются | +, - | +, - (только при простом поиске) | +, - |
группирование слов | ( ) | ( ) | ( ) | ( ) | не используется |
расстояние между ключевыми словами при поиске | /(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед) | при расширенном поиске - выдача документов только с минимальным расстоянием между словами | сл2(...), с2(...), w2(...), [2,...] (- назад, + вперед) | NEAR (в пределах10 слов, только при сложном поиске) | не используется |
поиск фразы | " " | нет | " ", | " " | " ", , -..- |
символы замены части слова | нет | *, ? (замена любого символа) | * (только в конце слова) | * | нет |
ограничение по языку документа | выбор: любой, кириллица, латиница | выбор: любой, русский, английский | выбор: русский, английский | выбор из 25 языков | выбор из 25 языков |
морфология | все склонения и спряжения по умолчанию, ! (поиск точной словоформы) | # (все формы слов), @ (однокоренные слова) | ! (указание нормальной формы) | нет | нет |
поиск по датам | есть | есть | есть | есть | нет |
ограничение поиска по полям | Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение поиска на выбранные сайты. | Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов. | Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок. Сужение поиска на выбранные сайты. | Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок, в названиях скриптов, объектов и апплетов | Поиск в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты. |
Возможности расширенной формы, качество помощи | |||||
настройка расширенной формы | настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту | по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова | по документу, заголовку, изображению,дате, 5 разделам (сайты, МР3, картинки, товары, новости) | по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр. | ограничения по сайту, языку, ссылкам |
настройка вывода результатов | задание числа результатов на странице, всех элементов формы вывода | задание числа результатов на странице, формы вывода | задание формы выдачи | задание числа результатов на странице, всех элементов формы вывода | задание числа результатов на странице, всех элементов формы вывода |
ранжирование результатов поиска | сортировка по релевантности или дате | сортировка по релевантности или дате | по популярности сайта | по терминам, указанным в SORT | по цитируемости (ссылок на страницу с других страниц) |
итеративный поиск (в результатах поиска) | Да. Выполняется с помощью установки флажка | Да. Выполняется с помощью переключателя области поиска | Да. Выполняется с помощью установки флажка | Да. Выполняется с помощью SORT BY | нет |
качество раздела помощи | имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях | краткий раздел HELP | подробный справочник по языку запросов, есть много русских синонимов для основных операторов | самый большой из рассмотренных в этой таблице учебник on-line по языку запросов | очень ограниченный раздел HELP |
семейный фильтр | есть | нет | нет | есть | нет |
Синтаксис языка запросовв разных поисковых системах может отличаться, обычно в справочных данных на поисковом сервере приводится информация о синтаксисе запросов. В качестве примера в табл. приводится синтаксис языка запросов, принятый в поисковой машине Yandex.
Таблица 5. Синтаксис языка запросов при строгом поиске
Синтаксис | Что означает оператор | Пример запроса |
Пробел или & | Логическое И (в пределах предложения) | Лечебная физкультура |
&& | Логическое И (в пределах документа) | Рецепты && (плавленый сыр) |
I | Логическое ИЛИ | Фото I фотография I снимок I фотоизображение |
+ | Обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) | +Быть или +не быть |
() | Группирование слов | (Технология I изготовление) (сыра I творога) |
~ | Оператор И НЕ (в пределах документа) | Банки ~ закон |
~~или~ | Оператор И НЕ (в пределах документа) | Путеводитель по Парижу ~~ (агентство I тур) |
/(n m) | Расстояние в словах (~ назад +вперед) | Поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~/+1 студентов |
<< << | Поиск фразы | <<Красная шапочка>> (эквивалентно красная /+1 шапочка) |
&&/(n m) | Расстояние в предложениях (-назад +вперед) | Банк && /1 налоги |
Многие поисковые системы имеют режим "расширенный поиск". Например, в наиболее популярной на сегодня поисковой системе Google (www.google.com) этот режим дает возможность искать документы на определенном языке, измененные в определенное время или представленные в определенном формате, например Word-документ или презентацию Power Point.
После того как пользователь передал запрос поисковой системе, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.
Несмотря на то что человек человеку всегда лучше объяснит, что же он ищет, нельзя сказать, что современные поисковые машины - это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, существуют, например, поисковые системы позволяющие решать проблему различных словоформ. А это далеко не тривиальная задача. Если мы ищем документ по ключевому слову "стол", то, вероятно, документ, содержащий фразу "столы для кухни" - это то, что нам нужно. Однако "стол" и "столы" для системы, осуществляющей формальное сравнение, - это разные слова. Поиск, учитывающий словоизменения, называется морфологическим поиском.