Поисковые системы

Общедоступные поисковые системы, представляющие собой сайты, специализирующиеся на поиске и предоставлении по запросу пользователя любой интересующей его информации.

Поисковые системы (ПС), содержат в себе три основных компонента:

· поисковый робот - программа, которая регулярно осуществляет сканирование максимально возможного количества доступных ей web, анализируют их и подготавливают своеобразную выжимку из информации страницы. В этом случае говорят, что страница проиндексирована и информация о ней помещается в индексы поисковой системы. Spider автоматически возвращается через определенные периоды времени и индексирует страницу снова.

· индекс системы — основная база данных ПС на основе которой поисковая система выдает ответы на запросы пользователей.

· Поисковая программа — программа, которая обрабатывает запрос пользователя, находит в индексе документы, отвечающие критериям запроса, и выводит список найденных документов в определенном порядке.

В соответствии с запросом пользователя эта программа перебирает индексы поисковой системы в поисках информации, интересующей пользователя, и выдает ему найденные документы в порядке убывания релевантности.

Реально, релевантность обозначает соответствие. То есть в случае работы поисковой системы можно сказать так: на ваш запрос к поисковому серверу, вы получаете наиболее соответствующую (релевантную) ему web страницу. Так как крайне редко бывает точное совпадение, поисковый сервер выдает вначале документы с максимальным соответствием (релевантностью), и далее по убыванию.

Информация об алгоритмах назначение приоритета документу обычно не предаются широкой огласке, но они крайне необходимы Web-мастерам, продвигающим в конкурентной борьбе свои узлы через ИПС Интернета. Попасть в первые несколько десятков записей - значит обеспечить свою доступность для потенциальных клиентов. Различные поисковые системы имеют свои алгоритмы назначения приоритета.

Как правило, это происходит по тому, насколько часто там встречаются искомые слова, веса этих слов. Причем некоторые поисковые системы работают со стоп-словами.

Подавляющее большинство ИПС Интернета сегодня активно работает с так называемыми стоп-словами (stop-words). К последним относят служебные части речи, которые не несут смысловую нагрузку, а также некоторые наиболее общеупотребительные в Сети слова, такие как information, Internet, Web, business и другие.

Но есть и другой способ оценить приоритетность каждого ресурса: страница считается важной, если на нее ссылаются множество других, по возможности тоже важных страниц. Так осуществляется сортировка страниц в Google.

Рассмотрим, к примеру, как вычисляется релевантность вашей страницы в запросе Яndex.

•Самый высший приоритет дает заголовок

•Далее наиболее высокий приоритет дается ключевым словам, расположенным в самом верху страницы

•Далее – приоритет количеству повторений/вхождений ключевых слов

Каждая поисковая система имеет своего собственного робота, со своими собственными алгоритмами работы с информацией. Каждая система индексирует страницы своим особым способом. Наконец, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным, одним и тем же ключевым словам или выражениям, мы будем иметь разные результаты для каждой из поисковых систем.

К основным параметрам поисковых систем относятся:

- объем индексных файлов (число проиндексированных серверов и отдельных документов);

- степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших;

- возможности для составления запроса;

- интеллектуальность системы ранжирования результатов поиска;

- наличие дополнительных сервисных функций, облегчающих работу пользователя.

Первая величина, являющаяся ключевой, устанавливает широту охвата материала и определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска колеблется в пределах от 1 до 3 с лишним миллиардов.

Учитывая тот факт, что в среднем интернетовский адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровень оперативности обновления данных, характеризующий степень соответствия индексного файла поисковой системы реальному местоположению документов на сайтах. В настоящее время этот параметр колеблется от двух недель до полутора месяцев.

Возможности поискового механизма выражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание.

Все поисковые машины обладают модулем ранжирования результатов поиска. Создание таких модулей - целая область программирования, в которой конкурируют сложнейшие алгоритмы, созданные разными компаниями. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок, необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ.

Не последнюю роль играет и простота интерфейса, наличие дополнительных сервисных функций, как, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т.д.

Деление поисковых средств на каталоги и поисковые системы (машины) условно, потому что практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

Еще одной разновидностью поисковых инструментов являются метапоисковые системы. Их главное достоинство заключается в умение рассылать запросы сразу в несколько «реальных» поисковых систем, а затем суммировать результаты. К таковым, в частности, относится MetaCrawler (http://www.metacrawler.com/), Vivisimo (vivisimo.com) и т.п. Единственной мета-поисковой системой, рассылающей запросы в российские поисковые машины, является 360.ru (http://www.360.ru/) . Хотя помимо России, поиск можно ограничить любым другим регионом мира или не ограничивать совсем.

Пользоваться метапоисковыми системами рекомендуется для выполнения запросов, связанных с поиском очень простых, и, предположительно, крайне редко встречающихся в Сети предметах (лекарственных препаратах, химических элементах, редких сочетаниях имен собственных и т.п.). В этом случае результаты поиска сразу же дают представление о том, насколько широко данные ключевые слова (объекты) встречаются в Сети.

В следующем списке дано описание поисковых систем и справочников, представляющих наибольший интерес для русскоязычных пользователей сети.

Яндекс (http://www.yandex.ru/) В настоящее время - признанный лидер российского поискового сервиса. На начало февраля 2004 года Яндексом проиндексировано свыше 970 тысяч российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 140 миллионов оригинальных документов). За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание, охватив все возможные сочетания терминов.

Система Апорт(http://aport.ru/)- имеет богатые возможности формирования запроса. В частности, она способна переводить запрос, результаты поиска и даже полный текст документов с русского на английский язык и наоборот. Особенностью Апорт является то, что она не ограничивает своих роботов пределами доменов России и СНГ - в перечне результатов можно встретить ссылки на многие зарубежные сервера.

Помимо поисковой системы, пользователей Апорт привлекают возможности одноименного справочника ресурсов, являющего на сегодня наиболее объемным каталогом в России.

Rambler (http://www.rambler.ru/)- Запущен в октябре 1996 года и изначально предназначался для выявления материалов на серверах в пределах бывшего СССР. К началу нового тысячелетия Rambler на время утратил лидирующие позиции. Однако проведенная в декабре 2002 коренная модернизации всей программно-аппаратной части позволила поисковой системе вновь обрести былой авторитет. По результатам тестов, Rambler занимает второе место после Яндекса по величине базы данных.

Turtle (http://www.turtle.ru/) . Система, запущенная в эксплуатацию в июне 2002 года. Несмотря на англоязычное название (Turtle - Черепаха) - российская поисковая система, ограничивающая зону поиска Россией, странами СНГ и русскоязычными серверами дальнего зарубежья. На сегодня главными ее достоинствами являются - большой объем индексного файла (около 100 миллионов оригинальных документов) и возможность просматривать найденные документы без обращения к исходному сайту, так как копии всех проиндексированных документов хранятся на сервере.

Yahoo! (http://www.yahoo.com/) - однин из самых первых, надежных и авторитетных справочников Всемирной паутины. И хотя в основном справочнике учитываются, главным образом, англоязычные ресурсы, можно переключиться на региональные справочники Local Yahoos! , отражающие ресурсы в основном отдельных стран, большинство которых представлено на национальных языках.

Google (http://www.google.com/) - поисковая система являющаяся несомненным лидером среди глобальных поисковых систем. Главное достоинство Google - объем его индексного файла, который составляет более 3,3 миллиардов web-страниц и статей из групп новостей. Google был первой поисковой машиной, начавших индексацию документов в формате PDF, RTF, PS, DOC, XLS, PPT, WP5 и ряде других. При этом Google отличается высокой степенью комфорта для пользователя, так как пользователи из неанглоязычных стран могут выбрать язык интерфейса.

Пингвин (http://www.pingwin.ru/)- каталог, созданный в Екатеринбурге, на сегодняшний день отражает более 70 тысяч сайтов. Схема классификации рассчитана на начинающего пользователя. Главной особенностью данного каталога является персонализация пользователей: при желании можно указать свое имя и перечень интересов и в последующие визиты «Пингвин» будет предлагать сведения по заявленной тематике.