Стандарт исключения для поисковых систем

Регистрация сайта в поисковых системах

Итак, вам необходимо «прописать» страничку в поисковой машине. Это можно сделать двумя методами: автоматически и, соответственно, «вручную». Я обычно рекомендую второй. Объясняется это следующими причинами: автоматическая регистрация производится со специализированных серверов (как правило, услуга платная, но существует и множество бесплатных вариантов) путем ввода пользователем URL, описания ресурса, списка ключевых слов в интерактивную форму и передачи этой информации через GCI-скрипт в реестр выбранных из предлагаемого на таком сервере перечня поисковых служб. При этом добрая половина поисковых систем, как правило, по непонятным причинам выдает «отбой», еще половина — тайм-аут, и лишь несколько сообщат о нормально прошедшей регистрации. И даже если вы включите режим слежения за отчетом, заставить поисковые системы правильно проиндексировать ваш ресурс вы все равно не сможете

Регистрация «вручную» производится достаточно просто. Вы заходите на сервер поисковой службы и ищете ссылку «Добавить URL» («добавить страницу», просто «добавить») для русскоязычных систем и «Add URL» («Add NeWPage») для систем с английским интерфейсом. Такие ссылки расположены, как правило, вблизи формы интерактивного запроса. Далее вам останется только перейти по этой ссылке на Web-страницу с подробным описанием правил регистрации, а затем ввести URL-адрес стартовой страницы (http://myserver.com/index.html), описание ресурса и ключевые слова в предложенную интерактивную форму. Обратите внимание на то, что в имени файла стартовой странички следует указывать расширение, причем надо различать .htm и .html.

 

Все поисковые системы при индексации того или иного сайта берут информацию о разрешениях и запретах на включение в базу данных каких-либо директорий и отдельных html-документов из файла robots.txt, размещаемого Web-мастером в каталоге, отведенном на сервере для публикации вашего ресурса. Рекомендуется исключить из списка разрешенных для индексации объектов

директории, в которых размещаются интерактивные скрипты и лог-файлы, а также документы, помещение которых в базу данных поисковой системы вы не считаете нужным: чем меньше страниц серверу предстоит проиндексировать, тем быстрее пройдет процесс регистрации.

Общий формат записи директив в файле robots.txt выглядит следующим образом:

ПАРАМЕТР: ЗНАЧЕНИЕ

Символ пробела между полями «параметр» и «значение» является опциональным, то есть его можно опустить без каких-либо последствий. Формат записи в поле «параметр» регистронезависим, то есть серверу все равно, в заглавном или строчном регистре записана директива. Если строка в файле robots.txt начинается с символа «#», поисковый сервер игнорирует ее, воспринимая как комментарий.

В стандарте robots.txt (в отличие от стандартов HTML и CSS) пустые строки, не содержащие ни одного символа, считаются значащими: они отделяют друг от друга разделы описания допусков и запретов, предназначенных для различных поисковых машин.

Первой директивой файла robots.txt является параметр User-Agent. С него же должен начинаться каждый раздел данного файла, отделенный от других разделов пустой строкой. Значением этого параметра служит имя поискового робота, для которого вы устанавливаете права доступа. Если в одном блоке описаний вы хотите задать параметры для нескольких роботов, их имена надо перечислить через пробел. Если значением параметра User-Agent служит символ «*», то следующие далее директивы устанавливаются для всех поисковых систем, независимо от названия и территориальной принадлежности. Второй командой этого своеобразного макроязыка является директива DisalloW. Вместо ее значения следует подставить частичный URL документа или директории, не подлежащей индексации, причем записывать этот адрес следует согласно синтаксису обозначения структуры директорий на данном сервере. Например, запись DisalloW: /photos запрещает индексировать хранящийся в корневой директории сайта файл photos.html и расположенную там же директорию photos, а команда DisalloW: /photos/ — только саму директорию вместе совсем ее содержимым. Если значения команды DisalloW не указаны, поисковый сервер индексирует весь сайт целиком. С другой стороны, строка DisalloW: /,наоборот, запрещает индексировать данный ресурс — иными словами, вносить информацию о нем в базу данных поисковой системы.

Простые примеры листинга файла robots.txt приведены ниже. Пример 1.

#file-type: robots.txt for site http://WWW.mysite.ru

User-Agent: Yandex

DisalloW: /cgi-bin/

DisalloW: /private/myfolder/index

DisalloW: /images/

DisalloW: not_found.html

DisalloW: forbidden.html

User-Agent: AltaVista HotBot Cybermapper

DisalloW: /cgi-bin/

DisalloW: /private/

DisalloW: /hobbies/index.html

DisalloW: not_found.html

#End of file

Пример 2.

#file-type: robots.txt for site http://WWW.mysite.ru

User-Agent: *

DisalloW: /cgi-bin/

DisalloW: /private/

DisalloW: not_found.html

DisalloW: forbidden.html

#End of file

Учтите, что файл robots.txt не должен содержать пустых строк, если первой директивой после разрыва строки не является команда User-Agent, а также то, что стандарт исключения для роботов не предусматривает использования масок, содержащих символы «*» и «?». Например, запись DisalloW: /folder/*.html запрещает индексацию файлов не с расширением .html, а с именем *, которых просто не существует на сервере. Одна команда DisalloW должна содержать только одну ссылку на документ или файл, а для размещения нескольких ссылок надо использовать то же количество команд DisalloW. В качестве значения данной команды необходимо указывать относительные пути к файлам и директориям, но ни в коем случае не абсолютные. Иными словами, ссылку на серверную папку следует записывать в виде «/folder», но никак не в виде «http://WWW.mysite.ru/folder«.