Файл robots.txt представляет собой набор инструкций для поисковых роботов. С помощью этого файла можно запретить индексацию отдельных страниц сайта и/или целых разделов, указать правильные "зеркала" файлов, указать время, в которое поисковому роботу лучше скачивать страницы и т. д.
Правила robots.txt:
- Разделение записей осуществляется пустыми строками (одной или несколькими). ВНИМАНИЕ!!! Разделение несколькими пустыми символами перевода строки (пустыми строками) допустимо только между инструкциями к разным ПС! Более того, при разделении инструкций для разных ПС согласно стандартов даже рекомендуется разделение пустой строкой.
- Комментарии оставляются при помощи символа "#", указанного в начале строки. При переходе комментария на новую строку необходимо снова поставить символ "#".
- имя файла robots.txt пишется строго так: "robots.txt" (без кавычек). Использование символов в верхнем регистре, а также добавление других символов запрещено.
- файл robots.txt размещается строго в корневой директории сайта (там же, где и главная страница сайта)
Синтаксис robots.txt:
User-agent - в данной директиве указывается имя поисковой системы, для которой создаются инструкции. Иногда, сайту необходимо, чтобы он индексировался ПС Яндекс, но не индексировался ПС Google. В этом случае возможно указание нескольких директив User-agent и указание для них разных инструкций.
#для всех ПС User-agent: *
# для Яндекса User-agent: Yandex
# для Гугла User-agent: Googlebot
# для Рамблера User-agent: StackRambler
# для Aport'а User-agent: Aport
# для Яху User-agent: YahooBot
Disallow - директива указывает страницы или разделы сайта, которые ПС не должна индексировать
User-agent: Yandex Disallow: / # robots.txt с таким содержанием запрещает индексацию всего сайта ПС Яндекс
User-agent: * Disallow: /katalog/ # robots.txt с таким содержанием запрещает индексацию всего каталога "katalog" всем ПС
Allow - директива указывает страницы и разделы сайта, которые ПС должна индексировать. При совместном использовании директив Disallow и Allow первой указывается первая в порядке появления в выбранном User-agent блоке.
User-agent: Googlebot Allow: /katalog/ Disallow: / # robots.txt с таким содержанием запрещает индексацию всего сайта кроме каталога "katalog" ПС Google
Host - директива указывает главное зеркало сайта. Эта директива должна указываться после директив Allow и Disallow, в противном случае ее учет не гарантируется. Зеркала указываются без "http://" в начале и слэша ("/") и/или страницы в конце.
Правильно:
Host: wwwsite.ru
Неправильно:
Host: http://www.site.ru
Host: wwwsite.ru/
Host: wwwsite.ru/index.php
User-agent: * Allow: /katalog/ Disallow: / Host: www.site.ru # robots.txt с таким содержанием запрещает индексацию всего сайта кроме каталога "katalog" всем ПС. Главное зеркало: www.site.ru
Это основные, наиболее часто используемые директивы файла robots.txt. Со временем статья будет дополнена описанием новых директив.