Файл robots.txt представляет собой набор инструкций для поисковых роботов. С помощью этого файла можно запретить индексацию отдельных страниц сайта и/или целых разделов, указать правильные "зеркала" файлов, указать время, в которое поисковому роботу лучше скачивать страницы и т. д.

Правила robots.txt:
- Разделение записей осуществляется пустыми строками (одной или несколькими). ВНИМАНИЕ!!! Разделение несколькими пустыми символами перевода строки (пустыми строками) допустимо только между инструкциями к разным ПС! Более того, при разделении инструкций для разных ПС согласно стандартов даже рекомендуется разделение пустой строкой.
- Комментарии оставляются при помощи символа "#", указанного в начале строки. При переходе комментария на новую строку необходимо снова поставить символ "#".
- имя файла robots.txt пишется строго так: "robots.txt" (без кавычек). Использование символов в верхнем регистре, а также добавление других символов запрещено.
- файл robots.txt размещается строго в корневой директории сайта (там же, где и главная страница сайта)

Синтаксис robots.txt:

User-agent - в данной директиве указывается имя поисковой системы, для которой создаются инструкции. Иногда, сайту необходимо, чтобы он индексировался ПС Яндекс, но не индексировался ПС Google. В этом случае возможно указание нескольких директив User-agent и указание для них разных инструкций.

Код:
#для всех ПС
User-agent: *
Код:
# для Яндекса
User-agent: Yandex
Код:
# для Гугла
User-agent: Googlebot
Код:
# для Рамблера
User-agent: StackRambler
Код:
# для Aport'а
User-agent: Aport
Код:
# для Яху
User-agent: YahooBot

Disallow - директива указывает страницы или разделы сайта, которые ПС не должна индексировать

Код:
User-agent: Yandex
Disallow: /
# robots.txt с таким содержанием запрещает индексацию всего сайта ПС Яндекс
Код:
User-agent: *
Disallow: /katalog/
# robots.txt с таким содержанием запрещает индексацию всего каталога "katalog" всем ПС

Allow - директива указывает страницы и разделы сайта, которые ПС должна индексировать. При совместном использовании директив Disallow и Allow первой указывается первая в порядке появления в выбранном User-agent блоке.

Код:
User-agent: Googlebot
Allow: /katalog/
Disallow: /
# robots.txt с таким содержанием запрещает индексацию всего сайта кроме каталога "katalog" ПС Google

Host - директива указывает главное зеркало сайта. Эта директива должна указываться после директив Allow и Disallow, в противном случае ее учет не гарантируется. Зеркала указываются без "http://" в начале и слэша ("/") и/или страницы в конце.

Правильно:
Host: wwwsite.ru

Неправильно:
Host: http://www.site.ru
Host: wwwsite.ru/
Host: wwwsite.ru/index.php

Код:
User-agent: *
Allow: /katalog/
Disallow: /
Host: www.site.ru
# robots.txt с таким содержанием запрещает индексацию всего сайта кроме каталога "katalog" всем ПС. Главное зеркало: www.site.ru

Это основные, наиболее часто используемые директивы файла robots.txt. Со временем статья будет дополнена описанием новых директив.