3. Allow — директива, разрешающая индексацию страниц. Она используется автоматически, если в файле robots.txt сайта не указаны запреты, то есть изначально все данные сайта открыты к сканированию. Поэтому чаще всего директива Allow используется для указания исключений из правил, установленных директивой Disallow. Например, весь сайт закрыт для индексации, но нужно открыть одну страницу раздела. Тогда прописывается следующее:
User-agent:*
Disallow: /
Allow: /razdel/
Расшифровка: запрещена индексация всего сайта для всех краулеров, кроме одного раздела — страница с указанным URL (razdel) доступна для индексации.
Также можно запретить сканировать сайт роботам Яндекса и разрешить индексацию роботам Google. Пример файла robots.txt в этом случае выглядит так:
User-agent: Yandex
Disallow: /
User-agent: Googlebot
Allow: /
4. Sitemap — необязательная директива с картой сайта и перечнем всех доступных для индексации страниц. Директивой выступает полная ссылка на файл с указанными данными в формате .xml. Пример:
User-agent: *
Disallow: /
Sitemap:
https://example.com/sitemap1.xml
5. Clean-param — межсекционная директива для Яндекса, которая позволяет запретить индексирование дублей страниц. Применяется как альтернатива Disallow, так как Clean-param в robots.txt работает в связке с основной страницей, позволяя улучшить ее ранжирование. Пример:
User-agent: Yandex
Disallow:
Clean-param:sort_field&order /catalog/category/
Расшифровка: поисковому боту Yandex разрешена индексация всего сайта, но рекомендуется не индексировать страницы с параметрами sort_field и order, так как их содержание дублирует страницу site.ru/catalog/category/, которая и будет проиндексирована.
Также существуют уже неактуальные директивы для Яндекса, использование которых уже не имеет смысла. Это директивы Crawl-delay (задает скорость обхода сайта — сейчас лучше настраивать скорость через Яндекс.Вебмастер) и Host (указывает на основное зеркало).