Как правильно заполнить файл robots.txt: критически важные моменты

29.11.2019 Время прочтения: 7 минут

Дата обновления: 08.11.2023

Индексация robots.txt
Настройка robots.txt
- Директивы
Синтаксис и примеры
Проверка robots.txt на валидность

Эффективное продвижение сайта невозможно без совершенствования его технических параметров, в том числе файла robots. Robots.txt — это текстовый файл, находящийся в корневом каталоге сайта. Он состоит из набора инструкций для индексирования и сканирования файлов, страниц и каталогов сайта для поисковых машин.

Сразу оговоримся, что присутствие файла robots.txt на сервере обязательно. Даже если вы полностью открываете ресурс для индексации.

Индексация robots.txt

Первое, что индексируют и сканируют поисковые системы на ресурсе, — файл robots.txt. Есть условия действительности файла:

Название. Исключительно robots.txt. Помните, что URL-адреса чувствительны к регистру.
Местоположение. Файл должен находиться в корневом каталоге верхнего уровня хоста и быть единственным.
Протокол. Поддерживаются все протоколы на основе URI — HTTP и HTTPS. Поисковые боты делают обычный GET-запрос, на который должен поступить ответ со статусом 200 OK. Возможна обработка файла с FTP-серверов: доступ осуществляется с использованием анонимного входа.
Формат. Файл должен быть в текстовом формате. Его можно создать в любом текстовом редакторе с поддержкой кодировки UTF-8. Не рекомендуем использовать текстовые процессоры, так как они могут сохранять файлы в проприетарном формате и добавлять дополнительные символы, не распознаваемые поисковыми роботами.
Размер. Для Google значение не должно превышать 500 килобайт, а для Яндекса — 32 КБ. Гугл переходит к файлу, но сканирует первые 500 килобайт, а Яндекс сразу смотрит на размер и, если лимит превышен, считает, что доступ к содержимому сайта закрыт. При успешном сканировании и индексировании файла Яндекс исполняет инструкции в течение 2 недель, а для Google они являются рекомендуемыми и не обязательны к исполнению.

Настройка robots.txt

Чтобы правильно заполнить robots.txt, в первую очередь нужно придерживаться правил, заданных поисковиками. Особенно это касается директив.

Директивы

Поисковые роботы Google, Яндекс. Bing, Yahoo и Ask поддерживают следующие директивы:

Директива	Описание
User-agent	Обязательная директива. Указывает на поискового робота, которому адресованы правила. Учитывается название бота или , которая адресует правила ко всем ботам. Наиболее популярные в России: Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebot* – смотреть полную строку агента пользователя. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI. Остальные: Baiduspider — китайский поисковик Baidu, Cliqzbot — анонимная ПС Cliqz, AhrefsBot — сервис Ahrefs, BingBot — ПС Bing от Microsoft, Slurp — ПС Yahoo, DuckDuckBot — ПС DuckDuckGo, facebot — краулер от Facebook, MSNBot — ПС MSN, Mail.Ru — ПС Mail.ru, Teoma — сервис ASK. Рекомендуем периодически просматривать логи сайта и закрыть доступ для агрессивных ботов, которых развелось очень много.
Allow и Disallow	Разрешает и запрещает индексирование и сканирование отдельных файлов, страниц и каталогов ресурса. Если не указан запрет, то по умолчанию сканирование разрешено. Используйте запрет для: конфиденциальных данных; результатов поиска по ресурсу; статистики посещаемости; дублей; логов; страницы баз данных. Их можно использовать совместно в одном блоке. Приоритет отдается более длинному правилу. Если префиксы одинаковой длины, то при конфликте приоритет отдается Allow.
Sitemap	Указывает путь к одноименному файлу.
Clean-param	Указывает параметры страницы, которые не нужно учитывать. Существует два типа параметров URL: Параметры отслеживания — UTM-метки; Параметры, влияющие на контент, — например, результаты фильтрации. Не стоит очищать параметры, влияющие на контент, поскольку их можно использовать как точку входа при SEO-продвижении.
Crawl-delay	Указывает время в секундах, через которое необходимо приступить к загрузке следующей страницы.
Host	Указывает на домен с протоколом и портами. Указывайте нужный протокол – HTTP или HTTPS. Если порт не отличается от стандартного, то его не нужно указывать. Отметим, что Яндекс отказался от этой директивы и заменил ее 301 редиректом. Однако веб-мастера не торопятся удалять Host из файла, поскольку работе поисковых роботов это не мешает.

Синтаксис и примеры

Помимо директив, чтобы правильно настроить robots.txt, нужно соблюдать правила синтаксиса.

Разберем на примерах.

Указания чувствительны к регистру. Пример:

http://site-example.ru/file.html
и
http://site-example.ru/File.html

— это разные пути.
Для кириллических адресов используйте Punycode.

#НЕВЕРНО

Disallow: /корзина

#ВЕРНО:

Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0
Для комментирования используйте #. Как в предыдущем пункте.
Хотя бы одна Allow или Disallow должна быть в группе. Пример:

#Блокировка доступа ко всему ресурсу определенному боту

User-agent: Googlebot
#Сюда указывается токен бота
Disallow: /

#Блокировка доступа ко всему ресурсу всем ботам

User-agent: * #Звездочка означает «любой бот»
Disallow: /
Обязательно указывайте Sitemap. Хоть эта директива необязательна, мы советуем ее указывать, поскольку адрес может отличаться от стандартного и боты могут ее не найти. Пример:

User-agent: *
Allow: /
Sitemap: https://site-example.ru/sitemap.xml
Для переноса строки используйте знак $.Пример:

User-agent: *
Disallow: https://site-example.ru/здесь-будет-очень-длинный- $
адрес-сайта
Sitemap: https://site-example.ru/sitemap.xml
Host: https://site-example.ru
Можно запретить доступ к отдельному файлу, странице или категории. Пример:

User-agent: *
Disallow: /page-example.html #Нужно указывать весь путь ресурса
Disallow: /images/image-example.png #Любой файл: картинка, документ, все что угодно
Disallow: /*.js$ #Запретить определенный тип файла
Disallow: /category-example/
Allow: /category-example/subcategory-example/ #Предыдущей строкой запретили раздел и его последующие подкатегории и файлы, но далее можно разрешить сканировать другой раздел

Не бойтесь совершить ошибку — файлы robots.txt можно проверить на валидность с помощью специальных сервисов.

Проверка robots.txt на валидность

Чтобы убедиться в правильности составления файла robots.txt воспользуйтесь инструментами проверки от поисковых систем:

Проверка в Google Search Console. Нужно авторизоваться в аккаунте с подтвержденными правами на сайт. Далее перейти в «Сканирование», а затем в «Инструмент проверки файла robots.txt». Проверить можно только сайт, в котором вы авторизовались.
Проверка в инструменте Яндекса. Авторизация не нужна, просто укажите адрес сайта или загрузите исходный код файла. Проверить можно любой сайт.

Анализ файла robots.txt

В сервисах проверки можно загрузить несколько страниц одновременно, увидеть все ошибки, исправить их прямо в инструменте и перенести готовый файл на сайт.