Наверх
/
/
Как правильно заполнить файл robots.txt: критически важные моменты
В тренде

Как правильно заполнить файл robots.txt: критически важные моменты

29.11.2019 Время прочтения: 6 минут


Robots.txt — это текстовый файл, находящийся в корневом каталоге сайта. Он состоит из набора инструкций для индексирования и сканирования файлов, страниц и каталогов сайта для поисковых машин.

Сразу оговоримся, что присутствие файла robots.txt на сервере обязательно. Даже если вы полностью открываете ресурс для индексации.

Индексация robots.txt

Первое, что индексируют и сканируют поисковые системы на ресурсе, — файл robots.txt. Есть условия действительности файла:

  • Название. Исключительно robots.txt. Помните, что URL-адреса чувствительны к регистру.
  • Местоположение. Файл должен находиться в корневом каталоге верхнего уровня хоста и быть единственным.
  • Протокол. Поддерживаются все протоколы на основе URI — HTTP и HTTPS. Поисковые боты делают обычный GET-запрос, на который должен поступить ответ со статусом 200 OK. Возможна обработка файла с FTP-серверов: доступ осуществляется с использованием анонимного входа.
  • Формат. Файл должен быть в текстовом формате. Его можно создать в любом текстовом редакторе с поддержкой кодировки UTF-8. Не рекомендуем использовать текстовые процессоры, так как они могут сохранять файлы в проприетарном формате и добавлять дополнительные символы, не распознаваемые поисковыми роботами.
  • Размер. Для Google значение не должно превышать 500 килобайт, а для Яндекса — 32 КБ. Гугл переходит к файлу, но сканирует первые 500 килобайт, а Яндекс сразу смотрит на размер и, если лимит превышен, считает, что доступ к содержимому сайта закрыт. При успешном сканировании и индексировании файла Яндекс исполняет инструкции в течение 2 недель, а для Google они являются рекомендуемыми и не обязательны к исполнению.

Настройка robots.txt

Чтобы правильно заполнить robots.txt, в первую очередь нужно придерживаться правил, заданных поисковиками. Особенно это касается директив.

Директивы

Поисковые роботы Google, Яндекс. Bing, Yahoo и Ask поддерживают следующие директивы:

Директива Описание

User-agent

Обязательная директива. Указывает на поискового робота, которому адресованы правила. Учитывается название бота или *, которая адресует правила ко всем ботам. Наиболее популярные в России:

  1. Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebotсмотреть полную строку агента пользователя.
  2. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI.
  3. Остальные: Baiduspider — китайский поисковик Baidu, Cliqzbot — анонимная ПС Cliqz, AhrefsBot — сервис Ahrefs, BingBot — ПС Bing от Microsoft, Slurp — ПС Yahoo, DuckDuckBot — ПС DuckDuckGo, facebot — краулер от Facebook, MSNBot — ПС MSN, Mail.Ru — ПС Mail.ru, Teoma — сервис ASK.

Рекомендуем периодически просматривать логи сайта и закрыть доступ для агрессивных ботов, которых развелось очень много.

Allow и Disallow

Разрешает и запрещает индексирование и сканирование отдельных файлов, страниц и каталогов ресурса. Если не указан запрет, то по умолчанию сканирование разрешено.

Используйте запрет для:

  • конфиденциальных данных;
  • результатов поиска по ресурсу;
  • статистики посещаемости;
  • дублей;
  • логов;
  • страницы баз данных.

Их можно использовать совместно в одном блоке. Приоритет отдается более длинному правилу. Если префиксы одинаковой длины, то при конфликте приоритет отдается Allow.

Sitemap

Указывает путь к одноименному файлу.

Clean-param

Указывает параметры страницы, которые не нужно учитывать. Существует два типа параметров URL:

  1. Параметры отслеживания — UTM-метки;
  2. Параметры, влияющие на контент, — например, результаты фильтрации.

Не стоит очищать параметры, влияющие на контент, поскольку их можно использовать как точку входа при SEO-продвижении.

Crawl-delay

Указывает время в секундах, через которое необходимо приступить к загрузке следующей страницы.

Host

Указывает на домен с протоколом и портами. Указывайте нужный протокол – HTTP или HTTPS. Если порт не отличается от стандартного, то его не нужно указывать.

Отметим, что Яндекс отказался от этой директивы и заменил ее 301 редиректом. Однако веб-мастера не торопятся удалять Host из файла, поскольку работе поисковых роботов это не мешает.


Синтаксис и примеры

Помимо директив, чтобы правильно настроить robots.txt, нужно соблюдать правила синтаксиса.

Разберем на примерах.

  1. Указания чувствительны к регистру. Пример: http://site-example.ru/file.html и http://site-example.ru/File.html — это разные пути.

  2. Для кириллических адресов используйте Punycode.

    #НЕВЕРНО
    Disallow: /корзина

    #ВЕРНО:
    Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

  3. Для комментирования используйте #. Как в предыдущем пункте.

  4. Хотя бы одна Allow или Disallow должна быть в группе. Пример:

    #Блокировка доступа ко всему ресурсу определенному боту
    User-agent: Googlebot #сюда указывается токен бота
    Disallow: /

    #Блокировка доступа ко всему ресурсу всем ботам
    User-agent: * #звездочка означает «любой бот»
    Disallow: /

  5. Обязательно указывайте Sitemap. Хоть эта директива необязательна, мы советуем ее указывать, поскольку адрес может отличаться от стандартного и боты могут ее не найти. Пример:

    User-agent: *
    Allow: /
    Sitemap: https://site-example.ru/sitemap.xml

  6. Для переноса строки используйте знак $.Пример:

    User-agent: *
    Disallow: https://site-example.ru/здесь-будет-очень-длинный-$
    адрес-сайта
    Sitemap: https://site-example.ru/sitemap.xml
    Host: https://site-example.ru

  7. Можно запретить доступ к отдельному файлу, странице или категории. Пример:

    User-agent: *
    Disallow: /page-example.html #не нужно указывать весь путь ресурса
    Disallow: /images/image-example.png #любой файл: картинка, документ, все что угодно
    Disallow: /*.js$ #запретить определенный тип файла
    Disallow: /category-example/
    Allow: /category-example/subcategory-example/ #прошлой строкой запретили раздел и его последующие подкатегории и файлы, но далее можно разрешить сканировать другой раздел

Не бойтесь совершить ошибку — файлы robots.txt можно проверить на валидность с помощью специальных сервисов.

Проверка robots.txt на валидность

Чтобы убедиться в правильности составления файла robots.txt воспользуйтесь инструментами проверки от поисковых систем:

  1. Проверка в Google Search Console. Нужно авторизоваться в аккаунте с подтвержденными правами на сайт. Далее перейти в «Сканирование», а затем в «Инструмент проверки файла robots.txt». Проверить можно только сайт, в котором вы авторизовались.
  2. Проверка в инструменте Яндекса. Авторизация не нужна, просто укажите адрес сайта или загрузите исходный код файла. Проверить можно любой сайт.

Анализ файла robots.txt

В сервисах проверки можно загрузить несколько страниц одновременно, увидеть все ошибки, исправить их прямо в инструменте и перенести готовый файл на сайт.

Пусть другие тоже знают!

Еще на эту тему

SEO-фрагменты (SEO Snippets) Google: как вернуть права на управление Search Consol?
SEO-фрагменты (SEO Snippets) Google: как вернуть права на управление Search ...
Возможно, раньше кто-то зарегистрировал ваш сайт для работы ...
28.12.2017 1057
Показать еще материалы

Другие интересные статьи

Защищенный протокол HTTPS. Что это и почему вам нужно его использовать
Защищенный протокол HTTPS. Что это и почему вам нужно его использовать
Разбираем, что такое защищенный протокол HTTPS и каковы его ...
26.07.2018 4401
Показать еще материалы
Оставить заявку