Наверх
/
/
Как правильно заполнить файл robots.txt: критически важные моменты
В тренде

Как правильно заполнить файл robots.txt: критически важные моменты

29.11.2019 Время прочтения: 6 минут


Эффективное продвижение сайта невозможно без совершенствования его технических параметров, в том числе файла robots. Robots.txt — это текстовый файл, находящийся в корневом каталоге сайта. Он состоит из набора инструкций для индексирования и сканирования файлов, страниц и каталогов сайта для поисковых машин.

Сразу оговоримся, что присутствие файла robots.txt на сервере обязательно. Даже если вы полностью открываете ресурс для индексации.

Индексация robots.txt

Первое, что индексируют и сканируют поисковые системы на ресурсе, — файл robots.txt. Есть условия действительности файла:

  • Название. Исключительно robots.txt. Помните, что URL-адреса чувствительны к регистру.
  • Местоположение. Файл должен находиться в корневом каталоге верхнего уровня хоста и быть единственным.
  • Протокол. Поддерживаются все протоколы на основе URI — HTTP и HTTPS. Поисковые боты делают обычный GET-запрос, на который должен поступить ответ со статусом 200 OK. Возможна обработка файла с FTP-серверов: доступ осуществляется с использованием анонимного входа.
  • Формат. Файл должен быть в текстовом формате. Его можно создать в любом текстовом редакторе с поддержкой кодировки UTF-8. Не рекомендуем использовать текстовые процессоры, так как они могут сохранять файлы в проприетарном формате и добавлять дополнительные символы, не распознаваемые поисковыми роботами.
  • Размер. Для Google значение не должно превышать 500 килобайт, а для Яндекса — 32 КБ. Гугл переходит к файлу, но сканирует первые 500 килобайт, а Яндекс сразу смотрит на размер и, если лимит превышен, считает, что доступ к содержимому сайта закрыт. При успешном сканировании и индексировании файла Яндекс исполняет инструкции в течение 2 недель, а для Google они являются рекомендуемыми и не обязательны к исполнению.

Настройка robots.txt

Чтобы правильно заполнить robots.txt, в первую очередь нужно придерживаться правил, заданных поисковиками. Особенно это касается директив.

Директивы

Поисковые роботы Google, Яндекс. Bing, Yahoo и Ask поддерживают следующие директивы:

Директива Описание

User-agent

Обязательная директива. Указывает на поискового робота, которому адресованы правила. Учитывается название бота или *, которая адресует правила ко всем ботам. Наиболее популярные в России:

  1. Google: APIs-Google, Mediapartners-Google, AdsBot-Google-Mobile, Googlebot-Image, Googlebot-News, Googlebot-Video, Googlebotсмотреть полную строку агента пользователя.
  2. Яндекс: Yandex, YandexBot, YandexDirect, YandexImages, YandexMetrika, YandexMobileBot, YandexMedia, YandexNews, YandexPagechecker, YandexMarket, YandexCalenda, YandexDirectDyn, YaDirectFetcher, YandexAccessibilityBot, YandexScreenshotBot, YandexVideoParser, YandexSearchShop, YandexOntoDBAPI.
  3. Остальные: Baiduspider — китайский поисковик Baidu, Cliqzbot — анонимная ПС Cliqz, AhrefsBot — сервис Ahrefs, BingBot — ПС Bing от Microsoft, Slurp — ПС Yahoo, DuckDuckBot — ПС DuckDuckGo, facebot — краулер от Facebook, MSNBot — ПС MSN, Mail.Ru — ПС Mail.ru, Teoma — сервис ASK.

Рекомендуем периодически просматривать логи сайта и закрыть доступ для агрессивных ботов, которых развелось очень много.

Allow и Disallow

Разрешает и запрещает индексирование и сканирование отдельных файлов, страниц и каталогов ресурса. Если не указан запрет, то по умолчанию сканирование разрешено.

Используйте запрет для:

  • конфиденциальных данных;
  • результатов поиска по ресурсу;
  • статистики посещаемости;
  • дублей;
  • логов;
  • страницы баз данных.

Их можно использовать совместно в одном блоке. Приоритет отдается более длинному правилу. Если префиксы одинаковой длины, то при конфликте приоритет отдается Allow.

Sitemap

Указывает путь к одноименному файлу.

Clean-param

Указывает параметры страницы, которые не нужно учитывать. Существует два типа параметров URL:

  1. Параметры отслеживания — UTM-метки;
  2. Параметры, влияющие на контент, — например, результаты фильтрации.

Не стоит очищать параметры, влияющие на контент, поскольку их можно использовать как точку входа при SEO-продвижении.

Crawl-delay

Указывает время в секундах, через которое необходимо приступить к загрузке следующей страницы.

Host

Указывает на домен с протоколом и портами. Указывайте нужный протокол – HTTP или HTTPS. Если порт не отличается от стандартного, то его не нужно указывать.

Отметим, что Яндекс отказался от этой директивы и заменил ее 301 редиректом. Однако веб-мастера не торопятся удалять Host из файла, поскольку работе поисковых роботов это не мешает.


Синтаксис и примеры

Помимо директив, чтобы правильно настроить robots.txt, нужно соблюдать правила синтаксиса.

Разберем на примерах.

  1. Указания чувствительны к регистру. Пример: http://site-example.ru/file.html и http://site-example.ru/File.html — это разные пути.

  2. Для кириллических адресов используйте Punycode.

    #НЕВЕРНО
    Disallow: /корзина

    #ВЕРНО:
    Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

  3. Для комментирования используйте #. Как в предыдущем пункте.

  4. Хотя бы одна Allow или Disallow должна быть в группе. Пример:

    #Блокировка доступа ко всему ресурсу определенному боту
    User-agent: Googlebot #сюда указывается токен бота
    Disallow: /

    #Блокировка доступа ко всему ресурсу всем ботам
    User-agent: * #звездочка означает «любой бот»
    Disallow: /

  5. Обязательно указывайте Sitemap. Хоть эта директива необязательна, мы советуем ее указывать, поскольку адрес может отличаться от стандартного и боты могут ее не найти. Пример:

    User-agent: *
    Allow: /
    Sitemap: https://site-example.ru/sitemap.xml

  6. Для переноса строки используйте знак $.Пример:

    User-agent: *
    Disallow: https://site-example.ru/здесь-будет-очень-длинный-$
    адрес-сайта
    Sitemap: https://site-example.ru/sitemap.xml
    Host: https://site-example.ru

  7. Можно запретить доступ к отдельному файлу, странице или категории. Пример:

    User-agent: *
    Disallow: /page-example.html #не нужно указывать весь путь ресурса
    Disallow: /images/image-example.png #любой файл: картинка, документ, все что угодно
    Disallow: /*.js$ #запретить определенный тип файла
    Disallow: /category-example/
    Allow: /category-example/subcategory-example/ #прошлой строкой запретили раздел и его последующие подкатегории и файлы, но далее можно разрешить сканировать другой раздел

Не бойтесь совершить ошибку — файлы robots.txt можно проверить на валидность с помощью специальных сервисов.

Проверка robots.txt на валидность

Чтобы убедиться в правильности составления файла robots.txt воспользуйтесь инструментами проверки от поисковых систем:

  1. Проверка в Google Search Console. Нужно авторизоваться в аккаунте с подтвержденными правами на сайт. Далее перейти в «Сканирование», а затем в «Инструмент проверки файла robots.txt». Проверить можно только сайт, в котором вы авторизовались.
  2. Проверка в инструменте Яндекса. Авторизация не нужна, просто укажите адрес сайта или загрузите исходный код файла. Проверить можно любой сайт.

Анализ файла robots.txt

В сервисах проверки можно загрузить несколько страниц одновременно, увидеть все ошибки, исправить их прямо в инструменте и перенести готовый файл на сайт.

Пусть другие тоже знают!

Интересует SEO-продвижение сайта?
Закажите бесплатную консультацию эксперта

Еще на эту тему

Полное руководство по seo-оптимизации для сайта в разработке
Полное руководство по seo-оптимизации для сайта в разработке
Подробное руководство по seo-оптимизации разрабатываемого са...
10.08.2018 5805
Итоги 2018 года для компании SEO.RU
Итоги 2018 года для компании SEO.RU
Подводим итоги 2018 года для компании SEO.RU. Каких достигал...
28.12.2018 1536
Какие параметры кроме уникальности нужно проверять у seo-текста?
Какие параметры кроме уникальности нужно проверять у seo-текста?
Уникальность публикуемых текстов – очень важный параметр для...
18.12.2018 6269
Показать еще материалы

Другие интересные статьи

Яндекс.Диалоги: как настроить и в чем польза для бизнеса?
Яндекс.Диалоги: как настроить и в чем польза для бизнеса?
Яндекс.Диалоги – это новая технология поисковика, благодаря ...
05.02.2019 5997
Защищенный протокол HTTPS. Что это и почему вам нужно его использовать
Защищенный протокол HTTPS. Что это и почему вам нужно его использовать
Разбираем, что такое защищенный протокол HTTPS и каковы его ...
26.07.2018 6362
Стоимость контекстной рекламы в Яндекс и Google: цена за клик, прогноз бюджета
Стоимость контекстной рекламы в Яндекс и Google: цена за клик, прогноз бюдж ...
Узнайте, из чего складывается стоимость контекстной рекламы....
23.05.2018 40034
Что такое seo-статьи и как их правильно писать? Оптимизация статей для seo-продвижения
Что такое seo-статьи и как их правильно писать? Оптимизация статей для seo- ...
Разбираемся в том, как писать seo-оптимизированные статьи дл...
11.07.2018 33028
Показать еще материалы
Оставить заявку Оставить заявку