Как настроить правильный файл robots.txt
Файл robots.txt отвечает за правильный обход сайта поисковыми роботами Яндекс и Google. Его отсутствие или некорректная настройка может привести к неверной индексации, что в свою очередь окажет негативное влияние на позиции сайта в поисковых системах.
Принцип настройки
- Создать в текстовом редакторе файл robots.txt.
- Прописать необходимые правила.
- Перенести документ в корневой каталог сайта.
- Проверить правильность настройки файла через сервис Яндекс.Вебмастер «Анализ robots.txt».
Как настраивать
- Создаем записи, которые определяют, для каких поисковых роботов представлены правила:
- «User-agent: *» (для всех поисковых роботов);
- «User-agent: Yandex» (для всех поисковых роботов Яндекса, например YandexImages, YandexNews и др).
- Определяем страницы, которые необходимо закрыть от индексации. В общем случае, это:
- страницы с GET-параметрами (фильтрация, сортировка, поиск, сравнение товаров);
- пользовательские страницы (личный кабинет, регистрация, авторизация, оформление заказ);
- системные каталоги и файлы;
- дубликаты.
- C помощью директив Disallow и Allow прописываем правила для корректной индексации сайта для каждого User-agent. Disallow запрещает к индексации указанные после него файлы, а Allow — разрешает. Кроме этого, в данных правилах могут использоваться регулярные выражения с символами «*» и «$». Знак «*» означает любую последовательность символов после него, а знак «$» ее останавливает.
На примере ниже мы запретили к индексации страницу раздела «Статьи» и все страницы, расположенные во вложенном каталоге «SEO».
Стоит отметить, что задав выражение как на скриншоте ниже, мы открываем все вложенные категории и страницы.
Еще один важный момент — определение применяемого правила для страницы, если она подходит под несколько директив. Для этого они сортируются по возрастанию длины префикса URL и применяются по порядку.
Например, у нас есть набор следующих директив:
Чтобы понять, будет ли третье правило применяться, надо их отсортировать по возрастанию длины префикса URL:
Делаем вывод, что страница «Как настроить robots.txt» разрешена к индексированию, а остальные страницы данного раздела — нет. - С помощью инструмента «Проверка оптимизации для мобильных устройств» определяем, какие файлы необходимы поисковым роботам для правильной индексации сайта на мобильных устройствах и открываем их для индексации.
- Добавление директивы Host. С марта 2018 года Яндекс отказался от использования данной директивы. Теперь для указания главного зеркала достаточно настройки 301 редиректов. Указывать директиву Host в robots.txt более не нужно.
- В конце файла прописываем путь с актуальной картой сайта sitemap.xml.
- Проверяем правильность заполнения файла robots.txt. Для этого:
- заходим в инструмент Яндекс.Вебмастер «Анализ robots.txt»;
- загружаем обновленный файл robots.txt;
- формируем список страниц для проверки;
- анализируем результат и вносим правки при необходимости.
Важно! Страницы пагинации должны быть открыты для индексации! Подробнее об индексации пагинации можете прочитать в нашей заметке «Как настроить правильную индексацию страниц пагинации».
Пример правильного файла robots.txt
В качестве примера можно ознакомиться с настройкой данного файла по ссылке:
Подробные инструкции по настройке robots.txt Вы сможете найти на страницах «Использование robots.txt» от Яндекса и «О файлах robots.txt» от Google.