Виды поисковых роботов
Поисковый робот или паук — это специальная программа, предназначенная для сканирования сайтов. Робот, переходя по ссылкам, индексирует информацию и сохраняет ее в базе поисковых систем.
Поисковые роботы Google
Существует множество видов различных поисковых роботов, каждый из которых выполняет определенную функцию.
- У Google основной поисковый робот называется Googlebot — он находит новые страницы и изменения на старых, после чего добавляет информацию в индекс.
- Googlebot-Image выполняет поиск изображений.
- Googlebot-Video соответственно отвечает за видео-контент.
- Googlebot-News добавляет информацию в Google Новости.
- APIs-Google используется для отправки push-уведомлений.
- AdsBot-Google, AdsBot-Google-Mobile, AdsBot-Google-Mobile-Apps проверяют качество рекламы на компьютерах, мобильных устройствах и в приложениях.
- Mediapartners-Google определяет содержание объявлений в AdSense.
Подробнее узнать о поисковых роботах Google можно в официальной справке компании.
Поисковые роботы Яндекса
- Основной робот Яндекса (YandexBot/3.0) отвечает за поиск новых страниц/сайтов и переиндексацию новых версий ранее известных страниц.
- Робот-зеркальщик (YandexBot/3.0; MirrorDetector) определяет зеркала сайтов.
- Робот Яндекс.Картинок (YandexImages/3.0) отвечает за индексацию изображений.
- Робот Яндекс.Новостей (YandexNews/4.0).
- Робот, индексирующий фавиконки сайтов (YandexFavicons/1.0).
- Робот Рекламной сети Яндекса (YandexDirect/3.0) определяет тематику сайтов для подбора более релевантных объявлений.
Подробнее о поисковых роботах Яндекса можно в официальной справке компании.
Управление поисковыми роботами
При помощи файла robots.txt или мета-тега <meta name=”robots”/> можно запретить поисковым роботам индексацию определенных страниц. Для этого нужно добавить соответствующие правила, и указать к какому роботу они относятся в директиве User-agent файла robots.txt или атрибуте name мета-тега.
Например, нижеприведенный код в файле robots.txt запрещает роботу Яндекс.Картинок индексировать все изображения.
Disallow: /
А этот запрещает главному поисковому роботу Google индексировать страницу, на которой размещен данный тег:
О том, как правильно настроить индексирование сайта, можно узнать в статье.