Проверка индекса сайта. Как найти мусорные или недостающие страницы
Как проверить индексацию для неподтвержденного сайта мы рассказали ранее. В данной статье расскажем о проверке с помощью данных, которые предоставляет Яндекс Вебмастер и Google Search Console.
Список проиндексированных страниц
Для того чтобы получить полный список проиндексированных страниц в Яндексе, необходимо зайти в раздел Индексация > Страницы в поиске > вкладка «Все страницы».
Ниже представлен список всех страниц, находящихся в поиске, и возможность выгрузить таблицу в XLS и CSV.
В новой версии Google Search Console также появилась возможность увидеть список всех проиндексированных страниц. Для этого нужно зайти в отчет «Покрытие» (в разделе «Индекс»).
В списке ниже представлена информация о страницах, о которых известно поисковой системе и дополнительная информация по ним.
Детальный список проиндексированных страниц можно получить из списка со статусом «Страница без ошибок».
Проверка индексации
Чтобы обнаружить «мусорные страницы», нужно следовать следующему алгоритму:
- Получаем полный список страниц, которые должны быть проиндексированы. Для этого мы используем программу Screaming Frog SEO Spider. При правильной настройке файла robots.txt спарсится список всех доступных для индексации страниц.
- Выгружаем индексируемые страницы сайта из Вебмастеров.
- Сравниваем попарно получившиеся списки с помощью инструмента «Условное форматирование» в Excel, подсветив все уникальные значения.
В ходе сравнения могут возникнуть следующие ситуации:
- подсветка страниц, которые есть только в списке парсера. В таком случае нужно диагностировать причину, почему страница не находится в индексе. Если она должна индексироваться, то отправляем ее на переобход. Как это делать, описано в статье.
- подсветка страниц, которые есть только в индексе. В данном случае пытаемся понять, почему ее нет в списке всех страниц сайта. Возможно, это страница с кодом 404, которая так и не была удалена поисковым роботом или деактивированный элемент, у которого неверно настроен код ответа.
Для удаления страниц в Вебмастере существует инструмент «Удаление страниц из поиска», позволяющий единовременно удалить до 500 отдельных страниц или группу страниц по префиксу в url. Главное, чтобы страницы были закрыты от индексации.
Инструмента для принудительного удаления страниц у Google нет, но можно временно удалить свои URL из результатов поиска.
Для этого необходимо зайти в старую версию Search Console и в левом меню выбрать «Индекс Google» > «Удалить URL-адреса».
Далее указываем URL страницы, которую вы хотите скрыть. Выбираем из списка необходимое действие и отправляем запрос.