Эксперимент: насколько sitemap.xml важен для индексации нового сайта в Яндексе и Google

Уже писал о правильном использовании sitemap.xml. В статье по ссылке – систематизация хорошо известных фактов плюс достаточно очевидные приемы использования в SEO-аналитике. Чисто из практического опыта и общих соображений я давно пришел к выводу, что роль sitemap часто преувеличивают. Впрочем, “вывод” это громко сказано. Что-то утверждать без контролируемых экспериментов и исследований – не есть путь настоящего джедая.

Методика

Мне было интересно, насколько интенсивно поисковые роботы используют sitemap, как много заходов робота на страницы сайта дает именно карта. Обычно разделить эффект от нее и от других мер по максимизации индекса невозможно, ведь все это обычно выполняется в комплексе.

Схема эксперимента:

  1. Создаем новый сайт с большим количеством страниц (мало url брать нельзя – нужна адекватная выборка и статистическая достоверность).
  2. Делаем полноценный sitemap.xml, содержащий все реальные страницы.
  3. Добавляем в него группу url, которые отдают 404 ошибку. Добраться до этих адресов по внутренним или внешним ссылкам робот не может (их не существует). Заход возможен только через карту.
  4. Подсчитываем количество визитов YandexBot и Googlebot на эти страницы.
  5. На всякий случай проверяем себя, сравнивая данные из логов со статистикой в панелях вебмастеров (именно поэтому и нужна 404 ошибка, а не просто url, на которые не стоят ссылки: Гугл не показывает, какие страницы обошел).

Идея проверки очень проста, однако требует детального мониторинга активности поисковых роботов с помощью access.log. Да и вообще, получалось как-то слишком жирно для не столь принципиального вопроса.

Однако пару месяцев назад я как раз взялся за проект, где слежка за роботами требовалась непосредственно для продвижения и для реализации другого эксперимента, который описал в докладе на SEMPRO.

Сайт содержит около 180 000 страниц. В 4 sitemap-файла я подмешал в случайном порядке 112 несуществующих url (т.е. при переходе отдавался 404 код). Индексный sitemap добавил в панели Яндекса и Google а также указал в robots.txt.

Показатели активности поисковых роботов

Спустя два месяца:

  • робот Яндекса посетил 106 экспериментальных страниц.
  • робот Google не посетил ни одного такого url.

При этом в индексе Google к моменту снятия данных уже находилось 35 000 страниц, а общее число визитов робота – 83 503. Один из тестовых url находится в первом файле sitemap на 658 позиции, то есть весьма близко к началу.

Выводы и рекомендации

  • Для Яндекса sitemap.xml является важной точкой входа на сайт. В случае продвижения крупных проектов под Яндекс имеет смысл позаботиться о корректной карте.
  • Googlebot в ходе краулинга куда больше ориентируется на систему внутренних и внешних ссылок. Как минимум для индексации в Google новых сайтов sitemap.xml не имеет особого значения. Конечно, анализ на 1 конкретном сайте еще не позволяет считать это универсальным правилом. Но заставляет задуматься о практической ценности sitemap.xml (см. следующий пункт).
  • Если у вас есть задача повысить полноту индекса в Google, то в первую очередь нужно озаботиться структурой проекта и экономией краулингового бюджета. Не стоит полагаться на sitemap как универсальное решение (это типичная ошибка: “укажем все в карте и спим спокойно”).

P.S. Вчера древний сервис Feedburner, который я использовал для e-mail рассылки с блога, по ошибке отправил корявые письма. Прошу прощения за невольное засорение ваших ящиков, уважаемые подписчики. Хорошая новость: мое терпение лопнуло и теперь использую для рассылки MailerLite, вроде бы очень достойная платформа, так что проблем больше быть не должно. Если вдруг и с ним что-то не так, напишите мне, буду очень признателен за помощь в истреблении багов.

19 комментариев

  1. Алексей, забыл поставить тег читать далее в статье, на главной она полностью отображается – дубль.
    и можно не прошенный совет?) вот как просто для меня лично. не хочется подписываться на рассылку, потому что не люблю рассылки хотя читаю тебя регулярно. для e-mail рассылки лучше всего использовать какой то так называемый магнит или страницу захвата с магнитом. вот как для меня очень крутым магнитом была бы твоя статья про чек лист аудита. я бы точно подписался чтобы скачать его.

  2. > Что-то утверждать без контролируемых экспериментов и исследований — не есть путь настоящего джедая.

    Арбайтен с вами не согласится.

  3. Лёш, в мае редиректил почти весь сайт, единомоментно включил редиректы и обновил в Вебмастерах карту сайта. В дальнейшем было выявлено
    При этом там было порядка (не отследил точно, т.к. это была ошибка) ~3000 ошибочных урлов.
    В итоге гугл в сёрч консоли отобразил порядка 500 в ошибках sitemap. В яндекса заметил только штук 5 всего.

    • Не совсем понял тебя, расскажи подробнее. Где именно были ошибки? Насколько я понимаю “ошибки sitemap” относятся чисто к формату файла.

  4. Не понял. Ты подмешал в сайтмэп 112 НЕСУЩЕСТВУЮЩИХ урл.
    Далее – “Робот посетил 106 ЭКСПЕРЕМЕНТАЛЬНЫХ урл”
    Речь об одном и том же? Несуществующие и экспериментальные урл – это одно и то же?

    И если страницы несуществующие, то как их робот посетил?

    • Да, одно и то же. Несуществующий – значит отдающий 404 ошибку. Добавил уточнение в текст.

  5. Здравствуйте! Вопрос не совсем в тему. Вы в ближайшее время планируете переходить на https? Одни говорят что польза есть, другие что больше риска может быть. И вроде как все равно или сайт молодой или уже с трафиком

    • Павел, я делал исследование насчет рисков и еще есть немного дополнительных цифр в докладе с Allintop. Сам хочу перейти если руки дойдут – но не из-за бонуса в ранжировании (он сомнителен), а просто надоело в статистике видеть множество “прямых заходов” (переходы с HTTPS на HTTP по умолчанию не передают реферер)

      • Спасибо за информацию! Чудом ваш ответ увидел – уведомления об ответе не приходят на почту. Наверняка много читателей вашего блога могли пропустить ваше сообщение.
        Подключил SSL для блога. Значек на страницах зеленый, изменил внутренние ссылки, сделал редирект с http на https, в robots.txt в строке host и строке sitemap.xml изменил url сайта на https.

        Подскажите пожалуйста, как быть с вебмастером Google и Яндекс и их аналитикой и метрикой?

        В вебмастере Яндекс в разделе Переезд отправил запрос на https для сайта.

        В Google analytics в настройках сайта выбрал Url по умолчанию версию с https.

        Добавил еще одну версию сайта в Google webmaster уже с версией url с https (также отправил sitemap с https в url).
        Теперь в Google webmaster две версии одного сайта (с http и https).

        Нужно ли в Google webmaster убрать версию с http?
        В Яндекс метрике нужно что-то менять и добавлять в Яндекс вебмастер еще отдельно версию сайта уже с https?

      • Да, все не соберусь подключить уведомления.

        Нужно ли в Google webmaster убрать версию с http?

        Пусть лежит – есть не просит.

        В Яндекс метрике нужно что-то менять и добавлять в Яндекс вебмастер еще отдельно версию сайта уже с https?

        Метрика все корректно будет считать и так. В Вебмастере если отправили запрос на переезд то нет смысла добавлять отдельно.

      • “Да, все не соберусь подключить уведомления.”

        Добрый вечер! У вас на блоге хорошая активность в комментариях. Здорово! По поводу уведомлений на комментарии. Довольно удобный плагин Subscribe to Comments Reloaded. Минут за 10 можно настроить.

        Есть с ним один момент не хороший – дубли srp, srk, sra. Я в начале не настроил редиректы в .htaccess и был всплеск дублей в панели вебмастеров Google (и поисковой выдаче).
        Если использовать этот плагин, лучше вначале добавить редиректы (так как у меня уже были дубли я еще в вебмастере Google – Параметры URL выбрал режим сканирования этих страниц “Никакие URL”).
        Возможно будет полезно.

      • Илья, спасибо за развернутый и полезный комментарий!

Оставить ответ