Уже писал о правильном использовании sitemap.xml. В статье по ссылке – систематизация хорошо известных фактов плюс достаточно очевидные приемы использования в SEO-аналитике. Чисто из практического опыта и общих соображений я давно пришел к выводу, что роль sitemap часто преувеличивают. Впрочем, “вывод” это громко сказано. Что-то утверждать без контролируемых экспериментов и исследований – не есть путь настоящего джедая.
Методика
Мне было интересно, насколько интенсивно поисковые роботы используют sitemap, как много заходов робота на страницы сайта дает именно карта. Обычно разделить эффект от нее и от других мер по максимизации индекса невозможно, ведь все это обычно выполняется в комплексе.
Схема эксперимента:
- Создаем новый сайт с большим количеством страниц (мало url брать нельзя – нужна адекватная выборка и статистическая достоверность).
- Делаем полноценный sitemap.xml, содержащий все реальные страницы.
- Добавляем в него группу url, которые отдают 404 ошибку. Добраться до этих адресов по внутренним или внешним ссылкам робот не может (их не существует). Заход возможен только через карту.
- Подсчитываем количество визитов YandexBot и Googlebot на эти страницы.
- На всякий случай проверяем себя, сравнивая данные из логов со статистикой в панелях вебмастеров (именно поэтому и нужна 404 ошибка, а не просто url, на которые не стоят ссылки: Гугл не показывает, какие страницы обошел).
Идея проверки очень проста, однако требует детального мониторинга активности поисковых роботов с помощью access.log. Да и вообще, получалось как-то слишком жирно для не столь принципиального вопроса.
Однако пару месяцев назад я как раз взялся за проект, где слежка за роботами требовалась непосредственно для продвижения и для реализации другого эксперимента, который описал в докладе на SEMPRO.
Сайт содержит около 180 000 страниц. В 4 sitemap-файла я подмешал в случайном порядке 112 несуществующих url (т.е. при переходе отдавался 404 код). Индексный sitemap добавил в панели Яндекса и Google а также указал в robots.txt.
Показатели активности поисковых роботов
Спустя два месяца:
- робот Яндекса посетил 106 экспериментальных страниц.
- робот Google не посетил ни одного такого url.
При этом в индексе Google к моменту снятия данных уже находилось 35 000 страниц, а общее число визитов робота – 83 503. Один из тестовых url находится в первом файле sitemap на 658 позиции, то есть весьма близко к началу.
Выводы и рекомендации
- Для Яндекса sitemap.xml является важной точкой входа на сайт. В случае продвижения крупных проектов под Яндекс имеет смысл позаботиться о корректной карте.
- Googlebot в ходе краулинга куда больше ориентируется на систему внутренних и внешних ссылок. Как минимум для индексации в Google новых сайтов sitemap.xml не имеет особого значения. Конечно, анализ на 1 конкретном сайте еще не позволяет считать это универсальным правилом. Но заставляет задуматься о практической ценности sitemap.xml (см. следующий пункт).
- Если у вас есть задача повысить полноту индекса в Google, то в первую очередь нужно озаботиться структурой проекта и экономией краулингового бюджета. Не стоит полагаться на sitemap как универсальное решение (это типичная ошибка: “укажем все в карте и спим спокойно”).
P.S. Вчера древний сервис Feedburner, который я использовал для e-mail рассылки с блога, по ошибке отправил корявые письма. Прошу прощения за невольное засорение ваших ящиков, уважаемые подписчики. Хорошая новость: мое терпение лопнуло и теперь использую для рассылки MailerLite, вроде бы очень достойная платформа, так что проблем больше быть не должно. Если вдруг и с ним что-то не так, напишите мне, буду очень признателен за помощь в истреблении багов.
Алексей, забыл поставить тег читать далее в статье, на главной она полностью отображается – дубль.
и можно не прошенный совет?) вот как просто для меня лично. не хочется подписываться на рассылку, потому что не люблю рассылки хотя читаю тебя регулярно. для e-mail рассылки лучше всего использовать какой то так называемый магнит или страницу захвата с магнитом. вот как для меня очень крутым магнитом была бы твоя статья про чек лист аудита. я бы точно подписался чтобы скачать его.
Сергей, спасибо за замечание и совет!
Да, магниты тоже буду делать.
> Что-то утверждать без контролируемых экспериментов и исследований — не есть путь настоящего джедая.
Арбайтен с вами не согласится.
Ему можно 🙂
Наконец-то есть куда послать когда выносят мозг что обязательно очень нужно первым делом настроить сайтмап, остальное мелочи.
Ага, сам нажимал кнопку “опубликовать” с этой мыслью.
Лёш, в мае редиректил почти весь сайт, единомоментно включил редиректы и обновил в Вебмастерах карту сайта. В дальнейшем было выявлено
При этом там было порядка (не отследил точно, т.к. это была ошибка) ~3000 ошибочных урлов.
В итоге гугл в сёрч консоли отобразил порядка 500 в ошибках sitemap. В яндекса заметил только штук 5 всего.
Не совсем понял тебя, расскажи подробнее. Где именно были ошибки? Насколько я понимаю “ошибки sitemap” относятся чисто к формату файла.
Не понял. Ты подмешал в сайтмэп 112 НЕСУЩЕСТВУЮЩИХ урл.
Далее – “Робот посетил 106 ЭКСПЕРЕМЕНТАЛЬНЫХ урл”
Речь об одном и том же? Несуществующие и экспериментальные урл – это одно и то же?
И если страницы несуществующие, то как их робот посетил?
Да, одно и то же. Несуществующий – значит отдающий 404 ошибку. Добавил уточнение в текст.
Спасибо-)
Здравствуйте! Вопрос не совсем в тему. Вы в ближайшее время планируете переходить на https? Одни говорят что польза есть, другие что больше риска может быть. И вроде как все равно или сайт молодой или уже с трафиком
Павел, я делал исследование насчет рисков и еще есть немного дополнительных цифр в докладе с Allintop. Сам хочу перейти если руки дойдут – но не из-за бонуса в ранжировании (он сомнителен), а просто надоело в статистике видеть множество “прямых заходов” (переходы с HTTPS на HTTP по умолчанию не передают реферер)
Спасибо за информацию! Чудом ваш ответ увидел – уведомления об ответе не приходят на почту. Наверняка много читателей вашего блога могли пропустить ваше сообщение.
Подключил SSL для блога. Значек на страницах зеленый, изменил внутренние ссылки, сделал редирект с http на https, в robots.txt в строке host и строке sitemap.xml изменил url сайта на https.
Подскажите пожалуйста, как быть с вебмастером Google и Яндекс и их аналитикой и метрикой?
В вебмастере Яндекс в разделе Переезд отправил запрос на https для сайта.
В Google analytics в настройках сайта выбрал Url по умолчанию версию с https.
Добавил еще одну версию сайта в Google webmaster уже с версией url с https (также отправил sitemap с https в url).
Теперь в Google webmaster две версии одного сайта (с http и https).
Нужно ли в Google webmaster убрать версию с http?
В Яндекс метрике нужно что-то менять и добавлять в Яндекс вебмастер еще отдельно версию сайта уже с https?
Да, все не соберусь подключить уведомления.
Пусть лежит – есть не просит.
Метрика все корректно будет считать и так. В Вебмастере если отправили запрос на переезд то нет смысла добавлять отдельно.
“Да, все не соберусь подключить уведомления.”
Добрый вечер! У вас на блоге хорошая активность в комментариях. Здорово! По поводу уведомлений на комментарии. Довольно удобный плагин Subscribe to Comments Reloaded. Минут за 10 можно настроить.
Есть с ним один момент не хороший – дубли srp, srk, sra. Я в начале не настроил редиректы в .htaccess и был всплеск дублей в панели вебмастеров Google (и поисковой выдаче).
Если использовать этот плагин, лучше вначале добавить редиректы (так как у меня уже были дубли я еще в вебмастере Google – Параметры URL выбрал режим сканирования этих страниц “Никакие URL”).
Возможно будет полезно.
Илья, спасибо за развернутый и полезный комментарий!
Пожалуйста!
Интересно и полезно. Спасибо за информацию.