Одна из приоритетных задач при запуске сайта размером от пары тысяч страниц – обеспечить быструю и полную индексацию. Я уже писал об основных способах ее добиться, здесь же более глубоко затронем только один аспект – закономерности привлечения на молодой сайт поисковых роботов.
У меня неплохой опыт запуска новых сайтов; практически всегда я как минимум поверхностно делал анализ acess.log, чтобы уловить общие принципы и использовать их в дальнейшем. Однако провести систематические наблюдения, строго проконтролировать все выводы руки как-то не доходили. Только чуть больше месяца назад я наконец собрал наблюдения в кучку и выделил из них те, что можно без особых затруднений проверить.
Как раз кстати подвернулся проект на SEO-консалтинг, который хорошо подходил для роли “лабораторной крысы”. В наличии – пара миллионов страниц, созданная под моим чутким руководством структура и заточенная под индексацию перелинковка, корректные заголовки Last-Modified и If-Modified-Since.
Я написал пару простеньких скриптов для анализа логов, настроил запись результатов в БД а также отправку их на e-mail для надежности. После открытия сайта к индексации все действия, направленные на привлечение поисковых пауков тщательно протоколировались.
Гипотезы
Вот какие наблюдения я хотел проверить в этом кейсе:
- Робот Яндекса практически мгновенно реагирует на ссылки в твиттах, однако глубина сканирования после первого захода невелика.
- Активность робота Яндекса хорошо стимулируется притоком трафика по ссылкам из Вконтакте.
- Активность робота Яндекса на новом сайте в случае применения методов ускорения индексации мало уступает активности робота Google, а зачастую YandexBot посещает за то же время больше страниц, чем Googlebot
- Активность Googlebot плохо стимулируется ссылками из твиттов.
- Активность Googlebot хорошо стимулируется ссылками из популярных блогов.
- Активность Googlebot отлично стимулируется добавлением ссылки в https://www.google.com/webmasters/tools/submit-url
Влияние трафика из ВК на активность Googlbot не оценивалось, так как на сайте в качестве системы статистики установлена только Яндекс.Метрика, соответственно у Google было меньше возможностей отследить активность на сайте.
Первый этап индексации
Сразу после открытия к индексации сайт был добавлен в Яндекс.Метрику, Яндекс.Вебмастер, главная страница была добавлена в форму Google “Сообщить о новом сайте”. Также была проведена небольшая рекламная кампания в Twitter (согласно этим правилам). Analytics и Google Search Console не использовались по мотивам заказчика, не связанным с SEO.
В логах сразу были замечены роботы Яндекса, заходившие на:
- главную страницу
- robots.txt (несколько раз)
- хабовые страницы, на которые были ссылки из Twitter
В первые несколько часов заходы были разовыми. Обратите внимание на график (по оси X – часы, по Y – число визитов робота; при наведении на линию – появляется число визитов).
Спустя несколько часов активность Яндекса выросла до нескольких десятков запросов в час без каких-либо дополнительных действий.
Первый заметный пик Яндекса – 1108 визитов близко коррелирует по времени с публикацией рекламного поста ВКонтакте, который привел порядка 150 человек трафика. Как видим, во второй половине графика в порядке вещей и по 8000 заходов Yandex.Bot. Я связываю нарастание активности с дополнительной рекламной публикацией в более популярном сообществе ВКонтакте, принесшем более 500 посетителей и некоторое количество естественных откликов. Время выхода поста близко к пику с 6368 визитами.
Впрочем, о влиянии рекламы в ВК на дальнейший ход индексации можно уже с гораздо большими оговорками, так как в это же время шла и более масштабная рекламная кампания в Twtitter, а также было размещено некоторое количество ссылок на форумах.
Что с Google?
Как видите, GoogleBot на первом графике проявляет куда меньшую активность. Все 6 локальных пиков посещаемости достоверно связаны с добавлением хабовых страниц в форму “Сообщить о новом сайте”. Почему “достоверно”? Потому что во всех 6 случаях:
- Первой страницей, на которую был заход является именно страница, добавленная в форму.
- Очень короткий промежуток между addurl и визитом робота (в пределах 15 минут).
- Появление в выдаче страниц кластера, хабом которого служит добавленный url.
На первом этапе заходам робота Google способствовали только добавления ссылок в https://www.google.com/webmasters/tools/submit-url. Реклама в Twitter, ВК, ссылки с форумов оказывали минимальное воздействие на Googlebot.
Второй этап
4 марта вышел рекламный пост в “жирном” блоге со ссылкой на одну из важных хабовых страниц. Сразу после этого начался масштабный рост активности Google (первый маленький пик совпал по времени с публикацией):
Однако в целом на этом этапе оценить вклад различных факторов в привлечение роботов становится уже невозможно. Оба поисковика интенсивно используют sitemap.xml.
Интересно, что к апдейту 6 марта результаты индексации были примерно равными (проверка через оператор site там и там):
- Яндекс: 5000 ответов
- Google: 4,610 results
Сейчас, разумеется, Google ушел далеко в отрыв как по числу страниц в индексе, так и по активности роботов. Обратите внимание на последнюю четверть графика: похоже, что Google увеличил краулинговый бюджет сайта.
Выводы
Большинство гипотез подтвердились, но есть и некоторые поправки.
Во-первых, гипотезу номер 3 (“Yandex.Bot не уступает в активности Googlebot”) нужно уточнить. Робот Яндекса может проявлять большую активность не просто на молодом сайте, а на молодом сайте в течение первой недели. Почему было сделано неточное допущение, понять просто. Большинство сайтов имеют недостаточно страниц, чтобы период их начальной индексации так сильно затягивался. Ведь за время, которое отражает первый график YandexBot успел посетить 492000 страниц, а GoogleBot – 4500. Проще говоря, большинство сайтов будет практически полностью просканировано Яндексом за первую неделю существования.
Разумеется, все это справедливо для сайтов, в отношении которых предпринимаются специальные усилия по ускорению индексации.
Во-вторых, гипотезу номер 6 нужно переформулировать так “Активность Googlebot отлично стимулируется добавлением ранее не посещенной ссылки в https://www.google.com/webmasters/tools/submit-url”.
При попытке добавить уже знакомую роботу страницу всплеска активности не происходило. Это важное замечание. Ведь обычно, сообщая о новом сайте, мы скармливаем поисковику главную страницу. А он о ней может знать и так, даже если сайт был закрыт от индексации. Думаю, именно поэтому на первом графике Googlebot демонстрирует нули в самом начале.
(Вот и еще одна причина вести разработку на тестовом сервере с HTTP-авторизацией, а не просто закрывать сайт в robots.txt. Увы, почему-то это одна из наиболее часто игнорируемых рекомендаций.)
Как все это использовать на практике?
Если вы дочитали до этого места и не умерли со скуки, то скорее всего, знаете как.
Но хочу еще раз подчеркнуть важность плотной работы с Google. Как показывает этот кейс, несмотря на впечатляющие возможности по сканированию сайта, Гугл не всегда спешит их применять. А это означает, что сайт в первые недели жизни получит меньше трафика. Что в свою очередь, может сказаться на индексации и ранжировании в Яндексе. Время – имеет значение!
Круто! Нет, правда. Крутое исследование и очень полезное!
Спасибо за труды )
Пожалуйста 🙂
Рад, что понравилось!
Респект за анализ и обобщение!!! Хоть все эти данные и на поверхности, но Вы первый, кто публично перевел их из плоскости “мамой клянусь” в конкретные факты
Отлично сформулировано про “мамой клянусь”! 🙂
Могли еще люди с яндекс браузером перешедшие привести бота) Он вроде как сливает инфу
Да, это, скорее всего, один из механизмов, по которым живой трафик на сайте влияет на индекс.
“Посмотреть как google бот” – сейчас основной инструмент, который позволяет моментально индексировать новые страницы молодого сайта, но там лимит до 500 сабмитов в месяц. Сверхнорму можно через обычный addurl отправлять.
Спасибо за дополнение!
А как посоветуете быть с доменом, еще не открывшегося сайта-ставить заглушку или закрывать через htacses паролем досту к основному сайту(если не на тестовом сервере разработка) или просто ничего, если разработка сайта длится несколько месяцев?
Обычно лучше закрыть наглухо с паролем. Вот тут подробно: http://alexeytrudov.com/web-marketing/dlya-zakazchika/sozdanie-saita-kak-ne-isportit.html
Как прописывать заголовки Last-Modified и If-Modified-Since для wordpress?
Логику я тут описывал: http://alexeytrudov.com/web-marketing/seo/maksimizatsiya-indeksa.html
Ну а техническая реализация – как сделаете. Часто они устанавливаются плагином кеширования, так как он генерирует статичные файлы и с ними работает уже сервер, без движка WP. А сервера часто настроены их отдавать для статики.