Для ряда задач SEO-аналитики требуется определить, с какого времени поисковая система “знает” о существовании на сайте конкретной страницы. Один из распространенных путей узнать возраст документа в Яндексе – это поиск url с помощью Яндекс.Xml для получения параметра modtime. В связи с поломкой параметра “&how=tm” способ получил еще большую популярность.
Получается удобно и быстро, благо есть визуальный интерфейс на https://xml.yandex.ru/test/. Но я с большим сомнением отношусь к этому методу.
Что не так с modtime?
Во-первых, в документации сервиса указано лишь это:
Таким образом, идея о том, что тег отображает дату первой индексации, целиком принадлежит SEO-шникам.
Во-вторых, пользователи Яндекс.Xml – это, как бы помягче выразиться, далеко не самые важные клиенты для поисковой системы. Доступ дается бесплатно, никакой рекламы там не откручивается. С чего бы “ООО Яндекс” особо заботиться о точности, актуальности и достоверности xml-параметров? Хотя в это еще можно поверить – ну просто хорошие программисты все делают хорошо. А вот зачем предоставлять недокументированные возможности – совсем непонятно.
Впрочем, все это лирика и мои домыслы. Перейдем к фактам.
Что такое “возраст документа с точки зрения Яндекса” ?
Как мне подсказывают логика и Google, это время, прошедшее с первой индексации. Чаще всего нам интересно именно это – с какой даты страница начала привлекать трафик, копить возраст и так далее.
Но что считать датой индексации? Время первого визита робота? А может дату появления в поиске? Казалось бы, вопрос не особо актуален, ведь разница получается небольшой, апдейты поисковой базы все же довольно часты.
В действительности бывает по разному. За примером далеко ходить не надо.
Проверим modtime для нескольких страниц моего старого хобби-проекта smmup.ru.
Адрес | Modtime | Дата из modtime |
---|---|---|
/ | 20140916T170528 | 2014-09-16 |
/activity.php | 20150422T103533 | 2015-04-22 |
/target.php | 20150208T173922 | 2015-02-08 |
/kogda.php | 20141112T210047 | 2014-11-12 |
Я уже писал об истории ресурса в статье Сайт на домене с плохой историей. Снимаются ли санкции Яндекса автоматически? Длительное время он толком не индексировался Яндексом. У меня сохранилась переписка с Платоном, датированная 20 апреля 2015 года. На этот момент в поиске присутствовала 1 единственная страница – главная.
То есть modtime как минимум для двух url оказался вовсе не датой появления в индексе. Для /kogda.php разница между значением из этого параметра и временем окончательной индексации – почти полгода! Документ не в индексе – а modtime уже со стажем (солдат спит – служба идет).
Что это означает? Немного утрируя: мы проанализировали конкурентов по запросу, увидели там кучу старых страниц, испугались и не стали по нему продвигаться. А половина конкурентов на самом деле долго была под жесткими фильтрами и побороть их не так уж сложно.
Ситуация теоретическая, описал просто как понятный пример, почему полагаться на modtime нужно с большой оглядкой.
Но это еще цветочки.
Modtime может содержать дату ПОЗЖЕ реальной индексации
В случае с smmup.ru мы по крайней мере можем интерпретировать modtime как время первого визита робота. Даты неплохо коррелируют с реальным появлением страниц на сайте.
Вот вам другой пример. Здесь я просто не решаюсь выдвинуть гипотезу, откуда что берется.
Это результат для статьи о повышении точности данных в Метрике. Она была опубликована – внимание! – в марте. При этом:
- У моего блога нет проблем с индексацией (тем более что ту статью репостнули в несколько популярных групп).
- Никаких редиректов, смены адресов и тому подобного не было.
Чтобы развеять последние сомнения:
То есть: modtime значительно занизил возраст страницы.
Этот пример был найден ровно за 2 минуты (просто смотрел параметр для страниц блога, без дополнительных ухищрений), что говорит о высокой распространенности подобных результатов. Кроме того, видел немало аналогичных случаев на сайтах, которые аудировал (не показываю по понятным причинам), порой погрешность составляла годы.
Итоги
- Modtime далеко не всегда отображает корректную дату индексации (собственно, этого никто из Яндекса и не обещал).
- Опираться только на этот параметр в определении возраста страниц нельзя. Результаты недостоверны.
- Поэтому его использование для анализа сайтов конкурентов под большим вопросом. Применять в работе с собственными проектами можно – благодаря наличию других данных для контроля. Однако спектр задач, которые можно решать таким образом, довольно узок.
Буду рад дополнительным интерпретациям и интересным примерам!
p.s. Было длинное и не особо продуктивное обсуждение этой темы. Возможно, мне недостаточно хорошо удалось сформулировать посыл статьи. Суть не в том, что с modtime какие-то глюки. Понятно, что Яндекс может по тем или иным причинам обнулять “возраст” страницы. Главное – в том, что эти примеры иллюстрируют: а) нельзя полагаться на modtime как на дату первой индексации б) нет уверенности в том, что “сброшенный” согласно modtime возраст означает полную очистку страницы от накопленных факторов, которые прямо или косвенно связаны с возрастом.
Яндекс о нас совсем не думает))) ему параллельно
Никогда не понимал зачем тратить время на написание текстов, которые не несут практической пользы ни автору, ни читателям.
А что говорит сервис Я.Вебмастер “Проверка URL” по странице /kogda.php ?
Так что в итоге показал отчет ?
Версия страницы на момент построения поиcковой базы
Дата загрузки:30.11.2016 09:16:14
HTTP-статус:HTTP 200 OK
Modtime не поменялся.
А что хотели так проверить?
Алексей, считаю тебя опытным сеошником, но тут ты похоже даже не разобрался в вопросе.
Данные сервисом яндекса берутся или с sitemap.xml или микроразметки.
И вообще
>Что такое «возраст документа с точки зрения Яндекса» ? Как мне подсказывают логика и Google, это время, прошедшее с первой индексации.
НЕТ, плохо гуглил. это аналог из xml и обозначает дату последнего редактирования документа.
https://tech.yandex.ru/xml/doc/dg/concepts/response_response-el-docpage/
Четко написано
modtime Дата и время ИЗМЕНЕНИЯ документа в формате:
Т
Дата и время изменения документа в формате:
http://forum.sape.ru/showthread.php?t=66686
Реальный пример подтверждение на моем сайте:
О, привет! Тот самый Devvver? Помню, читал блог еще несколько лет назад.
Не соглашусь. У меня на smmup.ru ни того, ни другого нет – но modtime показывается.
Справку Яндекса я читал (см. скриншот в посте). Проблема в том, что это очень куцее определение и не согласуется с наблюдениями. Например, взгляни на возраст главной страницы этого блога – увидишь то ли 2012 то ли 2013 год. А с тех пор главная обновилась раз 20.
?
Кстати, взгляни, добавил постскриптум в пост.
Тогда сливаюсь, перепроверил еще раз на паре примеров.
Похоже в Яндексе что то поломалось, а так как никто не парсит этот параметр они и не исправили. Была мысль о связи с last-modified, но и она не подтвердилась.
Да, тот самый 🙂
Вообще, с ним больше вопросов, чем ответов.
Заходи еще! 🙂