Параметр modtime в Яндекс.Xml. Неужели Яндекс помечает возраст страницы в заботе о сеошниках?

Для ряда задач SEO-аналитики требуется определить, с какого времени поисковая система “знает” о существовании на сайте конкретной страницы. Один из распространенных путей узнать возраст документа в Яндексе – это поиск url с помощью Яндекс.Xml для получения параметра modtime. В связи с поломкой параметра “&how=tm” способ получил еще большую популярность.

Получается удобно и быстро, благо есть визуальный интерфейс на https://xml.yandex.ru/test/. Но я с большим сомнением отношусь к этому методу.

Что не так с modtime?

Во-первых, в документации сервиса указано лишь это:

modtime

Таким образом, идея о том, что тег отображает дату первой индексации, целиком принадлежит SEO-шникам.

Во-вторых, пользователи Яндекс.Xml – это, как бы помягче выразиться, далеко не самые важные клиенты для поисковой системы. Доступ дается бесплатно, никакой рекламы там не откручивается. С чего бы “ООО Яндекс” особо заботиться о точности, актуальности и достоверности xml-параметров? Хотя в это еще можно поверить – ну просто хорошие программисты все делают хорошо. А вот зачем предоставлять недокументированные возможности – совсем непонятно.

Впрочем, все это лирика и мои домыслы. Перейдем к фактам.

Что такое “возраст документа с точки зрения Яндекса” ?

Как мне подсказывают логика и Google, это время, прошедшее с первой индексации. Чаще всего нам интересно именно это – с какой даты страница начала привлекать трафик, копить возраст и так далее.

Но что считать датой индексации? Время первого визита робота? А может дату появления в поиске? Казалось бы, вопрос не особо актуален, ведь разница получается небольшой, апдейты поисковой базы все же довольно часты.

В действительности бывает по разному. За примером далеко ходить не надо.

Проверим modtime для нескольких страниц моего старого хобби-проекта smmup.ru.

Адрес Modtime Дата из modtime
/ 20140916T170528 2014-09-16
/activity.php 20150422T103533 2015-04-22
/target.php 20150208T173922 2015-02-08
/kogda.php 20141112T210047 2014-11-12

Я уже писал об истории ресурса в статье Сайт на домене с плохой историей. Снимаются ли санкции Яндекса автоматически? Длительное время он толком не индексировался Яндексом. У меня сохранилась переписка с Платоном, датированная 20 апреля 2015 года. На этот момент в поиске присутствовала 1 единственная страница – главная.

То есть modtime как минимум для двух url оказался вовсе не датой появления в индексе. Для /kogda.php разница между значением из этого параметра и временем окончательной индексации – почти полгода! Документ не в индексе – а modtime уже со стажем (солдат спит – служба идет).

Что это означает? Немного утрируя: мы проанализировали конкурентов по запросу, увидели там кучу старых страниц, испугались и не стали по нему продвигаться. А половина конкурентов на самом деле долго была под жесткими фильтрами и побороть их не так уж сложно.

Ситуация теоретическая, описал просто как понятный пример, почему полагаться на modtime нужно с большой оглядкой.

Но это еще цветочки.

Modtime может содержать дату ПОЗЖЕ реальной индексации

В случае с smmup.ru мы по крайней мере можем интерпретировать modtime как время первого визита робота. Даты неплохо коррелируют с реальным появлением страниц на сайте.

Вот вам другой пример. Здесь я просто не решаюсь выдвинуть гипотезу, откуда что берется.

Это результат для статьи о повышении точности данных в Метрике. Она была опубликована – внимание! – в марте. При этом:

  • У моего блога нет проблем с индексацией (тем более что ту статью репостнули в несколько популярных групп).
  • Никаких редиректов, смены адресов и тому подобного не было.

Чтобы развеять последние сомнения:

То есть: modtime значительно занизил возраст страницы.

Этот пример был найден ровно за 2 минуты (просто смотрел параметр для страниц блога, без дополнительных ухищрений), что говорит о высокой распространенности подобных результатов. Кроме того, видел немало аналогичных случаев на сайтах, которые аудировал (не показываю по понятным причинам), порой погрешность составляла годы.

Итоги

  1. Modtime далеко не всегда отображает корректную дату индексации (собственно, этого никто из Яндекса и не обещал).
  2. Опираться только на этот параметр в определении возраста страниц нельзя. Результаты недостоверны.
  3. Поэтому его использование для анализа сайтов конкурентов под большим вопросом. Применять в работе с собственными проектами можно – благодаря наличию других данных для контроля. Однако спектр задач, которые можно решать таким образом, довольно узок.

Буду рад дополнительным интерпретациям и интересным примерам!

p.s. Было длинное и не особо продуктивное обсуждение этой темы. Возможно, мне недостаточно хорошо удалось сформулировать посыл статьи. Суть не в том, что с modtime какие-то глюки. Понятно, что Яндекс может по тем или иным причинам обнулять “возраст” страницы. Главное – в том, что эти примеры иллюстрируют: а) нельзя полагаться на modtime как на дату первой индексации б) нет уверенности в том, что “сброшенный” согласно modtime возраст означает полную очистку страницы от накопленных факторов, которые прямо или косвенно связаны с возрастом.

10 комментариев

  1. Никогда не понимал зачем тратить время на написание текстов, которые не несут практической пользы ни автору, ни читателям.

  2. Алексей, считаю тебя опытным сеошником, но тут ты похоже даже не разобрался в вопросе.
    Данные сервисом яндекса берутся или с sitemap.xml или микроразметки.
    И вообще
    >Что такое «возраст документа с точки зрения Яндекса» ? Как мне подсказывают логика и Google, это время, прошедшее с первой индексации.

    НЕТ, плохо гуглил. это аналог из xml и обозначает дату последнего редактирования документа.
    https://tech.yandex.ru/xml/doc/dg/concepts/response_response-el-docpage/
    Четко написано
    modtime Дата и время ИЗМЕНЕНИЯ документа в формате:
    Т

    Дата и время изменения документа в формате:
    http://forum.sape.ru/showthread.php?t=66686

    Реальный пример подтверждение на моем сайте:

    • О, привет! Тот самый Devvver? Помню, читал блог еще несколько лет назад.

      Данные сервисом яндекса берутся или с sitemap.xml или микроразметки.

      Не соглашусь. У меня на smmup.ru ни того, ни другого нет – но modtime показывается.

      Справку Яндекса я читал (см. скриншот в посте). Проблема в том, что это очень куцее определение и не согласуется с наблюдениями. Например, взгляни на возраст главной страницы этого блога – увидишь то ли 2012 то ли 2013 год. А с тех пор главная обновилась раз 20.

      Реальный пример подтверждение на моем сайте:

      ?

      Кстати, взгляни, добавил постскриптум в пост.

      • Тогда сливаюсь, перепроверил еще раз на паре примеров.

        Похоже в Яндексе что то поломалось, а так как никто не парсит этот параметр они и не исправили. Была мысль о связи с last-modified, но и она не подтвердилась.

        Да, тот самый 🙂

      • Похоже в Яндексе что то поломалось, а так как никто не парсит этот параметр они и не исправили.

        Вообще, с ним больше вопросов, чем ответов.

        Да, тот самый

        Заходи еще! 🙂

Оставить ответ