Как работает кросс-доменный rel=canonical в Google: мини-исследование

В официальной справке Google четко сказано, что канонический url и его копия могут находиться на разных доменах. Там же упоминается копирование контента на другие сайты как хорошая причина использовать rel=”canonical”. А в этом старом видео Мэтт Каттс объясняет, что canonical практически такой же сильный сигнал, как и 301 редирект и обычно Google следует рекомендациям.

Когда требуется объединить похожие, но не идентичные страницы, склейка далеко не всегда происходит гладко. При републикации контента страницы вряд ли будут идентичными. Поэтому эффективность кросс-доменного canonical по умолчанию под вопросом. Достаточно ли для Google совпадения только основной части контента?

Вопрос не только интересен сам по себе, но и важен для практики. Например, в англоязычном Интернете довольно массово копируют контент на Medium (я сам так делал). Платформа ставит canonical на оригинал. Спасибо ей за это: у нас есть удобный объект для изучения.

Методика и общие результаты

В октябре прошлого года я сделал следующее:

  1. Спарсил 660 000 страниц с Medium.com.
  2. Отобрал из них те, что имели external canonical – их оказалось 6132.
  3. Убрал дублиткаты и страницы с h1 короче 20 символов – осталось 4656 url.
  4. Для каждого h1 спарсил ТОП-10 Google.
  5. Сравнил позицию для оригинала и копии.

Получилось вот так:

Какой можно сделать вывод? Конечно, эти результаты в вакууме мало о чем говорят. Тут только один срез, нет ситуации в динамике. Никак не проконтролировано сходство контента в источнике и в копии. Не проверена на доступность контента в оригинале и так далее и тому подобное. Чтобы сделать валидное исследование, нужно приложить еще массу усилий.

Однако очевидно, что если бы canonical отрабатывал быстро и четко, стоило ожидать другую картину. Выборка достаточно велика, чтобы сгладить случайности вроде физического исчезновения оригинала. Похоже, что canonical здесь работает через раз.

Об этом же говорит тот факт, что только в 692 случаях Medium-а нет в выдаче совсем.

Я не стал углублять исследование, чтобы отсечь все случайности. Сейчас меня больше интересует собственная насмотренность, чем академически точная истина. Просто подождал несколько месяцев и вручную изучил несколько десятков страниц. Потом снова подождал и еще раз посмотрел. Давайте посмотрим снова.

5 типичных примеров

Набрал из выборки за 10 минут. Похоже, что если Medium лучше ранжировался в прошлом году, то он обычно сохраняет лидерство и сейчас.

Кейс 1

Источника нет в индексе, даже в в расширенных результатах. По кускам фразы ищется Medium.

Кейс 2

Источник в индексе и, согласно Ahrefs, ранжируетра по 168 ключевым фразам, но по “15 Things I’ve Learned from Living in New York City” выводится Medium. Что неудивительно, так как структура заголовков в двух версиях текста разная.

Кейс 3

Оба в индексе, ранжируются по нескольким ключам, с небольшим преимуществом оригинала.

Кейс 4

Оба в индексе, некоторое время назад оба имели ключи по Ahrefs, сейчас у Medium они исчезли.

Кейс 5

Медиум ранжируется по 300 запросам, оригинал по 20-30.

Конечно, есть много примеров, где canonical отрабатывает полностью так, как должен. Немало кейсов, где страница на сайте с совсем слабым ссылочным побеждает копию на мощном Medim. Однако в целом, приступая к изучению, я ожидал, что случаи, где длительное время доминирует копия, будут более редкими. А влияние canonical, соответственно, более весомым.

✍️ Междоменный canonical работает далеко не всегда. Это более слабый сигнал, чем может показаться при чтении справки Google.

13 комментариев

  1. Алексей, если никак не проверялось сходство оригинала и копии, то зачем вообще проводилось это исследование? Ведь это один из самых важных факторов для работоспособности canonical.

    • 1. Сама механика постановки canonical на Medium такова, что он ставится при импорте статьи (раньше вообще работал плагин для WP, который делал все автоматически).
      2. Я выборочно проверил довольно солидный срез выборки и убедился что, как и ожидалось, значимые изменения в копиях это редкость. Не за этим используют копирование, чтобы делать уникальный контент.

      Однако в любом случае автоматическую часть анализа я использовал в первую очередь как наработку базы для дальнейших наблюдений.

      • А по внутридоменным canonical есть какая-то статистика при соблюдении требований? Это же как рекомендация идет. Интересно сколько процентов реально склеивает

      • Нет, не собирал такое. Чисто субъективно – не помню, чтобы где-то были проблемы с идентичными страницами. А вот когда есть различия – то примерно как и тут 50/50.

  2. Про каноникалы у Мурыча было интересное видео на Назападе 17 (если интересно, то гуглится в ютубе). Складывается у меня впечатление, что вы проверили не как работает междоменный каноникал, а как Гугл выбирает каноническую версию исходя из имеющихся у него сигналов (в том числе каноникал). А делает это он так себе :D. На определение каноничной версии вполне могут повлиять: веса и авторитетность хоста, ПФ, скорости загрузки и аптайм страницы, у Медиума есть кстати еще комментарии и лайки, чего может не быть на сайте-источнике.

    • как Гугл выбирает каноническую версию исходя из имеющихся у него сигналов

      Можно и так сформулировать, да

      А делает это он так себе 😀

      Я в принципе соглашусь, но тут отдельный большой вопрос. В чем критерий, разделяющий “так себе” и “хорошо”. Если критерий – удобство управления выбором канонической со стороны оптимизатора, то да, так себе. Но подозреваю, что у Google немого другие критерии.

      • Подозреваю, что на работу canonical влияет еще то, что SEOшники могут его использовать для различных махинаций, в том числе совершенно черных. Соответственно Google может это все учитывать и вносить дополнительные поправки в алгоритм. Но это только в теории.

        Еще забыл один момент упомянуть – по мануалу (давно правда читал справку Гугла) должны склеиваться страницы с идентичным содержанием. Так вот вопрос достаточно ли хорошо Гугл понимает где main content, а где все остальное. На сайта, да и в статье на Медиум может встретиться какой-то дополнительный контент рядом с MC (перелинковка, блок с рекомендациями, ссылка на профиль автора и т.п.), на основе которого Гугл может посчитать, что именно эта версия среди всех имеет наибольшую ценность и именно ее надо показывать в поиске.

  3. На самом деле rel=canonical даже для страниц с идентичным контентом в рамках одного домена не всегда будет работать в Google. Есть куча других сигналов при выборе основной страницы (самые сильные из них – наличие в карте сайта, лаконичный адрес и внешние ссылки).

    • Правильное замечание, но скорее теоретического характера.
      Большинством факторов у себя на сайте можно управлять так же, как и canonical-om. А если ненужная копия вдруг удачно набрала внешних ссылок, просто сделать канонической ее. Проблем с этим нет. Проблемы возникают, когда хочется склеить неидентичный контент в целях управления конверсий, например.

  4. Существование кроссдоменного каноникал как и каноникал вообще в его современном виде, обусловлено либо чередой идиотских ошибок со стороны людей принимающих решения, либо намеренным саботажем внедрения технологий, которые
    a) полностью исключают необходимость в каноникал
    б) решают массу прочих вопросов, которые якобы решать очень сложно – например авторство контента или его источник.

    Каноникал, как и весь медиаконтент обозначенный на странице (язык, авторство и т.д.) используется Google только в определенных случаях как некоторый дополнительный фактор для принятие каких то решений. Иными словами, легко демонстрируется как наличие противоречивого каноникал или языковых тегов не принимается во внимание вообще. Даже в случаях, когда такое решение критически важно для контента страницы (например вынесение решения о дублирующем контенте в силу схожести языков). Что прямо свидетельствует о наличии некоторой эвристики которая может использовать мета контент в качестве дополнительного, но совсем не в качестве основного – определяющего параметра для принятия решений.

    И это вполне понятно, учитывая тот факт, что всю историю существования Google как поисковом машины, они вертели на причинном месте стандарты, а не следовали им. Если бы они строго следовали RFC то никогда бы не возникало эпичных историй, про подвязку сторонних доменов через hreflang теги к чужим доменам (известная история про привязку условной русской версии нью йорк таймс к самому нью йорк таймс у которого русской версии не было). Потому что RFC четко настаивало на обратной перелинковке одного источника с другим.

    Кроссдоменный каноникал появился в гугле как ответ на борьбу с копированием чужого контента, а точнее жалоб что сайт автора оказывался с этим контентом в апоже, но сайт злоумышленника напротив в топе. И что противнее всего, это происходило в случае разрешенной перепечатки материалов с указанием всех источников. Тогда то гугл и выкатывает на весь мир кроссдоменный каноникал, сообщая авторам контента, что мол договариваясь с кем либо о перепечатке настаивайте на простановке каноникал на вас.

    Стоит ли говорить о том, какая феерия бреда началась следом, когда кросс доменными каноникалами топили чужие сайты проставляя их с условной порнографии на нормальный сайт или любые другие забавные опыты которые рожало воображение пытливого ума. На все это Google вынужден был реагировать наслаивания разные уровни абстракции которые должны были бы принимать решение где учитывать каноникал а где нет.

    Итогом всего этого мы имеем черный ящик, работу которого, я практически уверен, не до конца понимают и в самом гугле.

    А проблема вся заключалось в одном единственном – отсутствии механизмов которые бы однозначным образом подтверждали авторство контента или санкционированность той или иной операции в рамках разных доменов.

    Которая решалась уже тогда элементарно. И то что Google о таком решении знал я могу гарантировать, так как это подтверждалось последующими его инициативами в смежных областях.

    Все что было нужно – это внедрения механизма цифровых подписей к странице, а точнее когда поисковая машина опирается на цифровую подпись как на факт подтверждающий авторство контента. Которая привязана к домену или к условному имени связанному с доменом. В результате чего все, подчеркиваю ВСЕ проблемы как с авторством контента его заимствованием были бы разрешены. Потому как разместив чужой контент на другом домене – тебе его нужно подписать, а подписать его подписью автора уже невозможно в силу привязки ее к домену.

    Тем самым дальше можно было бы однозначным образом идентифицировать и любые другие критически важные моменты. В том числе и с легальной перепечаткой контента.

    Уже четвертый или пятый год как тестируется Signed Exchange протокол который чуть чуть про другое но по сути тоже самое. Уже даже в браузере под галкой спрятаны опции когда сам браузер может проверять авторство по подписям, что дает возможность просигнализировать о источнике. И все равно это все вводится с большим скрипом.

    Почему? Я могу только гадать. Возможно деньги.
    На примере того же medium который может являться для Google важной рекламной площадкой в отличии от блога васи пупкина, который является реальным автором контента. А строго говоря, 90% всего контента medium это перепечатка, как следствие введение подобных механик похоронит медиум как ресурс. Или потребует от медиум больших финансовых вливаний на изменение парадигмы ресурса.

    • У меня тоже нет ответа; скорее всего тут просто “качество выдачи устраивает пользователя, борьба за авторство не даст существенного прироста”. Плюс инерция и нежелание ломать сложившуюся систему. Не думаю, что в масштабах Google профит с Medium может серьезно влиять на принятие решений. С другой стороны, в абсолютных цифрах там конечно ого-го.

      Комментарий отлично подсвечивает, что все эти вопросы – на стыке технички и бизнеса, основанного на контенте. Спасибо за дополнение!

Оставить ответ