Как найти зеркала сайта бесплатно и без сторонних сервисов

Сегодня расскажу подробнее о поиске зеркал сайтов (полных копий на разных доменах). Тема вызвала живой интерес и множество вопросов после доклада на SEMPRO.

Зачем вообще искать зеркала?

Напомню ситуации, когда это может быть актуально:

  • Вы анализируете новую нишу на предмет конкуренции. Если ТОП выдачи выглядит не особо внушительно — не спешите радоваться. Сначала стоит проверить, не подклеено ли к молодому домену старое зеркало с мощным ссылочным профилем.
  • Вы планируете купить сайт, который имеет хороший поисковый трафик. Обязательно требуйте передачи прав на все зеркала — иначе можно остаться ни с чем.
  • Вас интересует схема ссылочного продвижения у конкретного конкурента. Стоит тщательно изучить обратные ссылки у всех версий проекта.
  • Вы пользуетесь услугами SEO-студии или фрилансера; хотите быть уверены, что продвижение ведется именно для вашего домена.

Как найти зеркала с точки зрения Яндекса?

В Рунете популярен плагин для браузера RDS бар, который проверяет множество SEO-параметров, в том числе и этот (в платной версии). Создатели плагина подробно описали свою методику:

Склеен ли сайт на какой-то другой можно определить используя эти два запроса:
http://search.yaca.yandex.ru/yca/cy/ch/site.ru/ или http://bar-navig.yandex.ru/u?ver=2&u…ndex.ru&show=1

Если какое-то из этих значений возвращает склейку, то этот сайт попадает к нам в базу.
Определить склеен ли сайт — очень просто. А вот узнать какие сайты приклеены к данному, то есть произвести обратную процедуру — довольно сложная задача.
Для этого «в идеале» нужно проанализировать все сайты интернета на эти два запроса проверки склейки и создать связки для склееных сайтов.
Что позволит найти все зеркала сайта, если они действительно приклеены к данному сайту.

В нашей базе более 13 млн. сайта, которые регулярно проверяются на данные параметры.
Из статистики, найдено:
406 000 сайтов склееных на другие
280 000 сайтов у которых есть дополнительные зеркала.

И оговорились:

Внимание: сервис определяет зеркала для сайтов, которые Яндекс признал действительно зеркалами и склеил их.
Определение зеркал по Google или по другим признакам (у которых в robots.txt прописано или стоит редирект, или на сайте просто надпись сайт переехал) — это другая история.

Источник: http://searchengines.guru/showthread.php?t=539779

Очевидно также, что мы не можем быть уверены в полноте любой базы. Что, если работаем с узкой нишей, где не особо популярные сайты? Да еще под англоязычный Google? На самом деле это не проблема. Гугл — знает все!

Как искать зеркала под Google?

Наверняка вы замечали, что Google хранит информацию о старых страницах очень долго. Для примера — отчет из API Search Console для моего сайта:

На этом и основан метод:

Запрашиваем у Google уникальную фразу с анализируемого сайта, одновременно запрещаем показывать сам сайт. 

Вот пример из доклада (искал зеркала у сайта www.injuryclaimcoach.com):

Используется фраза в кавычках и оператор site:, перед которым стоит минус. Первый результат отдает 301 код и перебрасывает на изучаемый домен. При этом переезд был осуществлен более 3 лет назад (особо любознательные могут проверить по web.archive).

Пример использования

Давайте поищем еще. Возьмем интересный пример. Возможно вы в курсе, что Гугл на своем сервисе blogspot.com однажды устроил знатную свистопляску с зеркалами.

Так, блог Дмитрия Шахова из России открывается по адресу http://bablorub.blogspot.ru/. Если обратитесь к нему через .com — получите редирект.

Но в выдаче тем не менее .com:

Применим нашу методику:

«Рушка» нашлась! Не будем на этом останавливаться. Выше я подчеркивал, что нужно использовать уникальную фразу.

Забиваем «Я считаю, что глупо тиранить кандидата вопросами про то, что такое релевантность или формула BM-25 -site:bablorub.blogspot.com» (цитата из статьи про прием сеошника на работу):

Ничего такой улов!

Но фразу мы взяли не то чтобы слишком удачно — она в популярной статье, которая была много где процитирована или перепечатана.

Берем другую, — ответ Дмитрия на мой вопрос из тех времен когда мы еще не были знакомы лично:

Еще один! Но заодно подсунут и .ru тоже. Заминусуем и его и .tr! Используем длинный запрос: Управление бизнесом влияет сильнее, чем профессиональная деформация. На фоне этого деформация по SEO никак не заметна. -site:bablorub.blogspot.com -site:bablorub.blogspot.ru -site:bablorub.blogspot.tr

Интересно, кончились ли у Гугла зеркала?

Как бы не так!

Забиваем теперь «Управление бизнесом влияет сильнее, чем профессиональная деформация. На фоне этого деформация по SEO никак не заметна. -site:bablorub.blogspot.com -site:bablorub.blogspot.ru -site:bablorub.blogspot.tr -site:bablorub.blogspot.com.tr -site:bablorub.blogspot.com.es -site:bablorub.blogspot.de -site:bablorub.blogspot.dk» (я уже устал…)

Тут я сдался. Доменов у Гугла много куплено, это мы точно выяснили. Желающие могут найти еще и еще.

Практические советы и тонкости

  • Стоит использовать не только -site:, но и -inurl:. Иногда это предпочтительнее. Контент бывает растиражирован по разным каталогам сайтов; в адрес таких страниц обычно входит часть домена. Поэтому чтобы не тонуть в них, минусуем не весь домен, а его часть. Тогда если и будут всплывать каталоги, то скорее ссылающиеся на старое зеркало.
  • Нужно делать несколько проверок с разными фразами. Желательно брать запросы из старого контента (можно проверять по вебархиву).
  • Гугл спокойно переваривает длинные поисковые фразы, где минусуется сразу несколько доменов. Пользуемся этим, чтобы не натыкаться на уже обнаруженные зеркала.
  • Один и тот же запрос стоит задавать с фразой в кавычках и без, а затем проверять скрытые результаты. Выдача может сильно отличаться и содержать разные домены.
  • Разумеется, мы не можем быть уверены, что найдем абсолютно все зеркала. Но на практике метод работает неплохо. Смотрите пример в комментариях. С помощью одного запроса выявлено сразу 2 зеркала, при том что сервисы находят ноль (лень постить скриншоты, можете проверить сами). Спасибо Ивану за показательный пример.

Удачного использования!

Поделиться
Отправить
Плюсануть

Читайте также
  • seoonly.ru
    29.05.2017

    Почему гугл такой некрофил?

    Ответить
  • Айк
    29.05.2017

    Интересная инфа,да есть сео компании который якобы продвигают ваш домен (оплата по факту) а вот когда вы уже не заказываете у них услугу то трафик резко падает,то есть на ваши деньги они раскручивают свой домен и во время «продвижения» делают редирект на ваш домен,после того как перестаете заказывать у них услугу ТО бабах и привет 🙂

    Ответить
    • Алексей Трудов
      29.05.2017

      Бывает, да 🙂
      Не так часто, но лучше поберечься.

      Ответить
  • Артем
    30.05.2017

    Не работает) ни в гугле не в яндексе, с обоими операторами
    Может я что то не так делаю
    тематика гемблинг, там сайты имеют по 10 зеркал уже, можно любой взять, взял три штуки с разными фразами и пробовал разные операторы, показывает совпадение враз на левых сайтах и все…дорвеи всякие которые текст украли, зеркала не находит…

    Ответить
    • Алексей Трудов
      30.05.2017

      В Яндексе и не должно.
      Да, тут соль в том, чтобы найти уникальную фразу — или отфильтровать и левые сайты тоже. Надо, чтобы в выдаче оставался буквально десяток-другой результатов. Тогда Гуглу ничего не останется кроме как показать скрытые копии.

      Ответить
  • Юрий
    30.05.2017

    спасибо. Материал помог найти и сетку сайтов, которые конкурент использовал для редиректов на свой продвигаемый домен.
    Как я понимаю, повлиять на такие действия невозможно, поэтому придется перерабатывать свой контент?

    Ответить
    • Алексей Трудов
      30.05.2017

      Пожалуйста, здорово что помогло.
      Не понял вопрос.

      Ответить
  • Иван
    30.05.2017

    Добрый день! Спасибо за статью! Очен ждал.
    Такой вопрос. К примеру, есть сайт http://www.metalloprokatspb.com я ищу и вбиваю текст со страницы «Продажа металлопроката, как и его непосредственное производство, представляет собой один из основных векторов нашей деятельности.» и выдает только этот сайт. Минусую его через -site:www.metalloprokatspb.com и ничего не выдает. Хотя у него есть зеркало balttek-metall.ru и если в гугле ввести site:balttek-metall.ru то выдает страницы.

    Я что-то не так делаю?

    Ответить
    • Алексей Трудов
      30.05.2017

      Иван, вы все правильно делаете. Другой вопрос, что отыскать на сайте уникальные фразы (в плане смысла или хотя бы лемм) нелегко 🙂
      Но все же возможно. Держите два зеркала:

      Ответить
      • Алексей Трудов
        30.05.2017

        Кстати, сервисы для этого домена не находят ни одного (!) зеркала. Такие дела.

      • Иван
        30.05.2017

        Спасибо! А если уникального текста нет на сайте. Бывают варианты?

      • Алексей Трудов
        30.05.2017

        Все равно можно, только не так красиво и быстро получается. Нужно больше минусовать, пробовать диапазоны дат и так далее — сужать область поиска, уменьшать количество ответов в выдаче. Одной четкой схемы тут нет.

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/