Как экстренно запретить индексацию страниц, если нельзя менять meta robots (на любом движке!)

Получаю много вопросов к посту про алгоритм Google Fred. Главным образом — о том, как технически реализовать закрытие недостаточно качественных страниц.

Небольшая ремарка

Вообще-то самый правильный вопрос — не «как закрыть», а «как понять, какие страницы достойные, а какие нет».

Я уже начинаю привыкать к тому, что из любого моего исследования пытаются сделать простую инструкцию на все случаи жизни (еще пример).

Нагрянул Фред? Ну, закроем от Гугла страницы, которые не дают трафика, как Трудов пишет и всего-то делов.

На всякий случай ответственно заявляю: я такого никому не советовал. Наоборот, всегда нужно подходить к проблеме аккуратно, чтобы ее лечением не наделать еще больших неприятностей. О правильной тактике борьбы с Fred-ом тоже как-нибудь напишу. Но сегодня у нас уже почти пятница, поэтому разберем вопрос попроще.

Чем вообще можно закрыть страницы от индексации поисковыми системами?

Традиционно используются либо robots.txt, либо мета-тег noindex. За подробной матчастью отправляю к справке поисковых систем:

https://yandex.ru/support/webmaster/recommendations/indexing.xml

https://support.google.com/webmasters/topic/4598466

Нас же интересует один часто игнорируемый нюанс. Как минимум для Google мета-тег и директива в robots.txt неравнозначны. Robots.txt — это всего лишь рекомендация, не обязательная к выполнению.

Недостатки robots.txt

Вот цитата из официального руководства:

Изменяя файл robots.txt, не забывайте о связанных с этим методом рисках. Иногда для запрета индексирования определенных URL лучше применять другие методы.
(…)
Googlebot не будет напрямую индексировать содержимое, указанное в файле robots.txt, однако сможет найти эти страницы по ссылкам с других сайтов. Таким образом, URL, а также другие общедоступные сведения, например текст ссылок на сайт, могут появиться в результатах поиска Google. Чтобы полностью исключить появление URL в результатах поиска Google, используйте другие способы: парольную защиту файлов на сервере или метатеги с директивами по индексированию.

Robots.txt плох еще и тем, что в нем нельзя указать правило, аналогичное «noindex,follow» (не добавлять в поисковую базу документ, но переходить по ссылкам), что является, например, неплохим универсальным решением для страниц пагинации.

Meta robots — тоже не идеал

Вообще-то meta name robots — отличное решение. Недостаток только один. Иногда, на проектах с кривым движком или ленивым программистом, добиться установки мета-тега на жалкой сотне документов не так-то просто. Что делать, если запрет нужно поставить вот прямо сейчас (а лучше — вчера)?

Заголовок X-Robots-Tag — альтернатива перелопачиванию кода страниц

Есть еще один способ передать поисковым системам информацию, аналогичную той, что содержится в мета-теге robots. Это заголовок сервера X-Robots-Tag. С ним вообще забавная история. Почему-то считается, что умение работать с X-Robots-Tag — страшные мистические знания, доступные только супер-сеошникам. В то же время, описание заголовка спокойно лежит все в той же справке Google.

Да и вообще, ничего сложного в X-Robots-Tag нет. Единственное затруднение — в силу малой популярности, для управления им практически нет готовых инструментов. И совершенно напрасно. Ведь X-Robots-Tag объединяет достоинства robots.txt и мета-тега. Он универсален, гибок и управлять им можно без привлечения программиста (соблюдая, конечно же, осторожность).

Вчера я немного покопался в документации .htaccess и соорудил сервис, который позволяет генерировать правила по установке X-Robots-Tag сразу для множества страниц.

Инструмент доступен по адресу: https://bez-bubna.com/free/htaccess.php (бесплатно, без регистрации).

На вход подается список url:

После нажатия кнопочки получаем это:

Нам остается скопировать первую часть в конец  .htaccess, выбрать один из вариантов второй части (или написать свой) и вставить в тот же файл. Потом обязательно перепроверяем, все ли хорошо работает, не поломался ли сайт от конфликта директив и установился ли заголовок на нужные страницы. Массово это можно сделать с помощью Screaming Frog (раздел Directives).

Ну а проверить конкретный url можно любым детектором заголовков сервера, хоть Вебмастером Яндекса.

В чем минусы?

Если запихнуть в .htaccess очень много страниц, это (теоретически) может сказаться на скорости работы сервера. Я протестировал сайт на 3500 url в .htacess и не заметил снижения скорости.

Первый запуск:

Второй (с разбухшим .htacсess):

Разницы практически нет. Некоторые показатели во втором случае даже чуть лучше (думаю, это погрешность измерений). То есть как минимум до 3500 можно не опасаться проблем со скоростью.

Также непонятна ситуация с поддержкой X-Robots-Tag Яндексом. В справке заголовок не упомянут. Есть сравнительно свежий официальный комментарий в клубе Яндекса:

Вроде бы должно работать, но при попытке удалить url, который я 5 минут назад проверил на ответ сервера в Вебмастере, получаю:

Изучу этот вопрос дополнительно.

В любом случае, для Google способ должен работать. Кстати, есть мнение, что запрет с помощью X-Robots-Tag еще и помогает экономить краулинговый бюджет (ведь роботу не надо скачивать страницу, чтобы добраться до мета-информации). Удачного использования!

Поделиться
Отправить
Плюсануть

Читайте также
  • Дима
    12.10.2017

    Правда, что краулинговый бюджет экономится при настройке заголовка Last-Modified?

    Ответить
    • Алексей Трудов
      12.10.2017

      Хуже от него точно не будет. Я всегда использую на больших проектах.

      Ответить
    • Сергей
      13.10.2017

      Экономится. Причем заметно. На больших проектах это подтверждается 😉

      Ответить
  • seoonly.ru
    12.10.2017

    Спасибо за метод!

    Ответить
  • Сергей
    13.10.2017

    Как-то раз потребовалось убрать из Google целый сайт (!). Причем для эффективности сразу пошел по нескольким направлениям — настройки сервера с блокировкой ботов, удаление через webmasters tools, robots.txt (а вдруг прорвется, хотя судя по логам — ни разу).
    Так вот — удалить что-либо из гугла оказалось адским трудом! Не удаляется и все. Причем сообщает, что «чет на страницу попасть не могу, не?», «чет у вас каталог / и все лежащие ниже запрещены к индексации. Проверьте!» но даже трафик обрезало неделями. В итоге через примерно два с половиной месяца страниц в индексе поубавилось, но осталось еще море.

    Ответить
    • Алексей Трудов
      13.10.2017

      Да, есть такое.

      Ответить
  • Алексей
    13.10.2017

    За полтора месяца, как я поставил meta noindex для категорий — траф из гугла и яндекса на них не убавился!
    Из личного по поисковикам вообще: считаю что нужно делать, особенно на важных проектах, так, как давно известно что это работает. Во всех остальных случаях — скорей всего вы не получите того что хотели, или получите не полностью. Сам влетал, даже после подтверждений каких-то доводов платонами. Сделал вывод, что технические решения должны быть очень простыми и давно известными, иначе роботы надурят ожидания. Этот вывод как-то соотносится с X-robots для Яндекса)

    Ответить
    • Алексей Трудов
      13.10.2017

      Золотые слова 🙂

      Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/