Разбираем задания SEO-теста. О сколько нам открытий чудных готовит справка Google!

Вчера выложил в онлайн-тест по SEO. Получилось бурное обсуждение, тест, что называется “зашел”. С гордостью делюсь мнением Евгения Кулакова:

без шуток, крутой трольный тест. После прохождения такого теста на собеседовании любого сэо-експерта можно отправить домой)

Честно говоря, я делал страничку тяп-ляп (для разового использования у себя в отделе) и не ожидал такой реакции. Однако раз есть интерес – имеет смысл сделать его чуть качественнее.

В первую очередь всех интересуют правильные ответы. Результаты выводились очень криво (так уж работает хороший в остальном плагин). Ну а с отобранными мной верными ответами многие не согласны. Поэтому решил написать обзор теста и подробно объяснить каждый вопрос.

Важно! Перед чтением этой статьи настоятельно рекомендуется пройти тест: https://alexeytrudov.com/junior-seo-test Я не буду полностью цитировать вопрос, так что это просто необходимо для понимания статьи.

Специфика теста

В Сети хоть отбавляй SEO-тестов. Однако те, что я нашел не подходили под мои задачи. Мне нужен был тест, в котором:

  • Задания имеют однозначное решение, разные трактовки не допускаются.
  • Решения основаны не на частном мнении, а на достоверных источниках (в идеале – на справке поисковых систем).
  • Затронуто несколько областей SEO (все охватить не получится, но 3-4 разных сферы проверить необходимо).
  • Достаточно сложные задания (иначе результаты будут мало о чем говорить: и профи, и новичок наберут много баллов).
  • Не слишком сложные задания (по той же причине: если никто не сможет ничего решить, на первый план выйдет удача, а не знания).

Судя по статистике результатов и обсуждениям, получившийся тест вполне соответствует этим критериям. Это радует, так как задача объективно непростая. Сделать не очень тривиальные вопросы на основе простых и хорошо известных рекомендаций в справке Яндекса – немножко взаимоисключающие параграфы.

Ну а теперь собственно к вопросам.

Техническая оптимизация

Что такое rel canonical

Пожалуй, это один из самых простых вопросов теста – для затравки. Найти верный вариант легко методом исключения:

  • Ответ номер 1 явно неверен: Goolge вообще не рекомендует использовать canonical на страницах пагинации для “подклеивания” подстраниц к первой, так что он явно не мог быть создан с этой целью.
  • В ответе номер 3 canonical-у приписана роль атрибута hreflang.

Как запретить в robots.txt сканирование всего сайта

Еще один простой вопрос. Правильный ответ конечно же “Disallow: /”.

В комментариях предлагали альтернативный вариант: “Disallow: *”, однако в справке и Яндекса и Google приведены примеры с  использованием именно слэша.

UPD: покопался в функционале плагина, оказывается, можно настроить несколько корректных ответов. Теперь принимает и “Disallow: *”.

Что нужно знать о карте сайта

Тут чуток посложнее – вопрос требует довольно разносторонних знаний о sitemap. Разберем утверждения.

  • С помощью карты сайта можно сообщить роботу о каком угодно количестве страниц сайта – правильно. У отдельных файлов sitemap есть технические ограничения, но вы можете создать очень много файлов sitemap! И кстати, никто не запрещает менять url в карте!
  • С помощью карты сайта можно добавить в индекс не более 50 000 url – неправильно. Очевидно, что противоречит предыдущему пункту.
  • Если ссылка на карту сайта не указана в robots.txt, то поисковые системы проигнорируют ее – это не так. И Яндекс и Google позволяют добавлять карту сайта непосредственно в панель вебмастера. Кстати, не указывать карту в robots.txt бывает полезно, чтобы не облегчать жизнь тем, кто хочет спарсить ваш контент.
  • Чтобы ускорить индексацию сайта, нужно указать для всех url в sitemap элемент priority, равный 1 – если у всех страниц будет одинаковый приоритет, робот будет отбирать страницы для обхода полностью по своему усмотрению.
  • Если адрес страницы не указан в sitemap.xml, то страница не будет проиндексирована – неправда. Sitemap это вспомогательный файл, дополнительная точка входа роботов на сайт. Небольшие проекты живут без нее припеваючи. Более того, я не раз убеждался, что Google далеко не всегда активно краулит страницы из карты сайта.
  • Google поддерживает sitemap.xml для изображений, а Яндекс – нет – правильно. Это просто факт из справки (пруф).

Когда страница точно не будет проиндексирована в Яндексе и Google?

Этот вопрос вызвал массу споров. Чтобы в нем разобраться, советую первым делом прочитать мою статью про способы управления индексацией.

С вариантом ответа “Если ее адрес соответствует запрещающему правилу в robots.txt” особых проблем не возникло: довольно широко известно, что robots.txt рассматривается Google как рекомендация, а не строгая директива.

Многие отмечали, что страница не будет проиндексирована в обоих случаях:

  • Если она отдает заголовок X-Robots-Tag с директивой noindex,nofollow
  • Если в ее секции head содержится мета-тег robots, с noindex,follow

Однако вариант с X-Robots-Tag неверен по двум причинам.

Во-первых, Яндекс официально не поддерживает X-Robots-Tag (см. также мини-эксперимент по ссылке выше):

Во-вторых, формулировка “мета-тег robots, с noindex,follow” однозначно описывает конструкцию <meta name=”robots” content=”noindex,follow”/> (см. спецификацию для мета-тегов).  А вот первой формулировке будет соответствовать в том числе и такой заголовок:

X-Robots-Tag: otherbot: noindex, nofollow

Это инструкция для робота “otherbot”, она точно не запрещает индексацию ни в Google ни в Яндексе.

Как работает директива Clean-param в robots.txt?

Эта директива работает под Яндекс, поэтому просто отметаем все варианты, где указан Google.

Текстовая оптимизация

Что такое IDF

Вопрос на понимание одной из основ текстовой релевантности в классическом смысле – метрики TF-IDF.

Проходящие тест спотыкаются на разнице между определениями:

“Инверсия частоты, с которой некоторое слово встречается в документах коллекции” и “Показатель популярности уникального слова в поисковом индексе. Прямо пропорционален количеству документов, где есть данное слово, обратно пропорционален размеру индекса”.

Есть несколько подсказок, которые позволяют выбрать правильный ответ, даже не помня формулу, из общих соображений:

  • Слово “инверсия” в первой фразе (соответствует букве I в аббревиатуре).
  • Метрика TF-IDF нужна (если совсем на пальцах), чтобы вычислить, какие слова запроса имеют относительно высокую популярность в данном документе. Относительно – значит в сравнении с документами коллекции. Если бы один из множителей формулы – IDF был прямо пропорционален количеству документов, где есть это слово, то максимальное значение TF-IDF получали бы самые частые слова в Интернете, то есть те, что встречаются почти во всех документах. Иначе говоря – стоп-слова! Это бред, так что утверждение неправильно.

Что такое LSI?

В FB вокруг этого вопроса поломали немало копий. Я считаю, что тест должен проверять реальные знания, а не знание домыслов (пусть даже они записаны в Википедии). Реальность такова, что первоисточником в отношении LSI является научная литература. Ей мы и будем доверять.

Почитать об этом подробнее можно в большой и скучной статье от меня или короткой и веселой от Евгения Кулакова.

Многих, как я и планировал, сбила с толку формулировка “LSI – спектральное разложение терм-документной матрицы”, потому что всем известен сеошный мем в исполнении Алексея Чекушина:

Обратите внимание: Алексей говорит о сингулярном, а не спектральном разложении. Это разные вещи.

Плотность вхождений слова в текст

Разумеется, никаких точных цифр привести нельзя. Этого нельзя сделать и в отношении более сложных метрик оценки текста, о чем я неоднократно писал, например, тут.

Оптимальная длина тега title

Лень в сотый раз объяснять одно и то же. Об этом у меня тоже есть отдельная статья (я запасливый!): Оптимальная длина title для SEO. Обязательно ли втискивать тайтл в 60-70-75 символов?

Многие ответили по сути верно, выбрав вариант “Столько, сколько нужно для охвата семантики, но не более 12 слов”. Он неточен по двум причинам:

  1. Никто не мешает сделать title в 15 слов, но так чтобы все значимые для продвижения слова вписались в первые 12.
  2. Всегда лучше понимать, откуда взялась цифра, чем помнить ее. Ведь Google может поменять количество учитываемых в title слов в любой момент – да хоть в те 10 минут, что вы проходите тест.

Алгоритм текстового ранжирования Яндекса на РОМИП-2006

Тут все достаточно просто, вопрос только выглядит угрожающе. Можно даже не читать легендарную статью (или мои комментарии к ней) – и ответить верно!

Смотрите:

“Отсутствие точного вхождения фразы для многословных запросов” вряд ли может быть фактором текстовой релевантности в классическом смысле. Оценка релевантности – это сумма слагаемых. Если бы этот фактор работал, то документы, где фразы нет были бы более релевантны, чем те, где она есть! Более того, у нас есть противоположное утверждение: “Наличие точного вхождения фразы для многословных запросов.” Ясно, что два фактора, несущие одну и ту же информацию вряд ли могут существовать в одной формуле.

Еще один неправильный ответ – “Величина скалярного произведения векторов, в виде которых представлены текст запроса и текст документа”. Чтобы его выбрать, достаточно внимательно прочитать анонс алгоритма Королев. Или из общих соображений догадаться, что преобразование документов в вектора, которые можно сравнивать с векторами запросов (вот так вот легко!) – это задачка не для 2006 года.

Ссылочные факторы

Почему показатели вроде Ahrefs Domain Rating не могут считаться достоверной оценкой ссылочных факторов?

Здесь все ответы правильные.

Первый пункт очевиден, но если хотите пруф –  легко нагулить статистику активности разных роботов. От Googlebot отстают все (что ожидаемо).

По второму пункту не могу отослать к конкретной статистике. Тут достаточно чуть-чуть пообщаться с теми, кто серьезно занимается сетками сайтов, чтобы понять, насколько масштабна блокировка доступа роботам ссылочных сервисов.

Чтобы согласиться с третьим ответом хватит факта, что у Google есть патент “Ranking documents based on user behavior and/or feature data”.

Платные ссылки, согласно Мадридскому докладу

Опять-же, необязательно читать доклад, чтобы верно ответить (он упомянут в заголовке, чтобы был четкий и понятный пруф). Очевидно, что два последних пункта легко могут быть признаками нормальных, естественных ссылок.

Как работает rel=“nofollow”?

Вопрос чисто на знание справки. Правильный ответ: “Этот атрибут – инструкция поисковому роботу не переходить по ссылке” – только эта формулировка выдерживает сравнение со справкой поисковых систем.

См. также подробнее о nofollow.

Выберите верные утверждения в плане SEO-ссылок

  • И Яндекс и Google могут вводить санкции против сайтов, агрессивно наращивающих ссылочную массу – правильно. Есть Минусинск, есть Пингвин.
  • Яндекс.Вебмастер имеет специальный инструмент для отклонения “плохих” ссылок – неправильно (и это очень печально).
  • Google Search Console имеет специальный инструмент для отклонения “плохих” ссылок – верно, вот пруф.
  • Платные ссылки не могут быть полезным сигналом для повышения качества поиска – неправильно. Разумеется, они могут быть полезным сигналом, об этом прямо говорится в том же Мадридском докладе. Вообще говоря, в противном случае поисковики давно обнулили бы их действие и вся индустрия продажи ссылок умерла бы лет десять назад.
  • Внешние ссылки не могут повредить ранжированию сайта в Google – неправильно, Пингвин никуда не делся.

Переезд сайта и трафик из Google

Все строго по справке.

Помните о том, что при переносе сайта может меняться его положение в результатах поиска.
Это связано с тем, что робот Google выполняет сканирование и индексацию веб-страниц заново. Как правило, полное индексирование сайта среднего размера занимает несколько недель. Чем больше сайт, тем продолжительнее этот период.

https://support.google.com/webmasters/answer/34437?hl=ru

Инструмент изменения адресов сообщает в Google актуальные URL ваших страниц, что позволяет нам добавить в индекс новый домен. Обновление индекса длится 180 дней. В течение этого времени робот Googlebot сканирует и индексирует страницы с новыми адресами.

https://support.google.com/webmasters/answer/83106?hl=ru

Не снизится ли рейтинг страниц, если я настрою переадресацию на новые URL?
Нет. Переадресация 301 или 302 не приводит к снижению PageRank.

https://support.google.com/webmasters/answer/83106?hl=ru

Итак, правильный ответ – “Согласно официальным заявлениям PageRank при переадресации не теряется, однако не исключена просадка позиций на длительный срок”. 180 дней – серьезный срок.

Работа с инструментами

Какие данные о поисковых запросах есть в Google Search Console?

Простой вопрос, но так как в ответе много пунктов, нужно правильно ответить на все.

  • В SC показываются все поисковые запросы, по которым были преходы на сайт из Google – нет (см. следующие пункты).
  • В SC могут не показываться низкочастотные поисковые запросы – правильно (см. цитату в начале статьи об анализе данных в Search Console).
  • В SC могут не показываться поисковые запросы, связанные с персональными данными – правильно, пруф там же.
  • В SC также показываются url сайта, на которые были сделаны переходы – правильно, достаточно открыть интерфейс, чтобы в этом убедиться.
  • В SC для каждой фразы показываются CTR и SERP Impressions – неправильно. SERP Impressins показываются только в Яндекс.Вебмастере. В консоли есть Total impressions.

Как определить количество поисков по фразе в Яндексе?

Тут нужно знать, что такое SERP Impressions (ссылка абзацем выше), оценить период, за который представлены данные на скриншоте (это 10 дней), умножить 7437 на 3 и округлить до тысяч, в итоге получится 22.

Достижения цели, целевые визиты и посетители

Складываем все клики по кнопке добавления в корзину – получаем 5 целевых действий. Выбираем единственный вариант, где указано это число.

Как работает оператор кавычки в Яндекс.Вордстат

Наверняка вы уже устали лазить в справку к этому моменту, так что здесь проще всего посмотреть полный скрин:

Единственный ответ, который нам подходит: Запросы из 4 слов, содержащие лексемы “холодильник” и “купить”.

Анализ лог-файла

Ключевая фраза тут – “вне зависимости от того, какой формат лога используется”. Мы не знаем вообще, какую информацию и в каком порядке сюда пихает сервер. Однако в нашей любимой справке Google черным по белому написано, что под видом робота Google на сайт могут заходить злоумышленники. Для того, чтобы понять, действительно ли это визит робота Google, нужно выполнить обратный DNS-запрос IP-адреса (по ссылке все подробно), стандартных журналов сервера для этого недостаточно.

В заключение

Разумеется, главное в SEO – это не умение решать тесты, а умение добывать целевой трафик. Так что если вы получили сравнительно низкий результат (то есть менее 10 баллов) – это не должно вас расстраивать (тем более что формулировки заданий все-таки не идеальны и можно что-то перепутать в том числе по моей вине). Просто помните, что SEO-скилл базируется в первую очередь на умении работать с информацией, подмечать детали и строить непротиворечивую картину реальности.

Успехов и поздравляю с наступившей пятницей!

22 комментария

  1. “под видом робота Google на сайт могут заходить злоумышленники” – могут конечно, подделывая заголовок, но как они подделают IP из лога?

    А в данном случае IP из лога чётко указывает http://prntscr.com/kwy1yd на то что это Гугл и тут даже без реверса доменной зоны это видно

    • Игорь, в тексте недаром написано “Другие данные, помимо самой строки лога, использовать нет возможности.”. Откуда, не имея доступа ни к каким инструментам, можно вычислить, что IP принадлежит Google?

      • Ну это уж совсем высосана из пальца.
        Например я совершенно не помню формат и лексику robots.txt или точного значения некоторых мета тегов, но могу Вам с легкостью назвать гугловские сети. Потому что первым я пользуюсь дай бог чтобы раз в месяц, а адреса в логах я вижу каждый божий день.

      • Поисковики как раз не советуют их запоминать и не публикуют списков IP-адресов, а советуют проверять как я описал. IP может поменяться в любой момент.
        Более того, вопрос важен для практики. Если сеошник не понимает, что Googlebot-ом по юзерагенту может прикинуться кто угодно – это существенно урезает его возможности.

  2. Добрый день, Алексей. Можете прокомментировать это несоответствие в вашей статье?

    “Goolge вообще не рекомендует использовать canonical на страницах пагинации, так что он явно не мог быть создан с этой целью. ”

    “Атрибуты rel=”next” и rel=”prev” совместимы со значениями rel=”canonical”. Вы можете добавить обе декларации на одну страницу. Пример:

    https://support.google.com/webmasters/answer/1663744?hl=ru

    • Антон, здесь моя небрежность, пропустил уточнение. Правильная формулировка:

      Goolge вообще не рекомендует использовать canonical на страницах пагинации для “подклеивания” всех подстраниц к первой, так что он явно не мог быть создан с этой целью

      Речь здесь о рекомендации Яндекса использовать canonical способом, который противоречит его сути. Вариант рассчитан на тех, кто в курсе про рекомендацию Яндекса, но не в курсе про все остальное.
      Если рассматривать рассматривать комментарий в статье вместе с самим вариантом ответа, это достаточно очевидно. Но строго говоря, вы, конечно, правы. Спасибо!

  3. Ахаха, почитал обсуждение в фейсбучике. Коменты в стиле я прошел на 50%, а я ведь крутой спец – плохой тест!11

    • Да нет, так вроде никто не писал. Там, где критика скорее придирки к формулировкам (частью по делу, в основном из-за невнимательного чтения).

  4. Алексей, спасибо за тест 🙂

    Не соглашусь с вами по поводу РОМИП-2006 и скалярного произведения векторов. В явном виде оно там действительно не упоминается, но само по себе представление документа и запроса в виде векторов и вычисление их скалярного произведения – это по сути и есть классический алгоритм TF x IDF, потому что в нём релевантность является косинусом угла между этими векторами. И в числителе там как раз их скалярное произведение. И алгоритм “Королёв” к этому особого отношения не имеет (скалярное произведение векторов документа и запроса использовалось задолго до него).

    И по поводу редиректа в Google – вы об этом в статье не упомянули. Можете поделиться ссылкой на официальные данные, согласно которым “не исключена просадка позиций на длительный срок”?

    • Станислав, спасибо за замечание! Это лучший комментарий из всех обсуждений теста.
      Считаю свой вариант в целом корректным в том числе по смыслу. То, что вы описали это представление очень небольшой части информации о документе в виде вектора. Подумаю, как лучше переформулировать насчет векторов и Королева (очень много подсказок не хочется давать).

      Кстати во избежание подобных разночтений и нужно четкое указание источников (а то на FB мне говорили чего я джунов пугаю докладами и научными статьями). Открываем, смотрим – такого фактора в формуле нет, а остальные есть.

      И по поводу редиректа в Google – вы об этом в статье не упомянули. Можете поделиться ссылкой на официальные данные, согласно которым “не исключена просадка позиций на длительный срок”?

      Добавлю в статью.

  5. Когда страница точно не будет проиндексирована в Яндексе и Google?

    Во всех трех случаях страница будет проиндексирована.
    Это видно, как минимум, по логам сервера, когда Google бот выгребает всю страницу до последней картинки. А после этого пытается проиндексировать страницы которые идут ссылками внутри закрытой. Так же это видно по косвенным признакам, когда появление таких страниц коррелирует с колебаниями индекса связанных с ними открытых.

    Эти теги максимум на что влияют, на скрытие страницы из выдачи.

    С другой стороны, это вопрос формулировки что считать процессом индексации.

    • С другой стороны, это вопрос формулировки что считать процессом индексации.

      Именно так. И согласно справке ваша трактовка некорректна.
      https://yandex.ru/support/webmaster/adding-site/indexing-prohibition.html
      (Не фанат справки ПС, но использовать что-то другое, как фундамент единой терминологии в отрасли – невозможно).
      То, что страница посещена ботом – это сканирование, а не индексация.

  6. Лёша, да у тебя в расшифровке первого ответа ошибка?

    “В ответе номер 2 canonical-у приписана роль атрибута hreflang.”

    А я думал, что это относится к варианту 3

    “rel=canonical указывает, какую из страниц нужно показывать в результатах поиска для посетителей из конкретного региона, использующих конкретный язык”

Оставить ответ