Продолжаем изучать Баден-Баден. Что считается спамом, где пороги срабатывания фильтра?

Едва опубликовал исследование алгоритма Баден-Баден, как меня буквально завалили вопросами про конкретные цифры для выявленных показателей. На что ориентироваться? Какой уровень водности или там индекса биграммы/униграммы считать хорошим, а какой — плохим? К чему стремиться при доработке текстов? Где буйки, за которые нельзя заплывать?..

Вопросы совершенно закономерные. Безусловно, понимать точные критерии попадания страницы под фильтр было бы просто здорово.

Однако эта задача очень сложна. Поймать различия на нескольких десятках сайтов по отдельности и усреднить их для всей выборки сравнительно просто. Еще более важно, что в этом случае мы можем сравнительно уверенно интерпретировать данные. Хостовые факторы картину не искажают, абсолютные различия переведены в проценты, благодаря чему их можно сравнивать. Просто копаем в сторону самых сильных отклонений и все.

Благодать, основные тенденции выявлены. На практике можно проделать аналогичное исследование для любого сайта и найти самые критичные проблемы конкретных текстов.

Если же просто найти среднее значение текстовых метрик у страниц, попавших под Баден-Баден, то эти данные сами по себе мало что будут значить. Мы не можем быть уверены, отловленные цифры будут актуальны для другого сайта в другой тематике.

В целом, мое мнение по этому вопросу совпадает с тем, что писал Станислав Ставский:

Если попытаться определить пороги срабатывания алгоритма, то это практически нереальная на мой взгляд задача.
В выборках всегда будут примеры, которые должны упасть, но не падают. И, возможно, наоборот.
900 факторов против одного-двух факторов текстового антиспама — всегда будут ситуации, когда документы будут вытягиваться наверх другими сигналами.

Тем не менее, даже сомнительные ориентиры могут пригодиться (главное не забывать, откуда они взялись и не считать их высеченными в камне). Попробуем их выделить, чтобы иметь отправную точку для анализа, задать систему координат.

Хотя, зачем я вру. Главная задача — иметь ссылку, которую можно отправить в ответ на вопрос «много или мало, когда в анализе текстов в bez-bubna.com получаются такие цифры»:

Методика: что и как считаем

Выборка — та же, что и в прошлом исследовании (благо, для этих страниц уже посчитаны все значимые текстовые метрики, определено, попал ли url под санкции, отброшен откровенный спам). Всего 4297, из них под Баден-Баденом 2772.

Однако теперь мы не разбиваем выборку по сайтам (нас интересуют универсальные цифры!), а смотрим средние значения показателей по всем url сразу, сравнивая «хорошие» и «плохие».

Разумеется, любая разница между средними величинами могут оказаться случайной. Крайне важно отличать истинные различия от случайных. К счастью, тут не нужно изобретать велосипед — метод для проверки статистической значимости найденных различий появился более века назад. Это ​t-критерий Стьюдента. Интересующиеся могут загуглить или почитать самое простое объяснение, какое я только встречал на сайте «Статистика и котики».

Для понимания этой статьи достаточно помнить, что с помощью t-критерия вычисляется вероятность отсутствия различий между средними из двух выборок. Грубо говоря, если для той или иной метрики (например, тошноты) такой шанс больше 1%, то считаем разницу по параметру не доказанной. Если меньше — то берем на вооружение и рассматриваем среднее значение для «плохих» страниц как опасный порог (возможны и другие интерпретации, важнее всего наличие/отсутствие различий как таковое).

Результаты по средним значениям и ​t-критерию

Вот моя рабочая табличка:

Долго вглядываться в нее не надо, главный вывод — статистически достоверные различия демонстрируют только средние значения по академической тошноте и по водности (вероятность значительно меньше 1%, выделено зеленым). Все остальное принимать во внимание нельзя.

Полезным ориентиром можно считать только порог по водности. Видим, что среднее для плохих страниц почти 0,31, а для хороших — 0,29. В общем-то, результат ожидаем. «Вода» — естественная часть любых статей, но даже небольшое перенасыщение стоп-словами ухудшает качество текста. Это как машинное масло: без него никуда, но если перелить — мотор не обрадуется.

Конечно, «нормальная» водность может сильно меняться в зависимости от тематики (например, в юридических текстах много перечислений и мало вводных оборотов, а в статьях о литературе скорее наоборот).

Второй параметр, для которого различия достоверны — академическая тошнота. Вряд ли он особо нам поможет. Тем более что из таблицы можно сделать вывод — «пихай побольше ключей и будет хорошо». Ведь на страницах под фильтром тошнота ниже. Этот парадокс я подробно разобрал в предыдущей статье.

Можно ли найти дополнительные пороги? Можно!

Введем поправку на водность

Итак, мы получили еще одно свидетельство в пользу того, что тексты с высокой водностью Яндекс не любит. Естественно, мы хотим знать больше. Что еще ему может не нравиться, когда с водностью все в порядке? Сформируем новую выборку проблемных страниц. Возьмем для анализа только те, где водность не превышает 0,3:

Ого, так куда интереснее!

  • Исчезла какая-либо статистическая значимость в отношении тошноты. По всей видимости, она и правда никак не влияет на наложение фильтра (напоминаю, что я работал с выборкой достаточно качественных сайтов, где этот показатель не зашкаливал).
  • Появились значимые различия для показателя вариативности. Впрочем, в абсолютном выражении разница невелика: 0,23 против 0,24. Как и водность, это весьма устойчивый показатель, с небольшой изменчивостью.
  • Наконец, есть достоверная разница (обратите внимание на количество нулей в четвертом столбце!) по тошноте биграмм и триграмм, индексам биграммы-униграмы и триграммы-униграммы.

Выводы

Пропущу миллион оговорок и напоминаний о том, что реальная картина сложнее, чем ограниченная выборка, что различие по параметру еще не говорит о причинно-следственной связи и т.д. и т.п. Надеюсь, это и так понятно. По уму, конечно, нужно строить модель с использованием логистической регрессии. Проще говоря — подбирать формулу, которая бы определяла вероятность попадания страницы под фильтр на основе сразу всех значимых факторов. Я двигаюсь в этом направлении, но прогнозировать что-то сложно, поэтому пока работаем с тем, что есть.

Итак, отправными точками для анализа страниц-кандидатов на попадание под Баден-Баден можно считать:

  • Водность 0,31 и более.
  • Вариативность 0,23 и менее.
  • Тошноту биграмм 3,6 и более
  • Тошноту триграмм 1,8 и более.
  • Индекс биграммы/униграммы 32 и более.
  • Индекс триграммы/униграммы 17 и более.

Важное замечание: сам по себе индекс биграммы/униграммы и триграммы/униграммы никак не может говорить о том, что, что страница «плохая». Он может быть высоким в случае, если в тексте мало и n-грамм и слов из их состава, которые встречаются отдельно. Это нормальная ситуация. Поэтому обращайте внимание на индексы только если тошнота n-грамм тоже высока.

p.s. Обещанный материал с практическими рекомендациями по борьбе с Баден-Баденом тоже будет. Собственно, это должно было быть его вступление. Однако написав огромное руководство по SEO-аудиту, я понял, что мне (и вам) нужно отдохнуть от постов, которые и проскроллить-то нелегко.

p.p.s. Вместо материала провел вебинар. Ознакомьтесь обязательно, чтобы убедиться, что верно понимаете смысл всех порогов. Несмотря на все мои предостережения в этой статье их часто воспринимают как жесткое правило — абсолютно неправильный подход!

Поделиться
Отправить
Плюсануть

Читайте также
  • Иван Добылёв
    13.06.2017

    Прочитав этот текст, я понял всю ситуацию по Баден-Бадену. Но что значит слово «удачи» в конце статьи?

    Ответить
    • Алексей Трудов
      13.06.2017

      Просто пожелание удачи в завершение статьи. Безотносительно к теме. Убрал, чтобы не путало 🙂

      Ответить
  • Paul
    13.06.2017

    А какой объем выборки ? И сколько страниц под Баденом и без него ?

    Ответить
    • Алексей Трудов
      13.06.2017

      Добавил данные в статью.
      А процесс формирования выборки описывал в прошлом посте.

      Ответить
  • Алексей
    13.06.2017

    Спасибо.

    1. Предложение
    В «Анализе текста» таблицу «Общая статистика» сделать более информативной. Подсвечивать «плохие» показатели и выводить рекомендованные.

    2. в Базе знаний можете привести примеры как повлиять на такие показатели как «вариативность», «индекс биграммы/униграммы», «индекс триграммы/униграммы» ?

    Ответить
    • Алексей Трудов
      13.06.2017

      Спасибо за идеи, подумаю над этим.

      Ответить
    • Наталия
      17.06.2017

      Присоединяюсь к предложению 1.

      Ответить
    • Дина
      27.07.2017

      Присоединяюсь. Особенно ко второму пункту. Сервис показал данные, есть усредненные показатели риска, за что огромное спасибо Алексею за проделанную огромную работу. Но как все исправить? В частности никак не вникну, что переделать, чтобы индексы понизить?

      Ответить
      • Алексей Трудов
        27.07.2017

        Дина, эти индексы показывают, насколько часто вы используете определенные устойчивые сочетания (чаще всего это ключевые слова). Одна из типичных проблем «плохих» статей — перенасыщение ключевыми словами. При этом общее число вхождений может быть не очень большим, но ключевики расположены в тексте неестественно (постоянно сбиваются в биграммы и триграммы).
        Чтобы снизить — удаляем/разбиваем/заменяем синонимами самые частые биграммы. Особенно если это можно сделать без потери смысла (а часто так и бывает).
        Посмотрите недавний вебинар, должно стать понятнее: http://alexeytrudov.com/web-marketing/seo/webinar-baden-baden.html
        Ну и в любом случае эти показатели — только ориентиры, в каком направлении двигаться. Не стоит слишком сильно на них зацикливаться. В приоритете — качество текста в «человеческом» понимании.

  • seoonly.ru
    13.06.2017

    За цИфри спасибо-)

    Ответить
  • Alik
    14.06.2017

    Иногда достаточно наличие пары тройки неестественных речевых оборотов в тексте, чтобы попасть под Баден-Баден.

    Ответить
    • Алексей Трудов
      14.06.2017

      Да, тоже встречал такое. Правда обычно в сочетании с обильной водичкой.

      Ответить
  • Smart
    14.06.2017

    Алексей, а какой словарь водных слов использован?

    Где бы себе словарь такой найти в качестве старта для разработки своего?

    Ответить
    • Алексей Трудов
      14.06.2017

      Вводные слова — смиксовал традиционный короткий список («который», «какой», «такой»…) который где-то загуглил, стоп-слова от Контентмонстра частично + добавил кое-что в ходе тестирования bez-bubna (инструмента по дооптимизации).
      Делиться конкретным списком не готов, так как он связан с УТП сервиса — выявленные пороги напрямую зависят от того, что считается водой.

      Ответить
  • Алексей
    14.06.2017

    Спасибо большое за материал! Планируется ли API у сервиса проверки текстов?

    Ответить
    • Алексей Трудов
      14.06.2017

      Буквально вчера задумался над API. Начали поступать похожие вопросы. Видимо, придется сделать 🙂

      Ответить
  • opticosblog.ru
    15.06.2017

    Ждём продолжения.

    Ответить
  • Kostas
    15.06.2017

    Ктото может пояснить что такое «вариативность» и как она считается?

    Ответить
  • arthyrgrex
    15.06.2017

    Неделю назад получил фатальное предупреждение в вебмастере по сайту http://modamio.ru . Баден-Баден.

    Постучал в ТП Яндекса с просьбой разъяснить — «за что» и попросил привести примеры.

    Четко указали на эту страницу:
    http://modamio.ru/rabota-v-modamio

    Но суть в том, что трафик у сайта с Яндекса провалился в нуль.
    Т.е. санкции наложены на весь сайт.
    Может вам еще один крупный донор будет полезен в анализе.

    Как вы считаете, стоит ли закрыть описание на страницах товара в noindex ?

    Спасибо.

    Ответить
    • Алексей Трудов
      15.06.2017

      От хостового скорее всего noindex не спасет. Правьте тексты.

      Ответить
      • arthyrgrex
        29.06.2017

        Связывался с Платоном.

        Он четко дал понять, что обрамление текста в тег — не поможет для снятия санкций.

        Цитирую:
        «Нет, оборачивание контента в тег noindex исключает его только из процесса формирования поискового индекса, но он может использоваться другими способами, например, для обнаружения нарушений на сайте.»

      • Алексей Трудов
        29.06.2017

        Спасибо за интересную цитату!

  • Михаил
    24.06.2017

    А безбубна умеет искать страницы, которые давали трафик с гугла, а потом стали меньше давать? А запросы в гугле, по которым снизился траф?

    Ответить
    • Алексей Трудов
      24.06.2017

      Михаил, страницы где меньше пока нет (но будет, эта опция в разработке), только те, где полностью исчез.
      Запросы — да, если подключен Search Console. См. в демо https://bez-bubna.com/demo/index.php?section=lost-traffic — последний раздел.

      Ответить
      • Михаил
        25.06.2017

        В search console есть данные по 22.06 включительно, а данный анализ учел данные по 18.06. Изменения на сайте были 19.06 🙂

      • Алексей Трудов
        25.06.2017

        Там считаются полные календарные недели. Чтобы адекватно сравнить количество показов/кликов и для простоты восприятия.

  • Андрей Гринь
    13.07.2017

    Все достаточно запутано и неоднозначно. Вы, Алексей, сами это подтверждаете (есть куча других факторов, кроме текстовых).

    Здается мне в таком случае для статейников лучше всего нанимать проф. филолога, чтобы вычитывал и правил. И тогда думаю никакой Баден не будет страшен.

    Что думаете по этому поводу, Алексей?

    Ответить
    • Алексей Трудов
      13.07.2017

      Вполне вариант.
      Только надо понимать, что поисковики пытаются оценивать содержательность контента. Филолог, который в теме не разбирается, вряд ли сможет исправить «воду», даже если и причешет с точки зрения языка.

      Ответить
  • Игорь
    25.07.2017

    Приветствую, по моему сайту (анализ 400 страниц под Баденом и 300 не под Баденом) вышло, что индексы биграмм/уни и триграмм/уни на Баден-страницах ниже индексов на незафильтрованных.
    Есть разница логичная лишь у тошноты биграмм и триграмм, на Баден-страницах она чуть-чуть выше (но при этом, ниже твоих значений в статье, что говорит о том, что фильтр может быть и от 1.1 тошноты триграммы, например).

    Ответить
    • Алексей Трудов
      25.07.2017

      Приветствую, по моему сайту (анализ 400 страниц под Баденом и 300 не под Баденом) вышло, что индексы биграмм/уни и триграмм/уни на Баден-страницах ниже индексов на незафильтрованных.

      Вполне возможная ситуация.

      фильтр может быть и от 1.1 тошноты триграммы, например

      Это тоже возможно, но я бы скорее стал копать в сторону других факторов — водности, общей уместности контента на странице и т.д. Водность возможна не в техническом смысле (много стоп-слов), а просто как факт отсутствия полезной информации.

      Ответить
  • Ольга
    06.08.2017

    Алексей, скажите пожалуйста, при расширенной проверке только текст проверять или стоит всю страницу загружать, с заголовком и всем остальным, то есть, как её анализируют ПСы?

    Ответить
    • Алексей Трудов
      07.08.2017

      Заголовок я думаю в любом случае надо включать. Все остальное — зависит от сайта. Если там больше особо контента нет кроме статьи, какие-то «технические» виджеты только — то не стоит их анализировать, лишний шум. Ну а если к статье много комментариев, например — то их тоже стоит включить.

      Ответить
  • Ольга
    06.08.2017

    Ещё, забыла. Содержание в статье сильно повышает индекс биграмм, его следует тоже учитывать, значит оно даёт переспам?

    Ответить
    • Алексей Трудов
      07.08.2017

      Не было отдельных исследований, думаю, стоит все-таки включать в анализ. Ведь оно даст значимое превышение только если n-грамма встречается сразу в нескольких заголовках, а не одном.

      Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/