Исследование: какие страницы теряют трафик от Баден-Бадена на качественных статейных сайтах

Из анонса нового алгоритма Яндекса известно только, что от него могут пострадать страницы с переоптимизированным контентом. В качестве примера приводится анекдотичный фрагмент, где на все лады склоняется ключевик «SEO-текст». Рабочих способов различить «плохие» и «хорошие» тексты не приводится.

Работать наобум — не наш метод, так что попробуем выделить критерии самостоятельно.

Объект и методика

В первую очередь меня интересовало, при каких условиях санкции накладываются на более-менее приличные страницы, когда вполне можно читать, не морщась в каждом абзаце от корявой оптимизации. Анализ крайних случаев — с сотней вхождений, выделенных жирным — вряд ли принес бы ценные данные, тут и так все ясно.

Исследование опирается на простую идею — сравнить характеристики двух групп страниц одного и того же сайта:

  • где наблюдается значительная просадка трафика в момент запуска Баден-Бадена.
  • где посещаемость стабильна или выросла.

Благодаря анализу внутри одного хоста мы уравниваем множество факторов и можем быть более уверены в выводах.

Всего удалось собрать 68 сайтов, где трафик с Яндекса существенно просел после 22 марта 2017 (спасибо всем, кто прислал свои проекты на анализ!).

В SEO-исследованиях размер выборки — это своеобразный культ, однако я уверен, что куда важнее ее однородность. Поэтому беспощадно удалял из рассмотрения все, что могло исказить результат.

В частности, я отбраковал сайты:

  1. С малым количеством посещаемых url (если документ до фильтра приносил менее 100 посетителей в месяц с Яндекса, падение трафика статистически недостоверно).
  2. Где трафик с Google также имел выраженную тенденцию к снижению.
  3. С высоким разнообразием контента (тематически или структурно).
  4. С высокой зависимостью от сезона.
  5. Где также сработал хостовый фильтр.
  6. Оптимизированные совсем топорно/не несущие вообще никакой полезной информации (первый критерий был полностью формализован, второй — частично).

Также были вынесены из основного исследования интернет-магазины и сайты услуг (их было меньше в выборке; в отличие от статейных проектов, текст здесь зачастую не играет роли и само его наличие порой говорит о чрезмерной оптимизации).

В итоге остался 31 сайт и 4297 документов для анализа.

Прежде чем перейти к сравнению характеристик успешных и потерявших трафик страниц, необходимо было прояснить еще один важный вопрос.

Баден-Баден — запросный или документный?

Как я писал в недавнем обзоре публикаций по Баден-Бадену, из официальных заявлений следует, что санкции «первой волны» применяются к странице (анонс от 23 марта). Однако многие SEO-специалисты называют Баден-Баден запросозависимым, указывая на то, что позиции сильнее всего просели у ключевых фраз, под которые текст затачивался в первую очередь.

Это не простой спор о терминах, а ключевой момент. Давайте разберемся.

Чем вообще отличаются документный и запросный фактор/фильтр?

(Употреблять «фильтр» по отношению к Баден-Бадену не вполне точно, использую для краткости).

Различие — внутри алгоритмов поисковой системы.

Запросный Документный
На что влияет На ранжирование по конкретному запросу/группе На «общий рейтинг» страницы по всем запросам
Пример фактора Анкорный вес Статический вес

Может ли изменение общего рейтинга повлиять на позиции только группы запросов? Сколько угодно! Чтобы было совсем наглядно — еще одна табличка. Допустим, есть три url — A, B, С c определенными значениями релевантности по 3 запросам:

Ключевые фразы стр. A стр. B  C
1 0.5 0.4 0.35
2 0.6 0.55 0.4
3 0.7 0.6 0.4

Допустим, страница B попала под санкции, ее общий рейтинг оштрафовали на 0.1. Смотрим на релевантность по запросам:

Что произойдет после применения штрафа?

  • Первый запрос просядет.
  • Второй останется где был.
  • Третий останется где был.

А теперь представим, что санкции были наложены одновременно с апдейтом. Причем незадолго до него более успешный конкурент по третьему запросу (страница A) поменял что-то на странице и его релевантность упала до 0.45.

Тогда третий запрос вырастет (0.45 против 0.5).

Вывод? С позициями страницы, которая попала под документный фильтр, может твориться все что угодно (хотя общий тренд, разумеется, к понижению). А ведь это очень упрощенная модель. Не учтен многорукий бандит, возможные технические ошибки при сборе и так далее.

Говорить о том, что фильтр позапросный только на основании разной динамики позиций у ключевых слов страницы нельзя. Это лишь гипотеза.

Проверка гипотезы о запросозависимости

Рассказываю кратко, так как все это по-прежнему преамбула к основному исследованию. Для документов, где было выявлено существенное падение посещаемости вследствие Баден-Бадена:

  1. Была собрана статистика по ключевым фразам, которые давали трафик за 3 недели до фильтра.
  2. Фразы были разбиты на 2 группы: а) не содержащие лемм, отсутствующих в тексте б) содержащие леммы, которых нет в тексте.
  3. Подсчитан трафик для каждой из групп, определена доля в общем трафике.
  4. Аналогичные подсчеты для трех недель после фильтра.

Как должна измениться доля трафика по ключам из второй группы? Это фразы, прицельная оптимизация под которые не проводилась (иначе был бы задействован самый банальный фактор текстовой релевантности — вхождение всех слов запроса), по которым трафик поступал «естественным образом».

Если фильтр запросозависимый, то доля трафика по таким ключам должна вырасти: ведь Баден-Бадену их карать не за что.

Что видим в итоге? Картина прямо противоположная:

Для всех сайтов выборки (!) и медианное и среднее значение доли трафика по таким ключевым словам снизилось. В среднем на 2,6% — немного, но этого достаточно, чтобы с абсолютной уверенностью заявить, что уж прироста точно нет.

Трафик в данном случае максимально надежный критерий, так как в нем аккумулируется и отражается информация обо всех позициях по всем запросам. А не о паре-тройке десятков, специально отобранных оптимизатором.

Вывод: Баден-Баден проявляет себя как документный фильтр, гипотеза о запросозависимости не подтвердилась.

Не хочу занимать место в статье объяснением, почему уменьшение доли трафика по запросам с отсутствующими леммами — дополнительный аргумент в пользу вывода. Поэтому мини-конкурс: кто лучше всех раскроет этот момент в комментариях — получит 5 проверок на баланс в https://bez-bubna.com/ (а еще славу и уважуху). Дерзайте!

Кстати. Раз алгоритм карает страницы, то делаются совершенно бессмысленными часто встречающиеся заявления вроде «при Баден-Бадене, наложенном на документ, происходит просадка на N позиций». Мне попадались варианты «7-30», «20-30», «10-40».

Вот результаты понижения на 3 (ну, максимум на 5 — смотря что считать исходной датой) позиций:

Падение существенно, наличие санкций несомненно. Так что никакой конкретной (или даже приблизительной) цифры назвать нельзя. Изменение позиций ведь зависит не только от размера штрафа но и от «силы» конкурентов.

Сравнительный анализ пострадавших и не пострадавших страниц

Наконец добрались до главного. Так как характер санкций — документный, то анализ сильно упрощается. Нет необходимости рассматривать все нюансы ранжирования по парам запрос-документ. Можно работать с самой страницей, ее наполнением.

Для каждой из 4297 страниц выборки рассчитывался ряд показателей. Затем они усреднялись сначала для конкретного сайта, а затем оценивались для выборки в целом.

Для каждого сайта и фактора применялась формула:

D = (B — N)/N*100%

где

  • D — разница между значением показателя на «хороших» и «плохих» страницах, выраженная в процентах;
  • B — средний показатель страниц сайта под Баден-Баденом;
  • N — средний показатель нормальных страниц (где трафик стабилен или вырос).

Делить на N необходимо чтобы определить разницу в %, отследить, насколько сильно отличаются данные для разных факторов и сравнить их относительную значимость. Просто так сравнивать разницу между «нормой» и «плохими» страницами нельзя — ведь разные факторы измеряются в разных величинах.

Простая аналогия для тех, кто хочет понять методику интуитивно

Допустим, появилась новая болезнь и ученые ищут как с ней бороться. Одни люди поправляются за 1 день, другие — за месяц. Люди из этих двух групп очень разные — они отличаются ростом (метры!), весом (килограммы!), количеством гемоглобина в крови (хмм, не помню). Как можно понять, какое свойство организма дает защиту или наоборот приводит к тяжелой болезни?

Во-первых, надо изучить группы «здоровяков» и болевших долго, которые как можно больше схожи. Во-вторых, найти, какие характеристики организма у них разнятся сильнее всего. Отличие, конечно же, нужно считать не в метрах и килограммах, а переводить в проценты. Тогда можно сравнить любые показатели. Вот и вся суть формулы.

Возвращаемся к SEO.

Часть оценивавшихся факторов оперирует понятием «стоп-слов». Для повышения достоверности они рассчитывались дважды — с коротким и расширенным списком. Значимых различий для этих вариантов выявлено не было. Результаты ниже приведены по измерениям с расширенным.

Пример расчета

UPDATE: в комменариях отмечают, что методика расчета показателей, которые приведены ниже, все-таки не до конца ясна. Давайте разберем на простом примере. Допустим на сайте есть 6 статей. Мы хотим понять, отличаются ли «хорошие» от «плохих» по объему текста.

Собираем вот такую статистику:

Статья Слов всего Под фильтром
1 1000 Нет
2 1200 Нет
3 1400 Нет
4 2000 Да
5 2200 Да
6 2400 Да

Теперь считаем среднее значение для страниц 1,2,3 (без фильтра) и для 4,5,6 (под фильтром). В первом случае это (1000 + 1200 + 1400)/3 = 1200. Во втором — (2000 + 2200 + 2400)/3 = 2200. Теперь, имея на руках средние значения, мы можем определить среднюю же разницу между теми, кто попал под фильтр и теми кто устоял.

Считаем:

2200 — 1200 = 1000.

Напоминаю, что мы считаем объем текста в словах. Но в дальнейшем нам нужно будет сравнить между собой самые разные показатели, которые измеряются в других единицах. Только так мы поймем, какие из них важны, а какие нет.

Поэтому теперь рассчитаем не просто разницу, а относительную разницу, т.е. переведем в проценты от нормы: 1000/1200*100% = 83%.

Теперь берем каждый сайт выборки и проделываем то же самое. Считаем среднее значение — вуаля, видим, насколько в целом по выборке «хорошие» страницы отличаются от «плохих» по объему текста. И так для каждого показателя.

Конечно, пример чисто для наглядности. На 6 объектах делать наблюдения нельзя, в реальности маленькие сайты я не рассматривал. Ну и как вы можете увидеть ниже, различия по объему текста совсем не в районе 80%.

Поведенческие факторы

Согласно заявлениям представителей Яндекса, в работе Баден-Бадена учитывается поведение пользователей. Поэтому в первую очередь я проверил базовые показатели активности посетителей на странице.

Результаты сравнения по формуле:

  • процент отказов: -0,9%;
  • средняя длительность посещения: 0,6%;
  • глубина просмотра: 1,3%;

«Классическая» тошнота

Это всего лишь квадратный корень из количества вхождений самого частого слова. Результат несколько неожиданный: -2,7% (знак минус!). То есть тошнота на «нормальных» выше, чем на попавших под Баден-Баден. Мы вернемся к этому позже.

«Академическая» тошнота

Более сложный показатель, так как учитывает вхождения разных слов по отношению к объему текста. D = -3%. Точно так же — на «нормальных» текстах она оказалась выше.

Показатель вариативности текста

Рассчитывается как разница между единицей и отношением «уникальные леммы/уникальные словоформы». D = -1,8%. Чуть больше на нормальных.

Показатель «водности» текста

Разница между единицей и отношением «количество слов после очистки стоп-слов/количество слов в исходном тексте». Страница, вообще не содержащая стоп-слов будет иметь водность 0, содержащая только стоп-слова — 1.

D = 8,7%. Так-так! Водность на страницах, попавших под Баден-Баден, значительно выше.

Наличие «воды» в тексте оценивается многими метриками и это всегда негативный сигнал. Например, может страдать рейтинг по фактору Yandex Minimal Window.

Объем текста в словах

D = -1,8%. На нормальных чуть больше. Статистическая достоверность под сомнением, скорее нужно говорить об отсутствии разницы. Во всяком случае, дело не в размере как таковом (к комментариям под анонсом в блоге Яндекса были мнения, что фильтр накладывается на «портянки»).

Частота встречаемости биграмм

Для вычисления берется сумма числа вхождений трех самых частых биграмм — то есть сочетаний двух слов (например, типичный оборот в SEO-тексте «купить окна» сводится к биграмме «купить окно»). Сумма делится на количество слов в тексте, чтобы оценить относительную частоту.

D = 5,9%. Видим существенно больший показатель у «плохих» страниц.

Частота встречаемости триграмм

Расчет аналогичен, только берутся триграммы («Купить пластиковые окна» => «купить пластиковый окно»).

D = 7,8%. Ого! Триграммами-то тексты под Баден-Баденом спамят еще сильнее!

Обсуждение результатов

Значение D по модулю (просто чтобы сравнить, как сильно отличаются разные показатели, независимо от того, больше или меньше они на страницах, где орудовал Баден-Баден):

Поведенческие факторы предсказуемо оказались в самом хвосте списка. Очевидно, паттерны поведения на разных страницах весьма сходны. Поэтому утверждение о том, что Баден-Баден учитывает поведение пользователей я рассматриваю в том смысле, что поведение учитывалось во время обучения алгоритма на выборках переоптимизированных и естественных текстов.

Максимально значимые отличия демонстрируют водность, частота триграмм и биграмм.

Любопытно, что «тошнота» текста на страницах, попавших под Баден-Баден, даже ниже чем на нормальных. Это наблюдение не нужно рассматривать как общее правило. Вспомните, что для анализа были отобраны только сайты с более-менее приличными текстами. Наверняка среди других проектов полно документов с обрушившимся трафиком и огромной тошнотой. Обилие вхождений Яндекс не приветствует уже давно (см. эксперимент).

Однако очевидно, что высокий показатель встречаемости слова — далеко не самый важный и универсальный признак спамного текста.

Вдумаемся в тот факт, что пострадавшие страницы одновременно имеют более низкую тошноту и более высокий рейтинг биграмм/триграмм. То и другое вычисляется по сходному принципу: встречаемость слова/количество слов и встречаемость биграммы/количество слов. Очевидно, что в нормальных текстах частота слова и частота биграммы, в которую оно входит, будет коррелировать. В спамных же этот порядок нарушен: частота отдельных слов оказывается не такой уж большой, зато они постоянно сбиваются в n-граммы.

Если совсем просто. Допустим, у нас есть хороший экспертный текст про пластиковые окна. Очень маловероятно, что в нем все слова из набора «пластиковый», «окно», «купить» будут постоянно встречаться вместе (попробуйте напрячь воображение). А вот если у копирайтера есть задача втиснуть десяток ключей в водянистый текст, при этом оставаясь в заданных рамках по «тошноте» — то иначе и получиться не может. Автор не сможет использовать слова из запроса где-то еще, кроме специально вставленных поисковых фраз.

Дополнительный показатель естественности

Чтобы проверить и заодно описать это наблюдение более строго, я рассчитал дополнительный показатель. Количество вхождений топовых триграмм в текст поделил на сумму вхождений слов из их состава. Получилась простая характеристика, описывающая, насколько часто популярные слова в тексте объединяются в триграммы.

Разница между страницами под Баден-Баденом и «нормальными» составила 9,4% (!). Это очень много (больше, чем любая другая метрика в этой статье).

Не тешу себя надеждой, что выделил именно те факторы, с помощью которых Яндекс выбирает, какие страницы считать переоптимизированными, а какие — нет. Наверняка алгоритм использует множество других метрик, куда более сложных. Однако более чем вероятно, что они тем или иным образом связаны с «водностью» и n-граммами. Различия слишком существенны, чтобы их игнорировать.

Важнейший результат — в том, что разница между очень похожими внешне «хорошими» и «плохими» текстами отлично улавливается сравнительно простыми показателями. Их вполне можно использовать для определения страниц, которые требуют особого внимания и первоочередных доработок на них.

В конце концов, наша задача проще, чем у Яндекса. Ему нужно было покарать спамные документы, задев как можно меньше добропорядочных. Нам же требуется просто расставить приоритеты; понять, на чем в первую очередь ловятся «плохие» страницы и исправить это. Особенно актуальна подобная проверка для сайтов, попавших под хостовый фильтр а также молодых проектов, где невозможно выделить проблемные страницы путем анализа трафика или позиций.

Коротко о главном

  1. Баден-Баден проявляет себя как фильтр, наложенный на документ (или хост), без привязки к конкретным запросам.
  2. Постраничный характер санкций позволяет провести сравнительный анализ документов с разной динамикой трафика после 22 марта и использовать результаты на практике.
  3. В ходе исследования не было выявлено прямое влияние поведенческих факторов. Различия относятся в первую очередь к текстовым метрикам.
  4. Для статейных сайтов относительно высокого качества выявлены следующие характеристики попавших под санкции страниц: высокая водность, высокая частота биграмм и триграмм, плохо коррелирующая с частотой входящих в них слов. Проще говоря, спамные тексты по мнению Яндекса содержат много стоп-слов, а также избыток устойчивых сочетаний из нескольких слов. При этом сама по себе частота устойчивых сочетаний может быть не слишком большой.
  5. Для интернет-магазинов и корпоративных сайтов наблюдаются схожие тенденции, однако в этом случае размер выборки не позволяет делать выводы с высокой степенью уверенности.
  6. «Тошнота», как академическая, так и классическая, не является самостоятельным полезным сигналом.
  7. Для возврата трафика требуется повышение естественности текста. По всей видимости, Яндекс оценивает ее комплексно. Любые показатели следует воспринимать только как ориентиры, демонстрирующие лишь часть общей картины.

p.s. Не забываем о конкурсе! Кто объяснит, почему при наложении санкций снижается не только общий трафик, но и доля визитов по запросам, содержащим отсутствующие в тексте леммы?

p.p.s. Скоро напишу о том, как на практике применять полученные данные для работы с попавшими под раздачу сайтами. А также что делать тем, кто предусмотрительно хочет защитить свои проекты (напоминаю, что алгоритм, по словам Яндекса, еще не разгулялся в полную силу).

p.p.p.s. Лайки и репосты мотивируют делать новые исследования и делиться результатами 🙂

UPDATE: многих заинтересовало, чем проверять указанные в статье показатели. Выложил первую версию сервиса для этого (см. анонс).

Поделиться
Отправить
Плюсануть

Читайте также
Комментарии
  • Юрий
    10.05.2017

    Спасибо за информацию, очень интересно. Как раз сейчас перерабатываю упавший инфо-сайт, похоже на хостовый фильтр, так как просели почти все страницы, но в вебмастере сообщения нет. Подскажи, как и чем считал водность, биграммы и триграммы? Хочу посчитать для своего сайта.

    Ответить
    • Алексей Трудов
      10.05.2017

      Юрий, рад, что понравилось!
      Параметры рассчитывал собственным скриптом. В ближайшее время функционал будет доступен на https://bez-bubna.com/

      Ответить
      • Юрий
        10.05.2017

        Отлично, буду очень ждать!

  • Юрий
    10.05.2017

    Как один из вариантов чистки текста от спамных ключей, придумал такой вариант. Выгружу метрику, скриптом найду точные вхождения в моих текстах и сравню с топ-10. Если в топе точных вхождений нет, а у меня есть — скорее всего, ключ неестественный и его упоминание будет лишним.

    Ответить
    • Алексей Трудов
      10.05.2017

      По сути вы реализуете собственный текстовый анализатор топа с одним параметром.
      Методика может дать определенную информацию к размышлению, но здесь очень много нюансов. Даже к очень сложным текстовым анализаторам есть много вопросов — советую погулить статьи Людкевича на эту тему.

      Ответить
    • Юрий Бедулин
      10.05.2017

      В трудах за Яндекс не забывайте про Гугл. У меня Гугл везде по всем всегда рулит под 70% трафика. Мне нужен Яндекс, но Гугл я ему не продам.

      Ответить
    • Johnny
      11.05.2017

      описанный вам метод используется в раках марафона Пузата для подсчёта требующегося количества употреблений ключей

      Ответить
  • Родион
    10.05.2017

    Спасибо за исследование

    Ответить
  • Nekto
    10.05.2017

    >количество слов после очистки стоп-слов/количество слов в исходном тексте

    А какие стоп слова использовались?, ведь от их выбора (фактически ваше субъективное мнение) и результат будет разным.

    Ответить
    • Алексей Трудов
      10.05.2017

      Вы правы, поэтому я использовал 2 разных списка (см. выше). Первый (базовый) просто загуглил. Второй, расширенный — результат долгого отбора, используется много где в сервисе поэтому делиться им не готов 🙂

      Ответить
      • Юрий Бедулин
        10.05.2017

        А упрощённо принять все слова до 3-х букв за «стоп-слова» можно?

      • Алексей Трудов
        10.05.2017

        Вполне (именно до, не включая 3: кот, дом, дол… — вполне значащие слова)

  • Алексей
    10.05.2017

    Спасибо очень полезно, подскажите, а какой средний % водности хороших текстов получился и плохих? Или может дайте рекомендации до какого % следует придерживать водность текста на инфо статьях. И каким инструментом вы проверяли водность текста, а то на разных сервисах вижу по-разному считается он

    Ответить
    • Алексей Трудов
      10.05.2017

      Алексей, в следующем посте напишу подробно.

      Ответить
      • Roon
        16.05.2017

        Да, про относительные значения — это хорошо. Но стоит знать и об абсолютных. Хотя понятно, что тематика и т.п. рулят 🙂

  • Евгений
    10.05.2017

    Да, очень интересно. Остается только узнать как проверять тексты на водность и какие параметры водности должны быть, чтобы не попасть под фильтр. И инструмент для расчета количества вхождений топовых триграмм в тексте, деленных на сумму вхождений слов из их состава плюс частоты би,-триграмм. Ждем инструментов!

    Ответить
    • Алексей Трудов
      10.05.2017

      Спасибо! Инструмент усиленно пилю 🙂

      Ответить
  • WebPromote
    10.05.2017

    Кто объяснит, почему при наложении санкций снижается не только общий трафик, но и доля визитов по запросам, содержащим отсутствующие в тексте леммы?

    Так ты ж вроде сам и объяснил, что фильтр накладывается постранично и там уже пофиг есть леммы в тексте или их нет. Страница такая то — стоп кран по всему что ее касается.

    Ответить
    • Алексей Трудов
      10.05.2017

      Видимо, я недостаточно ясно сформулировал. Суть вопроса в том, что трафик по таким запросам снижается СИЛЬНЕЕ, чем по остальным. Почему? 😉

      Ответить
      • Юрий Бедулин
        10.05.2017

        1) А разве снижение трафика «СИЛЬНЕЕ» нельзя объяснить дополнительным СНИЖЕНИЕМ мест по запросам из выявленных частых би- и три-рамм? Вроде, ж это очевидно.

        2) Об этом мой и вопрос )) я правильно понимаю, что Яндекс интересует НЕ просто пусть и малая частота НЕКОЕЙ би/триграммы, а то, что она ЕСТЬ ключ в его разумении, или ещё точнее выразится, по этой би-три-грамме на страницу идёт ТРАФик?

      • Алексей Трудов
        10.05.2017

        1. Юрий, в том и дело, что по n-граммам трафик падает слабее. Сильнее он падает по запросам, для которых не нашлось точных n-грамм.
        2. Скорее нет, чем да.

  • Артем
    10.05.2017

    Предположу, что при наложении фильтра обнуляется вся текстовая релевантность.

    Ответить
    • Алексей Трудов
      10.05.2017

      Артем, возможно и не вся, но согласен, что работает где-то в этом направлении.

      Ответить
  • Андрей
    10.05.2017

    Алексей, спасибо за Ваш анализ. Впечатлила тщательность подхода к проведению эксперимента. Попытаюсь это связать со своими данными по проектам.

    Ответить
  • Вадим
    10.05.2017

    >высокая водность, высокая частота биграмм и триграмм
    А есть более точное определение слову высокая? Какие значения в цифрах считаются нормальными, а какие уже уходят под фильтр?

    А работа конечно большая, спасибо за труды.

    Ответить
    • Алексей Трудов
      10.05.2017

      Вадим, не думаю, что есть единый порог. Разве что ориентиры (но скорее всего увязанные с другими факторами). В любом случае, это надо исследовать дополнительно.

      Ответить
  • Юрий Бедулин
    10.05.2017

    «1. Юрий, в том и дело, что по n-граммам трафик падает слабее. Сильнее он падает по запросам, для которых не нашлось точных n-грамм»

    Ну так всё понятно! Они включают Б-Баден, но «мозги» не успевают и они вынуждены в этот момент отключать Палех и прочий «Иск интеллект», который с их же слов призван понять (как и у Гугла) что текст о «собаках», хотя «собаки» ни разу не упоминались!

    Ответить
    • Алексей Трудов
      10.05.2017

      Теплее 🙂

      Ответить
      • afm
        11.05.2017

        слова, которые задают тематику, синонимы по словам (под которые оптимизированы страницы)

      • Алексей Трудов
        11.05.2017

        И?

      • afm
        12.05.2017

        Вопрос звучит:
        Кто объяснит, почему при наложении санкций снижается не только общий трафик, но и доля визитов по запросам, содержащим отсутствующие в тексте леммы?

        Отсутствующие в тексте леммы (по которым идет синжение) — это скорее всего синонимы, тематикозадающие слова. Их в тексте нет, но Яндекс понимает, что по этим запросам можно ранжировать этот документ.
        По таким запросам (которые содержат синонимы, тематикозадающие слова) сильнее падает, так как их нет в тексте в точном вхождении. И если это так, значит что-то в момент наложения санкций отключается (часть алгоритма, где как раз про синонимы и тематикозадающие слова). Как-то так.

      • Алексей Трудов
        12.05.2017

        Тепло, но не совсем.

  • seoonly.ru
    10.05.2017

    Что такое хостовый фильтр? Фильтр на весь сайт?

    Ответить
  • Евгений
    10.05.2017

    Алексей, спасибо за ваше исследование.
    Уточните, пожалуйста, частота триграмм и биграмм анализировалась по такой методике или нет:

    1) лематизируется текст своей постарадавшей статьи и нескольких сайтов в топе по главному запросу.

    2) Считается рейтинг самых популярных биграмм (кол-во биграммы в тексте деленное на количество слов в тексте), например топ 5.

    3) Считается рейтинг самых популярных триграмм (кол-во триграммы в тексте деленное на количество слов в тексте), например топ 5.

    4) Каким-то образом это все между собой сравнивается. Каким?

    Ответить
    • Алексей Трудов
      10.05.2017

      Евгений, ТОП не использовался вообще (как было показано в статье, санкции документ-зависимые, анализировать запросы нет смысла). Просто лемматизировал текст и выделял n-граммы. Ну а дальше все как в примере расчета.

      Ответить
      • Евгений
        11.05.2017

        А что с чем сравнивалось тогда? Все упавшие статьи со всеми не упавшими?
        И как шло само сравнение…

        Допустим, статья постадавшая от бадена:

        биграмма 1 — 2.3%
        биграмма 2 — 1.5%

        биграмма 10 — 1.9%

        Статья не пострадавшая от бадена:

        биграмма 1 — 1.3%
        биграмма 2 — 1.7%

        биграмма 10 — 1.3%

        Что с этим делать, чтобы получить статистически значимые данные?

      • Алексей Трудов
        11.05.2017

        См. пример в середине статьи, там все расписано.

  • instigator
    11.05.2017

    > Разница между страницами под Баден-Баденом и «нормальными» составила 9,4% (!). Это очень много (больше, чем любая другая метрика в этой статье).

    Провели свой собственный расчет «показателя естественности» по вашему алгоритму на статьях на одном из наших сайтов.

    Цифры совпали с вашими.
    Разница в «показатели естественности» между упавшими и не упавшими статьями как раз в среднем около 10% и получилась.

    То есть, ваша гипотеза у нас подтверждается 🙂

    Ответить
    • Алексей Трудов
      11.05.2017

      Спасибо за дополнение!

      Ответить
  • Алексей
    11.05.2017

    Ну т.е. получается что нужно работать над уменьшением спамности n-грамм, но может упасть трафик с гугл. Или же увеличить кол-во вхождений составляющих слов? Тогда все в плюсе)

    Ответить
    • Алексей Трудов
      11.05.2017

      Ну второй вариант для совсем отважных 🙂

      Ответить
  • Vlad
    11.05.2017

    Для анализа «водности» достаточно стопслов, по которым проверяет text.ru/seo?

    Ответить
    • Алексей Трудов
      11.05.2017

      Не изучал толком их списки.
      Проверял по 2 собственным (разумеется, наиболее полный будет в составе инструмента по анализу текстов в https://bez-bubna.com/)

      Ответить
  • Михаил
    12.05.2017

    В тексте про красную волчанку биграмма [красный волчанка], вероятно, будет употребляться часто. В то время как по отдельности слова, в неё входящие — редко.

    Я думаю, надо сопостпвлять частоту встречания биграмм/триграмм в тексте с частотой встречания в коллекции документов (эталонная, тематическая или эталонная тематмческая — не знаю, на что яндекс ориентируется).

    Скорее всего, частое употребление биграммы [красный волчанка] — это нормально. Но употребление триграмм [симтом красный волчанка] и [лечение красный волчанка] — уже неестесственно.

    Ответить
    • Алексей Трудов
      12.05.2017

      Михаил, отличное замечание.
      Поэтому и выделил показатель естественности именно по триграммам — естественных сочетаний из 3 слов куда меньше.
      Тем не менее, совсем сбрасывать со счета биграммы тоже нельзя, так как различия по их рейтингу на выборке тоже оказались довольно высокими.

      Ответить
  • Валентин
    12.05.2017

    А есть какие то цифры по абсолютным пороговым значениям, например, процент бинрамм от объема текста или процент бинрамм от количества слов их составляющих в тексте?

    Ответить
    • Алексей Трудов
      12.05.2017

      На разных сайтах отличались, не обращал особого внимания на этот параметр. Думаю, в зависимости от тематики «порог спамности» сильно меняется, так что особого смысла его выделять нет.

      Ответить
  • Юрий Бедулин
    12.05.2017

    Какой-то переизбыток информации … В сухом остатке: Баден-Баден — это наш ДРУГ, позволяющий более точно направить трафик по би/триграммам (т.е. тем же ключам), правда снижая трафик по НЕключам, для которых мы «заточим» би/триграммами мало посещаемые страницы нашего сайта …

    Ответить
  • Андрей
    12.05.2017

    Нужен рабочий алгоритм. А то все размыто. И трафик вниз. Уже 20стр разных опытов. А толку ….ноль

    Ответить
  • Kamaz
    12.05.2017

    Очень круто, когда будет функционал в сервис ?

    Ответить
    • Алексей Трудов
      12.05.2017

      Постараюсь на следующей неделе, хотя могу и запоздать чуток из-за конфы: http://alexeytrudov.com/web-marketing/seo/19-maya-vyistupayu-na-sempro.html

      Ответить
      • Андрей
        13.05.2017

        Крутая комфа будет. Я так понимаю кто туда не попадет. Все будет под семи замками? Будет ли запись ???

      • Алексей Трудов
        13.05.2017

        Не в курсе)
        Свою презу выложу

      • Евгений
        15.05.2017

        Ждем сервиса с нетерпением. Одна просьба, чтобы можно было не только URL, как у вас в bez-bubna.com подгружать, но и чистый текст проверять на воду, спамность, би,-триграммы и т.д.

      • Алексей Трудов
        15.05.2017

        Хорошо, сделаю и такой режим

  • Виктор Бублик
    16.05.2017

    Не совсем понял как считать.
    Допустим в исходном тексте есть триграмма «купить розового слона», которая встречается 3 раза.

    Слова по отдельности встречаются:
    «купить» — 5 раз,
    «розовый» — 7 раз,
    «слон» — 11 раз.

    Получается что нам надо:

    3 «купить розового слона» / (5 «купить» + 7 «розовый» + 11 «слон») = 0,1304 * 100% = 13,04 %

    Правильно я понимаю? Или нужно суммировать все триграммы и потом разделить на сумму входящих в них слов?

    Ответить
    • Алексей Трудов
      16.05.2017

      Виктор, второй вариант. Это приводит к дополнительному увеличению индекса, если слово входит в несколько популярных триграмм. Только не все триграммы, а 3 самые частотные.

      Ответить
  • Алексей
    16.05.2017

    Спасибо большое за материал, очень полезен.

    Но подскажите пожалуйста чем, каким инструментом можно проверить «высокую водность» или «высокую частоту биграмм и триграмм» например по пачке урлов?

    Т.е. попал под Баден, тексты не везде плохие, страниц сотни, хочу сузить область поиска, например по сотне урлов проверить, какие из этой сотни плохие или хотя бы «подозрительные»

    Заранее благодарю за развернутый ответ

    Ответить

Добавить комментарий