Вариативность текста как показатель для оценки его качества и естественности

К исследованию о факторах, влияющих на попадание страницы под Баден-Баден поступает много вопросов об одном из них — вариативности.

На самом деле сильное влияние этой метрики не выявлено. Те не менее, различия между «спамными» и «хорошими» с точки зрения Яндекса текстами по нему статистически достоверны. «Плохие» имеют в среднем по больнице меньшее значение показателя.  Определенная логика в этом есть.

Как повысить вариативность?

Напомню, что вариативность рассчитывается как «единица минус отношение уникальные леммы/уникальные словоформы». Показатель я взял из работы Опыт использования машинного обучения при исследовании факторов ранжирования Яндекса.

Очевидно, что вариативность будет высокой, если в тексте:

  • сравнительно мало уникальных лемм;
  • сравнительно много уникальных словоформ.

По большому счету, нужно ориентироваться на второе условие. Ведь мало уникальных лемм означает информационную бедность контента, постоянные повторы.

Естественные тексты используют слова в разных формах. А вот для SEO-шников «очень-очень старой школы» кажется приемлемым напихать много ключей в прямом вхождении. Если мы вставим 10 раз один и тот же ключ («пластиковые окна купить»), то получим 3 уникальные леммы и 3 уникальные словоформы. Если же хотя бы в одном случае из 10 напишем «купить пластиковое окно», то лемм у нас по-прежнему будет 3, а вот словоформ уже 5. Документ станет на шаг ближе к человекообразному.

Пример

Для иллюстрации посмотрим вариативность у образца плохого контента из официального анонса Баден-Бадена:

Да, тут все ох как плохо. Что скажет проверка?

Поменяем теперь буквально 1 словоформу (вместо «SEO-текст» поставим «SEO-текста»). Смотрим вариативность:

Итоги

Можно сильно не беспокоиться о вариативности, если у вас приличный текст. Напоминаю, что все метрики анализа нужны не для того, чтобы втиснуть в их абстрактные границы свои статьи. Они просто помогают быстро выявлять подозрительный контент.

Если же в статью напичкано много ключей в прямом вхождении или ваш копирайтер особо косноязычен, оперирует одними и теми же оборотами — то низкая вариативность об этом просигнализирует.

p.s. Напоминаю, что на этой неделе состоится мой вебинар по противодействию Баден-Бадену. См. вместе с другими анонсами в предыдущем посте.

Поделиться
Отправить
Плюсануть

Читайте также
  • Алексей
    10.07.2017

    цикл по всем параметрам? если это так — гуд!

    Ответить
    • Алексей Трудов
      10.07.2017

      Такой мысли не было, но пару самых интересных метрик наверное стоит рассмотреть.

      Ответить
  • seoonly.ru
    10.07.2017

    Где б найти хорошего копирайтера((

    Ответить
  • oxojeck
    10.07.2017

    То есть достаточно одного прямого вхождения ключа в текст, а дальше разбавляем по-разному?

    Ответить
    • Алексей Трудов
      10.07.2017

      Не всегда. Скоро на эту тему выйдет мой подробный комментарий в блоге Анны Ященко.

      Ответить
  • Ник
    11.07.2017

    где оцениваете вариативность и иные параметры? откуда скрин?

    Ответить
  • Андрей
    11.07.2017

    Где какие пороги? Вот у меня вариативность 1 текста — 0,232. А у второго — 0,193. Предполагаю, что тексты нормальные. Но где порог плохого текста?

    Какие выводи из этого делать? Хорошие это тексты или плохие?

    Ответить
  • Наталия
    29.07.2017

    Добрый день! Все метрики понятны, кроме вариативности. До меня не доходит, чем плох текст, состоящий унилемм, каждая из которых встречается единожды. Получается, что кол-во унилемм и словоформ будет совпадать. А вариативность будет равна 0. Бывает, проверяю в расширенном анализаторе текст, в котором все биграммы и триграммы встречаются по 1 разу, а индекс получается выше нормы. Как так? Или я что-то не понимаю. Хочется разобраться.

    Ответить
    • Алексей Трудов
      29.07.2017

      Наталия, добрый день!

      До меня не доходит, чем плох текст, состоящий унилемм, каждая из которых встречается единожды. Получается, что кол-во унилемм и словоформ будет совпадать.

      Конечно же ничем не плох. Но для достаточно объемных текстов такая ситуация вряд ли типична.

      Бывает, проверяю в расширенном анализаторе текст, в котором все биграммы и триграммы встречаются по 1 разу, а индекс получается выше нормы.

      Разумеется, тогда на него просто не стоит обращать внимание. Имеет смысл с ним работать только когда и тошнота n-грамм достаточно высока.

      Повторюсь в который раз — все пороги условны и могут служить ориентиром только когда больше не на что опираться вообще. Но в любом случае приоритет — это качественный текст и решение принимать автору. А проверяемые параметры способны лишь подсказать, где могут быть проблемы.

      Язык, тексты — это сложнейшая вещь, разумеется, ее нельзя запихнуть в несколько простых метрик.

      Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/