Вариативность текста как показатель для оценки его качества и естественности

К исследованию о факторах, влияющих на попадание страницы под Баден-Баден поступает много вопросов об одном из них – вариативности.

На самом деле сильное влияние этой метрики не выявлено. Те не менее, различия между “спамными” и “хорошими” с точки зрения Яндекса текстами по нему статистически достоверны. “Плохие” имеют в среднем по больнице меньшее значение показателя.  Определенная логика в этом есть.

Как повысить вариативность?

Напомню, что вариативность рассчитывается как “единица минус отношение уникальные леммы/уникальные словоформы”. Показатель я взял из работы Опыт использования машинного обучения при исследовании факторов ранжирования Яндекса.

Очевидно, что вариативность будет высокой, если в тексте:

  • сравнительно мало уникальных лемм;
  • сравнительно много уникальных словоформ.

По большому счету, нужно ориентироваться на второе условие. Ведь мало уникальных лемм означает информационную бедность контента, постоянные повторы.

Естественные тексты используют слова в разных формах. А вот для SEO-шников “очень-очень старой школы” кажется приемлемым напихать много ключей в прямом вхождении. Если мы вставим 10 раз один и тот же ключ (“пластиковые окна купить”), то получим 3 уникальные леммы и 3 уникальные словоформы. Если же хотя бы в одном случае из 10 напишем “купить пластиковое окно”, то лемм у нас по-прежнему будет 3, а вот словоформ уже 5. Документ станет на шаг ближе к человекообразному.

Пример

Для иллюстрации посмотрим вариативность у образца плохого контента из официального анонса Баден-Бадена:

Да, тут все ох как плохо. Что скажет проверка?

Поменяем теперь буквально 1 словоформу (вместо “SEO-текст” поставим “SEO-текста”). Смотрим вариативность:

Итоги

Можно сильно не беспокоиться о вариативности, если у вас приличный текст. Напоминаю, что все метрики анализа нужны не для того, чтобы втиснуть в их абстрактные границы свои статьи. Они просто помогают быстро выявлять подозрительный контент.

Если же в статью напичкано много ключей в прямом вхождении или ваш копирайтер особо косноязычен, оперирует одними и теми же оборотами – то низкая вариативность об этом просигнализирует.

p.s. Напоминаю, что на этой неделе состоялся мой вебинар по противодействию Баден-Бадену. См. запись и ответы на вопросы.

Поделиться
Отправить
Плюсануть

Читайте также
  • Алексей
    10.07.2017

    цикл по всем параметрам? если это так – гуд!

    Ответить
    • Алексей Трудов
      10.07.2017

      Такой мысли не было, но пару самых интересных метрик наверное стоит рассмотреть.

      Ответить
  • seoonly.ru
    10.07.2017

    Где б найти хорошего копирайтера((

    Ответить
  • oxojeck
    10.07.2017

    То есть достаточно одного прямого вхождения ключа в текст, а дальше разбавляем по-разному?

    Ответить
    • Алексей Трудов
      10.07.2017

      Не всегда. Скоро на эту тему выйдет мой подробный комментарий в блоге Анны Ященко.

      Ответить
  • Ник
    11.07.2017

    где оцениваете вариативность и иные параметры? откуда скрин?

    Ответить
  • Андрей
    11.07.2017

    Где какие пороги? Вот у меня вариативность 1 текста – 0,232. А у второго – 0,193. Предполагаю, что тексты нормальные. Но где порог плохого текста?

    Какие выводи из этого делать? Хорошие это тексты или плохие?

    Ответить
  • Наталия
    29.07.2017

    Добрый день! Все метрики понятны, кроме вариативности. До меня не доходит, чем плох текст, состоящий унилемм, каждая из которых встречается единожды. Получается, что кол-во унилемм и словоформ будет совпадать. А вариативность будет равна 0. Бывает, проверяю в расширенном анализаторе текст, в котором все биграммы и триграммы встречаются по 1 разу, а индекс получается выше нормы. Как так? Или я что-то не понимаю. Хочется разобраться.

    Ответить
    • Алексей Трудов
      29.07.2017

      Наталия, добрый день!

      До меня не доходит, чем плох текст, состоящий унилемм, каждая из которых встречается единожды. Получается, что кол-во унилемм и словоформ будет совпадать.

      Конечно же ничем не плох. Но для достаточно объемных текстов такая ситуация вряд ли типична.

      Бывает, проверяю в расширенном анализаторе текст, в котором все биграммы и триграммы встречаются по 1 разу, а индекс получается выше нормы.

      Разумеется, тогда на него просто не стоит обращать внимание. Имеет смысл с ним работать только когда и тошнота n-грамм достаточно высока.

      Повторюсь в который раз – все пороги условны и могут служить ориентиром только когда больше не на что опираться вообще. Но в любом случае приоритет – это качественный текст и решение принимать автору. А проверяемые параметры способны лишь подсказать, где могут быть проблемы.

      Язык, тексты – это сложнейшая вещь, разумеется, ее нельзя запихнуть в несколько простых метрик.

      Ответить
  • Владимир
    23.07.2018

    Есть ли какие-то обновленные данные по вариативности и другим показателям для хороших/плохих текстов?

    Ответить
    • Алексей Трудов
      24.07.2018

      Специально не исследовал. На практике больше опираюсь на выборки текстов по конкретному проекту и/или конкурентам.

      Ответить
      • Владимир
        24.07.2018

        Спасибо за ответ! Авторы ругаются на показатель, не могут дотянуть даже до нижней границы (0,23). Проверил свой проект и топового конкурента – среднее значение – 0,19. Может ли вариативность зависеть от тематики?

      • Алексей Трудов
        25.07.2018

        Конечно может (и должна).

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/