SEO-заметки, выпуск №1: эксперимент с sitemap.xml, тошнота n-грамм, удобочитаемость текста и LSI

Поскольку я не поддался моде и кидаю в свой телеграмм-канал только ссылки на новые статьи а также, иногда, промокоды для bez-bubna.com, у меня копится много идей и мелких наблюдений. Они не тянут на полноценный пост, но по-своему интересны. Дай, думаю, соберу их в кучку и опубликую.

Google и sitemap.xml

Весной публиковал эксперимент насколько sitemap.xml важен для индексации нового сайта в Яндексе и Google. Напоминаю: я скормил поисковикам карту сайта, где содержалось 112 битых ссылок. Спустя два месяца Google не посетил ни одного из них. Прошло еще почти три месяца и он наконец до них добрался:


Яндекс был гораздо шустрее в этом плане.

Расчет показателя «тошнота n-грамм»

Я не люблю писать справку для сервиса. Это моя слабость. Впрочем, с пользователями тут у нас полное взаимопонимание. Они не любят ее читать. С мая в справке висит статья о параметрах, которые используются в анализе текстов. Там, помимо прочего есть описание параметра «тошнота биграмм».

Только на днях я обнаружил, что там описана неполная формула:

Выделенный красным фрагмент добавил только что. Даже не знаю, радоваться или нет. С одной стороны, хорошо, что пользователи мне так доверяют и даже не попробовали сопоставить разные показатели (что тут же выявило бы несоответствие на два порядка). С другой — всегда всем говорю, что верить в SEO на слово нельзя никому (и мне тоже).

Еще раз об LSI

Меня тут немного поругали, пожалуй, за дело. Не буду цитировать статью, ее лучше прочитать целиком, она прекрасна.

Строго говоря, Евгений прав и его позиция мне близка. Я сам люблю точные формулировки. Но именно поэтому не даю себе слишком зацикливаться на мелочах (иначе мои посты были бы в два раза больше). В статье про сервис на основе word2vec я просто сделал оговорку:

Дальше спокойно использовал LSI как синоним для слов, семантически близких к запросу. Реальность такова, что слово по факту уже синоним тематичной лексики. Не думаю, кстати, что это так уж печально. Нормальный процесс изменения языка. В конце концов, мы же говорим «ксерокс», а не «копировально-множительная машина» — и ничего, мир пока не рухнул.

Индексы удобочитаемости для SEO

Еще одно общее место в SEO — контент должен иметь сколько-то там баллов по индексам удобочитаемости типа Фога и Колман-Лиау. Любовь оптимизаторов и копирайтеров к непонятно откуда взятым цифрам и параметрам вообще неистребима. Я как-то уже писал об этом гневный пост.

Так вот, насчет индексов. Недавно начал исследовать эту тему. Оказалось, что здесь далеко не все так просто (сюрприз!). Собственно, проблемы уже с начальным этапом — вычислением индексов.

Возьмем для примера хороший сервис с реально серьезным подходом к проблеме: http://ru.readability.io (собственные исследования, адаптированные формулы, API).

Спросим у него что-нибудь. Да хоть бы абзац выше:

Что-то я наворотил сложного. Надо же ориентироваться на шестиклассников, а то Гугл забанит! Срочно исправим ситуацию:

Вот, теперь отлично! Правда, я добавил одно предложение, а сервис почему-то посчитал его за десять (было 4, стало 14). Ну да это ерунда, правда же?

Проверим на чем-нибудь другом.

Как сейчас помню — про Синдбада читали в 5 классе. Ну ладно. Попробуем еще:

Нет, про Синдбада мне все-таки понятнее.

Все эти шутки, конечно ни в коей мере не направлены против создателей сервиса. Повторюсь — это серьезный и хорошо выполненный проект. Я сам, как разработчик сервиса, знаю, что пользователи будут ждать от него чуда. Чуда не будет, реальность всегда сложнее.

Возвращаясь к SEO — сама тема оценки удобочитаемости перспективная и интересная, но весьма сложная технически. Так что к циферкам, которые дают сервисы проверки, не стоит относиться очень серьезно.

Поделиться
Отправить
Плюсануть

Читайте также
  • seoonly.ru
    01.11.2017

    цЫферки тоже лгут(((

    Ответить
  • genri
    01.11.2017

    «Индекс удобочитаемости..» никогда не заморачивался настолько, но писал тексты по принципу: короткое, короткое, а это уже длиннее, а это длиннее и с оборотами, на этом предложении отдохни и тд.

    Ответить
  • abramov
    01.11.2017

    «…Спустя два месяца Google не посетил ни одного из них. Прошло еще почти три месяца и он наконец до них добрался…»
    — А не может ли быть так, что добрались Gg и Янд. раньше гораздо, а показывать это стали значительно позже?

    Ответить
    • Алексей Трудов
      01.11.2017

      Правильный вопрос. Я тоже об этом подумал. Поэтому отдельно мониторил заходы роботов в логах сервера. На данные в панели я смотрел просто для контроля.

      Ответить
  • Александр
    01.11.2017

    ОК. Спасибо.

    Ответить
  • Евгений
    01.11.2017

    > В конце концов, мы же говорим «ксерокс», а не «копировально-множительная машина» — и ничего, мир пока не рухнул.
    1. Мы говорим «ихний», «ложит» и «калидор». И мир тоже не рушится.
    2. Всех администраторов, программистов, верстальщиков и даже сеошников многие называют «программистами».
    И мне кажется, что причиной тому не «нормальный процесс изменения языка», а безграмотность.
    Впрочем, мы ж тут не на уроке русского языка и не на хакатоне по ML. Можем гаварить как хатим любыми терминами. Лижбы небыло вайны.

    Ответить
    • Алексей Трудов
      01.11.2017

      И мне кажется, что причиной тому не «нормальный процесс изменения языка», а безграмотность.

      Одно другому не мешает.

      Можем гаварить как хатим любыми терминами.

      😀

      Ответить
    • Александр
      01.11.2017

      Евгений, как Вы правы, к сожалению! Увы…

      Ответить
    • Сергей
      06.11.2017

      Евгений, как бальзам на душу… Мы с Алексеем и раньше по поводу терминологии спорили. Жаль, не об LSI, в этой области мои познания скудны. Алексей практик. Насколько я понимаю, понятия ему нужны, чтобы ими оперировать. Вы сделали правильное замечание, но давайте простим эти ляпы. Думаю, согласитесь — автор блога этого заслуживает.

      Ответить
      • Алексей Трудов
        06.11.2017

        Вроде особо не спорили?
        Помню, был коммент насчет лексем. Ты прав, так корректнее. Буду отвыкать, новый инструмент сейчас делаю с правильной формулировкой в описании 🙂

  • Алексей
    03.11.2017

    Алексей, вы как то обещали статью с разбором какие статьи низкого качества удалять чтобы выйти из под Фреда, говрили что не всё так просто. Ждёмс.

    Ответить
    • Алексей Трудов
      03.11.2017

      Пока пылится в черновиках, плотная загрузка сейчас 🙂
      Буду иметь в виду.

      Ответить
  • Вячеслав
    10.11.2017

    Привет, Алексей! Думаю вы не опубликуете мой комментарий, как и предыдущий к вашемму исследованию о Баден-Бадене. Что-то вы намешали в статье и коней и людей 🙂 Я к тому, что до конца, не расписали ни один из трех информационных поводов. Вы оперируете термином «тошнота N-грамм». Не ясно что это, кем кроме вас подтверждена его статистическая ценность? Справка ваших инструментов содержим много условностей. Хотите пример? «Неестественные тексты под санкциями очень часто имеют повышенную водность». Повышенную — это какую? Можно диапазон?

    Ответить
    • Алексей Трудов
      10.11.2017

      Привет, Алексей! Думаю вы не опубликуете мой комментарий, как и предыдущий к вашемму исследованию о Баден-Бадене.

      Не помню вашего комментария. Его мог отсечь антиспам-плагин, если там были ссылки или стоп-слова.

      Вы оперируете термином «тошнота N-грамм». Не ясно что это, кем кроме вас подтверждена его статистическая ценность?

      Да хотя бы десятками пользователей сервиса, которые заметили аналогичные закономерности и сообщили мне о них. В вебинаре был очень яркий (в прямом смысле) пример.

      Повышенную — это какую? Можно диапазон?

      Это шутка? Серьезно думаете, что существует единый диапазон? То есть для юридических текстов и для поэзии применяется один и тот же?
      По поводу порогов есть отдельная статья. Но их нельзя принимать всерьез, скорее это дополнительное свидетельство, что параметры действительно значимы.

      Честно говоря, не понял сути ваших претензий. Я сам неоднократно подчеркиваю, что параметры неидеальны. Но на практике они помогают в работе. У вас есть альтернатива? Только без заклинаний «делайте крутой контент», это не то, что хочет услышать человек, у которого сайт из 20000 страниц загремел под хостовый Баден-Баден, в два раза упала выручка и нужно экстренное решение.

      Ответить
  • Вячеслав
    10.11.2017

    Алексей, я уважаю любого автора и у меня претензий (в понимании этого термина) к вашим текстам или инструментам быть не может. Я хочу вам сказать, что пользоваться FAQ к инструментам сложно. Вот только сегодня читал — «Это слабый сигнал» и это «слабый сигнал». Если это слабые сигналы, то они, по моему пониманию, не оказывают существенного влияния. Зачем тогда мозг читателя загружать несущественной информацией?
    В отношении «тошноты N-грамм» — я думаю вы пошитили, что вывод глобального масштаба основан на такой мизерной выборке (десяток отзывов непонятно какого уровня вебмастеров).
    Сама по себе идея интересная, но боюсь, что вектор методологии ошибочный.
    ИМХО, конечно.
    P.S. спасибо, что ответили.

    Ответить
    • Алексей Трудов
      10.11.2017

      Я хочу вам сказать, что пользоваться FAQ к инструментам сложно.

      Это есть, признаю 🙂 Мне интереснее делать новые инструменты, а вот описывать подробно старые я не очень люблю. Наверняка теряю из-за этого в доходах, надо бы собраться и довести справку до ума.

      Вот только сегодня читал — «Это слабый сигнал»

      Тут такое дело. Сам по себе фактор может быть слабым. А вот его сочетание с другим дает дополнительную информацию к размышлению. Например, низкая академическая тошнота — и вдруг относительно высокая тошнота n-грамм. Подозрительно!

      В отношении «тошноты N-грамм» — я думаю вы пошитили, что вывод глобального масштаба основан на такой мизерной выборке (десяток отзывов непонятно какого уровня вебмастеров).

      Отзывы тут ни при чем. Я смотрел конкретные раскладки по успешным и пострадавшим страницам. Тысяч 20 проанализированных страниц — достаточная выборка? У вас больше?

      Сама по себе идея интересная, но боюсь, что вектор методологии ошибочный.

      А какой правильный? Мне действительно любопытно.

      Ответить
      • Вячеслав
        10.11.2017

        Я конечно могу ошибаться, но тут «Большой обзор обновления алгоритма Google. Какие сайты потеряли трафик в сентябре 2017?» вы тоже используете теже инструменты и теже термины с тошнотой. Но статья то о Google, а он ничего не знает ни о какой тошноте. Я могу подсказать верный путь — статистическая частота релевантности N-gram. Это действительно может использоваться.

      • Алексей Трудов
        10.11.2017

        тоже используете теже инструменты и теже термины с тошнотой

        «Тошнота» — один из способов выразить количество ключей, напиханных в текст. Можно выражать по-другому. Можно придумать миллион разных метрик для той же цели. Без разницы, «знает ли» поисковик о ней. Главное, чтобы метрика коррелировала с реальной ситуацией. То есть давала разные результаты на «хороших» и «плохих» текстах.

        Я могу подсказать верный путь — статистическая частота релевантности N-gram.

        Вот теперь поподробнее, пожалуйста. Раз уж пошла такая бодрая дискуссия — будет странно завершить ее простым нагромождением терминов. Что это такое (своими словами), почему вы думаете что надо это учитывать, как использовать на практике?

  • Вячеслав
    10.11.2017

    Нужно учитывать потому, что это описано в официальной документации Google и предложено использовать в качестве сигнала ранжирования. В этом разница с разными видами «тошноты».

    Ответить
    • Алексей Трудов
      10.11.2017

      Можно ссылку, где у Google про это написано? И самое интересное, лично вы как этим показателем пользуетесь?

      Ответить
      • Вячеслав
        10.11.2017

        Раскрыть источник и свои наработки не могу. Выражаясь вашими словами это составляющая моего конкурентного преимущества. Могу посоветовать поискать на английском языке публикации о том, как Google использует векторные модели для распознавания содержания текстов. Думаю это будет лучше, чем придумывать велосипед. Хотя ведь велосипед тоже в своё время кто-то придумал. С наилучшими пожеланиями,

      • Алексей Трудов
        10.11.2017

        Секундочку. Коментом выше вы писали, что это официальная документация. Официальная автоматически значит открытая и всем доступная. Значит, все-таки не официальная?

        Могу посоветовать поискать на английском языке публикации о том, как Google использует векторные модели для распознавания содержания текстов

        Знаете, это все довольно неубедительно.
        1. Раскритиковать методику по причине «Гугл о ней не знает», без отсылок к практике.
        2. Проигнорировать большинство вопросов.
        3. Предложить невнятный термин.
        4. Отказаться его расшифровать.

        Будь на моем месте более циничный человек, он бы решил, что вы вставили термин для «понта» и не особо разбираетесь в теме.
        Ну я просто разочарован.

  • Вячеслав
    11.11.2017

    1. Документация действительно в открытом источнике. Ссылку давать не хочу. Вот такой я противный 😉
    2. Термин внятный.
    3. По поводу того, что я не в теме. Я только пару недель как вернулся из основного офиса Google в Европе (в Дублине). Но в прочем, считайте, как хотите.
    4. Вашу методику я раскритиковал потому, что она малоубедительна. Я недоверяю тому что либо не до конца понятно описано, либо основано на гнрроверенных данных. Признатся, моя методика тоже не может считаться точной хоть в основе и лежат официальные документы. Мы оба можем только предполагать с разной степенью точности. Ведь никто точно не знает как работает Google.

    Ответить
    • Алексей Трудов
      11.11.2017

      Документация действительно в открытом источнике

      Так открытом или официальном?

      Ссылку давать не хочу. Вот такой я противный

      Детский сад, штаны на лямках 🙂

      Я только пару недель как вернулся из основного офиса Google в Европе (в Дублине).

      Рад за вас. Но как это относится к предмету обсуждения?

      Вашу методику я раскритиковал потому, что она малоубедительна.

      Она работает и проверена на практике (под Яндекс как минимум) — это главное. А суть вашей критики пока сводится к «в справке Гугл нет такого термина». Что именно в цифрах или выводах некорректно? Без общих слов, четко и ясно?

      Признатся, моя методика тоже не может считаться точной хоть в основе и лежат официальные документы.

      Вы пока даже не намекнули что за методика.

      Ответить
  • Вячеслав
    11.11.2017

    Возможно ваша методика и работает. Для того чтобы в это поверить нужны доказательства. Как в теореме. Для начала нужно пояснить откуда взялись те или иные термины. Для проверки ваших выводов (получения подобных результатов) нужно указать точные формулы. А вы сами пишете что часть формулы вы дописали только сейчас, потому что при проверке ваших же данных у людей получались цифры, отличающиеся на несколько порядков. Не доказана, на мой взгляд, четкая корреляция результатов расчётов с показателями изменений (влиянием) поисковых алгоритмов. Вы не подумайте, что вот заявился какой то поц и испортил всю малину 😉 я люблю интересные решения. Я бы с удовольствием воспользовался вашей методикой, но толи из-за недостатоного описания вашего метода, то ли из-за скудности своего ума, сделать это пока не могу.
    Что касается частоты релевпнтности n -грамм, сравнивая определённые их статистическте величины (медиана, средняя) можно понять какие из сайтов попали в топ по запросу не за счёт качества контента, а за счёт влияния других факторов, например ссылок.

    Ответить
    • Алексей Трудов
      11.11.2017

      А вы сами пишете что часть формулы вы дописали только сейчас, потому что при проверке ваших же данных у людей получались цифры, отличающиеся на несколько порядков.

      Формула, которая в сервисе используется не поменялась от этого. Поменялось только описание — в мелкой детали.

      Не доказана, на мой взгляд

      Понимаете, если мы говорим о доказательствах, то «на мой взгляд» неактуально. Это опять общие слова, они бесполезны для меня и читателей. Конкретно в статье где проблема? Вот процитируйте и укажите, где ошибка, я буду благодарен. Вы сами пишете что пока не можете разобраться в методе. Значит не можете и критиковать, не так ли?

      Вы не подумайте, что вот заявился какой то поц и испортил всю малину

      Да я и не думаю. Потому что ничего не испортили. Спасибо за уникальный контент на блог 🙂
      Но разочаровывает, что вместо предметного обсуждения получается диалог обо всем на свете.

      Что касается частоты релевпнтности n -грамм, сравнивая определённые их статистическте величины (медиана, средняя) можно понять какие из сайтов попали в топ по запросу не за счёт качества контента, а за счёт влияния других факторов, например ссылок.

      Ну так этим пользуется каждый первый оптимизатор, только не называет метод так сложно. И к диагностике санкций способ имеет довольно косвенное отношение.

      Ответить
  • Вячеслав
    11.11.2017

    «Ну так этим пользуется каждый первый оптимизатор, только не называет метод так сложно».
    Ну вот и отлично, значит вы знаете что такое частота релевантности N-грамм и как она расчитывается.
    А критика состоит в том, что инструменты вы делаете в первую очередь для сторонних пользователей. И если вы знаете как взаимосвязанные те или иные показатели в расчетах и что они означают, то далеко не всем пользователям это понятно. Потому и пишу вам, что нужно четко описать FAQ, а вы пишите — «мне лень, я занят разработкой новых инструментов». Ну так же нельзя. Вот видите я не разобрался в вашем прекрасном методе, пришел и нафлудил вам тут 🙂

    Ответить
    • Алексей Трудов
      13.11.2017

      Ну так же нельзя

      Хорошо, займусь 🙂

      Вот видите я не разобрался в вашем прекрасном методе, пришел и нафлудил вам тут

      В общем-то это было занимательно. Приходите еще.

      Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/