SEO-заметки, выпуск №1: эксперимент с sitemap.xml, тошнота n-грамм, удобочитаемость текста и LSI

Поскольку я не поддался моде и кидаю в свой телеграмм-канал только ссылки на новые статьи а также, иногда, промокоды для bez-bubna.com, у меня копится много идей и мелких наблюдений. Они не тянут на полноценный пост, но по-своему интересны. Дай, думаю, соберу их в кучку и опубликую.

Google и sitemap.xml

Весной публиковал эксперимент насколько sitemap.xml важен для индексации нового сайта в Яндексе и Google. Напоминаю: я скормил поисковикам карту сайта, где содержалось 112 битых ссылок. Спустя два месяца Google не посетил ни одного из них. Прошло еще почти три месяца и он наконец до них добрался:


Яндекс был гораздо шустрее в этом плане.

Расчет показателя “тошнота n-грамм”

Я не люблю писать справку для сервиса. Это моя слабость. Впрочем, с пользователями тут у нас полное взаимопонимание. Они не любят ее читать. С мая в справке висит статья о параметрах, которые используются в анализе текстов. Там, помимо прочего есть описание параметра “тошнота биграмм”.

Только на днях я обнаружил, что там описана неполная формула:

Выделенный красным фрагмент добавил только что. Даже не знаю, радоваться или нет. С одной стороны, хорошо, что пользователи мне так доверяют и даже не попробовали сопоставить разные показатели (что тут же выявило бы несоответствие на два порядка). С другой – всегда всем говорю, что верить в SEO на слово нельзя никому (и мне тоже).

Еще раз об LSI

Меня тут немного поругали, пожалуй, за дело. Не буду цитировать статью, ее лучше прочитать целиком, она прекрасна.

Строго говоря, Евгений прав и его позиция мне близка. Я сам люблю точные формулировки. Но именно поэтому не даю себе слишком зацикливаться на мелочах (иначе мои посты были бы в два раза больше). В статье про сервис на основе word2vec я просто сделал оговорку:

Дальше спокойно использовал LSI как синоним для слов, семантически близких к запросу. Реальность такова, что слово по факту уже синоним тематичной лексики. Не думаю, кстати, что это так уж печально. Нормальный процесс изменения языка. В конце концов, мы же говорим “ксерокс”, а не “копировально-множительная машина” – и ничего, мир пока не рухнул.

Индексы удобочитаемости для SEO

Еще одно общее место в SEO – контент должен иметь сколько-то там баллов по индексам удобочитаемости типа Фога и Колман-Лиау. Любовь оптимизаторов и копирайтеров к непонятно откуда взятым цифрам и параметрам вообще неистребима. Я как-то уже писал об этом гневный пост.

Так вот, насчет индексов. Недавно начал исследовать эту тему. Оказалось, что здесь далеко не все так просто (сюрприз!). Собственно, проблемы уже с начальным этапом – вычислением индексов.

Возьмем для примера хороший сервис с реально серьезным подходом к проблеме: http://ru.readability.io (собственные исследования, адаптированные формулы, API).

Спросим у него что-нибудь. Да хоть бы абзац выше:

Что-то я наворотил сложного. Надо же ориентироваться на шестиклассников, а то Гугл забанит! Срочно исправим ситуацию:

Вот, теперь отлично! Правда, я добавил одно предложение, а сервис почему-то посчитал его за десять (было 4, стало 14). Ну да это ерунда, правда же?

Проверим на чем-нибудь другом.

Как сейчас помню – про Синдбада читали в 5 классе. Ну ладно. Попробуем еще:

Нет, про Синдбада мне все-таки понятнее.

Все эти шутки, конечно ни в коей мере не направлены против создателей сервиса. Повторюсь – это серьезный и хорошо выполненный проект. Я сам, как разработчик сервиса, знаю, что пользователи будут ждать от него чуда. Чуда не будет, реальность всегда сложнее.

Возвращаясь к SEO – сама тема оценки удобочитаемости перспективная и интересная, но весьма сложная технически. Так что к циферкам, которые дают сервисы проверки, не стоит относиться очень серьезно.

28 комментариев

  1. “Индекс удобочитаемости..” никогда не заморачивался настолько, но писал тексты по принципу: короткое, короткое, а это уже длиннее, а это длиннее и с оборотами, на этом предложении отдохни и тд.

  2. “…Спустя два месяца Google не посетил ни одного из них. Прошло еще почти три месяца и он наконец до них добрался…”
    – А не может ли быть так, что добрались Gg и Янд. раньше гораздо, а показывать это стали значительно позже?

    • Правильный вопрос. Я тоже об этом подумал. Поэтому отдельно мониторил заходы роботов в логах сервера. На данные в панели я смотрел просто для контроля.

  3. > В конце концов, мы же говорим «ксерокс», а не «копировально-множительная машина» — и ничего, мир пока не рухнул.
    1. Мы говорим “ихний”, “ложит” и “калидор”. И мир тоже не рушится.
    2. Всех администраторов, программистов, верстальщиков и даже сеошников многие называют “программистами”.
    И мне кажется, что причиной тому не “нормальный процесс изменения языка”, а безграмотность.
    Впрочем, мы ж тут не на уроке русского языка и не на хакатоне по ML. Можем гаварить как хатим любыми терминами. Лижбы небыло вайны.

    • И мне кажется, что причиной тому не «нормальный процесс изменения языка», а безграмотность.

      Одно другому не мешает.

      Можем гаварить как хатим любыми терминами.

      😀

    • Евгений, как бальзам на душу… Мы с Алексеем и раньше по поводу терминологии спорили. Жаль, не об LSI, в этой области мои познания скудны. Алексей практик. Насколько я понимаю, понятия ему нужны, чтобы ими оперировать. Вы сделали правильное замечание, но давайте простим эти ляпы. Думаю, согласитесь – автор блога этого заслуживает.

      • Вроде особо не спорили?
        Помню, был коммент насчет лексем. Ты прав, так корректнее. Буду отвыкать, новый инструмент сейчас делаю с правильной формулировкой в описании 🙂

  4. Алексей, вы как то обещали статью с разбором какие статьи низкого качества удалять чтобы выйти из под Фреда, говрили что не всё так просто. Ждёмс.

  5. Привет, Алексей! Думаю вы не опубликуете мой комментарий, как и предыдущий к вашемму исследованию о Баден-Бадене. Что-то вы намешали в статье и коней и людей 🙂 Я к тому, что до конца, не расписали ни один из трех информационных поводов. Вы оперируете термином “тошнота N-грамм”. Не ясно что это, кем кроме вас подтверждена его статистическая ценность? Справка ваших инструментов содержим много условностей. Хотите пример? “Неестественные тексты под санкциями очень часто имеют повышенную водность”. Повышенную – это какую? Можно диапазон?

    • Привет, Алексей! Думаю вы не опубликуете мой комментарий, как и предыдущий к вашемму исследованию о Баден-Бадене.

      Не помню вашего комментария. Его мог отсечь антиспам-плагин, если там были ссылки или стоп-слова.

      Вы оперируете термином «тошнота N-грамм». Не ясно что это, кем кроме вас подтверждена его статистическая ценность?

      Да хотя бы десятками пользователей сервиса, которые заметили аналогичные закономерности и сообщили мне о них. В вебинаре был очень яркий (в прямом смысле) пример.

      Повышенную — это какую? Можно диапазон?

      Это шутка? Серьезно думаете, что существует единый диапазон? То есть для юридических текстов и для поэзии применяется один и тот же?
      По поводу порогов есть отдельная статья. Но их нельзя принимать всерьез, скорее это дополнительное свидетельство, что параметры действительно значимы.

      Честно говоря, не понял сути ваших претензий. Я сам неоднократно подчеркиваю, что параметры неидеальны. Но на практике они помогают в работе. У вас есть альтернатива? Только без заклинаний “делайте крутой контент”, это не то, что хочет услышать человек, у которого сайт из 20000 страниц загремел под хостовый Баден-Баден, в два раза упала выручка и нужно экстренное решение.

  6. Алексей, я уважаю любого автора и у меня претензий (в понимании этого термина) к вашим текстам или инструментам быть не может. Я хочу вам сказать, что пользоваться FAQ к инструментам сложно. Вот только сегодня читал – “Это слабый сигнал” и это “слабый сигнал”. Если это слабые сигналы, то они, по моему пониманию, не оказывают существенного влияния. Зачем тогда мозг читателя загружать несущественной информацией?
    В отношении “тошноты N-грамм” – я думаю вы пошитили, что вывод глобального масштаба основан на такой мизерной выборке (десяток отзывов непонятно какого уровня вебмастеров).
    Сама по себе идея интересная, но боюсь, что вектор методологии ошибочный.
    ИМХО, конечно.
    P.S. спасибо, что ответили.

    • Я хочу вам сказать, что пользоваться FAQ к инструментам сложно.

      Это есть, признаю 🙂 Мне интереснее делать новые инструменты, а вот описывать подробно старые я не очень люблю. Наверняка теряю из-за этого в доходах, надо бы собраться и довести справку до ума.

      Вот только сегодня читал — «Это слабый сигнал»

      Тут такое дело. Сам по себе фактор может быть слабым. А вот его сочетание с другим дает дополнительную информацию к размышлению. Например, низкая академическая тошнота – и вдруг относительно высокая тошнота n-грамм. Подозрительно!

      В отношении «тошноты N-грамм» — я думаю вы пошитили, что вывод глобального масштаба основан на такой мизерной выборке (десяток отзывов непонятно какого уровня вебмастеров).

      Отзывы тут ни при чем. Я смотрел конкретные раскладки по успешным и пострадавшим страницам. Тысяч 20 проанализированных страниц – достаточная выборка? У вас больше?

      Сама по себе идея интересная, но боюсь, что вектор методологии ошибочный.

      А какой правильный? Мне действительно любопытно.

      • Я конечно могу ошибаться, но тут “Большой обзор обновления алгоритма Google. Какие сайты потеряли трафик в сентябре 2017?” вы тоже используете теже инструменты и теже термины с тошнотой. Но статья то о Google, а он ничего не знает ни о какой тошноте. Я могу подсказать верный путь – статистическая частота релевантности N-gram. Это действительно может использоваться.

      • тоже используете теже инструменты и теже термины с тошнотой

        “Тошнота” – один из способов выразить количество ключей, напиханных в текст. Можно выражать по-другому. Можно придумать миллион разных метрик для той же цели. Без разницы, “знает ли” поисковик о ней. Главное, чтобы метрика коррелировала с реальной ситуацией. То есть давала разные результаты на “хороших” и “плохих” текстах.

        Я могу подсказать верный путь — статистическая частота релевантности N-gram.

        Вот теперь поподробнее, пожалуйста. Раз уж пошла такая бодрая дискуссия – будет странно завершить ее простым нагромождением терминов. Что это такое (своими словами), почему вы думаете что надо это учитывать, как использовать на практике?

  7. Нужно учитывать потому, что это описано в официальной документации Google и предложено использовать в качестве сигнала ранжирования. В этом разница с разными видами “тошноты”.

    • Можно ссылку, где у Google про это написано? И самое интересное, лично вы как этим показателем пользуетесь?

      • Раскрыть источник и свои наработки не могу. Выражаясь вашими словами это составляющая моего конкурентного преимущества. Могу посоветовать поискать на английском языке публикации о том, как Google использует векторные модели для распознавания содержания текстов. Думаю это будет лучше, чем придумывать велосипед. Хотя ведь велосипед тоже в своё время кто-то придумал. С наилучшими пожеланиями,

      • Секундочку. Коментом выше вы писали, что это официальная документация. Официальная автоматически значит открытая и всем доступная. Значит, все-таки не официальная?

        Могу посоветовать поискать на английском языке публикации о том, как Google использует векторные модели для распознавания содержания текстов

        Знаете, это все довольно неубедительно.
        1. Раскритиковать методику по причине “Гугл о ней не знает”, без отсылок к практике.
        2. Проигнорировать большинство вопросов.
        3. Предложить невнятный термин.
        4. Отказаться его расшифровать.

        Будь на моем месте более циничный человек, он бы решил, что вы вставили термин для “понта” и не особо разбираетесь в теме.
        Ну я просто разочарован.

  8. 1. Документация действительно в открытом источнике. Ссылку давать не хочу. Вот такой я противный 😉
    2. Термин внятный.
    3. По поводу того, что я не в теме. Я только пару недель как вернулся из основного офиса Google в Европе (в Дублине). Но в прочем, считайте, как хотите.
    4. Вашу методику я раскритиковал потому, что она малоубедительна. Я недоверяю тому что либо не до конца понятно описано, либо основано на гнрроверенных данных. Признатся, моя методика тоже не может считаться точной хоть в основе и лежат официальные документы. Мы оба можем только предполагать с разной степенью точности. Ведь никто точно не знает как работает Google.

    • Документация действительно в открытом источнике

      Так открытом или официальном?

      Ссылку давать не хочу. Вот такой я противный

      Детский сад, штаны на лямках 🙂

      Я только пару недель как вернулся из основного офиса Google в Европе (в Дублине).

      Рад за вас. Но как это относится к предмету обсуждения?

      Вашу методику я раскритиковал потому, что она малоубедительна.

      Она работает и проверена на практике (под Яндекс как минимум) – это главное. А суть вашей критики пока сводится к “в справке Гугл нет такого термина”. Что именно в цифрах или выводах некорректно? Без общих слов, четко и ясно?

      Признатся, моя методика тоже не может считаться точной хоть в основе и лежат официальные документы.

      Вы пока даже не намекнули что за методика.

  9. Возможно ваша методика и работает. Для того чтобы в это поверить нужны доказательства. Как в теореме. Для начала нужно пояснить откуда взялись те или иные термины. Для проверки ваших выводов (получения подобных результатов) нужно указать точные формулы. А вы сами пишете что часть формулы вы дописали только сейчас, потому что при проверке ваших же данных у людей получались цифры, отличающиеся на несколько порядков. Не доказана, на мой взгляд, четкая корреляция результатов расчётов с показателями изменений (влиянием) поисковых алгоритмов. Вы не подумайте, что вот заявился какой то поц и испортил всю малину 😉 я люблю интересные решения. Я бы с удовольствием воспользовался вашей методикой, но толи из-за недостатоного описания вашего метода, то ли из-за скудности своего ума, сделать это пока не могу.
    Что касается частоты релевпнтности n -грамм, сравнивая определённые их статистическте величины (медиана, средняя) можно понять какие из сайтов попали в топ по запросу не за счёт качества контента, а за счёт влияния других факторов, например ссылок.

    • А вы сами пишете что часть формулы вы дописали только сейчас, потому что при проверке ваших же данных у людей получались цифры, отличающиеся на несколько порядков.

      Формула, которая в сервисе используется не поменялась от этого. Поменялось только описание – в мелкой детали.

      Не доказана, на мой взгляд

      Понимаете, если мы говорим о доказательствах, то “на мой взгляд” неактуально. Это опять общие слова, они бесполезны для меня и читателей. Конкретно в статье где проблема? Вот процитируйте и укажите, где ошибка, я буду благодарен. Вы сами пишете что пока не можете разобраться в методе. Значит не можете и критиковать, не так ли?

      Вы не подумайте, что вот заявился какой то поц и испортил всю малину

      Да я и не думаю. Потому что ничего не испортили. Спасибо за уникальный контент на блог 🙂
      Но разочаровывает, что вместо предметного обсуждения получается диалог обо всем на свете.

      Что касается частоты релевпнтности n -грамм, сравнивая определённые их статистическте величины (медиана, средняя) можно понять какие из сайтов попали в топ по запросу не за счёт качества контента, а за счёт влияния других факторов, например ссылок.

      Ну так этим пользуется каждый первый оптимизатор, только не называет метод так сложно. И к диагностике санкций способ имеет довольно косвенное отношение.

  10. “Ну так этим пользуется каждый первый оптимизатор, только не называет метод так сложно”.
    Ну вот и отлично, значит вы знаете что такое частота релевантности N-грамм и как она расчитывается.
    А критика состоит в том, что инструменты вы делаете в первую очередь для сторонних пользователей. И если вы знаете как взаимосвязанные те или иные показатели в расчетах и что они означают, то далеко не всем пользователям это понятно. Потому и пишу вам, что нужно четко описать FAQ, а вы пишите – “мне лень, я занят разработкой новых инструментов”. Ну так же нельзя. Вот видите я не разобрался в вашем прекрасном методе, пришел и нафлудил вам тут 🙂

    • Ну так же нельзя

      Хорошо, займусь 🙂

      Вот видите я не разобрался в вашем прекрасном методе, пришел и нафлудил вам тут

      В общем-то это было занимательно. Приходите еще.

Оставить ответ