Анонс SEO-инструментов: пакетный анализ текста и оценка изменения трафика страниц

Самый частый вопрос к недавнему исследованию Баден-Бадена – это чем проверять перечисленные в статье показатели. Я доработал скрипты, которыми проводил анализ и оформил их в виде дополнительных сервисов в bez-bubna.com.

Обращаю особое внимание: инструменты на стадии альфа-версии. В ходе исследования я вручную выборочно проверял корректность парсинга и обработки текста. Особых нареканий не было, но это не значит, что с вашим сайтом скрипт тоже справится на ура. Тем более что при изменении кода и его адаптации под промышленные нагрузки могли появиться ошибки. Анализ текста – дело тонкое!

В течение нескольких недель отловлю и устраню основные баги. Так что лучше не торопиться с использованием. Но если вы отважны и багов не боитесь – то добро пожаловать. И не стесняйтесь писать мне о проблемах.

Адрес: https://bez-bubna.com/panel/tools.php (нужно быть залогиненым в сервисе).

На использование инструментов тратятся лимиты, которые нужно покупать отдельно от оплаты аудитов. В конечной версии цена 1 лимита будет от 50 копеек до рубля (в зависимости от объема покупки). На данный момент цена снижена до 25 копеек. Не потому что стремлюсь побольше продать. Наоборот, сейчас готовлюсь выступать на SEMPRO, так что наплыв пользователей будет меня отвлекать. Просто совесть не дает брать полную цену за сырые сервисы.

Теперь коротко об инструментах (подробнее будет потом в справке).

Анализ трафика по страницам

На экране настройки указываете дату в прошлом, а также за сколько дней брать данные. Сервис запрашивает Метрику и сравнивает посещаемость страниц из Яндекса или Google за указанное число дней до даты и после даты.

Затем выводятся списки страниц:

  • на которых исчез трафик;
  • на которых уменьшился трафик;
  • на которых появился трафик;
  • на которых увеличился трафик;

Разумеется, в отчетах приводятся не только url, но и данные по визитам и % падения/роста.

Как это можно использовать?

В первую очередь, это облегчает анализ по страницам, потерявшим трафик. Кроме того, при просадке общей посещаемости, помогает быстро определить наиболее вероятные причины. Например, если видим, что велико число страниц, на которых трафик полностью исчез – копаем в сторону настроек сайта и корректности индексации. Если же велик провал у нескольких важных страниц – то разбираемся с контентом и позициями конкретных посадочных.

Наконец, вы можете сделать аналог моего исследования по Баден-Бадену – для конкретного пострадавшего сайта. Получаете списки успешных и пострадавших страниц после 22 марта и отправляете их по отдельности на анализ в следующий инструмент, а потом сравниваете средние показатели в двух группах.

Пакетный анализ текста

Проверяемые параметры: слов всего, стоп-слов, уникальных словоформ, уникальных лемм,классчиеская тошнота, академическая тошнота, вариативность, водность, ТОП-3 биграмм, ТОП-3 триграмм,тошнота биграмм, тошнота триграмм, индекс биграммы/униграммы, индекс триграммы/униграммы, ответ сервера.

Имеется 3 режима работы:

Важно понимать, что очистка контента от “примесей” весьма непростая задача. Plain-текст удается вычленить не всегда (зачастую “портянки” и нет на странице). В этом случае будет обрабатываться весь текст. Для точного нацеливания сервиса стоит разместить в коде комментарии-указатели. Например, у меня на блоге:

В дальнейшем планирую прикрутить настройки алгоритма определения n-грамм, ввести дополнительные проверяемые параметры (продолжаю изучать отличительные характеристики переоптимизированных текстов), сделать общий индекс вероятности признания текста спамным, получение списка url из карты сайта и т.д.

Напоминаю, что инструмент затачивался под статейные сайты. Должен неплохо подойти также для сайтов услуг, а вот интернет-магазины требуют иного подхода.

p.s. Обещанную статью о том, как на практике использовать сервис для анализа сайтов под текстовыми санкциями напишу уже после SEMPRO, на следующей неделе. Пока напомню главное – ни в коем случае нельзя полагаться на один параметр, рассматривать все “тошнотности” и индексы n-грамм нужно комплексно!

p.p.s. На упомянутое исследование получил массу откликов. В том числе сообщения, что выводы подтверждаются на конкретных сайтах. Вот комментарий:

Провели свой собственный расчет «показателя естественности» по вашему алгоритму на статьях на одном из наших сайтов.

Цифры совпали с вашими.
Разница в «показатели естественности» между упавшими и не упавшими статьями как раз в среднем около 10% и получилась.

То есть, ваша гипотеза у нас подтверждается

А вот Алексей Сорокин пишет о скромных результатах “расташнивания всех статей на одном сайте” и о том, что выводы по итогам совпадают с данными моего исследования.

p.p.p.s. Всем, кто давал сайты на анализ Баден-Бадена, начислю бонус 5000 лимитов. Пишите мне e-mail регистрации в сервисе, не стесняйтесь. Спасибо еще раз!

36 комментариев

  1. Сделайте просто форму проверки текста. У меня туда редактор будет тексты перед публикацией загружать.

  2. Годнота! Пара мыслей по этому поводу: анализ всего html, думаю, искажает результаты и еще – что конкретно в стоп-словах?

    • Спасибо!
      Бывают разные задачи, иногда надо и html смотреть.
      Список стоп-слов секретный 🙂 Но тебе могу скинуть 😉
      В будущем сделаю опцию “свой список стоп-слов”.

      • Вообще-то зря список стоп-слов сделали секретным. Объясню. Редактор вставляет текст, проверят параметры, выходит таблица значений, в том числе и вода. И надо чтобы выводился текст с подсветками стоп-слов, чтобы сразу можно было исправить и перепроверить водность и другие параметры. Так сделано на всех нормальных крупных сервисах. Посмотрите SEO-анализ text.ru, там все удобно и легко можно править и проверять. У вас же это, мягко говоря не очень все продумано. Для тестирования подходит. Для полноценной работы не очень.

      • Спасибо, обдумаю этот момент.

        У вас же это, мягко говоря не очень все продумано.

        Согласен, инструмент родился экспромтом. Буду дорабатывать.

      • А мне можно тоже список стоп слов?:) Был бы очень признателен.

      • Возможно позже выложу для всех 🙂
        Вверху были идеи.

  3. Огромное спасибо, как вы и обещали, все-таки создали данный функционал. Очень ждал, теперь буду пользоваться. Удачи на SEMPRO.

  4. Интересно.
    Допустим есть запрос ”Скачать ####”
    Я беру в инкогнито по Москве открываю Яндекс. С этим запросом собираю топ страниц которые мне выдало кроме Офф сайтов загоняю в текстовый анализатор. И должен чтот среднее сделать чтоб попасть в ТОП 10. Я правильно думаю или ошибаюсь?

    • Не все так просто. Сайты в ТОП не обязательно имеют идеальные текстовые. Они могут по другим причинам хорошо ранжироваться. Ну и не забываем про Бандита.
      Часто такие вопросы возникают, надо как-нибудь написать подробно.

      • Ну все таки этот инструмент помогает хоть приблизится к идеалу определенного запроса и выйти из под ББ. Верно?

    • Хороший вопрос.
      Тогда остается только постараться поработать с показателями из исследования без явных ориентиров. Подробную инструкцию на этот случай тоже напишу позже.

  5. Хороший сервис. А Топ -3 биаграм и тиаграм можно в отчете увеличить до Топ 5 чтоб не трогать ключи. А выкидывать текстовый спам. Просто доделать еще одну кнопку на выбор. Три или пять.

      • Общем. Взял топовые программы. На топовых сайтах которые собирают трафик. Есть примерные цифры. Но как писал Андрей выше. Нужен ТОП 3-5-8…. Чтоб вырезать спам фразы….

  6. В вашем сервисе академическая тошнота как рассчитывается? с адвего кардинально не совпадает местами даже разница..

    • Начать нужно с того, что непонятно, какая в точности методика у адвего 🙂
      Всю методику на память не скажу, если интересно могу поднять исходник.

  7. Отличный инструмент! Спасибо! Но можно получить ваше мнение по интерпретации данных? Справку по инструменту.

Оставить ответ