Новые бесплатные инструменты: анализ логов сервера и внутренних ссылок. API проверки текста

Добавил в подборку бесплатных сервисов bez-bubna.com еще два скрипта, которыми сам давно пользуюсь.

Анализ логов сервера

На больших проектах настоятельно рекомендуются вести постоянный мониторинг активности поисковых роботов. Владельцам маленьких сайтов тоже не стоит упускать поведение Googlebot и YandexBot из вида. Вдумчивое изучение access.log может дать очень много пищи для размышления.

Особенно актуальна работа с логами на этапе запуска — когда в панелях вебмастеров еще ничего не отобразилось, позиций нет и не может быть, а трафик представлен случайными визитами. В этот момент access.log — единственный надежный источник информации о восприятии сайта поисковыми системами.

Инструмент доступен по адресу: https://bez-bubna.com/free/log.php

Загружаете файл, ждете несколько секунд и получаете следующие отчеты:

  • Популярные страницы (с большим числом визитов робота, ссылки с них можно использовать для ускорения индексации других url).
  • Страницы с относительно небольшим объемом контента (сюда могут попадать и совершенно нормальные документы, но если роботы ползали по пустым техническим страницам — вы это увидите). Прелесть в том, что эти url не всегда можно спарсить программой для техаудита — ведь в индекс могут попадать и страницы без внутренних ссылок.
  • Страницы, отдающие поисковым роботам ошибки сервера (404,403, 500). В ошибках как таковых нет ничего страшного, но нужно убедиться, что ответ сервера во всех случаях именно таков, как вы планировали. Случается, по ошибке администратора сервера блокируются IP поисковых роботов — тогда вы будете видеть нормальный сайт, а вот поисковым ботам придется долбиться в 403. Вариантов возникновения нежелательных ошибок просто тьма, это лишь один пример.

Анализ внутренних ссылок

Внутренняя перелинковка не обладает волшебной силой вытаскивать сайт в топ. Но это не значит, что ей не надо заниматься. У ссылок есть как минимум один доказанный эффект (не считая облегчения индексации) — анкор «подшивается» к тексту страницы, на которую ведет ссылка. Страница-акцептор может искаться по ключу, который соответствует анкору.

Таким образом, можно использовать внутренние ссылки для обогащения документов важной для оптимизатора семантикой. Конечно, проделывать это без системы не очень правильно.

Сервис: https://bez-bubna.com/free/inlinks.php

Мне было лень парсить документы самому и пересчитывать каждый линк. Да и зачем, если любой оптимизатор все равно сперва засунет сайт в Screaming Frog? Оттуда можно взять выгрузку с полной информацией о ссылках и анализировать уже ее.

Результат содержит два отчета.

Во-первых, это данные о самых популярных страницах, на которые ведет много ссылок. Потенциально это наиболее сильные страницы, логично будет разметить их по большому количеству ключей. Отчет показывает какие анкоры уже есть и как велико их разнообразие:

Второй отчет помогает найти ссылки с одинаковыми анкорами, но разными целевыми страницами. Такая ситуация может затруднять выбор релевантной страницы.

Оба сервиса бесплатны, но имеют ограничение на размер загружаемого файла (сервера-то не резиновые!) — не более 10 мегабайт. Для небольших проектов этого достаточно.

В дальнейшем выложу аналогичные инструменты с увеличенным лимитом — цена, впрочем, будет вполне символической.

API анализа текста

На прошлой неделе получил сразу несколько вопросов об API для расширенного анализа текста. Удивился такой востребованности и решил не откладывая его реализовать. Документация здесь. API-ключи пока выдаю вручную по запросу. Если у вас биржа контента или потоковое производство статейников — обращайтесь, это должно быть удобнее, чем работа через интерфейс. И как никогда актуально — Баден-Баден продолжает лютовать.

Поделиться
Отправить
Плюсануть

Читайте также
  • mrG1K
    19.06.2017

    Анализ логов сервера

    Интересный инструмент, хотел опробовать, но он постоянно ругается на формат.

    common
    %h %l %u %t «%r» %>s %O «%{Referer}i» «%{User-Agent}i»

    Логи как раз в обычном формате, пробовал в разных кодировках , но все не так.

    Пример строки из лога

    141.8.132.77 — — [19/Jun/2017:06:28:32 +0300] «GET /wp-content/uploads/2016/02/img.jpg HTTP/1.1» 200 13712 «-» «Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)»

    Пример из сервиса
    184.72.146.111 — — [19/Jun/2017:00:10:09 +0300] «GET /seo-zen/ HTTP/1.1» 200 1152 «https://www.google.com/» «Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17»

    Ответить
    • Алексей Трудов
      19.06.2017

      Странно, а можно лог куда-нибудь в облако выложить и ссылку мне кинуть? (коммент не буду открывать, никто больше не увидит)

      Ответить
  • seoonly.ru
    19.06.2017

    Радуешь, бро!

    Ответить
  • Дмитрий
    20.06.2017

    Какого максимально размера скушает файл с логами?

    Ответить
  • vasel
    20.06.2017

    тоже не пашет
    Используйте только файлы в формате common — %h %l %u %t «%r» %>s %O «%{Referer}i» «%{User-Agent}i». Пример строки в правильном формате: 184.72.146.111 — — [19/Jun/2017:00:10:09 +0300] «GET /seo-zen/ HTTP/1.1» 200 1152 «https://www.google.com/» «Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17». Вернуться

    Ответить
    • Алексей Трудов
      20.06.2017

      Нужен пример файла

      Ответить
  • VPSadm
    20.06.2017

    Любопытно. Попробовал инструменты. В анализаторе текстов ничего не понял толком 🙂 Чем он качественно отличается от истио-ком?) Ну, кроме добавления биграмм и триграмм. Что они значат так и не понял, хотя и справку почитал. Ну количество сочетаний, окей, это ясно. А как интерпретировать эти значения? Может есть какие-то эталонные? Рассмотри возможность собрать такую статистику и добавить там выделение «плохих» или
    «хороших» значений, которые отчетливо отличаются от средних значений в эффективных текстах. Тогда это будет похоже уже на что-то понятное и полезное. Типа вот у вас тут слишком много вхождений этой триграммы, показываешь что зашкаливает. Ну и т.д.

    Анализатор логов тоже глянул. Чем ты парсишь их? На PHP?

    Почему анализируешь только ботовые запросы? Я думаю ошибочные статусы ответа для любых запросов есть смысл брать, а не только ботовые.

    Ну и по размеру — тоже смех на самом деле) 10 мегабайт лог — это около 30к строк. Даже на не сильно посещаемом сайте это лог за пару часов, пришлось резать 🙂 Что ты там наанализируешь с такой истории?) По-хорошему надо брать за месяцок-недельку, ну или хотя бы суточный. По умолчанию логи ротируются раз в сутки.

    Считай, при посещении одной страницы не менее пары десятков записей оседает в логах. Даже сотня мегабайт — это не так уж много для access-лога. Ну если только на сервере не отключены запросы для статики (а по-умолчанию это не так обычно).

    По поводу «нерезиновости» — можно использовать сжатие gzip на лету. Эти логи очень хорошо и легко жмутся и распаковываются — в 10-15 раз примерно. И хранятся они после ротации имено в gz. Если будет ограничение на 10 мегабайт сжатого лога, это уже более-менее, можно что-то проанализировать… за сутки-половину.

    Ответить
    • Алексей Трудов
      20.06.2017

      Чем он качественно отличается от истио-ком?)

      Тем, что заточен на метрики, по которым выявлены значимые различия для текстов под Баден-Баденом и без него.

      Может есть какие-то эталонные?

      http://alexeytrudov.com/web-marketing/seo/baden-baden-gde-porogi.html — не видел?
      Но я не хочу называть это эталоном и вводить абстрактные «хорошие» и «плохие» цифры, это будет вранье. Все сложнее — включайте голову 🙂 Для продаж конечно волшебная циферка была бы полезнее, но увы.

      Анализатор логов тоже глянул. Чем ты парсишь их? На PHP

      Ага.

      Почему анализируешь только ботовые запросы? Я думаю ошибочные статусы ответа для любых запросов есть смысл брать, а не только ботовые.

      Чтоб не тонуть в инфе. Но вообще да, можно сделать переключатель режимов, чтоб пользователь выбирал как смотреть.

      Ну и по размеру — тоже смех на самом деле) 10 мегабайт лог — это около 30к строк.

      Ну ты даешь! Кто ж тогда платным будет пользоваться, где лимит больше! 😀
      Ну и анализ в таком формате, как и писал в посте, нужен в первую очередь молодым, только что открытым к индексу сайтам. Там, где кроме роботов никто не ходит еще.

      Ответить
  • VPSadm.ru
    20.06.2017

    а, вот оно что. эту статью смотрел несколько дней назад, но в отрыве от сервиса тоже решительно нихрена в ней тогда не понял. Теперь более-менее понятно, спасибо.

    А по поводу платности — ну хз. Сомневаюсь, что ты сильно обогатишься на тех, кто чего-то то там анализирует в сайтах-заглушках) Тот, кто может оплатить пользование сервисом на такие сайты просто забивает до поры, не будет он там сидеть ничего анализировать:) Он лучше пойдет сделает ещё 10 таких молодых сайтов. А новичок, который может этим заморочиться вряд ли будет платить. Тут логично бы сделать со сжатием до 10 мегабайт, а платно уже больше и гораздо круче пакетно. Т.е загружает пачку логов за неделю, допустим, и анализирует.

    Но в целом мысли годные по поводу анализа ботовых запросов, попробую свои логи поковырять на большем промежутке времени 🙂 Командой строке линукса пофиг на размер файлов 😉

    Ответить
    • Алексей Трудов
      20.06.2017

      А по поводу платности — ну хз. Сомневаюсь, что ты сильно обогатишься на тех, кто чего-то то там анализирует в сайтах-заглушках)

      Ну на бесплатных точно не обогащусь 🙂 Курочка по зернышку клюет. В том и прелесть пакета мини-инструментов, что у каждого есть своя небольшая ЦА с конкретными потребностями. По отдельности — прибыль ерундовая, десяток уже нормально.

      Но в целом мысли годные по поводу анализа ботовых запросов, попробую свои логи поковырять на большем промежутке времени ???? Командой строке линукса пофиг на размер файлов ????

      Мыслей еще много, как-нибудь напишу об этом (или доклад сделаю). Логи — это кладезь информации.

      Ответить
      • VPSadm.ru
        21.06.2017

        ну то что кладезь оно понятно. Но пока только для технических задач их юзал, про то, что можно что-то по сео извлечь не задумывался.

        А так да, причины нагрузки, и всяких школьников-шкодников часто только по ним и можно вычислить на раз. По этой теме можно тоже много писать:) Порой действительно кажется что проще выкатить готовый рабочий анализатор, чем объяснить как этим пользоваться)

      • Алексей Трудов
        21.06.2017

        Точно

  • Дмитрий
    23.06.2017

    Когда будут доступны платные версии инструментов для больших сайтов?

    Ответить
    • Алексей Трудов
      23.06.2017

      В течение недели-двух.

      Ответить
  • Женя Пригожина
    29.06.2017

    Здравствуйте, Алексей! Спасибо за новую программу в арсенале! 🙂
    Как Вы полагаете, с чем её стоило бы комбинировать человеку, только начинающему в поисковой оптимизации?
    Например, на стадии выведения сайта, внутреннего аудита.

    Ответить
    • Алексей Трудов
      29.06.2017

      Пожалуйста! 🙂
      Конечно, почему нет. Принципы анализа достаточно просты и универсальны.

      Ответить
  • Ян
    04.08.2017

    Алексей, добрый день. Таже ситуация с лог-файлом. Хостинг на Бегете:

    Используйте только файлы в формате common — %h %l %u %t «%r» %>s %O «%{Referer}i» «%{User-Agent}i». Пример строки в правильном формате: 184.72.146.111 — — [19/Jun/2017:00:10:09 +0300] «GET /seo-zen/ HTTP/1.1» 200 1152 «https://www.google.com/» «Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.60 Safari/537.17»

    Ответить
    • Алексей Трудов
      04.08.2017

      Ян, у меня тоже бегет)
      Насколько я помню, там начало каждой строки ставится хост, на котором зарегистрирован визит. Его нужно удалить из всех строк и тогда должно заработать.

      Ответить
      • Ян
        07.08.2017

        Не совсем понимаю как в начале более 3 тысяч строк удалить название домена

      • Алексей Трудов
        07.08.2017

        Он же одинаковый?
        Открываем в notepad и заменяем «домен » на пустую строку
        А можно попросить ТП настроить логи в другом формате.

  • Ян
    08.08.2017

    Спасибо, заработало, вначале немного подтупил, работая в Notepade++. Не удалялся домен в начале строки. Удалил его и все стало нормально 🙂

    Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/