Новый бесплатный сервис: поиск тематичных слов (LSI) с помощью нейросетей. Нужна обратная связь!

Вот уже пару месяцев я экспериментирую с word2vec — набором инструментов для анализа текстов от разработчиков Google. Пришла пора не только играться, но и делать с помощью машинного обучения что-то полезное.

Недолго думая, взял и сделал инструмент для подбора тематичных слов к запросам. Вот он (бесплатно, без регистрации): https://bez-bubna.com/free/lsi.php 

Зачем нужен еще один сервис подбора синонимов и LSI?

Про использование в SEO связанной с поисковыми запросами лексики (LSI — неправильный, но устоявшийся термин) я уже писал, см. статью LSI в SEO: раскладываем по полочкам. В том числе упомянул немало недостатков и ограничений распространенных подходов к использованию тематикозадающих слов.

Вот еще одна проблема.

На практике сервисы, генерирующие LSI, часто работают с контентом или сниппетами страниц из ТОПа выдачи по запросу. К чем это приводит?

  • Выборка для анализа — всего лишь несколько десятков документов. Высок риск собрать только слишком очевидные и потому бесполезные слова.
  • Далеко не факт, что изучаемые страницы вообще содержат нужные слова. Факторов ранжирования множество, в ТОПе легко могут держаться сайты с малой текстовой релевантностью (за счет хостовых, ссылочных, поведенческих…).
  • Опираясь на тексты конкурентов можно подняться до их уровня, но не сделать лучше.

Я попытался зайти с другой стороны.

Идея сервиса: экспертный контент + word2vec

Использование LSI на основе ТОПа приближает вектор документа с точки зрения Яндекса к документам в ТОП и это не всегда хорошо (см. выше). А что если приближать текст к однозначно хорошим, информативным и ценным материалам?

Где взять такие замечательные материалы? Они существуют, и немало. Надо просто отвлечься от статейников с копирайтингом 1$/тысячезнак и вспомнить, что есть, например, официальные документы с проверенной информацией (законы, инструкции, стандарты лечения). Читайте первоисточники! (с)

Остается собрать серьезную базу таких документов и натравить на нее word2vec, чтобы вычислить связи между разными словами. Благодаря этим связям можно будет по одному слову находить родственные (те, что в заведомо хороших текстах часто ему сопутствовали).

Что получилось?

Получилось не так волшебно, как я хотел. Идея только звучит так просто, на деле работы довольно много. Нужно собрать базу текстов,  очистить ее от мусора, перевести в формат, удобный для word2vec, протестировать разные параметры модели…

Я сделал 2 модели по тематикам «медицина» и «юриспруденция». Для других сфер сервис пока неактуален. Однако то что есть — работает довольно неплохо, можно получать любопытные результаты.

Возьмем простенький пример:

А теперь посложнее:

В основном по делу.

Из области права:

Как это использовать?

Можно и традиционным способом — искать термины каждой отдельной страницы. Но лучше просто познакомить копирайтера с результатами по главным ключевым словам общей темы (рубрика, раздел сайта), чтобы он лучше понимал, о чем здесь вообще речь и глубже разобрался в теме вместо того, чтобы налить воды по привычке. То есть мы получим более качественные и полезные для людей тексты.

(Впрочем, неспециалисту писать информационные статьи в таких серьезных тематиках вообще не стоит, скорее из соображений морали а не SEO. Так что по уму сервис больше для подготовки контента на корпоративные сайты — когда нужно просто грамотно рассказать об услуге, а не описывать «как сделать своими руками»).

Конечно, инструмент сырой. Буду рад замечаниям, примерам некорректной работы и предложениям. Пишите, какие еще тематики хотели бы видеть.

Поделиться
Отправить
Плюсануть

Читайте также
  • Павлуцкий
    21.09.2017

    1. Пока что можно юзать не более 10% предложенных вариантов (но это решаемо)
    2. Сама идея приближения к экспертным материалам неплохая, но в выдаче ведь не они, а говностатейники по доллару. Возможно сервис в этом плане опережает время.

    Ответить
    • Алексей Трудов
      21.09.2017

      Спасибо за коммент!
      1. Да, это больше для знакомства с тематикой. Ну и надо минусовать слова еще, в примерах очень общие темы. Конечно и обрабатывать результат надо тщательнее, с подключением других источников данных. Думаю об этом.
      2. Просто и экспертных и оптимизированных материалов гораздо меньше.

      Ответить
  • seoonly.ru
    21.09.2017

    А когда будет 100% волшебство?

    Ответить
    • Алексей Трудов
      21.09.2017

      когда-нибудь)

      Ответить
    • Сергей
      22.09.2017

      Чтобы было ближе к 100%, к этому делу надо добавить немножечко php…

      Ответить
      • Алексей Трудов
        22.09.2017

        Например?

  • tauruz
    22.09.2017

    Спасибо! Очень интересно, все таки тренд!

    Ответить
  • Анон
    22.09.2017

    Под бурж работает? Пошёл тестить.

    Ответить
    • Алексей Трудов
      22.09.2017

      Нет, все тексты в обучающей выборке были на русском

      Ответить
  • Галина Нагорная
    22.09.2017

    Спасибо! Хорошая задумка! Протестировала некоторые мед.запросы — результатом довольна.

    Ответить
  • Галина Нагорная
    22.09.2017

    Есть запросы, где LSI — слова немного галиматья… Особенно при ключевом больше трёх слов.

    Ответить
    • Алексей Трудов
      22.09.2017

      Да, лучше вводить 2 самых значимых

      Ответить
  • Yura
    22.09.2017

    Алексей, спасибо за интересный сервис, который заставил хорошенько задуматься. Немного предыстории напишу, что бы потом понятнее сформулировать вопрос:
    1. Работаю в основном под Украину. Тематики в основном коммерческие: бытовая техника, светильники и т.д.
    2. В своем арсенале для сбора тематикозадающих фраз использую:
    а). https://arsenkin.ru/tools/sp/
    б). руками и глазами собираю подсветки
    Словом все делаю «как книжка пишет».
    В принципе, думаю, что данного арсенала на данном этапе мне достаточно. Возможно ошибаюсь. но что поделать, как умею:)
    К вам такие вопросы:
    1. Есть ли в вашем сервисе привязка по регионам или он просто собирает более качественные документы по разным странам в рамках одного языка (т.е. документы на русском но в разных странах, например СНГ). Т.е., как мне знать, что для Украины данные из этого сервиса могут подойти. Или для любого из регионов России, которые не Москва или СПБ?
    2. Подойдет ли вообще сервис для коммерческих тематик?
    3. Рекомендуете ли вы применять полученные слова в тексте (добавлять конкретно в ТЗ) или просто стоит дать их копирайтеру на заметку. А он уже пускай тогда вникает в тему и с точки зрения «эксперта» пишет просто мега-полезный текст?
    Какие тематики интересны:
    1. Спорт.
    2. Технологии.
    3. Коммерция: недвижимость, товары для дома и отдыха, автомобили и техника, компьютеры.

    Ответить
    • Алексей Трудов
      22.09.2017

      1. Без привязки.
      2. Отчасти. Для описания услуг текстовая релевантность весьма важна.
      3. Просто на заметку. Не факт что результаты обязательно правильные, не стоит полагаться на любой сервис слишком сильно.
      Тематики взял на заметку, спасибо.

      Ответить
  • skiffa
    22.09.2017

    Было бы интереснее на любую тематику. А так, пока бесполезная вещь..

    Ответить
  • Александр
    22.09.2017

    Были бы интересны тематики бизнес, строительство.
    Интересно, что выдало бы по запросам типа «как открыть магазин/кафе …» и т.д.

    Ответить
  • Ирина
    25.09.2017

    Кулинария была бы интересна и народная медицина. Очень многим бы понадобился такой сервис

    Ответить
  • Андрей
    25.09.2017

    Может стоит скормить этому нейро-инструменту тексты из Википедии по теме?

    Ответить
    • Алексей Трудов
      25.09.2017

      Да, это один из вариантов. Может получиться неплохое качество.

      Ответить
  • Юрий
    26.09.2017

    А как вы парсите текст из документов? Может решение этого вопроса ускорило бы процесс.

    Ответить
    • Алексей Трудов
      26.09.2017

      Парсинг не проблема, проблема найти хорошие источники.

      Ответить
      • Юрий
        09.10.2017

        А, например, какой объем текста был «заряжен» под тематику Медицина?

      • Алексей Трудов
        09.10.2017

        Что-то около 400-500 мегабайт.

  • Александр
    28.09.2017

    Интересна тематика грузоперевозок и переездов.

    Ответить
  • Сергей
    28.09.2017

    Алексей, а по этой теме есть какие-то мысли: https://searchengines.guru/showthread.php?t=972525 ?

    Ответить
    • Алексей Трудов
      28.09.2017

      Неделю назад смотрел — тогда ничего принципиально не поменялось с момента доклада на SEMPRO: http://alexeytrudov.com/web-marketing/seo/trafik-iz-google-c-minimalnyimi-zatratami-sempro-2017.html
      По последним нескольким дням еще толком не отслеживал ситуацию.

      Ответить
      • Сергей
        29.09.2017

        У меня сайт присел прилично в первый ап «Фреда», во второй заход «Фреда» просто провалился ниже плинтуса ((( Многие другие сайты, живут нормально.

        Почитал по ссылке, но там презентация попала в список «Запрещенных сайтов».

        Можно как-то увидеть ваши материалы по Фреду? Очень любопытно!

      • Алексей Трудов
        29.09.2017

        Это была последняя капля 🙂
        http://alexeytrudov.com/prezentatsii/

  • Татьяна
    11.11.2017

    Бухгалтерия интересна

    Ответить
  • Лаборатория Семантики
    15.11.2017

    Алексей, есть ли изменения по улучшению сервиса с момента его запуска? На сколько полученные данные актуальны для проверяемых фраз и на сколько картина дополняет основные известные слова, лежащие на поверхности?

    Ответить
    • Алексей Трудов
      15.11.2017

      Пока нет изменений, понемногу делаю вторую версию, но скорее из интереса а не как рабочий проект.

      На сколько полученные данные актуальны для проверяемых фраз и на сколько картина дополняет основные известные слова, лежащие на поверхности?

      Не изучал этот вопрос детально. Буду рад если проведете такое сравнение на показательной выборке.

      Ответить

Добавить комментарий

 

Публикуя комментарий, вы соглашаетесь с правилами http://alexeytrudov.com/terms/