Новый бесплатный сервис: поиск тематичных слов (LSI) с помощью нейросетей. Нужна обратная связь!

Вот уже пару месяцев я экспериментирую с word2vec – набором инструментов для анализа текстов от разработчиков Google. Пришла пора не только играться, но и делать с помощью машинного обучения что-то полезное.

Недолго думая, взял и сделал инструмент для подбора тематичных слов к запросам. Вот он (бесплатно, без регистрации): https://bez-bubna.com/free/lsi.php 

Зачем нужен еще один сервис подбора синонимов и LSI?

Про использование в SEO связанной с поисковыми запросами лексики (LSI – неправильный, но устоявшийся термин) я уже писал, см. статью LSI в SEO: раскладываем по полочкам. В том числе упомянул немало недостатков и ограничений распространенных подходов к использованию тематикозадающих слов.

Вот еще одна проблема.

На практике сервисы, генерирующие LSI, часто работают с контентом или сниппетами страниц из ТОПа выдачи по запросу. К чем это приводит?

  • Выборка для анализа – всего лишь несколько десятков документов. Высок риск собрать только слишком очевидные и потому бесполезные слова.
  • Далеко не факт, что изучаемые страницы вообще содержат нужные слова. Факторов ранжирования множество, в ТОПе легко могут держаться сайты с малой текстовой релевантностью (за счет хостовых, ссылочных, поведенческих…).
  • Опираясь на тексты конкурентов можно подняться до их уровня, но не сделать лучше.

Я попытался зайти с другой стороны.

Идея сервиса: экспертный контент + word2vec

Использование LSI на основе ТОПа приближает вектор документа с точки зрения Яндекса к документам в ТОП и это не всегда хорошо (см. выше). А что если приближать текст к однозначно хорошим, информативным и ценным материалам?

Где взять такие замечательные материалы? Они существуют, и немало. Надо просто отвлечься от статейников с копирайтингом 1$/тысячезнак и вспомнить, что есть, например, официальные документы с проверенной информацией (законы, инструкции, стандарты лечения). Читайте первоисточники! (с)

Остается собрать серьезную базу таких документов и натравить на нее word2vec, чтобы вычислить связи между разными словами. Благодаря этим связям можно будет по одному слову находить родственные (те, что в заведомо хороших текстах часто ему сопутствовали).

Что получилось?

Получилось не так волшебно, как я хотел. Идея только звучит так просто, на деле работы довольно много. Нужно собрать базу текстов,  очистить ее от мусора, перевести в формат, удобный для word2vec, протестировать разные параметры модели…

Я сделал 2 модели по тематикам “медицина” и “юриспруденция”. Для других сфер сервис пока неактуален. Однако то что есть – работает довольно неплохо, можно получать любопытные результаты.

Возьмем простенький пример:

А теперь посложнее:

В основном по делу.

Из области права:

Как это использовать?

Можно и традиционным способом – искать термины каждой отдельной страницы. Но лучше просто познакомить копирайтера с результатами по главным ключевым словам общей темы (рубрика, раздел сайта), чтобы он лучше понимал, о чем здесь вообще речь и глубже разобрался в теме вместо того, чтобы налить воды по привычке. То есть мы получим более качественные и полезные для людей тексты.

(Впрочем, неспециалисту писать информационные статьи в таких серьезных тематиках вообще не стоит, скорее из соображений морали а не SEO. Так что по уму сервис больше для подготовки контента на корпоративные сайты – когда нужно просто грамотно рассказать об услуге, а не описывать “как сделать своими руками”).

Конечно, инструмент сырой. Буду рад замечаниям, примерам некорректной работы и предложениям. Пишите, какие еще тематики хотели бы видеть.

34 комментария

  1. 1. Пока что можно юзать не более 10% предложенных вариантов (но это решаемо)
    2. Сама идея приближения к экспертным материалам неплохая, но в выдаче ведь не они, а говностатейники по доллару. Возможно сервис в этом плане опережает время.

    • Спасибо за коммент!
      1. Да, это больше для знакомства с тематикой. Ну и надо минусовать слова еще, в примерах очень общие темы. Конечно и обрабатывать результат надо тщательнее, с подключением других источников данных. Думаю об этом.
      2. Просто и экспертных и оптимизированных материалов гораздо меньше.

  2. Алексей, спасибо за интересный сервис, который заставил хорошенько задуматься. Немного предыстории напишу, что бы потом понятнее сформулировать вопрос:
    1. Работаю в основном под Украину. Тематики в основном коммерческие: бытовая техника, светильники и т.д.
    2. В своем арсенале для сбора тематикозадающих фраз использую:
    а). https://arsenkin.ru/tools/sp/
    б). руками и глазами собираю подсветки
    Словом все делаю “как книжка пишет”.
    В принципе, думаю, что данного арсенала на данном этапе мне достаточно. Возможно ошибаюсь. но что поделать, как умею:)
    К вам такие вопросы:
    1. Есть ли в вашем сервисе привязка по регионам или он просто собирает более качественные документы по разным странам в рамках одного языка (т.е. документы на русском но в разных странах, например СНГ). Т.е., как мне знать, что для Украины данные из этого сервиса могут подойти. Или для любого из регионов России, которые не Москва или СПБ?
    2. Подойдет ли вообще сервис для коммерческих тематик?
    3. Рекомендуете ли вы применять полученные слова в тексте (добавлять конкретно в ТЗ) или просто стоит дать их копирайтеру на заметку. А он уже пускай тогда вникает в тему и с точки зрения “эксперта” пишет просто мега-полезный текст?
    Какие тематики интересны:
    1. Спорт.
    2. Технологии.
    3. Коммерция: недвижимость, товары для дома и отдыха, автомобили и техника, компьютеры.

    • 1. Без привязки.
      2. Отчасти. Для описания услуг текстовая релевантность весьма важна.
      3. Просто на заметку. Не факт что результаты обязательно правильные, не стоит полагаться на любой сервис слишком сильно.
      Тематики взял на заметку, спасибо.

  3. Были бы интересны тематики бизнес, строительство.
    Интересно, что выдало бы по запросам типа “как открыть магазин/кафе …” и т.д.

  4. Алексей, есть ли изменения по улучшению сервиса с момента его запуска? На сколько полученные данные актуальны для проверяемых фраз и на сколько картина дополняет основные известные слова, лежащие на поверхности?

    • Пока нет изменений, понемногу делаю вторую версию, но скорее из интереса а не как рабочий проект.

      На сколько полученные данные актуальны для проверяемых фраз и на сколько картина дополняет основные известные слова, лежащие на поверхности?

      Не изучал этот вопрос детально. Буду рад если проведете такое сравнение на показательной выборке.

  5. Алексей, а Вы не пробовали строить и сравнивать вектора не только для слов, но, и для текстов?

    Думаю именно таким образом ПС могут сравнивать тексты на уникальность (информационную, а другая им наверное не сильно и интересна)… А как им еще сравнивать миллиарды текстов (не каждый с каждым же).

    А то вот копирайтеры-рерайтеры пишут-пишут нам тексты… А они все не попадают и не попадают в ТОПы… Может потому что это “псевдоуникальные” тексты?

    • Чуть-чуть игрался с doc2vec тоже но до минимального практического применения пока не дошел. Идея вообще перспективная, конечно.

Оставить ответ