В последние пару месяцев писал аудиты и рекомендации по старту для нескольких крупных сайтов (от 200 000 страниц и более). Заниматься такими проектами интересно – поневоле делаешь упор на стратегию, а не на детали. Радует также возможность получить быструю отдачу (недавний пример). Здесь расскажу о ключевых особенностях работы с такими сайтами. Конечно, пост ни в коей мере не является инструкцией (инструкция напоминала бы диссертацию). Это просто памятка для себя, перечисление моментов, которые стоит держать в уме при работе.
Ключевые моменты
Полнота индекса – это важно
Не стоит думать, что у “жирных” сайтов не бывает проблем с индексацией. Поисковые роботы могут буквально не вылезать с сайта, но этого не всегда хватает, чтобы в индексе присутствовали все страницы.
Пример – houzz.ru, представительство гигантского англоязычного сайта с огромной базой и миллионами страниц в Google. А в Яндексе так:
Поэтому первым делом всегда проверяем, соответствует ли индекс реальному количеству страниц на сайте. Если нет – добиваемся, чтобы соответствовал. И регулярно мониторим ситуацию.
Много страниц в индексе – это еще не все
Полная индексация – это только условие получения хорошего трафика, а не самоцель. После полного “загона” в индекс нужно браться за работу с “отстающими” в плане посещаемости разделами. Понятно, что основной трафик будут приносить волшебные 20%, но у остальных, за счет хостовых факторов тоже хороший потенциал, нужно использовать его на полную катушку.
Системы аналитики – твои лучшие друзья
Большой проект хорош тем, что быстро дает достаточно много внутренней статистики (начиная с банальных ключевых слов для расширения семантического ядра и заканчивая сложными закономерностями, связанными с конверсией).
Сайт должен быть “вылизан” с технической стороны
Все просто: небольшая ошибка в одном шаблоне может привести к тиражированию негодных страниц. Единственным неверным движением можно наделать 100 000 полных дублей, например.
Когда у тебя много страниц, всегда можно безнаказанно наделать еще
Один из трендов последних лет – раздувание сайта за счет тегирования. На сайте с небольшим количеством материалов можно внедрить совсем немного тегов и приходится выбирать наиболее важные. Иначе есть риск получить кучу некачественных страниц-тегов. Пока, кстати, за это особо не карают (тсс!), похоже Яндекс борется преимущественно со ссылками и текстовым спамом. Но все может измениться (и изменится, если яростно тегировать начнут и в заштатных SEO-конторах).
Но большим сайтам такие изменения до лампочки: при огромном количестве страниц, минимально грамотная группировка никак не повредит; это – естественный путь облегчения навигации.
И еще страниц!
Для обычного корпоративного сайта попытка наполнить пару новых разделов парсером может приводить к проседанию по главным запросам. А может и не приводить, но в любом случае [неумелая] выгрузка неуникальных материалов это риск. Большому сайту добавление 20 – 30 тысяч неуникальных страниц вряд ли может повредить. А вот пользу принести может, как напрямую – за счет увеличения числа точек входа, так и косвенно, за счет более полного охвата семантики.
Кстати: меня всегда удивляло, почему “парсинг” многие считают синонимом “воровства контента”. Можно добывать контент и не нарушая ничьих прав 😉
Серьезному сайту – серьезную структуру
Структурирование контента еще важнее, чем обычно. Причем как на уровне всего сайта, так и на уровне страницы. Важно создать достаточно много шаблонов страниц с разной структурой и разными механизмами формирования мета-тегов. Второе позволяет, как и в предыдущем пункте, естественным образом увеличить “облако” запросов, которым соответствует сайт за счет переформулировок и синонимов.
Внутренняя перелинковка – это сила
По важным запросам в плане перелинковки можно и нужно работать точечно, не полагаясь на общую ссылочную структуру. Много страниц – много возможностей для нагона веса на важные “узлы”.
Это все, что вспомнил на данный момент. Кто дополнит список в комментах – герой!
К слову о индексации, практически все большие проекты имеют это проблему.
Причина проста – лимиты(квота домена) на краулинг у ботов.
Нет индекса – нет знания о релевантном контенте – нет трафика
Мы как раз будем решать этот вопрос на уровне сервиса.
Думаю одна из ранних фич еще на стадии альфа будет.
Да, причина в лимитах и их бездарном разбазаривании.
Грустно было как то наблюдать когда у сайта 2 700 000 документов, а в индексе не более 1 000 000, понимаешь какая доля трафика просто упускается.
Только если сайт не конкуренту принадлежит. Тогда радостно наблюдать 🙂
ахахах в точку)))
Ага)