Автор: Станислав Поломарь, руководитель направления продвижения Webit
Значимую роль в современном ранжировании играют поведенческие факторы. В том числе, факторы, связанные с переходами из выдачи по конкретному запросу. Но в таком случае, огромное количество сайтов оказывается без каких-либо значений соответствующих факторов. Дело в том, что основная часть кликов приходит на первые результаты выдачи, как можно видеть на графике ниже, где представлено распределение CTR vs Позиция по большой выборке коммерческих запросов по региону Москва.
Таким образом, если рассматривать именно эти метрики, то происходит постепенная «консервация» первых мест выдачи.
Возможно, в том числе по этим причинам, сотрудники Яндекса последние 2-3 года проводят активные исследования в области онлайн-экспериментов в выдаче. Так, на https://research.yandex.ru можно найти более 20 публикаций, которые так или иначе связаны с этим вопросом, более 10 из которых относятся к этому году.
Первое, что приходит в голову в ходе решения задачи по получению значений для этих метрик и для большего числа сайтов – это ротация выдачи.
Вот, что пишет на этот счет Яндекс: «Поэтому имеет смысл периодически показывать в области видимости документы, по которым пользовательской информации недостаточно для принятия решения о полезности документа; при этом априорная релевантность такого документа может оказаться не самой высокой».
Понятно, что эта ротация не должна приводить к ухудшению качества выдачи, т.е. Яндекс должен уметь:
В статье «Gathering Additional Feedback on Search Results by Multi-Armed Bandits with Respect to Production Ranking», которую рекомендует к ознакомлению Яндекс, рассматривается подход к подобному «подмешиванию». Вот как оценивается алгоритм в публикации: «Finally, we applied the whole scheme to several SMAB algorithms and experimentally demonstrated that it enables to notably increase the performance of a major search system in terms of NDCG measure averaged over a 10 day period».
Не так давно Яндекс представил доклад «Практика детерминированного хаоса», в котором подробней рассказал про механизм ротации выдачи. Добавочную релевантность они назвали «Exploration feature». Известно про нее следующее:
То есть, ожидаемо выбираются документы, которые могут быть полезными. Ниже представлена детализация расчета:
Очевидно, что чем выше вероятность, то тем сильнее амплитуда колебания документа. Для того чтобы не было хостовых перекосов вводится рандом по хосту.
По словам представителей Яндекса, качество выдачи растет, хотя из приведенного ниже графика сильного роста не было видно.
Изменения выдачи при этом – существенны:
Таким образом, сомнений о наличии, так называемых, «бандитных» результатов в выдаче не остается.
Для определения «бандитных» результатов в выдаче, мы исходим из двух предпосылок:
Собственно, среди документов из последнего пункта мы и ожидаем найти нужные нам результаты (бандита). Наиболее типичным примером, заниженных документов до недавнего времени был пост-штраф за переоптимизацию.
Эту задачу с определенной долей погрешности решает сравнение по хостам или документам. Примеры обоих запросов представлены ниже.
В целом большой разницы, что использовать, здесь нет. Однако стоит отметить следующий момент: при различных пост-штрафах мы часто видим в выдаче другой документ хоста. В случае сравнения вида «site | site» подобная проблема решается за счет сравнения по всем документам с хоста.
Проанализируем несколько запросов за сентябрь-ноябрь. Для этого отберем несколько сайтов в тематике и сравним их со всеми документами из ТОП-100.
В таблице, представленной ниже:
Тo есть, для нас представляют интерес «желтые» документы, которые расположены выше «синих», либо «белые», которые, наоборот, – ниже.
Картина по 4-м сайтам по одному ВК-ВЧ запросу.
Явно видны «подкинутые» документы. Особенно хорошо это заметно на примере сайта №4, которого на второй апдейт полюбил «бандит».
Срез по другому СК-СЧ запросу за те же апдейты сентябрь-ноябрь:
Справа представлена та же картинка уже с точностью до отдельных документов.
Интересно наблюдать за различными сценариями дальнейшей судьбы подкинутых документов:
Также хорошо видно, что по этим запросам «бандит» стал гораздо менее активен в ноябре.
Для того чтобы немного ближе познакомиться с теми, кого подкидывает, рассмотрим несколько обнаруженных нами документов. К примеру, http://www.me-group.ru/
Или проанализируем позиции http://gibka-lazer.ru/
Стоит отметить, что последний сайт находится высоко уже не за счет «бандита». В отличие от 1-го примера, он сумел воспользоваться шансом.
В предыдущей части статьи был представлен точеный разбор отдельных запросов. Однако не менее интересно посмотреть статистику на какой-то значительной выборке из сотен сайтов и тысяч запросов.
Подобное сравнение представлено в таблице.
Для наглядности в таблице отобраны запросы с большой амплитудой: то есть, по которым «отработал бандит». Посмотрим, как сильно изменяются позиции:
Как видно, сайты «улетают» сильнее, чем «подкидываются». Это понятно, ведь в отслеживаемой выборке большая часть запросов уже занимала хорошие позиции и «подкидывать» их больше некуда.
В раскладке по Wordstat можно увидеть, что затрагивает все запросы – от НЧ до ВЧ.
Интересно проанализировать силу «шторма» на выборке из хостов, чтобы понять насколько сильно в рамках всего хоста влияет бандит. Для этого посмотрим долю запросов в зависимости от амплитуды колебаний. В статье представлена выборка из 30-ти сайтов.
Видно, что лишь небольшую часть сайтов «сильно штормит» по значительной доле отслеживаемых запросов, а на части сайтов «бандита» нет и вовсе.
Таким образом, чем шире продвигаемая семантика, тем в среднем устойчивее будет себя чувствовать проект. Хотя, конечно, возможны перекосы из-за отдельных высокочастотных запросов.
Далее приведём несколько примеров в разрезе 3-х разных сайтов. Первая колонка это позиции в выдаче, а вторая колонка это позиция полученная сравнением с сайтами из ТОП-100. Запросы с большой вероятностью подкинутые бандитом, отмечены жирным.
В этом примере интересно, что ряд страниц подкидывается практически по всей отслеживаемой семантике.
На скриншотах ниже мы же видим, что это скорее исключение из правил:
Подводя итог всему изложенному ранее, можно выделить следующие особенности «бандита»:
Следует отметить, что выше представлен детальный разбор бандита на уровне запросов и отдельных сайтов. В рамках совместного доклада с Михаилом Сливинским, который прозвучал на конференции Optimization-2015, был представлен анализ изменений выдачи за аналогичный период по значительной выборке сайтов, а также анализ схожих по поведению кластеров.
Как же продвигать сайт в новых реалиях?
Чтобы ответить на этот вопрос, рассмотрим несколько примеров из практики.
Проект в тематике «полиграфия» активно «бандитился» в августе 2015. За счет продвижения по таргетированному трафику (в Webit – это «целевые клики») в целом не было больших провалов по трафику. На графике ниже удобнее всего сравнивать пики/падения трафика Яндекса относительно Google:
Проект «оседлал» волну и за счет «бандита» хорошо вырос:
Проект в тематике «дома», который также продвигали по целевым кликам, продемонстрировал следующую динамику.
Он был «подкинут» в начале августа. Далее получилось укрепить данный тренд.
Для сравнения, представим динамику проекта в той же тематике при продвижении по позициям:
В этом примере – налицо гораздо более ощутимые потери в трафике в недели, когда «бандит» был «неблагосклонен» к сайту, а также отсутствие особого позитивного тренда.
Рассмотрев особенности поведения этого алгоритма Яндекса и обобщив текущие практические наработки, можно рекомендовать следующий подход к продвижению:
Совместная презентация доклада Стаса Поломаря и Михаила Сливинского, по материалам которой была подготовлена данная статья, доступна здесь.
Комментарии