Автор: Томас Ходженхавен (Thomas Høgenhaven), аспирант в Бизнес школе Копенгагена
Сплит-тестирование является прекрасным инструментом, позволяющим повысить конверсию сайта и приносимую им прибыль. Первоочередной задачей в организации экспериментов подобного рода является выявление значимых факторов (например, подзаголовка, изображения и т.п.), и оценка их влияния на конверсию.
Значительная часть литературы, посвященная данной проблеме, делает упор на статистический анализ, чем многих и отпугивает. Томас Ходженхавен попытался создать более доступное иллюстрированное руководство, описывающее, как правильно организовать сплит-тестирование и оценить полученные результаты.
Данный материал рассчитан, прежде всего, на тех читателей, которые знакомы с такими понятиями, как конверсия сайта и основными факторами, влияющими на нее. Кроме того, следует помнить, что в сплит-тестировании побеждает не самый лучший вариант, а лучший из тех, которые участвовали в тестировании. А значит у вас (почти) всегда остается свободное пространство для последующего тестирования и повышения эффективности сайта.
Прежде всего, необходимо определиться с общей схемой тестирования. Для оценки влияния одного или двух факторов обычно используют A/B тесты, если же количество факторов составляет два и более, то лучше использовать многомерную схему (MVT). Следует отметить, что с помощью серии A/B тестов можно также протестировать два и более факторов, но в таком случае будет упущена информация о взаимодействии между ними.
Если вы остановили свой выбор на многомерном тестировании, то теперь надо определить его конкретный вариант. Наиболее распространенными вариантами являются: полноразмерный и частичный. Прежде чем разобраться в этих терминах, давайте разберем какой-нибудь абстрактный пример. Например, мы хотим испытать влияние трех различных факторов, каждый из которых имеет два варианта:
Три фактора в двух различных вариантах в итоге дают (23) 8 групп. В полноразмерном многомерном тестировании будут использованы все 8 комбинаций. Это означает, что необходимо будет создать 8 вариантов страницы и равномерно распределить между ними посетителей. В приведенной ниже таблице +1 означает первый вариант, а -1 – второй вариант каждого фактора.
Полноразмерное тестирование можно относительно легко реализовать, если у нас три фактора, каждый из которых имеет два варианта. Но если, скажем, будет 4 фактора и каждый из них в 4 вариантах, то получится (44) 256 групп. А если 10 факторов, имеющих два варианта – (210) 1024 группы. Для того чтобы получить достоверные результаты, нам потребуется огромный трафик. Для Google или Twitter это не является проблемой, но если мы хотим продавать пиццу в небольшом городке? Продолжительность подобного тестирования можно посчитать с помощью Google Calculator или VisualWebsiteOptimizers Calculator. Эти калькуляторы дают приближенную оценку, так как информации о разнице в конверсии между вариантами у нас пока нет. Именно ее мы и хотим определить в готовящемся эксперименте.
Частичная многомерная схема получила распространение благодаря работам Геничи Тагучи, поэтому ее иногда так и называют – метод Тагучи. Как это и понятно из названия, в частичной многомерной схеме для анализа отбирается только часть от общего количества всевозможных комбинаций. Сокращая количество вариантов, мы можем получить более достоверные результаты для оставшихся.
В приведенном выше примере достаточно протестировать четыре комбинации. Информация о взаимодействии между факторами, включенными в экспериментальные группы, позволит оценить эффективность тех комбинаций, которые были исключены из тестирования.
Остановимся на этом немного подробнее. Вместо того чтобы испытывать фактор A три раза, он будет испытан только однажды, при неизменном значении факторов B и C. Аналогично, фактор B будет также испытан один раз, при неизменных значениях A и C, то же самое и в отношении фактора C. Тут мы не будем глубоко разбираться в статистических методах анализа, так как все необходимые расчеты за нас сделает специальная программа.
Частичная многомерная схема предполагает, что каждый фактор, попавший в испытание, не зависит от других. Если же существует взаимодействие между факторами (например, изображение и подпись под ним), то это скажется на достоверности полученного результата. В случае частичного взаимодействия между факторами мы не сможем с уверенностью сказать о роли каждого из них в изменении конверсии. Например, если существует взаимодействие между B и C, то мы не можем быть уверены, получен ли результат от изменения фактора A или взаимодействия между B и C. В связи с этим, если имеется возможность организации полного многомерного тестирования, лучше остановить свой выбор на нем, чтобы избежать ошибок, вызванных взаимодействием между факторами.
Большинство начинающих интернет-маркетологов знакомо с понятием A/B теста. Но мало кто из них знает об A/A тесте. Его используют для тестирования условий проведения испытаний. A/A тест желательно выполнить перед тем как непосредственно приступить к A/B или MVT испытаниям. A/A тест должен показать, что посетители корректно распределяются на группы, и никакие другие факторы, кроме испытываемых, не окажут влияния на результат.
В A/A тесте посетители распределяются на группы точно так же, как и в A/B или MVT испытаниях, но каждой группе демонстрируется одинаковая версия сайта. Если между конверсией в различных группах отсутствуют достоверные различия, значит вся подготовительная работа проведена верно. Обнаружение существенных различий между группами говорит о том, что нарушаются условия чистоты эксперимента, и результаты последующих тестов будут ошибочными.
A/A тест также является прекрасным способом продемонстрировать сотрудникам, боссам, клиентам и себе самому степень вариабельности данных. Он является хорошим аргументом в пользу того, что не следует ликовать при достижении конверсией значения 80%, особенно на ранней фазе тестирования.
В идеальном эксперименте ничто, кроме проверяемых независимых факторов, не оказывает влияния на результат. Но в реальности, во время проведения эксперимента варьируют и другие факторы. Например, в A/B тестировании мы распределяем людей на две группы. Но в мире нет двух одинаковых людей, поэтому и в эти две группы попадают совершенно различные люди. Поэтому, следует стремиться к тому, чтобы различия по неучитываемым факторам были распределены максимально случайным образом. В противном случае, мы получим смещенную оценку. Статистическая оценка различий подскажет, насколько можно верить полученным результатам.
О том, что влияние фактора статистически достоверно, мы можем говорить лишь в том случае, когда существует очень низкая вероятность того, что разница между сравниваемыми группами вызвана случайной ошибкой. Другими словами, назначение статистической оценки состоит в том, чтобы определить вероятность того, что средняя конверсия в обеих группах имеет одно и то же значение, а разница между обнаруженными величинами вызвана случайными факторами (шумом).
Во многих экспериментах и программах для статистических расчетов в качестве порогового значения при оценке достоверности различий используется доверительный уровень в 95%. Если между двумя группами существует различие с доверительным уровнем 98%, мы считаем его достоверным, даже с учетом того, что существует 2-процентная вероятность того, что обнаруженная разница вызвана действием случайных факторов. Исходя из этого, статистическая оценка нужна нам для того, чтобы определить степень уверенности в том, что испытываемый фактор действительно влияет на конверсию, и наблюдаемая разница не случайна. В Google Website Optimizer эта вероятность называется chance to beat original.
Не распределяйте сразу весь трафик, идущий на сайт пропорционально между контрольными и экспериментальными вариантами. Если вы проводите A/B тестирование, и пошлете 50% посетителей на контрольный вариант сайта, а 50% – на экспериментальный, то не исключена вероятность падения продаж, если что-нибудь в эксперименте пойдет не так.
Для начала отправьте на тестируемый вариант только 5% посетителей. Если все идет нормально, то увеличьте этот показатель до 10%, затем 25% и, наконец, до 50%. Так вы сможете обнаружить критические ошибки до того момента, как значительная часть посетителей столкнется с ними.
Источник
Перевод Александра Никитина
Комментарии