A/B-тестирование

Введение

Бывает, что сайт или лендинг не приносит ожидаемого результата. Например, поступает мало заявок, пользователи не завершают процесс покупки или средний чек слишком низкий. В таких случаях нужно понять, в чем именно заключается проблема, и подобрать эффективное решение. Однако это сложно сделать, если опираться только на предположения.

Чтобы вносить обоснованные изменения в интерфейсы, можно проводить A/B-тесты. В этом лонгриде мы разберем, в каких сферах используется этот вид тестирования; когда нужно и когда не нужно использовать данный метод; а также порядок действий, как анализировать результаты и какие ошибки могут на них повлиять.

Что такое A/B-тестирование

A/B-тестирование — это метод исследования, который позволяет сравнить эффективность двух вариантов одного и того же элемента.

Например, будет ли красная кнопка призыва к действию собирать больше кликов, чем синяя кнопка? С помощью A/B-теста можно выяснить это и заменить элемент, если потребуется.

Когда и зачем проводится A/B-тестирование

Обычно данный метод тестирования используется, когда:

Нужно исправить уже запущенный проект, который недостаточно хорошо работает.

Нужно запустить новый проект и перед этим проверить, какой вариант будет работать более эффективно.

A/B-тестирование позволяет решить множество задач, например:

Улучшить пользовательский опыт. Можно определить, какое расположение и оформление элементов повышает уровень удовлетворенности пользователей.
Улучшить метрики. Можно найти те варианты дизайна, заголовков, текстов и кнопок, которые мотивируют пользователей совершить действие.

Примеры метрик:

Конверсия — процентное соотношение числа пользователей, которые выполнили целевое действие, к общему числу посетителей сайта.
Показатель отказов — процент пользователей, которые закрыли сайт, просмотрев не более одной страницы и не совершив целевое действие.
Показатель кликабельности — какой процент пользователей кликнул на баннер или кнопку.

Повысить эффективность рекламных кампаний. Это возможно благодаря улучшению лендингов, баннеров, объявлений и рассылок, которые являются частью рекламных кампаний.
Исключить субъективность. Решение будет основано на данных, полученных в ходе исследования.
Сэкономить время и ресурсы. Благодаря тестированию можно избежать внедрения неэффективных вариантов.

Можно лучше понять пользователей (их потребности, привычки, поведение, факторы, которые влияют на них).

В каких сферах используется A/B-тестирование и для чего

A/B-тестирование используется специалистами из разных сфер: маркетологами, копирайтерами, продакт-менеджерами, аналитиками и, конечно, UX/UI-дизайнерами.

Что можно проверить с помощью A/B-тестирования:

Электронные письма для email-рассылок.

Рекламные креативы.

Текстовый контент.

Дизайн веб-сайтов, лендингов и мобильных приложений.

Отдельные элементы интерфейсов.

Стоимость товаров, акции и специальные предложения.

Визуальный контент (фотографии, иллюстрации, графические элементы).

Кнопки призыва к действию.

Порядок проведения A/B-тестирования

1. Определяем цели

Перед началом тестирования нужно четко определить желаемый результат. Например, увеличение количества заказов, среднего чека или активных пользователей. Выбранная цель поможет подобрать метрики и сформулировать гипотезу.

2. Выбираем метрики

Метрики — это показатели, которые говорят, является ли измененный вариант более эффективным или нет.

Метрики для A/B-теста должны быть количественными, то есть измеряться в цифрах. Выбирать метрики нужно с учетом цели тестирования. Часто используют:

Коэффициент конверсии. Рассчитывается по формуле:

Показатель кликабельности (используется для теста рекламного объявления или баннера). Рассчитывается по формуле:

Есть и другие метрики, например, показатель зарегистрированных пользователей, величина среднего чека, объем выручки, показатель отказов, глубина просмотра страниц и т. д.

3. Формулируем гипотезу

Гипотеза должна содержать: предположение, метрику и ожидаемый результат. Она делится на два взаимоисключающих варианта:

Нулевая гипотеза

Предполагается, что изменения будут неэффективны.

Альтернативная гипотеза

Предполагается, что измененный элемент принесет статистически значимый результат.

Гипотеза должна быть конкретной, например: «Если мы сократим количество полей ввода, то пользователи будут охотнее завершать процесс регистрации и конверсия на странице регистрации вырастет на 3%». Это альтернативная гипотеза, мы стремимся ее подтвердить.

Нулевая гипотеза будет звучать так: «Если мы сократим количество полей ввода, пользователи не начнут активнее регистрироваться и конверсия останется прежней». В ходе тестирования наша цель — опровергнуть это утверждение.

4. Определяем аудиторию

Набор пользователей для тестирования происходит случайным образом. Они делятся на две равные группы (A и B). Важно, чтобы группы пользователей были репрезентативными, то есть соответствовали набору признаков общей группы пользователей сайта.

Например, аудитория нашего сайта составляет 50% мужчин и 50% женщин. Тогда и в группе A, и в группе B процентное соотношение мужчин и женщин должно быть 50/50.

5. Определяем размер выборки

Размер выборки — это общее количество людей, которое будет участвовать в тестировании.

Нужно точно определить этот параметр: если выборка будет слишком маленькой, результаты будут неточными. Если она будет слишком большой, можно потратить на тестирование больше времени, чем было нужно на самом деле.

Для вычислений можно использовать онлайн-калькуляторы:

6. Определяем длительность тестирования

На длительность тестирования влияет размер выборки, определенный на предыдущем этапе. В среднем требуется одна-две недели.

Чтобы рассчитать точную длительность, нужно взять общий размер выборки и разделить его на ежедневный трафик.

Например: размер выборки должен составлять 100 000; ежедневно сайт посещает 10 000 пользователей. Тогда 100 000 / 10 000, и получается, что длительность тестирования составляет 10 дней.

7. Проводим эксперимент

Основные шаги:

Создаем две страницы с двумя вариантами одного элемента (A и B), который будем тестировать. Пользователи будут видеть эти версии в случайном порядке.

Проверять больше одного элемента в одном тестировании нельзя.

Опционально можно провести A/A-тестирование: показать один и тот же вариант двум группам. Результаты должны быть одинаковыми, в обратном случае группы сформированы неправильно.

Можно проверить тест на ошибки через 1-2 дня после запуска.

Ждем достаточное количество времени. Нельзя оценивать результаты раньше срока.

Способы запустить тестирование

Можно провести A/B-тестирование вручную (например, во ВКонтакте или в Яндекс.Директе), с помощью программирования или с помощью специальных инструментов. Последний вариант самый оптимальный. Он сэкономит временные и финансовые ресурсы и даст точный результат.

Таких инструментов довольно много, вот несколько примеров: Яндекс.Аудитории, Optimizely — Experiment, AB Tasty, myTarget (для рекламных объявлений).

Анализ результатов A/B-теста

По окончании тестирования возможны два варианта результатов:

Результат

Вариант (B) с измененным элементом выигрывает: показатели искомой метрики совпадают с ожиданиями; значит гипотеза подтвердилась. Тогда можно использовать это решение.

Результат

Показатели варианта (A), где элемент не был изменен, оказались лучше либо такими же, как у варианта (B) с измененным элементом. В таком случае гипотеза не подтвердилась, вместо нее формулируют и проверяют новую гипотезу.

Расчет статистической значимости

При оценке результатов важно учитывать статистическую значимость. Она отвечает за то, что разница в показателях вариантов A и B не является случайностью или погрешностью.

Высокими уровнями статистической значимости являются 90%, 95% (используется чаще всего) и 99%. Это значит, что только 10%, 5% или 1% из 100 пользователей сделали свой выбор случайно. Таким образом, чем выше процент статистической значимости, тем надежнее результат эксперимента.

Однако рассчитать статистическую значимость самостоятельно довольно сложно. Лучше воспользоваться специальным инструментом. Их много для разных целей, например: Mindbox, Evan’s Awesome A/B Tools — если сравнивали коэффициент конверсии или показатель кликабельности; Яндекс.Директ — если сравнивали стоимость целевого действия.

Важно! Если статистическая значимость для полученных результатов оказалось низкой, нужно повторить тестирование, но увеличить размер выборки.

Причины ложных результатов

Рассмотрим грубые ошибки, из-за которых результаты тестирования могут оказаться недостоверными.

Последовательное тестирование

Происходит, когда варианты A и B выдаются пользователям по очереди, а не одновременно. Например, две недели тестируется вариант A, а следующие две недели — вариант B.

В таком случае на статистику могут сильно повлиять внешние факторы: закончился сезон активных продаж этого товара, началась распродажа, изменился курс валют и т. д.

Недостаточное количество данных

Если тестирование завершить раньше времени, то можно не успеть собрать необходимый объем данных. Это происходит по разным причинам: приближается дедлайн, заканчиваются ресурсы или сотрудник оказался неопытным.

Но в результате выводы будут преждевременными, ведь не все пользователи из выборки приняли участие в тесте.

Неправильные метрики

Если изначально выбрать не те метрики, можно получить неактуальные данные. Метрики должны быть количественными (измеряться в цифрах) и влиять на выручку и прибыль. К таким метрикам относится, например, коэффициент конверсии.

В каких ситуациях A/B-тестирование не подходит

A/B-тестирование не является универсальным методом. Рассмотрим случаи, когда его лучше не использовать:

1. Недостаточный объем трафика

Если нет возможности провести тестирование на статистически значимом размере выборки, лучше вообще его не проводить. Скорее всего в такой ситуации изменения можно вносить экспериментальным путем.

2. Нет исходных данных о метриках

A/B-тестирование проводится, чтобы улучшить уже существующие показатели. Если по каким-то причинам этих данных нет, проводить тестирование бессмысленно.

3. Внесение незначительных изменений

Нет смысла искать нужный оттенок цвета среди 40 вариантов или двигать кнопку на несколько пикселей. Особенно, если вы не работаете над проектом для огромной корпорации. Вы не увеличите прибыль, но зато потратите ресурсы.

4. Слабая гипотеза

Нужно тщательно проанализировать проблему, цель и метрики, чтобы сформулировать гипотезу, которая действительно улучшит показатели. Не нужно проверять заранее нерабочую гипотезу.

5. Уверенность в том, что изменения сработают

Тестирование можно пропустить, если вы понимаете, что изменив какой-то элемент, вы точно улучшите проект, а риски невелики.

Заключение

A/B-тестирование — это метод, который позволяет выбрать более эффективный вариант, опираясь на качественные данные, а не предположения. Данный способ помогает сокращать риски и принимать обоснованные решения. Поэтому он используется во многих сферах: маркетинг, реклама, копирайтинг, аналитика и дизайн.

Чтобы провести A/B-тестирование нужно выбрать цель и метрики, сформулировать гипотезу, определить аудиторию, размер выборки, длительность тестирования и статистическую значимость. Для ускорения процесса можно использовать различные онлайн-калькуляторы и инструменты.

При проведении тестирования очень важно соблюдать срок ожидания результатов (не заканчивать раньше времени), проверять варианты A и B одновременно и выбирать правильные метрики.

Введение Что такое A/B-тестирование Порядок проведения A/B-тестирования Анализ результатов A/B-теста Причины ложных результатов В каких ситуациях A/B-тестирование не подходит Заключение