Иногда оно врет: пять ошибок A/B-тестирования
14 Мар 2018, 09:31

Иногда оно врет: пять ошибок A/B-тестирования

Когда А/B-тестирование дает ложные результаты и почему гонка за Open Rate может обернуться провалом в продажах

Продолжаем цикл авторских статей о коммуникациях с клиентом через email от эксперта OSDirect Марка Тесля. Сегодня Марк раскрывает тактические и стратегические цели А/B-тестирования и рассказывает, почему важно каждый раз тестировать что-то одно
и почему гонка за Open Rate может обернуться провалом в продажах. 

Ранее Марк предложил инструменты провокации нечитающих письма клиентов: тему, прехедер и Настю из «Ромашки».

Marketing Media Review
Печатное издание MMR — лучший офлайн-канал украинского маркетолога. Обновленный сайт MMR.ua — быстрорастущий проект с исключительной аудиторией профессионалов

A/B-тестирование в коммуникациях

Вики говорит нам, что A/B-тестирование — метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того, чтобы выяснить, какие из изменений улучшают целевой показатель. 

В применении к коммуникациям A/B-тестирование используется с тактическими и стратегическими целями. Стратегические цели — это проверять гипотезы о том, что может влиять на поведение потребителей, постоянно находить инсайты, получать новые знания, накапливать и использовать их в дальнейшем. Тактическая цель всего одна — каждую коммуникацию делать максимально эффективной. 

Пример. У нас 10 000 клиентов и мы хотим проинформировать их об акции «-30% на пылесосы». 

Шаг 1: из всей базы выбираем 10% — 1000 человек. 

Шаг 2: пишем письмо и сочиняем к нему две темы письма — A и B: 

* Тема А: Скидка 30% на все пылесосы — только на этой неделе! 

* Тема B: Только на этой неделе — минус 30% на все пылесосы! 

Шаг 3: делаем рассылку по тестовой группе из 1000 человек: 500 из них отправляем письмо с темой А, 500 — с темой B. 

Шаг 4: через какое-то время оцениваем результат — количество открытых писем для двух тем. 

Шаг 5: по основной базе отправляем письмо с темой-победителем.

Читайте также: три эффективных способа встряхнуть тех, кто не читает ваши имейлы.

Это был пример тактического теста, когда глубоких исследований мы не проводим, а просто хотим, чтобы каждая рассылка имела максимальный Open Rate (и, соответственно, конверсию в продажи). В принципе, из приведенного примера мы также можем почерпнуть тайное «стратегическое» знание — например, что слово «скидка» обеспечивает большую эффективность, если его поставить в начале письма. Но это знание станет таковым, если вы его проверите несколько раз и желательно на различных аудиториях. 

Что такое A/B-тестирование, разобрались. И перейдем к теме статьи — к ошибкам, которые в лучшем случае сводят на нет результаты тестирования, а в худшем — ведут к спаду в продажах или не к знаниям, а к заблуждениям.

А что тестировали-то?

Допустим, вы отправили письмо с двумя темами: 

Тема А: Подарок к каждому комплекту шин — только три дня!

Тема B: Только до 10 июня — насос в подарок! 

Результат: тема А обеспечила Open Rate 20%, тема B — 26%. 

Победитель очевиден, рассылку по основной базе можно делать. Но что именно в этом случае сработало? Срок акции в начале темы, а не в конце? Или конкретная дата вместо количества дней? Или то, что прямо озвучено, что именно даем в подарок? А может, все вместе плюс меньшее количество слов? Неизвестно. 

Чтобы не попадать в такие ситуации, не забываем о правиле: каждый раз тестируем только одно изменение. Иначе просто не поймете, что делать с полученным результатом. Это же правило актуально для любого другого элемента письма: тестируем только что-то одно. Если в макетах письма А и B вы поставите, например, кнопки разного цвета и разные иллюстрации в первом блоке, то не сможете понять, что же именно повлияло на количество кликов.

Читайте также: как промо-акции свести к минимуму и в каких случаях контент может заменять или усиливать промо.

50/50

Возможно, самая очевидная, но и часто встречающаяся ошибка — отправка письма с темами А и B по всей базе, разделенной пополам. Почему это ошибка? Рассмотрим на примере. 

Берем базу 10 000 человек, делим ее пополам и отправляем письмо с темой А и B по двум половинам базы. Получили результат: тема А обеспечила Open Rate 30%, тема B — 35%. Победитель очевиден, но что с этим победителем делать? Все, что в этом случае можно сделать, — выводы на будущее о том, что одно слово в теме работает лучше, чем другое. Но возможность получить максимальную эффективность в продажах от этого конкретного письма уже упущена. Рассылка уже выполнена. Половина базы получила письмо с темой А, повторно отправлять то же письмо с темой B никто уже не будет. Есть только одна причина, по которой A/B-тест имеет смысл делать по всей базе. Это…

…маленькая база

Под словом «маленькая» мы имеем в виду базу такого объема, тестовая группа для которой будет нерепрезентативной, а результаты тестирования — случайными. 

Например: вы получили результаты A/B-теста 35% и 39%. Вторая тема явно победила. Но если размер тестовой выборки составлял, например, по 200 человек, полученный результат может оказаться случайным. Поэтому не удивляйтесь, если после такого теста рассылка по основной базе покажет Open Rate 30% или 40%. 

Что делать? Для начала, проверить, действительно ли база такая уж маленькая, с помощью AA/BB-тестирования. Суть его в том, что тестовая выборка делится не на две, а на четыре части. Две части тестовой базы получают письмо с темой А и две — с темой B. 

AA/BB-тестирование. Результат 1.

Тема A1

Тема A2

Тема B1

Тема B1

Open Rate

30%

32%

37%

36%

Вывод: база не такая уж и маленькая, и A/B-тест показывает корректные результаты. 


В данном случае тема B однозначно победитель. 

AA/BB-тестирование. Результат 2. 

Тема A1

Тема A2

Тема B1

Тема B1

Open Rate

30%

24%

33%

30%

Вывод: результаты тестирования случайны и никакой ценности не имеют. 


В этом случае о «тактическом» A/B-тестировании нужно забыть до того момента, когда объем базы увеличится до приемлемого уровня. А до тех пор А/B-тестирование делать только для получения стратегических результатов — то есть, продолжать при каждой рассылке делить базу на две части и отправлять письма с разными темами, чтобы накапливать знания и использовать в дальнейшем. 

Читайте также: «Что говорят» или «что делают» – какие данные эффективнее использовать для персональных коммуникаций? 

Время между А/B-тестированием и основной рассылкой

Пример: в 8:00 мы провели A/B-тест. Получили результат: Open Rate для темы А — 30%, для темы B — 26%. Таким образом, тему-победителя определили и в 12:00 сделали рассылку письма с темой А по основной базе. Но вместо ожидаемого Open Rate 30% получили 22%. 

Что произошло? Условия, в которых проводился A/B-тест, к 12:00 сильно изменились. Можно сказать, что в 12:00 ваши письма получают уже совсем другие люди. Чтобы такого не случалось, время между A/B-тестом и основной рассылкой должно быть минимальным, не более двух часов. 

Но единого правила — 2 часа или больше/меньше — не существует Какое время должно пройти между тестированием и основной рассылкой, вы должны определить самостоятельно. Главное — найти тот промежуток, за который наберется достаточное количество реакций потребителей на вашу коммуникацию.

Слово «достаточное» имеет здесь решающее значение. Не стоит стремиться к минимальному времени между тестированием и основной рассылкой любой ценой. К чему это может привести? Например, вы определили время для тестирования 20 минут. Тема A набрала 10 открытий, а тема B — 6 открытий. Победитель определен? Нет, результат слишком мал, чтобы делать выводы. Еще через час картина может полностью измениться: тема A может набрать 200 открытий, а тема B — 270. 

Другими словами, слишком маленькое время для оценки результатов тестирования может привести к случайным, ложным результатам, как и маленькая база, о которой упоминалось выше.

Гонка за Open Rate

Посмотрим на пример результатов рассылки одного письма с двумя разными темами.

Open Rate

CTR

Кол-во заказов

Тема A

27%

20%

60

Тема B

55%

7%

5

Что видим? Тема B обеспечила максимальное количество открытий. Но вместе с тем показатель CTR и количество заказов намного меньше по сравнению с аналогичными показателями письма с темой А. Как так могло получиться? Посмотрим, что было в самих темах:

Текст темы

Open Rate

CTR

Кол-во заказов

Тема A

-80% на подгузники

27%

20%

60

Тема B

-80% на то, что ищут все мамочки и почти все папочки!

55%

7%

5

 

Читайте также: формулы эффективных тем писем и принципы тестирования.

Тема B откровенно «желтая», и ее задачей было только максимальное количество открытий. Что будет дальше, автора темы не интересовало. В свою очередь тема A при намного более скромном Open Rate привлекла внимание именно тех, кто действительно готов сделать заказ. 

Пример, конечно, утрированный, но показателен тем, что в гонке за количеством открытых писем важно не только не забывать, зачем мы делаем A/B-тестирование, но и зачем вообще мы столько внимания уделяем темам. Увеличение показателя Open Rate — не самоцель, и гонка за этим показателем может быть опасной. В последнем примере такая гонка может привести к тому, что потребители массово будут отписываться от вас. Не говоря уже об отсутствии заказов. 

Но даже если A/B-тестирование вы делаете без ошибок, это еще не гарантирует высокой конверсии в продажи. Например, может оказаться так, что самый высокий уровень прочтений вы получаете от рассылок, сделанных в понедельник, а максимальный CTR и конверсию в продажи — от рассылок, сделанных во вторник. 

Что делать? Оценивать и анализировать результаты тестирования в комплексе с остальными показателями — CTR и Conversion Rate. И об этом — в следующей статье.

Расскажите друзьям про новость