Блог Product lab

A/B-тестирование для продакт-менеджеров

OKR Product strategy
Всем привет!

Автор данной статьи рассказывает о том, как A/B-тестирования помогают компаниям оптимизировать их продукты и услуги, при этом экономя ресурсы. В статье вы найдете кейсы успешных A/B-тестов в компаниях Tinder и SpaceX.

Автор статьи - Andrewhon.

A/B-тестирование (также известное как управляемое экспериментирование) используется ведущими технологическими компаниями для создания лучших продуктов. Я проводил A/B-тестирование в Disney Interactive и в Tinder, и популярность A/B-тестирований продолжает набирать обороты в технологической индустрии. Эта статья написана на основе доклада, который я прочитал для начинающих продакт-менеджеров в Product School в 2021 году, в качестве практического введения. 

Данная статье поможет вам понять, почему вы тоже должны проводить A/B-тестирования!

A/В-тестирование в трех пунктах:

  1. A/B-тестирование - это простая идея, которую можно легко применить на практике.
  2. A/B-тесты полезны не только для дополнительной оптимизации - они могут дать глубокое понимание продукта.
  3. За счет быстрого и простого тестирования у A/B-тестов самый высокий ROI (% окупаемости инвестиций) среди всех видов анализа данных.

Фразы «A/B-тестирование» и «управляемое экспериментирование» будут использоваться взаимозаменяемо на протяжении всей этой статьи - примечание автора.

Итак, зачем экспериментировать? Скажем, вам было интересно понять, почему людей кусают акулы. В ходе вашего исследования вы можете столкнуться с поразительной корреляцией между нападениями акул и продажами мороженого:


Ах-ха! Очевидно, что продажа мороженого вызывает нападения акул! У нас даже есть доказательства!

Шутки в сторону, гораздо более вероятно, что эти две тенденции просто взаимосвязаны, а причиной нападений акул является то же самое, что и причиной продаж мороженого - жаркая погода, пик которой приходится на лето, что заставляет людей как купаться в океане, так и есть больше мороженого. Это иллюстрирует ограниченность использования простого корреляционного анализа данных для определения того, почему что-то происходит, а именно причинно-следственной связи. 

Как говорится:

«Корреляция не обязательно подразумевает причинно-следственную связь»

Лучший способ определить причинно-следственную связь — это A/B-тестирование или управляемое экспериментирование, например:

Предоставлено Университетом штата Орегон


Растения слева начали расти так же, как и растения справа, но затем растениям слева был назначен специальный уход. Группа справа не получила такого ухода и осталась в качестве "контрольной" группы. Мы видим различия между группой слева и "контрольной" группой, которые показывают, что уход оказывает эффект на растения. Имея достаточное количество горшков с растениями в каждой группе, называемых "выборками", аналитики могут подсчитать результаты, чтобы точно сказать, насколько велика уверенность в том, что наблюдаемый эффект не является результатом случайного стечения обстоятельств. Именно так управляемое экспериментирование позволяет нам сделать точное утверждение о причине и следствии.

Как насчет реального примера IT-продукта, который люди используют каждый день?


На изображении выше вы можете увидеть три примера иконок кнопок, которые мы тестировали в Tinder в рамках функционала ленты новостей. Мы хотели обновить нашу иконографию с помощью более современного дизайна - средний и правый примеры представляют собой различные версии более современного контурного мотива. Однако в рамках данного эксперимента мы выяснили, что оригинальный дизайн слева показал вовлеченность на 5-8% выше! A/B-тесты проводились на существующем продукте, который миллионы людей используют каждый день, поэтому мы получили реальные данные. A/B-тест показывает нам потенциальную эффективность фич, которые будут предоставлены всей пользовательской базе.

A/B-тестирование не ограничивается простой сменой кнопок. Первый визит пользователя в приложении отлично подходит для проведения обширного тестирования. В Tinder в ходе эксперимента мы обнаружили, что удаление существующей фичи First Time User Experience (FTUE) не повредило пользовательскому опыту (User experience - UX). Это означает, что присутствие фичи не приносило никакой пользы! Затем мы протестировали новый дизайн FTUE, и он улучшил UX для стратегического рынка. Это дало нам два вывода:

  • То, что работало в прошлом, может больше не работать — нужно ставить под сомнение все предположения!
  • Свайп вправо кажется уже чем-то общепринятым для США, но разные когорты могут извлечь большую выгоду из разнообразия

Подвергать сомнению предположения очень важно, особенно если вы заботитесь о расширении аудитории по всему миру. Наша интуиция не идеальна. Мы можем не представлять нашу целевую аудиторию с точки зрения пола, возраста или местности. Tinder - популярное приложение для знакомств, потому что оно привлекает широкий круг людей по всему миру.

«Fail Fast / Быстрый провал» — модная фраза в технологических стартапах. Смысл этой фразы заключается в понимании того, что это был на самом деле не провал, а приобретение ценного опыта. Вот забавный наглядный пример взрыва ракеты:


Дело в том, что SpaceX находился в процессе разработки новой амбициозной ракеты (названной Starship), процесс разработки ракет включал в себя полеты испытательных ракет. Часто их испытания заканчивались взрывами, как мы видим на изображении выше. И все же, несмотря на груду обломков, ниже вы можете посмотреть на реакцию генерального директора Илона Маска в Твиттере [выделено автором]:
Илон Маск не только не расстроился из-за взрыва и обломков (эвфемистически называемых быстрым внеплановым демонтажем), но и был в восторге от результата! В традиционной аэрокосмической отрасли это было бы катастрофой, которая привела бы к слушаниям в Конгрессе. Вместо этого Илону Маску было важнее, чтобы они чему-то научились в ходе этого испытания - получили данные, необходимые для дальнейшего совершенствования ракеты. И они это сделали - через несколько попыток им удалось посадить ракету. Таким образом, вывод:

«Быстрый провал» — это не провал, если вы чему-то научитесь.

В видеоролике на YouTube собраны многочисленные " провалы" (взрывы) предыдущих версий ракеты Falcon 9 компании SpaceX во время ее разработки. SpaceX сама опубликовала эти видео - они не стесняются делиться своими испытаниями и невзгодами. Сейчас, конечно, мы знаем Falcon 9 как первую орбитальную ракету, которая когда-либо приземлялась сама. Falcon 9 добилась огромного успеха в индустрии запусков, снабжая Международную космическую станцию, запуская в космос Tesla, секретные военные грузы и бесчисленные коммерческие спутники.


График от журнала Economist показывает, как SpaceX (темно-синяя полоса) растет и захватывает мировой рынок коммерческих запусков. Путь SpaceX к доминированию стал возможен только потому, что SpaceX не боялась многократно "проваливаться" - испытывать множество своих ракет и допускать их взрывы.

Быстрые провалы также можно проводить с помощью управляемого экспериментирования. A/B-тесты - это не только поэтапная оптимизация. С их помощью могут быть протестированы и совершенно новые продукты. В игровой индустрии потенциальные художественные образы и настройки были выбраны с помощью рекламных fake door тестов (fake door / в переводе “фальшивая дверь” - это метод исследования, который команды разработчиков используют для проверки новых продуктов, функций или услуг. Команда презентует фичу, будто бы она уже полностью разработана, и измеряет количество переходов, таким образом команда понимает. жизнеспособна ли эта фича и стоит ли ее реализовывать. - прим. ред.). Fake door тесты обойдутся в несколько тысяч долларов, что немного, по сравнению с миллионами долларов на разработку полноценной игры.

Игровая индустрия - это многомиллиардная отрасль, больше, чем кино и спорт вместе взятые, и самые успешные игровые студии внимательно относятся к A/B-тестированию и оптимизации.


Эксперимент с пользовательским интерфейсом — обратите внимание на кнопки


В двух разных инициативах с разницей в несколько месяцев была предпринята попытка внести фундаментальные изменения в навигационную схему пользовательского интерфейса Tinder. Первая версия, показанная выше слева, не сработала. В конце концов, наша следующая попытка сработала! Второй раз оказался удачным.

Посмотрим на еще один пример с Tinder. Часто мы получаем такие отзывы: "Почему вы не показываете больше текста в биографии профиля?". Действительно, мы знаем (из эксперимента), что показывать биографический текст - когда он доступен - полезно. Проблема в том, что не все люди заполняют свои биографии. Как мы можем стимулировать пользователей заполнять свою биографию?

Мы провели эксперимент, представив пользователям возможность добавить биографию во время регистрации. Это не помогло. Требование добавить биографию, даже с инструкциями и объяснениями, привело к оттоку пользователей. Наконец, мы обнаружили (в ходе другого эксперимента), что показ большего количества строк биографического текста на профилях по умолчанию вдохновил пользователей на улучшение их собственных биографий. В итоге мы поняли, как простимулировать пользователей добавлять больше биографического текста в профиль.

Самое большое количество неудач, о которых я слышал при тестировании функции, произошло в крупной технологической компании, пытавшейся заставить работать новый интерфейс отображения фотографий. Потребовалось 5 попыток, каждая из которых проходила A/B-тестирование, прежде чем их новая реализация превзошла прежний опыт отображения фотографий. Пятый раз оказался удачным.

Подведем итоги этого раздела: "Если с первого раза не получилось, пробуйте снова!". Большие изменения могут не сработать с первого раза - большинство экспериментов не принесут успеха. Как гласит другая поговорка: "Отсутствие доказательств не является доказательством отсутствия" - если одна попытка реализации идеи не сработала, это не значит, что она никогда не сработает. Тонкости в разработке и реализации или в выборе времени могут иметь огромное значение. Вместо того чтобы вкладывать значительные средства в исследования, многократные циклы проектирования и рисковать параличом анализа, лучше получить отдачу от инвестиций, собирая данные об итерациях в реальном мире, когда вы быстро терпите провали просто тестируете.

В Tinder я являюсь менеджером по продукту для нашей собственной экспериментальной платформы, которую мы называем Phoenix. Наша цель состоит в том, чтобы Phoenix был надежной платформой, которая позволяет быстро и легко настраивать, управлять и завершать A/B-тестирования. Ключевые функциональные области включают в себя:

  • Генерация идей и дизайн
  • Настройка и управление
  • Анализ и выводы

Скриншот коллажа из Phoenix


Мы запустили платформу в 2019 году, и ее использование растет, примерно удваиваясь каждые 12 месяцев. Количество одновременных экспериментов в настоящее время составляет около 400, или около 100, если вы сгруппируете аналогичные эксперименты, которые проверяют одну и ту же особенность или гипотезу. Создание собственной платформы приносит свои выгоды, так как сторонние решения взимают плату за объем, что не очень способствует более активному использованию A/B-тестирования. Наша тесная и гибкая интеграция с другими внутренними сервисами Tinder – еще одно ключевое преимущество. Мы находимся в хорошей компании, поскольку, похоже, каждая крупная потребительская технологическая компания также создала свою собственную платформу для A/B-тестирования.

Говоря о других крупных технологических компаниях, хочу поделиться вдохновляющими цитатами об экспериментировании:

Джефф Безос, Amazon: «Наш успех в Amazon зависит от того, сколько экспериментов мы проводим в год, в месяц, в неделю, в день».

Google: «... Экспериментирование – это практически мантра; мы оцениваем почти каждое изменение, которое потенциально влияет на то, что испытывают наши пользователи».

Netflix: «... Каждое изменение продукта, которое Netflix рассматривает, проходит строгие A/B-тесты, прежде чем стать пользовательским интерфейсом по умолчанию».

Марк Цукерберг, Facebook: "... Главное – это создание компании, которая ориентирована на быстрое обучение... Создание компании похоже на следование научному методу... Мы инвестируем в огромную систему тестирования... В любой момент в мире работает не одна версия Facebook - возможно, работают десятки тысяч версий".

Однако трудно доказать ценность A/B-тестирования на том уровне аналитической строгости, который мы требуем от исследователей. Как говорится в меме:


Иронично. Он мог бы проводить A/B-тесты на других, но не на себе.

Как мечтали многие ученые: если бы мы только могли создавать параллельные вселенные по своей прихоти! Лучшее, что я могу предложить, это корреляционный анализ:


Как вы видите, есть четкая тенденция между количеством одновременных экспериментов (ось x) и доходом в миллиардах долларов (ось y). Tinder попадает в эту полосу, и наша цель - двигаться вверх и вправо!

A/B-тестирование может быть беспроигрышным решением, которое повышает производительность бизнеса и улучшает пользовательский опыт. В Tinder мы провели эксперимент, в котором поощряли вежливость с помощью сообщения «Вы уверены?». Мы вмешивались с помощью подсказки "Отменить сообщение", когда пользователи пытались отправить сообщение, содержащее нецензурную лексику. Результаты были положительными и многочисленными:

  • Меньше сообщений, содержащих нежелательные формулировки
  • Меньше сообщений о домогательствах
  • Отсутствие сокращения вовлеченности пользователей, которым были даны подсказки
  • Функция «Вы уверены?» хорошо принята в прессе

Нелегко создавать строгие и масштабируемые системы экспериментов для требовательных внутренних клиентов, но такой измеримый успех делает усилия значимыми в конце дня.

Напутственный совет для тех, кто только начинает свой путь экспериментирования: Чтобы максимизировать окупаемость инвестиций в разработку продукта на основе данных,

  1. Сконцентрируйте аналитику на наиболее важных KPI и пользовательских параметрах
  2. Сосредоточьте эксперименты на верхней части воронки или там, где происходит важное взаимодействие.
  3. Создавайте MVP — начинайте тестировать на ранней стадии запуска и делайте это часто

Я оставляю вас с этими тремя основными выводами:

  1. A/B-тестирование - это простая идея, которая может быть простой в применении.
  2. A/B-тесты полезны не только для дополнительной оптимизации, но они также могут дать более глубокое понимание.
  3. Провалиться быстро и просто протестировать - A/B-тесты имеют самый высокий ROI среди всех видов деятельности с данными.

Хотите создавать востребованные продукты и продвигать их на рынке с помощью продуктовой методологии, актуальных инструментов и фреймворков?

Тогда можете оставить заявку на наш корпоративный тренинг "Product Management".

Оставить заявку


Также вас могут заинтересовать следующие статьи:




Подписывайтесь на наши соцсети, чтобы не пропускать новые статьи: