Testy A/B. Jak to zrobić żeby działało?

Testy A/B. Jak to zrobić żeby działało?

Która wersja newsletter’a “sprzeda” więcej? Test A/B pomoże podjąć właściwą decyzję. Projektując test należy wziąć pod uwagę wielkość próby, zakładaną konwersję, poziom istotności statystycznej oraz czas pomiaru. Dowiedz się na co jeszcze warto zwrócić uwagę planując i przeprowadzając testy? Test A/B – niby proste, ale…

Co to są testy A/B?

Jest to narzędzie pozwalające porównać dwa warianty jakiegoś rozwiązania i ocenić, który z nich wypada lepiej. Testowane mogą być emaile wysyłane do naszych klientów, layout podstrony naszego e-sklepu, tekst przycisku “do kasy”, bannery i pop-upy, czy sposób prezentacji produktów w aplikacji mobilnej. W ten sposób testowane może być wszystko, pod warunkiem zachowania określonych założeń:

  • Mamy wpływ na to, co testujemy (oczywiste: nie ma sensu czegoś testować, jeśli nie będziemy mogli przeprowadzić zmiany sugerowanej po teście).
  • Przygotowaliśmy dla naszych użytkowników dwie wersje pewnego rozwiązania.
  • Poddajemy testowi jeden wybrany aspekt jakiegoś rozwiązania (nie staramy się testować wszystkiego w jednym czasie).
  • Możemy przedstawić każda z wersji porównywalnym grupom użytkowników (bardzo ważne!).
  • Możemy zmierzyć, ilu użytkowników zapoznało się z poszczególnymi wariantami (jeśli testujemy stronę www jest to liczba odsłon danego wariantu strony, w przypadku mailingu mierzymy zazwyczaj otwarcia e-maili).
  • Możemy zmierzyć ilu zareagowało w pożądany przez nas sposób (różnie zdefiniowane w zależności od celu działania marketingowego: mogą to być kliknięcia w link, polubienia, dodanie produktu do koszyka, dokonanie zakupu czy ocena produktu po zakupie).
  • Akceptujemy, że test A/B to tylko narzędzie, które pomaga nam w pracy, ale nie zwalnia nas z podjęcia ostatecznej decyzji.

Obraz 1. Przykład wiadomości przygotowanej do testu A/B, która różni się jednym szczegółem.

5

Sytuacja, która często występuje, jest testowanie wariantów mailingu. Na platformie edrone wybieramy ENGAGEMENTS -> NEWSLETTER A/B (zobacz Obraz 1). Tworzymy nowa kampanię lub wybieramy wcześniej zapisaną. W sekcji ADJUST wybieramy odsetek odbiorców, do których zostanie wysłany wariant A i B. W sekcji DESIGN definiujemy szablon wiadomości – osobno dla wariantu A i B. Dalej postępujemy,  jak w przypadku zwykłego newslettera –  określamy  nadawcę, ewentualne kupony i grupę docelową (audience).

Obraz 2. Mission Control Panel w edrone.

6

Wielkość ma znaczenie

Otwieralność przeciętnego newslettera – a więc odsetek klientów, którzy się z nim zapoznają, to około 10%. Ponadto z naszego doświadczenia wynika, że 75% użytkowników, spośród tych, którzy zareagowali na maila (otworzyli wiadomość i/lub kliknęli w link w wiadomości) zrobiło to w ciągu pierwszych 24 h po wysyłce. Pozostałe 25% otworzyło maila nawet do kilku dni po dokonaniu wysyłki (zobacz Wykres 1).

Wykres 1. Poglądowa liczba otwarć maili w pierwszych 24h. 

10

Wyraźnie widać największą ilość odtworzeń newslettera w dniu wysyłki oraz na drugi dzień. Wiadomość powitalna jest otwierana od razu albo wcale.

Z powyższego wynikają dwa bardzo ważne wnioski:

  • test powinien trwać jedną dobę  – nie warto czekać dłużej,
  • 10% * 75% = 7.5% – takiego odseteka otwarć newslettera możemy się spodziewać na drugi dzień.

Kiedy wykonujemy test, określamy w procentach, do jakiej części bazy wysyłkowej zostanie wysłany test. Aby oszacować, jaka ilość e-maili skierowanych do testu zostanie otwarta do momentu zakończenia testu, zakładane 7.5% odpowiedzi uzyskanych po 24h należy przemnożyć przez odsetek newsletterów skierowanych do testu oraz przez wielkość naszej bazy do wysyłki. Załóżmy, że nasza baza zawiera 100 tys. e-maili. W ADJUST -> “Determine the percentage of recipients” ustawimy przykładowo 10% na A i 10% na B (zawsze najbezpieczniej jest testować taką samą liczbę w wariancie A co w wariancie B). Do testów pójdzie: 10% * 100 tys. = 10 tys. maili w wariancie A i tyle samo w wariancie B. Łącznie wyślemy 20 tys. maili.  Z tego po 24h możemy spodziewać się 750 otwarć maili w wariancie A i tyle samo w wariancie B (1500 łącznie w obu grupach testowych).
Czy obliczona przez nas liczba maili, która wywołuje określone reakcje odbiorców, wystarczy by przesądzić o wyniku testu?

Trochę statystyki i człowiek się gubi

Natomiast nie dzieje się to w przypadku stosowania systemu edrone. Chcemy odpowiedzieć na pytanie, jaką liczbę maili powinniśmy wysłać w fazie testu, aby nasz test mógł zakończyć się rozstrzygnięciem, czyli określeniem, który z wariantów – A czy B – jest lepszy. Warto poznać kilka pojęć z zakresu statystyki. Bez obawy – to nie jest trudne.

Na przykładzie rzutu monetą omówimy zarówno pojęcie testu statystycznego jak i wielkości próby potrzebnej do jego przeprowadzenia. Zacznijmy od samego testu statystycznego.

Po pierwsze: jak działa test statystyczny? Załóżmy, że chcemy sprawdzić, czy moneta jest oszukana czy nie. Planujemy eksperyment, np. umawiamy się, ze rzucimy moneta 10 razy. Policzymy ile razy wypadła reszka, a ile razy orzeł. W kolejnym kroku obliczymy prawdopodobieństwo naszego wyniku, takiego jaki uzyskaliśmy w eksperymencie, przy założeniu, że moneta nie była oszukana. Założenie, ze moneta nie jest oszukana, nazywa sie hipotezą 0 [czytaj “hipotezą zerową”]. Obliczone prawdopodobieństwo porównamy z pewną umowną liczba mówiąca nam, jak bardzo nieprawdopodobny musi być wynik naszego eksperymentu, żeby uznać, ze moneta jest jednak oszukana. Wtedy mówimy, ze odrzucamy hipotezę 0 na rzecz tzw. hipotezy alternatywnej: moneta jest oszukana.

Po drugie: istotność statystyczna – to właśnie ta liczba, która mówi nam, jak nieprawdopodobny musi być wynik naszego eksperymentu, żeby odrzucić hipotezę 0 na rzecz alternatywnej. Z drugiej strony oznacza to odsetek przypadków, w którym omyłkowo uznamy, ze moneta jest oszukana (hipoteza alternatywna), kiedy tak naprawdę nie jest oszukana (hipoteza 0). Zwykle jest to 5%.

Po trzecie: moc testu – jest to liczba, która określa, jak często wykryjemy oszukana monetę, przy założeniu, że rzeczywiście jest ona oszukana. Zwyczajowo jest to 80%.

Zarówno liczbę prób (rzutów monetą), istotność statystyczna jak i moc testu ustalamy przed wykonaniem eksperymentu!

Przykład z monetą: zaplanowaliśmy 10 prób, umówiliśmy się też na określony poziom istotności statystycznej. W wyniku eksperymentu uzyskaliśmy 3 reszki na 10 rzutów. Co możemy powiedzieć o takiej monecie? Jeśli moneta nie jest oszukana (hipoteza 0), to taki wynik zdarza się w 12% przypadków. Wcześniej ustaliliśmy istotność statystyczną na poziomie 5%, a więc wartość mniejszą. Oznacza to, że nie możemy odrzucić hipotezy 0 (moneta nie oszukana) – a wiec uznajemy, ze moneta nie jest oszukana. Gdyby jednak w wyniku doświadczenia wypadły nam tylko 2 reszki w 10 próbach, obliczylibyśmy że prawdopodobieństwo takiego wyniku dla nie oszukanej monety to tylko  4% i hipotezę 0 odrzucili na rzecz alternatywnej: moneta jest oszukana.

Należy dodać, że zazwyczaj zależy nam na odrzuceniu hipotezy 0, bo to oznacza wystąpienie efektu (np. rożnicy maili w teście A/B). Dlatego inaczej niż w realnym życiu będziemy się cieszyć, gdy wykażemy, ze nasza moneta jest oszukana.  
Nauczyliśmy się już przeprowadzać testy statystyczne, dlatego wróćmy do naszego początkowego pytania. Jak duża musi być próba (ile razy rzucić monetą), żeby na poziomie istotności statystycznej móc określić, czy moneta jest oszukana, czy nie. Wszystko zależy od tego, jak bardzo chcemy być dokładni. Co innego oznacza umiejętność wykrycia oszukanej monety, która w 99% daje reszki, a w 1% orły, a co innego monety, która w 60% daje reszki i w 40% orły. W pierwszym wypadku wystarczy 16 prób, żeby w 95% eksperymentów uzyskać wynik istotny statystycznie (czyli mówiący o odrzuceniu hipotezy 0), zaś w drugim aż 369.

Zanim powiesz RUN TEST A/B

Wróćmy do testów A/B. Najpierw chcemy określić, ile maili zaplanować do wysyłki. Posłużmy się kalkulatorem ze strony (zobacz Obraz 2).

Obraz 3. Kalkulator wielkości próby w teście A/B.

7 tset A B (1)

 

Źródło: Source: Evanmiller.org, Evan’s Awesome A/B Tools, 7 Nov. 2016, źródło TUTAJ.

Oto jak z niego korzystać:

  • Podobnie jak w przykładzie z monetą, gdzie wielkość próby zależała od tego, czy mamy monetę dla której wypadają w 99% orły a 1% reszki czy  60% / 40%, również tu musimy ustalić założenie co do spodziewanego efektu – w naszym przypadku jest to konwersja (oglądanie produktów, dodanie do koszyka – w zależności, co chcemy mierzyć). W polu “Baseline conversion rate” wprowadzamy spodziewaną konwersję, do jakiej porównywane będą nasze warianty. Skąd wziąć tą wartość? Najlepiej na podstawie poprzednich newsletterów lub opracowań w prasie branżowej. My proponujemy ustawić 10%, które jest przeciętną wartością konwersji dla naszych klientów.   
  • W “Minimum Detectable Effect” podajemy precyzję, z jaka nasz test będzie mógł wskazać, że wersje testowe A/B (ang. “variation”) różnią się od poziomu bazowego. Jeśli w poprzednim punkcie wybraliśmy poziom bazowy równy 10%, a “Minimum Detectable Effect” ustawimy na równe 2%, to jeśli prawdziwa konwersja w wariancie A będzie równa 10%:  
    • to jeśli w wariancie B prawdziwa konwersja będzie niższa niż 8% lub wyższa niż 12% to będziemy mogli wykryć te różnice naszym testem w 80% przypadków (80% to moc testu). Inaczej mówiąc, nasz test wykryje różnice większe niż 2% z 80% skutecznością, przy założeniu, że średnia konwersja będzie w okolicach 10%.
    • jeśli w wariancie B prawdziwa konwersja będzie w zakresie 8-12%, to nasz test nie wykryje takiej różnicy i nie pozwoli odrzucić hipotezy 0, że dany wariant jest różny od konwersji bazowej.
    • istnieje możliwość, że hipoteza B może mieć 10% konwersje, a to A bedzie roznić sie lub nie roznic sie o +/- 2% lub wiecej od niej – sytuacja jest w pełni symetryczna.
  • “Significance level α” to omawiany przez nas poziom istotności (ustawiony na zwyczajowo 5%) – najlepiej zostawić domyślna wartość.
  • przełącznik “Absolute” / “Relative” określa, czy używamy procentów czy punktów procentowych (najlepiej zostawić “Absolute”)
  • Statistical power 1−β” to moc testu (zwyczajowo 80%) –  rownież najlepiej zostawić domyślna wartość.

Z kalkulatora odczytujemy wartość 1629 per wariant testu. W przykładzie, który przedstawiliśmy na początku artykułu, wysłaliśmy 10 tys. maili per wariant i obliczyliśmy, że spodziewamy się po 750 otwarć maili na wariant po upływie 24h. Jeśli nasz test dotyczył konwersji z otwarcia do np. dokonania zakupu, które zachodzi średnio z 10% konwersja, to należałoby wysłać około 2 razy więcej maili!

W tym miejscu może pojawić się pytanie, czemu porównujemy konwersje do poziomu bazowego, a nie obie wersje do siebie. Na razie nie sprawdzamy jeszcze wyniku testu. Opisywany kalkulator służy do obliczenia wielkości próby i wartość “Baseline conversion rate” można traktować jako średnią wartość konwersji wersji A i B (która w momencie testu nie jest znana, ale polegamy na swoim doświadczeniu lub wiedzy ekspertów edrone).

Co się stanie, jeśli pomylimy się w naszym założeniu co do konwersji bazowej?  Załóżmy, że prawdziwa wartość konwersji A wynosi 15% a B równa się 17%. Średnia konwersja z obu wersji wyniesie 16%, a różnica 1%. Kalkulator wskaże wtedy potrzebną próbe per wariant równą 5352. Jeśli wysłaliśmy zgodnie z naszymi założeniami tylko 1629 maili per wariant, to oznacza, że nasza precyzja będzie zbyt niska, by z 80% była szansa wykryć różnice między A i B. Z drugiej strony należy odpowiedzieć sobie na pytanie, czy potrzebujemy aż takiej dokładności? Jeśli wersje różnią się zaledwie 2% w konwersji, przy średnim poziomie 16%, to raczej nie ma dużego znaczenia, którą wersję ostatecznie wyślemy.

Zwycięzca zwycięzcy nie równy

Dochodzimy do sedna sprawy. Kiedy już zaplanowaliśmy z edrone do jakiego odsetka bazy wyślemy newsletter, pora na wysyłkę i wyniki. Wyniki zbierają się w zakładce A/B summary. Poniżej wynik prawdziwej wysyłki, którą przeprowadziliśmy z naszego systemu:

Obraz 3. Wyniki testu A/B.

8

Patrząc tylko na same liczby możemy pomyśleć, że kreacja A wygrywa względem kreacji B. Kiedy jednak wyniki wprowadzimy do kalkulatora wyników okazuje się, że różnica nie jest istotna statystycznie (zobacz Obraz 4).

Obraz 4. Ocena istotności statystycznej różnicy między testem A i B dla liczby otwartych maili.

9

Źródło: Evanmiller.org, Evan’s Awesome A/B Tools, 7 Nov. 2016, źródło TUTAJ.

Wynik ten nie powinien dziwić, jeśli powiemy że w omawianym przykładzie testowane były… te same wersje wiadomości!

Na co jeszcze zwracać uwagę?

  1. Niektóre systemy marketingowe służące do testów A/B sprawdzają który wariant jest lepszy nie jeden raz, po zakończeniu ustalonego czasu (np. po 24 godzinach), ale wielokrotnie, np. co pół godziny. Jeśli test pokazuje, że różnica między A i B jest istotna statystycznie, to przerywają test A/B. Jest to błędne postępowanie! Każde wykonanie testu jest związane z określonym błędem wynikającym z ustalonego  poziomu istotności i mocy testu. Jeśli test wykonujemy wiele razy, do momentu, kiedy uzyskamy wynik istotny statystycznie, to za każdym razem wprowadzamy błąd, który z testu na test się sumuje. Można to przyrównać do sytuacji, kiedy chcielibyśmy udowodnić, że mamy monetę, dla której w 30% wypada orzeł, a w 70% reszka. Test wykonywaliśmy rzucając monetą i zapisując liczbę orłów i reszek, która wypadła do tego momentu. Kontynuowalibyśmy go tak długo, aż rzeczywiście średnia ze wszystkich rzutów wyniosłaby 30% orłów i 70% reszek. Oczywiście takie postępowanie nie ma sensu. Nawet jeśli moneta nie byłaby oszukana (charakteryzowałaby się 50% szansą, że wypadnie orzeł i 50% szansą na reszkę), to przy odpowiedniej liczbie prób mogłoby się zdarzyć, że rzuty ułożyłyby się w 30% orłów i 70% reszek. Samo sprawdzanie istotności testu bez decydowania na tej podstawie, czy go przerwać czy kontynuować, nie jest błędne, ale jest stratą czasu, ponieważ wiedzy o wyniku testu nie moglibyśmy wykorzystać (jeśli nie chcemy popełnić błędu).
  2. W przypadku mailingu audience jest ograniczone. Nieco inaczej jest w przypadku testowania np. landing page, kiedy nowi użytkownicy ciągle napływają. Gdy raz wyślemy mailing, nie możemy dodać nowych odbiorców. To oznacza, że przed wysyłką trzeba zrobić kalkulację, ilu użytkowników otworzy naszego maila i czy ta ilość wystarczy do oceny wersji testowych.
  3. Plan marketingowy przewiduje zazwyczaj wysyłanie wielu newsletterów w tygodniu. Powtarzanie testu który nie zakończył się rozstrzygnięciem może być strata czasu. Nie może nam to wstrzymywać dalszych działań marketingowych. Zdecydowanie lepiej zakończyć test po 24h i niezależnie od rezultatu przeprowadzić wysyłkę. Jesli test nie zakonczyl sie istotnoscią statystyczną, zdecydujmy na bazie doświadczenia lub intuicji – często są one najlepszym doradcą!
  4. Tym bardziej, że newslettery zwykle są projektowane z myślą o konkretnym terminie wysyłki (np na święta). Lepiej wysłać nieco gorszy newsletter, ale na czas.
  5. Z drugiej strony oprzyjmy się pokusie przerwania testu zbyt wcześnie – jeśli ustalimy sobie 24h na test (czas sugerowany przez nas) – to dokonajmy oceny właśnie po takim czasie.

Jak się w tym nie zagubić?

Jak się przekonaliśmy, testy A/B to obszerny temat. Dobra wiadomość jest taka, że nie musisz wszystkiego pamiętać, ponieważ system edrone poprowadzi Cię “za rękę”. Co więcej, algorytm edrone zawsze wskaże zwycięzcę testu, a co więcej, każdorazowo sprawdzi, czy wersje A/B różnią się statystycznie i poinformuje o tym użytkownika. Jeśli nie ma różnicy, lepiej zdać się na własne doświadczenie lub rekomendacje sprawdzonego i skutecznego systemu.

Zapisz się na WEBINAR

Maciej Mozolewski

Maciej Mozolewski

view all post
  • Michał Blak

    This is the way we count the winning creation:
    (% OPENS x1) + (% CLICKS x1) + (% ORDERS x5) + (% REVENUE x10) – (% UNSUBSCIBED x5)

By Daniele Zedda • 18 February

← PREV POST

By Daniele Zedda • 18 February

NEXT POST → 34
Share on