Zagrożenia testów A/B i badań UX: czas adopcji i inkrementalizm

English version is available on my Medium.

Pewnie znacie tę historię o 40 odcieniach niebieskiego. To eksperyment, który w 2009 roku zorganizowała Marissa Mayer, wówczas szefowa produktu w Google, a dziś CEO Yahoo. Wcześniej Google używało dwóch odcieni koloru niebieskiego dla linków – innego w wyszukiwarce, innego w poczcie. Nie mogąc się zdecydować na tylko jeden z nich, Mayer postanowiła przetestować 41 rodzajów tego koloru. I tak 2,5-procentowa próbka użytkowników wyszukiwarki Google została podzielona na grupy. Każdej grupie Google pokazało linki w innym odcieniu. Po kilku tygodniach wybrano zwycięzcę. Najskuteczniejszy kolor, jak mówiła Mayer, był nieco bliżej fioletu niż zieleni.

Przez kilka następnych lat designerzy używali tego przykładu jako dowodu na to, że Google poszło zbyt daleko w swoim uwielbieniu dla danych. To przecież przesada, żeby testować 40 odcieni niebieskiego. Jednak na początku 2014 roku dyrektor zarządzający brytyjskiego oddziału Google Dan Cobley, ujawnił nieco więcej liczb. I wszystkie kpiące głosy dość szybko ucichły. Okazało się, że ten drobny eksperyment przyniósł gigantowi z Mountain View… dodatkowe 200 mln dolarów rocznie.

Jeszcze raz. 200 mln dolarów. Jak tu nie kochać takich testów?

Dziś Google przeprowadza ponad 7000 testów A/B rocznie. Każdy UX designer wie, że Booking.com robi ich jednocześnie około tysiąca. Testów A/B używają najważniejsi politycy na świecie. Wiemy na przykład, że w kampanii e-mailowej Baracka Obamy, która była w całości oparta o testy A/B, najczęściej otwiarana była wiadomość o tytule „Hey“. Również badania jakościowe przestały być kosztowną ekstrawagancją, a stały się normalnym etapem prac. Jak widać na poniższym wykresie zainteresowanie badaniami UX nieustannie rośnie.

Zainteresowanie frazą "UX research" w czasie

Zainteresowanie frazą "UX research" w czasie

Dobrze pamiętam czasy, gdy rozwój serwisów internetowych bazował głównie na intuicji, przekonaniach, przykładach z książek i utartych praktykach. Gdy nikt nie pytał, czy projektowana zmiana została przetestowana przed jej wdrożeniem. Dziś to byłoby już nieprofesjonalne, szczególnie w dużych organizacjach. Żeby coś zmienić, trzeba pokazać liczby albo chociaż raport z badań jakościowych. Jeśli testy wypadły dobrze – OK, wdrażamy. Jeśli nie – sorry winetou.

Krótko mówiąc zamiast błądzić we mgle, bazujemy na twardych danych. Ale jest pewien haczyk.

Wszyscy jesteśmy bowiem neofitami filozofii data-driven. A neofici są zawsze bezkrytyczni i przymykają oczy na słabości swojego wyznania. I o tym właśnie chciałem dziś opowiedzieć. No to zaczynamy.

***

Nawyk.

Zautomatyzowana czynność nabyta w wyniku częstego powtarzania. To proste słowo ma fundamentalne znaczenie dla każdego projektanta czy product managera. Każdy interfejs jest bowiem siedliskiem takich nawyków. Każdy serwis, aplikacja, produkt internetowy to inkubator tworzący nawyki.

Korzystając z fejsa, na pewno nie zastanawiacie się, gdzie sprawdza się powiadomienia albo jak się pisze nowy post. Widzicie coś ciekawego i chcecie zrobić fotkę telefonem, a potem wrzucić ją na instagram. Banał, a przecież to dość skomplikowany cykl czynności. Niemniej ci, którzy używają instagrama, robią to jednak niemal odruchowo.

Każdy projektant UX wie też doskonale, że istnieją nawyki globalne, które w naszej branży nazywamy konwencjami czy wzorcami projektowymi. To m.in. dzięki nim, w każdym nowym serwisie intuicyjnie szukacie wyszukiwarki w prawym górnym rogu strony, a logotypu w lewym. Krótko mówiąc: nawyki cholernie pomagają w codziennym życiu.

Rozłóżmy więc nawyk na czynniki pierwsze.

O nawykach można myśleć jako o pętlach. Taką wizualizację zaproponował Charles Duhigg w swojej, skądinąd bardzo dobrej, książce “Siła nawyku”. Duhigg pisze, że nawyk, to w kółko powtarzający się cykl: wyzwalacz – zwyczaj – nagroda. Chcę miło spędzić wieczór – to mój wyzwalacz. Piszę smsa do swojej dziewczyny – to mój zwyczaj. Wysyłam i czuję, że uśmiecham się do samego siebie – to nagroda.

Nawyki tworzą się, gdy często powtarzamy jakąś czynność. Jeśli więc często używacie jakiegoś serwisu internetowego, czytacie newsy na ulubionym portalu, sprawdzacie wyniki meczów albo po prostu pogodę na następny dzień – prędzej czy później wykształcicie ich kilkanaście.

Proste. Nic kontrowersyjnego ani odkrywczego.

Zabawa zaczyna się wtedy, kiedy w nawyku następuje jakaś wymuszona zmiana. I tutaj wkraczamy my, ludzie tworzący serwisy internetowe. Każdy z nas – poprzez decyzje projektowe – ma możliwość wpłynięcia na nawyki naszych użytkowników, a konkretnie na główną część pętli nawyku – a więc zwyczaj.

Pozwólcie, że posłużę się przykładem, który pokazywałem podczas kwietniowego UX Poland. Dwa miesiące temu, na stronie głównej Wirtualnej Polski, realizowaliśmy test AB dziewięciu wariantów paska nawigacyjnego. Pokażę Wam trzy z nich. Najczęściej używanym elementem nawigacji – właściwie w każdym portalu – jest link do poczty. Zbiera dziesiątki tysięcy kliknięć każdego dnia. W aktualnym nagłówku ikona poczty znajdowała się zawsze obok wyszukiwarki. Jednak w tych trzech warinatach zmieniliśmy jej lokalizację.

Dotychczasowy nagłówek i wybrane trzy testowane warianty

Dotychczasowy nagłówek i wybrane trzy testowane warianty

I co się okazało? Test pokazał, że ikona, która znalazła się w miejscu zajmowanym wcześniej przez ikonę poczty, a więc obok wyszukiwarki, w każdym z wariantów notowała najwięcej kliknięć. Działała zawsze najlepiej. Co to oznacza? Użytkownicy korzystali z tego elementu „na pamięć“. Klikali w znajome miejsce, nie zauważając nawet, że zmieniła się ikona i podpis pod nią.

Już pewnie widzicie, co tu napotkaliśmy. Nawyk. I zupełnie niechcący na niego wpłynęliśmy, zmieniając standardową lokalizację ikony poczty.

I tu dochodzimy do sedna.

Za każdym razem kiedy chcemy przetestować jakąkolwiek zmianę w serwisie, która wpływa na zmianę nawyku użytkownika, możemy być pewni, że testy nie pomogą nam odpowiedzieć na pytanie, czy to, co chcemy zmienić jest lepsze czy gorsze od poprzedniego rozwiązania. Wyniki testu będą zapewne zaskakujące, ale nie dadzą nam odpowiedzi lub dadzą odpowiedź negatywną.

Tak było w naszym przypadku – nagle okazało się, że w badanych wariantach kliknięcia w ikonę poczty radykalnie spadły. Zastanawiliśmy się, gdzie się podziały te kliki i zauważyliśmy nienaturalne zachowanie ikony obok wyszukiwarki. Wtedy zrozumieliśmy, że nadepnęliśmy nawykom na odcisk.

Moglibyście powiedzieć: wystarczy testować zmianę interfejsu wystarczająco długo. Tak długo, aż użytkownicy zmienią swój nawyk i dopiero wówczas sprawdzić, czy nasza zmiana działa lepiej czy gorzej niż aktualne rozwiązanie.

Niestety, w prawdziwym życiu nie jest tak idealnie. Zeby zrozumieć dlaczego, musimy cofnąć się nieco w czasie.

Pewnie słyszeliście o tym, że aby wytworzyć nowy nawyk lub zmienić istniejący wystarczy 21 dni. Ten mit to wynik błędnej intepretacji badań chirurga plastycznego Maxwella Maltza. W 1960 roku opublikował on książkę „Psycho-Cybernetics„, która rozeszła się w ponad 30 milionach kopii i niemal z miejsca stała się bestsellerem. Maltz opisał w niej, jak pacjenci, u których przeprowadzał poważne operacje plastyczne, np. modyfikację nosa, potrzebowali około 21 dni, żeby przywyknąć do nowego wyglądu.

Maltz pisał: “Zaobserwowane zjawiska pokazują, że potrzeba minimum 21 dni, aby utrwalone wyobrażenie o sobie wygasło, a nowe umocniło się”.

Niedługo potem nastąpił wysyp przeróżnych poradników o tym, jak zmienić dowolny nawyk w swoim życiu w ciągu zaledwie 21 dni. W wypowiedzi Maltza łatwo pominąć jednak istotne słowo: minimum.

W 2009 roku dr Phillippa Lally, zajmująca się psychologią zdrowia na University Collage London, opublikowała wyniki innego eksperymentu. Badała 96 osób, które przez 12 tygodni miały wytworzyć w życiu nowy nawyk. Wyniki?

Rzeczywiście. Ci, którzy chcieli, aby weszło im w krew picie szklanki wody do obiadu, wykształcili ten nawyk w około 20 dni. Ci jednak, którzy wybrali coś trudniejszego – jedzenie owoców do lanczu – potrzebowali już 40 dni. Chcąc wykształcić nawyk 10-minutowego spaceru po śniadaniu, badani potrzebowali 50 dni, a żeby przywyknąć do robienia przysiadów po wypiciu porannej kawy, konieczne okazały się 84 dni.

Wśród badanych przez dr Lally osób, nawyk wykształcał się od 18 do nawet 254 dni. Średnio było to 66 dni. Jednak najważniejszy wniosek dr Lally był taki, że kształtowanie nawyku jest cechą wybitnie osobniczą i nie da się przewidzieć, jak długo potrwa taki proces.

Ale powróćmy do UXa.

Rzeczywiście wykonując test odpowiednio długo bylibyśmy w stanie zniwelować wpływ zmiany nawyku na otrzymane wyniki. Jednak w biznesowej rzeczywistości to kompletna mrzonka. Kto może sobie pozwolić na test pojedynczego elementu, który trwa trzy tygodnie? A co dopiero 66 dni, czyli ponad dwa miesiące. Gdzie time-to-market, gdzie ASAP, gdzie deadline. Zresztą nawet po takim okresie wciąż nie mielibyśmy pewności, że czasu minęło wystarczająco dużo.

I tu zostawmy nawyki, bo to tylko początek problemów z testami i badaniami.

Każda zmiana istotnego elementu interfejsu pociąga za jeszcze jedno ryzyko.

Jeśli kiedykolwiek zajmowaliście się dużym serwisem internetowym, takim z milionami użytkowników, na pewno wiecie, w jaki sposób ludzie reagują na duże zmiany. To, co widać poniżej, to reakcje użytkowników na ostatnie redesigny kilku największych polskich portali, w tym Wirtualnej Polski. Skąd ta fala odrzucenia i złości?

Przykłady pierwszych reakcji na ostatnie redesigny największych polskich portali

Przykłady pierwszych reakcji na ostatnie redesigny największych polskich portali

Winnym jest zjawisko opisane przez psychiatrę Elizabeth Kübler-Ross. Można je uprościć i zwizualizować za pomocą tzw. krzywej zmiany.

***

Krzywa zmiany.

Obrazuje ona, w jaki sposób ludzie reagują na poważne przełomy, rewolucje i zmiany. Ten mechanizm psychologiczny występuje zawsze, choć oczywiście w różnym nasileniu. Z tego powodu model jest szeroko wykorzystywany w biznesie przy zarządzaniu zmianą: gdy następuje zmiana prezesa, gdy przeprowdzane są redukcje zespołu itp.

Uproszczona krzywa zmiany

Uproszczona krzywa zmiany

Kiedy pokazujemy użytkownikom nowy layout ulubionego serwisu albo zmieniamy istotnie sposób jego funkcjonowania, umieszczamy ich na takim samym psychologicznym rollercoasterze. Użytkownicy, szczególnie tzw. hard userzy, stopniowo przechodzą od fazy zaprzeczania i złości aż do akceptacji i zaangażowania, a ich nastawienie do zmiany zmienia się w czasie ze skrajnie negatywnego do pozytywnego.

Nic bardziej ludzkiego.

Lojalni użytkownicy inwestują przecież mnóstwo czasu w nauczenie się aktualnego interfejsu. Świetnie się nim posługują i potrafią błyskawicznie realizować w jego ramach swoje cele. Sprawdzać pocztę, dzielić się zdjęciami, wysyłać smsy czy po prostu czytać artykuły z ulubionej sekcji. Kiedy następuje zmiana, cała ich inwestycja idzie w piach. Potrzebują czasu, aby zrozumieć i docenić udogodnienie, które wprowadziliśmy. Muszą przejść do następnej fazy na krzywej zmiany.

I tu jest pies pogrzebany.

Kiedy bowiem projektujemy dużą zmianę i chcemy ją przebadać, nasi badani znajdują się w jednej z dwóch pierwszych faz.

Testy i badania odbywają się w dwóch pierwszych fazach krzywej zmiany

Testy i badania odbywają się w dwóch pierwszych fazach krzywej zmiany

Ich serwis ma się zmienić. Ich inwestycja ma przepaść. To sprawia, że ich opinie czy zachowanie nie mogą być podstawą do ostatecznej oceny, czy to, co chcemy zrobić jest zmianą na lepsze czy gorsze. Większość badanych, jeśli byli wcześniej użytkownikami naszego produktu, na pewno będzie niezadowlona.

Parę przykładów.

  1. Facebook. Spójrzcie, co parę lat powtarza się ten sam schemat. Każda kolejna poważna zmiana layoutu lub sposobu działania news feedu powoduje bardzo podobną reakcję.
    Reakcje na kolejne zmiany layoutu i działania Facebooka

    Reakcje na kolejne zmiany layoutu i działania Facebooka

    Bunt. Petycje. Żądania powrotu do stanu poprzedniego. Groźby usunięcia konta w serwisie. Użytkownicy, którzy protestowali w 2006 roku po pewnym czasie przyzwyczaili się do nowego news feeda. Gdy Zuckerberg ponownie dokonał zmiany, znów protestowali w 2009. Minęło kilkanaście miesięcy, krzywa zmiany znów zadziałała. Użytkownicy przeszli do fazy akceptacji. Ale Facebook znów się zmienił i w 2011 mamy powtórkę z rozrywki. Tak samo będzie przy następnej zmianie.

  2. Pamiętacie, jak Google wprowadzał nowy mechanizm wyszukiwania, tzw. Instant Search, polegający na tym, że wyniki wyszukiwania pokazują się jednocześnie z wpisywaniem zapytania w polu wyszukiwarki. Użytkownicy protestowali. Oto jeden z tych głosów. Dziś nawet nie zwracamy na ten mechanizm uwagi.
    Przykład reakcji na zmianę sposobu działania wyszukiwarki Google

    Przykład reakcji na zmianę sposobu działania wyszukiwarki Google

  3. Inny przykład. Microsoft. Dobrze pamiętam falę hejtu, jaka rozlała się w internecie, gdy w pakiecie Office gigant z Redmont wprowadził tzw. nawigację wstążkową. Wszyscy protestowali, również ja. Byłem przyzwyczajony do starego interfejsu, znałem go jak własną kieszeń. Jego zmiana sprawiła, że większość moich dotyczasowych przyzwyczajeń poszła w piach. Dziś nie mam z nowym interfejsem żadnego problemu. A nawet go lubię.

    Stary i nowy interfejs pakietu Office

    Stary i nowy interfejs pakietu Office

***

Mechanizm transformacji nawyku i reakcji na zmianę to dwa elementy, składające się na największy problemy testów i badań:

adopcja i inkrementalizm.

Nie zrozumcie mnie źle. Testy A/B to wyśmienite narzędzie do badania zmian interfejsu, które nie modyfikują nawyków użytkowników. Takich, które nie niweczą ich dotychczasowej inwestycji w nauczenie się systemu. To właśnie dzięki takim testom wiemy, że czerwony przycisk działa o 34% lepiej lepiej od zielonego. To dzięki nim wiemy, który z 40 odcieni niebieskiego jest najskuteczniejszym kolorem dla linków.

Czerwony przycisk jest o 34 procent skuteczniejszy od zielonego

Czerwony przycisk jest o 34 procent skuteczniejszy od zielonego

Niestety. Najciekawsze zmiany nie mogą być dobrze zbadane.

W ich przypadku testy i badania są jedynie narzędziem do przewidywania krótkoterminowych ryzyk. Dzięki nim wiemy, jaka będzie pierwsza reakcja użytkowników, ile stracimy odsłon, ile osób będzie rozczarowanych, o ile mniej przychodu wygenerujemy w pierwszych tygodniach po wprowadzeniu zmiany. Nie powiedzą nam jednak zbyt wiele o długoterminowych skutkach. O tym, co się stanie, gdy użytkownicy przejdą do kolejnych etapów na krzywej zmiany: akceptacji i zaangażowania. Będzie lepiej czy gorzej? Testy i badania tego nie pokażą. Pokażą nam zazwyczaj wyłącznie głębokość pierwszego niezadowolenia.

Testy i badania mowia tylko część prawdy. Nie mowią, co jest lepsze, a co gorsze, wdrażaj lub nie wdrażaj. Są czymś w rodzaju pierwszych znaków ostrzegawczych, ale nie dają ostatecznych odpowiedzi. W ocenie długoterminowych skutków jesteśmy zdani sami na siebie.

Na intuicję, wiedzę, doświadczenie, wizję i strategię. To ważne, aby nie deprecjonować tych elmentów w tym data-driven świecie.

Jeśli jesteśmy pewni, że projektowana zmiana poprawi nasz produkt i biznes, nie powinniśmy zawierzać testom, bo sprowadzą nas na manowce tzw. inkrementalizmu. Będą nas dopingować do wprowadzania setek, tysięcy drobnych zmian, z których żadna nie robi radykalnej różnicy, one tylko zoptymalizują nasz interfejs. A w końcu dotrzemy do lokalnego maksimum. Nie będziemy w stanie wycisnąć wiecej z naszego produktu, serwisu, aplikacji. Będziemy potrzebować radykalnej zmiany. A żeby ją przeprowadzić, musimy inaczej spojrzeć na wyniki testów i badań.

“If I’d asked people what they wanted, they would have asked for faster horses”, powiedział kiedyś Henry Ford, gdy zapytano go, dlaczego nie przeprowadza fokusów czy badań.

Podobnego zdania był zawsze Steve Jobs. Dziś nawet firmy takie jak Google, które słyną ze swojego skupienia na danych, zdają sobie sprawę, że intuicja i wizja są równie ważne co inkrementalne optymalizacje.

Scott Huffman, engeneering director w Google, powiedział: „Jest jedna rzecz, o której rozmawiamy bardzo często: w jaki sposób możemy ochronić się przed inkrementalizmem, gdy potrzebujemy większych zmian”. A dalej parafrazował Forda: “Jeśli polegasz zbyt mocno na danych, nigdy się nie rozwiniesz. Co najwyżej będziesz robił coraz lepsze powozy konne”.

To niemal pewne, że w swojej pracy będziecie musieli dokonać kiedyś poważnej, mocnej, rewolucyjnej zmiany. Będzie niezbędna, aby Wasz produkt mógł dalej rosnąć. Taka zmiana to zawsze ryzyko. Nie da się go zbadać. Trzeba je ponieść. Zmierzyć się z problemem adopcji.

No risk, no fun.

***

To był transkrypt prezentacji z konferencji Product Camp 2015.

Ten wpis umieszczono w kategorii badania, prezentacje, projektowanie. Możesz dodać go do zakładek permalink. Dodaj komentarz lub dodaj odpowiedź (trackback): Trackback URL.

Skomentuj

Twój adres email nie zostanie opublikowany i nie będzie rozpowszechniany. Wymagane pola są oznaczone *

*
*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>