The measure of reality in A/B-testing

Gastauteur

Je kent het wel: je bent op een evenement over online communicatie en het onderwerp A/B-testing komt aan bod. Er wordt verteld waarom de vrouw met het blonde haar vaker geklikt heeft dan de vrouw met het donkere haar, of waarom de gele button veel beter scoort dan de rode variant. Als online marketeer en communicatie-expert plaats ik hier enkele kritische kanttekeningen bij.

Algemene conclusies

Aan deze en andere testresultaten worden al snel algemene conclusies verbonden. Bijvoorbeeld ‘Vrouwen met blond haar met gele buttons scoren beter dan brunettes met rode buttons’. Een hogere waarheid is gevonden, wordt omarmd, gedeeld en haast tot profetie uitgeroepen. “Waarom is nooit eerder iemand tot zulke inzichten gekomen?” en “laten we vanaf nu alle campagnes op deze manier inrichten, want uit deze resultaten blijkt duidelijk dat we hierdoor een hoger rendement halen” zijn enkele kreten die ik in deze context vaak hoor.

Een nieuwe pseudowetenschap

Deze conclusies komen op mij soms over alsof wij onszelf een nieuwe pseudowetenschap eigen aan het maken zijn. En dat kan nooit goed zijn. Want laten we wel wezen: is het überhaupt mogelijk dergelijke kwantificeerbare uitspraken te doen over een groep mensen? Kan ik zeggen dat wanneer 60% van de mensen klikt op een gele button en 40% op een rode, dit betekent dat de rode button zonder meer heeft afgedaan? Zien we dan niet iets over het hoofd?

Voorbeeld: mensen tekort doen met chocolade

Laten we voor de grap de gele button eens vergelijken met een schaal chocolaatjes en de rode met een mand fruit die midden op een tafel staan. Er omheen zit een groep van twintig mensen. Van deze twintig mensen pakken er twaalf zonder meer een chocolaatje en acht altijd een stuk fruit. Conform de regels van A/B-testing zou ik dan de conclusie trekken dat de chocolaatjes beter gewaardeerd worden.

Bij een volgende sessie met dezelfde groep mensen zou ik – wederom volgens die regels – beter twee schalen chocolaatjes op tafel kunnen zetten. Dan doe ik echter acht mensen tekort. Deze personen hebben immers liever fruit en doe ik absoluut geen plezier met chocolade.

Is communicatie altijd kwantificeerbaar?

Naar aanleiding van bovenstaand voorbeeld wil ik voorstellen voor eens en voor altijd af te stappen van de gedachte dat in online communicatie altijd alles maar kwantificeerbaar moet zijn. We moeten er juist naar streven die diepere laag in communicatie aan te boren: op individueel niveau de juiste boodschap bij de juiste persoon pogen te brengen. Weg met de nietszeggende metadata, op naar specifiekere persoonlijke data!

Laten we die persoon die meer om blonde vrouwen geeft, een blonde vrouw voorschotelen. En als hij of zij daarbij liever een rode button heeft, dan plaatsen we die. Gezien de razendsnelle technologische ontwikkelingen waarin big data steeds belangrijker worden en het steeds beter mogelijk is om tot op individueel niveau een uiting in te richten, is specifiekere persoonlijke data voor de digitale communicatie een absolute must.

Voorspelbaarheid van gedrag

Mis ik dan nog iets? Ja. Want hoewel je op basis van het verleden natuurlijk een gefundeerde uitspraak kunt doen over iemands gedrag in de toekomst, betekent dit niet automatisch dat het voorspelde gedrag daadwerkelijk uit zal komen. Als ik gisteren een chocolaatje heb gepakt en vandaag weer, wie zegt dan dat ik morgen weer voor chocolade kies? Misschien heb ik wel meer trek in fruit. Dit maakt het nog complexer om daadwerkelijk in te spelen op de behoefte die ik mogelijkerwijs heb.

Natuurlijk kun je aan de hand van verschillende tests bepalen wat mijn gedrag waarschijnlijk zal zijn. Misschien is een patroon te ontwaren waarin ik na driemaal een chocolaatje te hebben gekozen altijd voor fruit kies. Of misschien kies ik na twee klikken op een blonde vrouw wel standaard de derde keer voor een brunette. Of misschien niet. Is dit erg? Nee. Wellicht moeten wij als marketeer op voorhand accepteren dat kwantificeren nu eenmaal onderdeel van het werk is dat wij doen. Maar laten we wel wezen: hoe meer we deze ‘measure of reality’ kunnen uitfilteren, hoe beter het is.

Lees 6 reacties

Over de auteur

Gastauteur Op verzoek van de auteur hebben we besloten dit artikel anoniem te plaatsen. Naam en achtergrond van de auteur zijn bekend bij de redactie.

138 artikelen Meer over Gastauteur

Reacties (6)

Reactie annuleren

Jaap

8 december 2012 om 21:58

De auteur lijkt niet te weten wat überhaupt een A/B-test is. Bij een A/B-test worden gebruikers niet twee opties (bv zowel een gele als een rode knop) voorgeschoteld; de populatie wordt juist in twee groepen verdeeld, waarbij groep A alleen een gele knop krijgt en groep B alleen een rode. Dat is dus totaal iets anders!

En met persoonlijke voorkeur heeft het dus niks te maken! Als groep A nou veel vaker klikt, dan weet je dat gele knoppen beter werken. Want al houden sommige mensen van rood of geel, daarvan zitten er ongeveer evenveel in zowel groep A als B. Met een eenvoudige statistische significantie-toets kun je uitsluiten dat er toevallig meer liefhebbers van geel in groep A of B zaten.

Bovendien zit er veel overlap. Van de mensen die klikken zijn er veel die toch wel hadden geklikt, ongeacht de kleur. Als geel vaker wordt geklikt dan rood, en je gaat voortaan alleen gele knoppen gebruiken, dan mis je misschien een paar mensen die alleen hadden geklikt als de knop rood was. Maar dit is redelijk onwaarschijnlijk. Sowieso is het punt dat je vooraf niet weet welke voorkeur mensen zouden hebben. En er is wel wat op af te dingen op die resultaten (misschien klikken mensen in de ochtend wel vaker rood oid), maar dat staat hier eigenlijk los van.

0 likes

reageer
Ewout Rutgers

9 december 2012 om 11:15

Beste Jaap,

Bedankt voor je feedback. Ik zal op wat duidelijkheid scheppen.

In de eerste plaats weet ik prima hoe A/B-tests werken. In de voorbeelden die ik aanhaal, heb ik de werkelijkheid wat vereenvoudigd om mijn punt duidelijker te maken. Eigenlijk heb je als persoon die een A/B-test ondergaat natuurlijk nooit tegelijkertijd de keuze uit chocolade of fruit.

Voor mijn conclusie maakt dit evenwel niets uit. Een algemene uitspraak doen over gedrag is in mijn optiek per definitie nauwelijks haalbaar. Ook binnen een testpopulatie doe je immers altijd de minderheid tekort.

Je kunt nog tegenwerpen dat gedrag voorspellen inderdaad lastig is, en dat je daarom altijd moet blijven doortesten. Ook daarover ben ik sceptisch. Want als je altijd maar blijft testen om ‘de waarheid’ te achterhalen, bestaat deze dan wel?

Met vriendelijke groeten,
De auteur

0 likes

reageer
Jaap

9 december 2012 om 21:28

Het artikel gaat getuige de titel over A/B-testing. Uit A/B-tests zouden verkeerde conclusies worden getrokken. Er worden drie voorbeelden gegeven van factoren die gemeten worden (kleur van knoppen, haarkleur en fruit vs. chocola), maar géén van die voorbeelden gaat over A/B-tests! Gewoon echt helemaal niet. Het doel van een A/B-test is ook helemaal niet om gedrag te voorspellen of persoonlijke voorkeuren te achterhalen. Personalisering van communicatie staat er gewoon totaal los van.
Nu is er echt wel reden voor een pleidooi om conclusies uit A/B-tests niet verkeerd te interpreteren. Dat is een kwestie van begrijpen wat je meet – en een meting is het toetsten van een hypothese. Maar als je niet weet wat het experiment is, wat het doel ervan is, wat de hypothese is, en welke variabelen worden gemeten – waarvan sprake is in dit artikel – kun je niet komen aanzetten met de roep om beter om te springen met de resultaten van zo’n onderzoek.

0 likes

reageer
Wouter Veenboer

10 december 2012 om 0:21

Hoi Ewout, leuk om te lezen over hoe ervaart dat er met A/B testen omgegaan wordt. Ik ben het helemaal met je eens dat het trekken van generieke conclusies iets is waar testen niet voor bedoeld is. Als mensen dat op congressen dat als zodanig presenteren is dat naar mijn mening inderdaad wel iets om kanttekeningen bij te plaatsen. Ik denk dat wij andere evenementen hebben bezocht 😉

Ik had je artikel beter gevonden als je een beter voorbeeld had gekozen om je punt te illustreren en als je ook even stilgestaan bij hoe testen je wel kan helpen om je resultaten te verbeteren.

Je voorbeeld (chocolade vs fruit) is in mijn ogen wel een beetje een kromme vergelijking met een A/B test. Ik begrijp dat je de boel wat wil simplificeren, maar de Frankwatching lezer is niet dom en eigenlijk vind ik dat net zo kort door de bocht als het trekken van algemene conclusies uit testen. Want in een A/B test gaat het niet tussen twee producten, niet onder een kleine groep en we laten deze groep ook niet kiezen tussen twee producten. Nee, we testen onder een grote groep mensen of het beter werkt als we een product/pagina/propositie op een andere manier presenteren. Een betere illustratie binnen jouw thema (chocolaatjes) was in mijn ogen geweest: We presenteren chocolaatjes op 2 manieren: op een schaaltje of in een doosje. Groep 1 (20.000 personen) krijgt de producten op een schaaltje te zien en groep 2 van (20.000 personen) krijgt de producten in de doos te zien. Het product op het schaaltje wordt door 4% gekocht en bij presentatie in de doos koopt 8% van de mensen het product. Na een dergelijke test kunnen we de conclusie trekken dat in deze situatie het aanbieden van de chocolaatjes in een doos tot betere verkoopresultaten leidt. We doen hier niemand mee te kort, maar we hebben wel op basis van gedegen onderzoek aangetoond dat het anders presenteren van het product leidt tot een stijging van de verkopen.

Daarnaast had ik het leuk gevonden als je ook even kort had stilgestaan bij de ongelooflijk grote toegevoegde waarde die testen juist wel heeft. Want we kunnen er inderdaad geen gedrag mee voorspellen of generieke learings er uit halen, maar het is een bewezen en veel gebruikt instrument om conversie mee te verbeteren. In tegenstelling tot de pseudowetenschap die je schetst, zie ik veel mensen om me heen die met zeer degelijk testen mooie verbeteringen in conversie aantonen.

Op http://whichtestwon.com/ staan regelmatig leuke voorbeelden van aardige A/B testresultaten.

0 likes

reageer
Jordie van Rijn

10 december 2012 om 12:21

Beste Ewout, de analogie die je presenteert (chocola vs fruit) klopt niet. Op de punten die Jaap en Wouter aanhalen (te kleine groep, keuze tussen twee producten) maar ook op ander cruciale punten komt het niet overeen met een A/B test.
Voor een simpele analogie hoeft het ook niet helemaal te kloppen, maar in ieder geval wel de basis. Want anders hebben we niet te maken met een pseudowetenschap van het veralgemeniseren waar je zelf tegen bent, maar met drogredenering op basis van een valse analogie die je stiekem zelf gebruikt:

Een super interessante en amusante post op wikipedia hierover, zeer aan te bevelen om eens door te lezen en bij te houden welke drogredenen je collega’s bijvoorbeeld vaak gebruiken. 🙂 (http://nl.wikipedia.org/wiki/Drogreden#Argumentum_ad_ignorantiam_.28argument_van_de_onwetendheid.29)

Hier nog drie lessen uit de analogie:

* Bij testen moet je altijd een doel en parameters stellen
In het voorbeeld id de 20 mensen. 12 een chocolaatje nemen en 8 een stuk fruit. 12+8 = 20. Een 100% conversie iedereen kiest iets. Indien er geen andere doelstellingen of voorwaarden zijn en het doel is dat iedereen 1 product kiest, dan is die opstelling dus perfect en hoeft er niets veranderd te worden!
In een echte test, zijn die voorwaarden er wel. Wil je winst maximaliseren en zit er op het fruit een hogere winstmarge, dan kan fruit zelf de winnaar zijn terwijl er minder van wordt verkocht.

* Groepsdynamiek en social proof kun je ook testen
In deze opstelling is er sprake van groepsdynamiek, als de eerste persoon een chocolaatje pakt (en misschien ook wel aan iemand anders aanbiedt) is de uitkomst wellicht totaal anders dan als de eerste persoon een stuk fruit pakt. Deze zie je normaliter op een website niet. Maar je kunt wel kijken of social proof effect heeft. Probeer een test met naast de producten “X personen liken dit”, “een score van 8.0 op Zoover” of een testimonal ernaast.
* Houdt rekening met andere variabelen of sluit ze uit
Veel andere variabelen zijn in het voorbeeld ook ongelijk. Zoals de plaats van de chocolaatjes versus het fruit (lees bijvoorbeeld plek op de website). Als de chocolaatjes dichterbij staan, worden daar wellicht meer van gepakt. Als je die variabele ook wil testen, moet je de test nogmaals herhalen met een andere goep en de plaats omwisselen zodat er een multi-variate test ontstaat. Dan ben je overigens nog steeds de combinatie aan het testen en niet het ene of het andere.

PS: Goed dat iemand het punt weer even op de agenda zet, ik hoop veel mooie posts van je te zien Ewout 🙂

0 likes

reageer
The Measure of Reality in A/B-testing – Frankwatching | Goedkoop Internationaal Bellen - Buitenland

28 juni 2014 om 20:06

[…] Read this article: The Measure of Reality in A/B-testing – Frankwatching […]

0 likes

reageer