Wat is waar? Over de PRI-Index en betrouwbaar (usability) onderzoek

Erik Prins

Zolang (online-) onderzoek wordt toegepast voor marketingdoeleinden bestaat ook de discussie over het aantal personen dat nodig is voor een betrouwbare studie. In deze discussies voeren meningen vaak de boventoon. Moet hier niet eens een einde aan komen? Tijdens mijn Master Toegepaste Cognitieve Psychologie aan de Universiteit Utrecht (UU) begon ik al met mijn missie om antwoord te kunnen geven op de vraag naar betrouwbaar usability onderzoek. Ik ontwikkelde toen de zogeheten PRI-Index.

Voor usability testen wordt er vaak geschermd met een gouden regel. Een bekende is dat N= 5-8 voldoende om problemen op te sporen (J. Nielsen, S. Krug aangehaald in iskresearch.nl). Jawel, ik durf het aan: als regel is dit onzin. Dit hangt volledig af van de grootte van de te onderzoeken website, type bezoekers, de vraagstelling, kwaliteit, doel van de website, etc.

Eye-tracking als tool bij usability testing

Voor usability testen wordt eye-tracking vaak ingezet zodat de onderzoeker weet waar mensen kijken op een computerscherm. Dit kijkgedrag vormt dan samen met het overige (online) gedrag van de testpersoon het totale beeld van het onderzoek. Om aan deze resultaten een gegronde conclusie te kunnen ontlenen, moeten er natuurlijk wel voldoende mensen aan de test hebben meegedaan om een representatief beeld te krijgen van een specifieke populatie. Vaak zien we dat een mening, gevoel of een vergelijking van heatmaps gebruikt wordt als bewijsvoering voor deze betrouwbaarheid. Dit is echter ontoereikend en geeft geen inzicht in de onderliggende aspecten die bijdragen aan een nauwkeurige meeting.

PRI-Index

De PRI-Index is een statistische rekenmethode om de betrouwbaarheid van eye-tracking resultaten te berekenen. Inmiddels heb ik deze tool als business innovation manager bij Validators kunnen optimaliseren in een software applicatie die 3 belangrijke aspecten van betrouwbaarheid benadert:

Berekenen: hoe betrouwbaar is de huidige meting?
Voorspellen: hoeveel mensen zijn er nog nodig om een specifieke gewenste betrouwbaarheid te behalen?
Beoordelen: hoe goed stuurt de uiting het kijkgedrag?

Hoe meer hoe beter?

Gebruik van participanten voor (eye-tracking-) onderzoeken kost geld en tijd. Men wil dus met een zo min mogelijk aantal respondenten toch een generaliseerbaar resultaat krijgen. Meer mensen toevoegen aan een test die al betrouwbaar is, is onzinnig en weggegooid geld.

Maar hoeveel mensen zijn er nu nodig voor een betrouwbaar onderzoek?

N= 25

N=25 geeft een betrouwbaar resultaat van het kijkgedrag van een consument. Natuurlijk is deze regel niet zonder uitzonderingen. Betrouwbaarheid van eye-tracking resultaten hangt af van verschillende factoren zoals de lay-out van het design, het aantal onafhankelijke elementen, kleurstelling etc. Inmiddels hebben we al honderden uitingen gemeten met de PRI-Index. Als we al deze uitingen bij elkaar nemen, kunnen we zien dat voor een gemiddelde uiting 25 participanten voldoende zijn voor zeer behoorlijke betrouwbaarheid van > .8, zie de figuur hieronder.

Om methodologische redenen bestaan er in de literatuur geen eenduidige tabellen en cijfers over welke betrouwbaarheidsindex als voldoende of goed beschouwd kan worden. Toch wordt over het algemeen gezegd dat tussen de .7-.8 de betrouwbaarheid acceptabel is en tussen de .8-.9 zeer goed (DeVellis, 1991). Voldoende betrouwbaar resultaat begint dus al bij N= 12-13 (zie grafiek).

Stabiliteit kijkgedrag

Hoe kan een eye-tracking onderzoek nu al betrouwbaar zijn vanaf N= 12? Kijken we dan allemaal op dezelfde manier? Hier kan ik heel kort over zijn: ja. Ik heb het hier dan wel over de eerste paar seconden van het menselijk kijkgedrag, het scannen van de uiting. Dit is overigens vaak ook de belangrijkste periode, omdat de consument hier de beslissing maakt of er verder wordt gekeken of niet.

Menselijk kijkgedrag wordt gestuurd door 2 processen: top-down & bottom-up processen. Met name deze laatste bepaalt de hoge mate van uniformiteit van kijkgedrag. Hier wordt het kijkgedrag onbewust gestuurd door de eigenschappen van de visuele elementen, zoals kleur, contrast, beweging etc.

Doorgaans is N= 25 voor het objectief bepalen van kijkgedrag voldoende. Dit kan echter enorm verschillen. Bij sommige design tests bereiken we pas een acceptabele betrouwbaarheid vanaf N= 80. Ook dit is nuttige informatie. Er zit dan weinig overeenstemming in het kijkgedrag tussen de verschillende consumenten op de betreffende uiting, wat een indicatie is dat het kijkgedrag slecht gestuurd wordt door het design.

Vanaf 3 testpersonen wisten we aan de hand van de PRI-Index dat voor deze afbeelding N=19 nodig was voor een betrouwbaarheid van .80. Na werkelijk 19 personen te hebben gemeten bleek de betrouwbaarheid .81. Als we door meten tot N=50 zien we dat de betrouwbaarheid nauwelijks toeneemt.

Objectief testen

Met N=25 kan er dus objectief bekeken worden hoe de consument naar bepaalde pagina’s kijkt. De overige aspecten van een klassieke usability test (buiten webstatistieken) zijn vaak een stuk subjectiever van aard. Een testpersoon vragen waarom hij bepaald gedrag vertoont (direct of retrospectief), wat hij vindt en of hij/zij het liever anders ziet, kan nuttige informatie opleveren. Dit is zeker een nuttige opzet voor het opsporen van fouten. Er schuilt echter een gevaar in de mening van een consument. Mensen willen over het algemeen graag een mening hebben en 90% van het consumentengedrag wordt onbewust bepaald (Victor Lamme, De vrije wil bestaat niet, 2010). De gebruiker weet dus vaak niet waarom hij doet wat hij doet. En zelfs daar is hij zich vaak niet van bewust.

Betrouwbaarheid mag geen betekenis hebben zonder validiteit. Niet voor niets wordt de populariteit van neuromarketing steeds groter.

Lees 4 reacties

Over de auteur

Erik Prins Erik Prins is Business Innovation Manager bij [a href="http://www.validators.nl/" TITLE="Validators"]Validators[/a] wat zich richt op het testen en verbeteren van communicatie.

2 artikelen Meer over Erik Prins

Reacties (4)

Reactie annuleren

Edwin Waelbers

12 mei 2011 om 9:43

Erik,

Nielsen heeft het wel over 5-8 gebruikers tijdens observaties van gebruikers hun gedrag, hij suggereert niet om die aantallen te gebruiken voor een eye-track onderzoek.

Nielsen vraagt ook niet wat de gebruiker graag ziet of liever anders ziet. “First Rule of Usability? Don’t Listen to Users” schreef hij al eens eerder. Omdat je dan inderdaad met meningen bezig bent, welke waardeloos zijn voor een usability expert.

Wat hij wel doet is observeren wat die gebruikers doen. Wanneer je gedrag onderzoekt, dan heb je minder testpersonen nodig, dan wanneer je naar meningen peilt.

Desalniettemin ben ik het wel eens dat die magische 5 gebruikers een mythe zijn. Empirisch onderzoek en mathematische modellen ontkrachten dit immers. Ook in mijn eigen ervaring blijkt dit soms wel. Ik heb al meer dan eens een belangrijk usability probleem ontdekt pas bij de 15de test persoon. En daar kunnen allerlei oorzaken voor zijn: zeldzame events die plots wel gebeuren, een testpersoon die toevallig ‘ander’ gedrag vertoond dan de rest, oplettendheid van de observator, …

MAAR, er is ook nog zo iets als kosten/baten. Hoe meer gebruikers je onderzoekt, hoe duurder het project. Voor een kleine website of onderzoek naar een relatief onbelangrijke taak is veel gebruikers onderzoeken kosten/baten niet interessant. Daarom dat 5 tot 10 gebruikers een goede keuze zijn. Het doel is zelden om ALLE usability problemen op te lossen, wel de meeste of de belangrijkste.

Hoeveel gebruikers je meeneemt, is afhankelijk van veel parameters. Zoals je zelf zegt: grootte website, type bezoekers, de vraagstelling, kwaliteit, doel van de website, …

Belangrijkheid, beschikbaar budget, wettelijke vereisten (denk maar aan FDA normen voor bepaalde toepassingen), soort test en nog andere dingen vervolledigen dit lijstje.

Over Eye Track onderzoek dan, ja 25 kan voldoende zijn, minder zelfs ook, maar zoals je zelf zegt, soms heb je ook 80 (en meer) mensen nodig.

Zelfs met maar 25 test participanten wordt het wel een dure zaak. Over 80 test personen wil ik dan nog zwijgen. Dit is niet weggelegd voor een doorsnee website of voor een doorsnee subtaak op de website van een grote onderneming.

Een ander element over eyetrack studies, is dat ze niet verklaren waarom bepaalde mensen naar iets kijken. Daar komt toch dikwijls veel nattevingerwerk of interpretaties (welke waardeloos zijn voor een usability expert) bij kijken.

Een heatmap lezen vraagt best veel kennis en ervaring, de meeste mensen die ze ‘verklaren’ ontberen beide.

En er is nog een factor, bepaalde dingen kan je niet meten met een eyetrack studie. Het is niet omdat gebruikers naar iets kijken, dat ze er ook Ã©cht aandacht voor hebben. Ook perifeer zicht en de gevolgen kan je niet meten met eyetrack studies. Ook een Susan Weinschenk (Human Factors International) beaamt dit. Toch niet echt een sukkel op usability vlak.

Nog andere nadelen is dat de eyetrack apparatuur soms wel indrukwekkend is voor de gebruiker. Ook weet hij dat hij zeer minutieus zal gevolgd worden. Alhoewel er wel portable eyetrack devices bestaan, gebeuren ze meestal nog altijd in een soort labo en dus niet in het natuurlijk biotoop van de gebruiker.

Al die zaken hebben een ernstige impact op het gedrag van de gebruiker. Zorgen voor bias en leiden tot foutieve conclusies.

Ik vind eyetrack studies wel interessant, maar ze gebruiken als enige input is geen goed idee. Ook zijn ze financieel doorgaans niet haalbaar.

De belangrijkste – old school – methode, gedrag onderzoeken van gebruikers en dit liefst in hun natuurlijk biotoop, blijft mijn inziens nog steeds de belangrijkste en beste techniek om een goede usability te bekomen van een product. En deze is tevens ook nog eens stukken goedkoper dan eyetrack onderzoek.

0 likes

reageer
Erik

12 mei 2011 om 14:04

Beste Edwin,

Bedankt voor je uitgebreide reactie. Hierbij een reactie op jouw opmerkingen.

Betreft N=5-8 van Nielson zijn we het met elkaar eens. Ik impliceer in mijn stuk ook niet dat Nielson dit voor eye-tracking of gebruikers reacties heeft bedoeld.

â€œZelfs met maar 25 test participanten wordt het wel een dure zaak. Over 80 test personen wil ik dan nog zwijgen. Dit is niet weggelegd voor een doorsnee website of voor een doorsnee subtaak op de website van een grote onderneming.â€

Eye-tracking maar ook de methodologie erachter heeft de afgelopen jaren een flinke ontwikkeling doorgemaakt. De kosten voor een onderzoek zijn daardoor ook behoorlijk gedaald. Zo is een funnel test al mogelijk v.a. 2.000 euro. Met de PRI-Index kunnen we ook een voorspelling maken voor het aantal mensen dat nodig is voor een betrouwbaar beeld. Als we zien dat er 80 mensen nodig zijn is het vaak niet nuttig om ook daadwerkelijk 80 mensen te meten. Dit omdat er dan blijkt dat er iets mis is met het design: geen sturing van het kijkgedrag.

â€œEen ander element over eyetrack studies, is dat ze niet verklaren waarom bepaalde mensen naar iets kijken. Daar komt toch dikwijls veel nattevingerwerk of interpretaties (welke waardeloos zijn voor een usability expert) bij kijken.â€

Dit is deels waar en geldt feitelijk voor alle objectieve testmethoden. Kijkgedrag is echter opgebouwd vanuit bepaalde mechanismen die zeer uniform zijn. In combinatie met andere onderzoek tools kunnen we in veel gevallen goed verklaren waarom bepaalde elementen wel en andere niet goed gezien worden.

â€œEen heatmap lezen vraagt best veel kennis en ervaring, de meeste mensen die ze ‘verklaren’ ontberen beide.â€

Eens, dit geldt voor alle onderzoeksresultaten vanuit een eye-tracking studie. Vanuit een heatmap alleen mogen Ã¼berhaupt geen conclusies getrokken worden. Een goede studie omvat een scala aan andere analyses om een goede conclusie te kunnen staven.

Betreft perifeer zicht:
Dit wordt inderdaad niet direct gemeten met een eye-tracker. We houden er wel rekening mee in de analyses. Men kan in de periferie vorm en beweging zien en herkennen. Echt lezen en detail zien is niet mogelijk, hiervoor zal echt gefocust/ gefixeerd moeten worden.
Daarbij treedt, zeker op websites, al gauw een â€œcrowdingâ€ effect op waarbij perifeer zicht nog nauwelijks mogelijk is.

Kortom eye-tracking gaat veel verder dan alleen heatmaps genereren. De project kosten zijn veel lager dan enkele jaren terug en de techniek is flink doorontwikkeld (onze eye-tracker is zo groot als een pak melk).

Als je interesse hebt, nodig ik je bij deze van harte uit om een keer langs te komen op ons kantoor. Dan kan ik, onder het genot van een kop koffie, in detail uitleggen hoe wij te werk gaan.

0 likes

reageer
Onderzoek naar effectiveit van banners | IsHetHeus.nl

28 juni 2012 om 8:57

[…] In het verleden maar ook hedendaags wordt het effect van banners vaak bepaald aan de hand van de zogeheten clicktrough rate (CTR). Het is echter te kort door de bocht om banners als een actie-uiting te zien. Met de hedendaagse toepassing is een banner veel beter te omschrijven als een exposure-uiting en is een waardering (alleen) gebaseerd op CTR niet valide. Daarom is er hier dan ook voor gekozen eyetracking te gebruiken voor de effectbepaling van een banner. Bij dit onderzoek kregen 25 respondenten een online krant te lezen (waarom 25? Lees hier meer over in dit Frankwatching-artikel). […]

0 likes

reageer
onderzoek naar banner blindheid | IsHetHeus.nl

28 juni 2012 om 8:59

[…] In het verleden maar ook hedendaags wordt het effect van banners vaak bepaald aan de hand van de zogeheten clicktrough rate (CTR). Het is echter te kort door de bocht om banners als een actie-uiting te zien. Met de hedendaagse toepassing is een banner veel beter te omschrijven als een exposure-uiting en is een waardering (alleen) gebaseerd op CTR niet valide. Daarom is er hier dan ook voor gekozen eyetracking te gebruiken voor de effectbepaling van een banner. Bij dit onderzoek kregen 25 respondenten een online krant te lezen (waarom 25? Lees hier meer over in dit Frankwatching-artikel). […]

0 likes

reageer