Innovatie

4 bekende big data-uitspraken: waar of niet waar?

0

Vijf jaar geleden deed Google een opmerkelijke ontdekking. Door de correlatie te bekijken van zoekopdrachten kon, Google Flu Trends de verspreiding van griep in de Verenigde Staten in kaart brengen. De algoritmes van Google konden dit sneller dan het Center for Disease Control and Prevention. Zonder medische gegevens, hypotheses of modellen. Ik bespreek in dit artikel vier bekende big data-uitspraken. Is het succes van big data overrated?

1. Resultaten uit analyse van datasets zijn nog nooit zo accuraat geweest.

Ook het in de Verenigde Staten gesitueerde warenhuis Target heeft een succesverhaal met big data. Er was eens een dag waarop een man een Target inliep om te klagen bij de manager. Zijn dochter kreeg kortingsbonnen voor babykleren en zwangerschapskleding toegestuurd. Terwijl zijn dochter toch echt niet zwanger was. De manager belde de man een paar dagen later zelfs op, om telefonisch zijn excuses aan te bieden. Maar de excuses van de manager bleken overbodig, de dochter was echt zwanger. Target was door het koopgedrag van de dochter te vergelijken met koopgedrag van zwangere vrouwen in het algemeen, eerder op de hoogte van de zwangerschap dan de vader.

Kaiser Fung, big data analist, zegt dat we bij dit verhaal moeten letten op false positives. Fung zegt over het succesverhaal van Target dat we een aantal factoren niet weten. “We weten niet hoe de mailinglist eruit ziet. We weten niet hoeveel vrouwen, die niet zwanger zijn, kortingsbonnen ontvangen voor zwangerschap-gerelateerde producten. Misschien bestaan de boekjes met kortingsbonnen van Target wel uit een gemengd aanbod.” De resultaten uit data-analyses zijn, met de komst van big data, accurater. Dat daardoor meer winst kan worden behaald is ook waar. Maar de precisie van big data is overrated als we false positives negeren.

2. Big data maakt onderzoek naar causaliteit overbodig, we kunnen de aandacht verleggen naar correlatie.

Big data heeft als voordeel dat we onze aandacht kunnen richten op correlatie. Het onderzoek naar correlatie is een veel goedkopere en snellere manier om iets te onderzoeken dan causaliteit, de vraag naar wat nu precies wat veroorzaakt. Causaliteit blijft echter een belangrijke factor bij de analyse van datasets. Zo bleek Google Flu Trends een veel te overdreven voorspelling van de verspreiding van de griep te hebben gedaan. Het probleem was dat Google’s engineers niet bezig waren om te onderzoeken wat nu precies wat veroorzaakt. Zij waren alleen bezig met het vinden van statistische patronen in de data. Het falen van Google Flu Trends kan misschien worden verklaard door het nieuws in december 2012: dat werd toen vooral beheerst door ‘angstaanjagende’ verhalen over de griep.

Een andere mogelijkheid is dat Google’s algoritmes de data-analyse beïnvloeden. Zo is het mogelijk dat wanneer mensen medische symptomen invoeren, de algoritmes steeds vaker griep diagnoses als zoekresultaten genereren. Wanneer de nadruk wordt gelegd op correlatie, is het probleem dat je niet weet wat er achter de correlatie schuilt. Viktor Mayer- Schönberger en Kenneth Cukier, auteurs van het boek Big data, zeggen daarover:

Causality won’t be discarded, but it is being knocked off its pedestal as the primary fountain of meaning.

3. Big data-sets zijn compleet, we hoeven geen rekening meer te houden met statistiek.

Het hebben van alle benodigde data, wordt door data-analisten uitgedrukt als ‘N=All’. Schönberger, naast auteur ook professor aan het Oxford Internet Instituut, legt uit dat je in dat geval geen gebruik meer hoeft te maken van samples van een populatie. Omdat je daadwerkelijk alle informatie hebt dat de gehele populatie representeert. Met als gevolg dat je geen rekening hoeft te houden met statistische valkuilen.

Accepteer cookies

In theorie kun je elke tweet vastleggen en daarmee een uitspraak doen over de publieke opinie. Kijken we echter naar het Pew Research Internet Project van 2013 in de Verenigde Staten, dan zien we dat Twitter-gebruikers vooral jonge mensen, wonend in een stad zijn. Niet echt representatief voor de gehele populatie.

Street Bump

Kijk ook eens naar Street Bump, een mobiele app die in Boston wordt gebruikt. Street Bump voorziet in ‘N=All’, omdat op papier elke telefoon in staat is om een slecht wegdek te registreren. Aan de ene kant kun je zeggen dat de data die voortvloeit uit Street Bump, de gemeente real-time informatie verschaft. Informatie op basis waarvan problemen kunnen worden opgelost en lange termijn investeringen worden gedaan. Aan de andere kant kun je zeggen dat de app jonge smartphonegebruikers voortrekt.

Sample Error & Sample Bias

Dan zijn er nog de factoren toeval en kans. Die factoren worden, in tegenstelling tot wat veel mensen beweren, door grote datasets niet uitgesloten. Zo kennen we de Sample Error: het risico dat door toeval een willekeurig gekozen sample van opinies de echte waarnemingen van de populatie niet representeert. Sample error heeft een gevaarlijk broertje genaamd Sample Bias. Van een sampling bias is sprake als de sample niet willekeurig is gekozen. Het vinden van een unbiased sample is ontzettend lastig. Street Bump is een mooi voorbeeld van een niet willekeurig gekozen sample.

4. Wetenschappelijke of statistische modellen zijn niet nodig, want bij grote data-sets spreken de getallen voor zichzelf.

In 2005 publiceerde John Ioannidis, epidemioloog, een belangrijk wetenschappelijk onderzoek: ‘Why Most Published Research Findings Are False‘. Dit onderzoek bracht het multiple-comparisons problem aan het licht: dat ontstaat als een onderzoeker meerdere patronen bestudeert.

Het multiple-comparisons problem

Stel, er wordt onderzoek gedaan naar het effect van vitamines op basisschoolkinderen. Voor het onderzoek krijgen sommige kinderen vitamines anderen krijgen placebo’s. Wat is nu het effect dat je aan het bestuderen bent? Onderzoekers kunnen kijken of het gebruik van vitamines invloed heeft op de groei, het gewicht, tanderosie, gedrag in een klas of de rapportcijfers.

Dan zijn er nog combinaties die je kunt analyseren. Welk effect hebben vitamines op armere kinderen ten opzichte van rijkere kinderen, of jongens versus meisjes? Ioannidis zegt dat wanneer je verschillende correlaties test, door toeval ontstane resultaten de ‘echte’ resultaten ondersneeuwen. “Dit probleem is nog veel groter in big data sets”, aldus Ioannidis. De gedachte dat met genoeg data de getallen voor zichzelf spreken, is naïef. Vooral in datasets waar er meerdere patronen mogelijk zijn en meerdere verbanden zouden kunnen worden gelegd.

Het multiple comparisons problem bemoeilijkt het verbanden leggen

Het multiple comparisons problem bemoeilijkt het verbanden leggen

Het lijkt erop dat de succesverhalen overtrokken zijn

Het lijkt erop dat de bovenstaande uitspraken over big data geen stand houden en dat big data- succesverhalen overtrokken zijn. David Spiegelhalter, professor aan de Cambridge University, zegt dat we niet moeten vergeten dat big data een nieuwe bron is. Die nieuwe bron staat niet altijd garant voor nieuwe antwoorden. Het lastige aan de resultaten voortvloeiend uit data-analyses blijft inzicht. Big data behoudt die zelfde knelpunten.

Foto intro met dank aan Fotolia.