Big data: de 6 V’s die je moet bekijken voor belangrijke inzichten
Trump is een digibeet: er staat geen computer op zijn bureau. Zijn assistente onthulde ooit dat hij niet aan e-mail doet. Toch heeft een big-databedrijf, Cambridge Analytica, ervoor gezorgd dat hij de verkiezingen won. Het bedrijf ontwikkelde een model dat de persoonlijkheid van elke volwassene in de Verenigde Staten kan voorspellen op basis van big data. Er werden gepersonaliseerde advertenties gecreëerd. “We kunnen dorpen of appartementencomplexen targeten. Zelfs individuen”, legde CEO Nix uit in een interview met VICE. Trump gedroeg zich als een perfect opportunistisch algoritme dat de reacties van het publiek volgt. En we weten waar dit toe geleid heeft.
Vrijwel elke boodschap die Trump uitzond was gedreven door big data. – Alexander Nix, CEO Cambridge Analytica
Zichtbaar maken wat eerder verborgen was
Bovenstaande is een van de voorbeelden van wat je met gebruik van big data kunt doen. Het werkt volgens het principe dat hoe meer je van iets of een situatie weet, hoe meer je betrouwbare voorspellingen kunt doen over wat er in de toekomst gaat gebeuren. Door meerdere data met elkaar te vergelijken komen relaties naar boven die eerder verborgen waren. Deze geven je inzichten waarmee je bijvoorbeeld je doelgroep beter kunt bereiken.
De verschillende v’s van big data
Het beste kun je big data beschrijven met de zes v’s: volume, variety, velocity, value, veracity en variability.
1. Volume
Volume ligt het meest voor de hand als kenmerk van big data en gaat vooral om de relatie tussen omvang en verwerkingscapaciteit. Dit aspect verandert snel, omdat het verzamelen van gegevens blijft toenemen. Net als de ICT-capaciteit voor de opslag en de verwerking ervan.
Walmart, een bedrijf dat beschikt over ontzettend veel data, bouwt aan de grootste privé-cloud ter wereld om grote hoeveelheden data per uur te kunnen verwerken. Met het programma Data Café modelleren, manipuleren en visualiseren ze deze gegevens om inzicht te krijgen in hun shoppers. Een praktijkvoorbeeld: tijdens Halloween konden sales-analisten zien dat, hoewel een speciaal nieuw koekje erg populair was in de meeste winkels, er twee winkels waren waar het helemaal niet werd verkocht. Dit kon snel worden uitgezocht en het bleek dat de koekjes per ongeluk niet in het schap waren geplaatst. Het werd meteen opgelost.
Bij ‘veel data’ denken mensen vaak alleen aan volume, maar er zijn ook nog de vijf andere v’s die je kunnen helpen bij het waardevol maken van je data. Deze v’s zijn ook van belang bij het verrijken van kleinere databases.
Overigens kan volume bij big data ook ‘hoogdimensioneel’ zijn: je kunt grote vragen stellen over kleine data.
2. Variety
De v van variety omschrijft de grote verscheidenheid aan gegevens die opgeslagen worden en nog moeten worden verwerkt en geanalyseerd. Nieuwe soorten gegevens van onder meer sociale netwerken en mobiele apparatuur komen bovenop de al bestaande soorten gestructureerde informatie. Bijvoorbeeld: geluids- en beeldbestanden, foto’s, gps-data, medische dossiers, instrumentenmetingen, afbeeldingen, webdocumenten, bonuskaarten en zoekgedrag op internet. Ongestructureerde gegevens zoals spraak en social media maken het verwerken en categoriseren van gegevens extra complex. Hoe zorg je ervoor dat je juist die data pakt die bijdragen aan het targeten van jouw doelgroep?
Donateurschap voorspellen
Een voorbeeld uit mijn eigen praktijk: een goed doel heeft een database met huishoudens. Hierin staan kenmerken als autobezit, WOZ-waarde en of mensen donateur zijn of niet. Deze data koppelde ik aan de segmentatietool Mentality. Vervolgens zocht ik in die database naar de kenmerken waarmee je donateurschap kunt voorspellen. Zo berekende ik welke huishoudens grote kans hadden om donateur te worden en ondernam het goede doel hier gericht fondswervingsacties op.
Ook verrijkte ik het klantenbestand voor een mediabedrijf met sociale interesses. Hiermee kan het bedrijf potentiële klanten (potentials) benaderen die lijken op al bestaande klanten (lookalikes). De potentials ontvangen vervolgens specifieke aanbiedingen, wat zorgt voor een enorme conversieboost.
Politieke standpunten voorspellen
Bij het voorbeeld van Trump (hierboven) hadden zijn wervers een app waarmee ze de politieke standpunten en persoonlijkheden van alle inwoners van een woning vaststelden. Ze klopten alleen aan bij huizen waarvan de app voorspelde dat ze wel oren hadden naar zijn boodschap. Trump z’n mensen kwamen voorbereid met richtlijnen voor gesprekken die op maat waren gemaakt voor de persoonlijkheid van de bewoners. Het straatteam voerde alle reacties in, in de app, waardoor al deze gegevens naar het hoofdkwartier van Trumps campagneteam vloeiden.
3. Velocity
Velocity is een maatstaf voor de tijdelijke waarde van gegevens. Big data verandert snel. Daarom moeten we gestructureerde en ongestructureerde gegevensstromen snel verwerken om te profiteren van geolocatiedata, waargenomen hypes en trends, en real time beschikbare markt- en klantinformatie. Velocity gaat over de voorwaarde dat je binnen minuten of seconden je data moet verwerken om te komen tot resultaten waar je naar op zoek bent.
4. Value
Deze v kenmerkt welke waarde je uit welke gegevens kunt halen en hoe je met big data betere resultaten krijgt uit de opgeslagen gegevens.
Voor een Nederlandse retailer bijvoorbeeld verrijkte ik de database per postcodegebied. Op basis van de specifieke klanteninformatie besliste de retailer welke locatie voor een volgende winkel de meeste aansluiting zou vinden bij de doelgroep. Verrijking maakt mogelijk dat je kunt voorspellen. Zo stemde mijn klant ook de inrichting van de winkel en het aanbod af op specifieke wensen van (potentiële) shoppers.
Ook een goede manier om waarde aan je big data te geven is het werken met persona’s. Ze geven een naam en gezicht aan verschillende klantgroepen en zijn een zeer krachtig middel om organisaties klantgerichter te maken. Persona’s zijn bedacht omdat er behoefte was om de vele bezoekers van websites te profileren en daarmee de gebruiksvriendelijkheid van deze sites te vergroten.
Je kunt persona’s creëren op basis van beschikbare data over klantgedrag. Voor het Van Gogh Museum zijn bijvoorbeeld persona’s gecreëerd om de verschillende bezoekerstypen tot leven te brengen.
5. Veracity
Veracity toont de kwaliteit en de oorsprong van gegevens, maakt mogelijk ze aan te merken als twijfelachtig, conflicterend of niet-zuiver en geeft informatie over zaken waarvan je niet zeker weet hoe je ermee om moet gaan. Kortom: de waarachtigheid en de authenticiteit van de data, wat kun je er nou mee? Het is in zekere zin een hygiënefactor. Door de veracity van je data aan te tonen laat je zien dat je er kritisch naar hebt gekeken.
Alles wat bij het kernproces van een bedrijf hoort is kloppend, de rest is vervuild. Met die vervuiling moet je rekening houden. Je moet overtuigd zijn dat die gegevens die je hebt geselecteerd ook goed werken en voldoende zijn. Het is veel, eentonig, maar noodzakelijk werk.
6. Variability
Tot slot variability: in hoeverre en hoe snel is de structuur van je data te veranderen? En hoe vaak verandert de betekenis of de vorm van je data?
Neem bijvoorbeeld het krantenabonnementvoordeel: een internetabonnement kost 50 euro, een papieren-krantabonnement 100 euro en een papier- en internetabonnement ook 100 euro. Er zit één onlogische optie in. Als je deze opties aan mensen voorlegt kiezen de meesten voor een papier- en internetabonnement want dat lijkt voordeliger. Maar als je de onlogische keuze weghaalt: neem een internetabonnement voor 50 euro of een papier- en internetabonnement voor 100 euro, dan nemen weer veel mensen het internetabonnement.
Dus de samenstelling van een vragenlijst of bijvoorbeeld uitschrijfknoppen veranderen hoe iets op mensen overkomt en zo ook de uitkomst. Puur technisch houdt dit in: als je variabelenkenmerken veranderen, dan verandert je model ook.
Gebruik big data en bekijk de v’s die voor jou van toepassing zijn
Er is een aantal manieren om met big data te werken die jou interessante inzichten opleveren. Je kunt ze bijvoorbeeld gebruiken om potentiële kiezers gericht mee te targeten, om veranderingen in je winkels direct mee op te sporen, persona’s en lookalikes mee te maken en donateurschap te voorspellen. Dus heb je beschikking over een database dan is het zonde om hier niks mee te doen. Ga met de v’s die voor jou van toepassing zijn aan de slag, dan zit je altijd goed.