Kunnen zoekmachines de toekomst voorspellen?
In 2006 won ik de WK-voetbalpool van ons bedrijf door mijn voorspellingen te baseren op de koersen van de wedkantoren. Ik had net het boek The Wisdom of Crowds van James Surowiecki gelezen en geloofde daar heilig in. Ik paste een simpel algoritme toe: als Engeland tegen Paraguay moest spelen, vergeleek ik de odds dat Engeland wereldkampioen zou worden met die van Paraguay.
Waren die van Engeland aanzienlijk beter, dan liet ik Engeland de wedstrijd winnen; waren die van Paraguay beter dan kreeg Paraguay de punten; lagen ze binnen een zekere bandbreedte dicht bij elkaar dan vulde ik een gelijkspel in. Voor de doelpunten ging ik simpelweg uit van de meestvoorkomende voetbaluitslagen (1-0 voor winst, 0-1 voor verlies, 1-1 voor gelijkspel). Op die manier kreeg ik voor mijn voorspelling dat Engeland-Paraguay in 1-0 zou eindigen het maximale aantal punten.
Voorkeur van de massa
Vorige maand is Microsoft met zijn zoekmachine Bing een experiment begonnen dat op een vergelijkbare manier voorspellingen wil doen. Bing neemt daarbij echter niet de wijsheid van de massa als uitgangspunt, maar de voorkeur.
In de eerste iteratie van het experiment, dat overigens helaas alleen in Amerika wordt uitgevoerd, probeert Bing.com te voorspellen welke deelnemers aan programma’s als The Voice, American Idols en Dancing with the Stars de volgende ronde gaan halen en welke niet. Als je een van die programma’s, of een naam van een deelnemer als zoekterm in Bing opgeeft, krijg je op de resultatenpagina een carrousel met foto’s van deelnemers te zien met daarbij de inschatting of ze het gaan redden of niet.
Social search
Bing leunt daarbij naar eigen zeggen zwaar op zogeheten signals uit de sociale media, Facebook voorop. Niet voor niets hebben die twee al een aantal jaren geleden een samenwerkingsverband opgezet. Met deze vorm van predictive search geeft Bing verregaande invulling aan ‘social search’, dat als begrip ook al weer enkele jaren oud is, maar in het echte leven nog niet echt van de grond is gekomen.
Uit de summiere uitleg die Bing op zijn eigen blog geeft, kunnen we opmaken dat de Bing-zoekalgoritmen ervan uitgaan dat de sentimenten die over mensen, dingen en gebeurtenissen op internet gesignaleerd worden, tot een correcte voorspelling kunnen leiden van de toekomstige mening die mensen zullen hebben. Bing zegt daarbij rekening te houden met het sentiment van de zoekvraag, frequentie, sociale indicatoren en lokale factoren (maar legt helaas niet uit hoe).
Google Flu Trends
Ik hoor u denken; maar heb ik laatst niet ergens gelezen dat het experiment van Google Flu Trends mislukt is? Google lanceerde deze dienst alweer zes jaar geleden en trok daar toen nogal de aandacht mee. Google kreeg het zelfs voor elkaar dat het toonaangevende Nature er een hooggestemd artikel over plaatste.
Google Flu Trends gaat uit van een vast verband tussen zoekopdrachten die over griep gaan en een uitbraak van die griep. Lijkt logisch, maar nu is er een artikel in Science (14 maart 2014, Vol. 343) verschenen waarin uitgelegd wordt waarom het voorspellend en zelfs het beschrijvend vermogen van Flu Trends niet goed werkt. Zo had Google Flu Trends maar liefst 100 van 108 op rij gemeten weken (in 2011 en 2012) fout.
Belangrijkste oorzaken? Ten eerste dat Google wel big data gebruikt, maar niet de benodigde statistische analysemethoden. Ten tweede dat het eigen zoekalgoritme voortdurend verandert, waardoor de resultaten beïnvloed worden. Denk aan de zoektermvoorspelling die sinds enige tijd in Google zit. Dit werkt in de hand dat meer mensen dezelfde zoektermen gebruiken, waardoor Google Flu Trends vaker ten onrechte triggert.
De Heilige Graal van Big Data
Zowel doel als methode van Google Flu Trends zijn heel anders dan de aanpak die Bing kiest. Het experiment van Bing betreft nu alleen nog TV-programma’s. Er is weinig fantasie nodig om dit idee naast de entertainmentmarkt ook toegepast te zien op sportevenementen en verkiezingen. Maar mijn voorspelling is dat Microsoft op een hele andere markt aast.
Want denk eens na over de potentie als je dit kunt toepassen op je producten en diensten. Het doen van voorspellingen en daaraan automatisch gekoppelde beslissingen is de heilige graal in Big Data Analytics. We noemen dat nu prescriptive analytics en automated marketing; maar het zou wat zijn als je automated product management of automated sales had. Wat voor mogelijkheden zouden er zijn als je correct kunt voorspellen welke producten goed zullen verkopen en welke minder? Als je door deze voorspellingen je product ter plekke kunt aanpassen, of je aanbieding kunt verbeteren om je spullen beter verkoopbaar te maken?
Wat moet er anders?
Voordat het zover is doet het Bing-team van Microsoft er goed aan om niet dezelfde fouten te maken als Google Flu Trends. De auteurs van het hierboven aangehaalde artikel in Science zijn niet negatief over de toekomst en toepassingen van big data analytics in de online wereld, maar hebben wel duidelijke aanbevelingen die ik graag toelicht:
1. Transparantie en herhaalbaarheid
Big data analytics staat in de kinderschoenen en is in essentie een nieuwe (toegepaste) statistische wetenschap. De wetenschap stelt eisen aan transparantie en herhaalbaarheid van experimenten. Dat kan op gespannen voet staan met de bedrijfsbelangen van partijen als Google of Microsoft, en die moeten daar een weg in vinden.
Eén van de kritiekpunten op Google Flu Trends is dat ze bij Google wel aangeven dat het systeem triggert op 45 zoektermen, maar niet welke dat zijn. Bedrijven doen zichzelf daar tekort mee. Wetenschap is immers een kwestie van wereldwijde samenwerking en zelfs de gigant Newton zei het al: “Als ik verder heb kunnen kijken, is het omdat ik op de schouders van reuzen stond.”
2. Gebruik Big Data voor het onbekende
Google zette met zijn Flu Trends eigenlijk een systeem op dat al bestond en wist dat niet te verbeteren. In Amerika heb je CDC, Centers for Disease Control and Prevention, die de griepgevallen al goed op landelijk niveau monitort. Google, zo luidt de kritiek van Science, had zijn inspanningen beter kunnen richten op lokale gegevens over griep, om die te combineren met de al beschikbare CDC-gegevens en zo te helpen een nieuw voorspellend systeem op te zetten.
3. Doorgrond de algoritmen
Google, Bing, Facebook, Twitter: al die zoekmachines en social media platforms zijn in constante ontwikkeling. Deels door de programmeurs zelf, maar voor een groot deel ook door de manier waarop de miljoenen gebruikers ermee omgaan. Wat we zoeken, hoe we zoeken, wat we vinden en wat we daar vervolgens mee doen, verandert in hoog tempo. Voor je je beslissingen baseert op deze big data analytics, moet je je daar in ieder geval rekenschap van gegeven hebben.
4. Het gaat niet alleen om Big Data
Alle aandacht lijkt momenteel uit te gaan naar de analyse van big data. Maar wat is er mis met small data? Waarom niet gewoon op de ouderwetse manier met een paar goed geformuleerde enquêtevragen gesteld aan de juiste doelgroep te weten komen wat je nodig hebt om je business verder te helpen? Science pleit voor een ‘all data revolution’ in plaats van een ‘big data revolution’ en dat lijkt me een nuchtere benadering.
Bij het EK van 2008 herhaalde ik mijn succesvolle strategie van het WK 2006. Mijn aanpak ging roemloos ten onder en ik eindigde diep in de middenmoot van de voetbalpool. Sindsdien pas ik een mixed data-aanpak toe, waarbij ik de big data van de wedkantoren meng met de kennis van een paar sportredacties van kranten, een paar TV-programma’s en de mening van de kenners onder mijn voetbalvrienden. Het succes blijft wisselend, maar de voorpret is er een stuk groter door.
Foto intro met dank aan Fotolia.