Data analytics

Kan iedereen een goede infographic maken?

0

Ik kijk altijd met enige afgunst naar al die mooie infographics die je op websites, zoals hier op Frankwatching, ziet langskomen. Het is een prachtige manier om data toegankelijk te maken. Ik vroeg me af; kan iedereen een goede infographic maken? Of is dat iets voor specialisten? In dit artikel probeer ik het zelf. Een infographic maken, gaat in twee stappen:

  1. Analyseren van de data
  2. Maken van de visualisatie

Voor de data-analyse is een portie gezond verstand en een beetje handigheid met bijvoorbeeld Excel nodig. Voor een goede visualisatie komt gevoel voor ontwerp van pas, maar gelukkig zijn er ook voldoende tools die je daarbij kunnen helpen. Laten we bij het begin beginnen.

De dataset: hardloopwedstrijd van 10 kilometer

Voor dit artikel heb ik de uitslagen van de 10-kilometerwedstrijd tijdens de Zilveren Kruis Achmea-loop in 2012 genomen. Waarom? Omdat het een redelijke kleine dataset is (1294 records) en de data via screenscraping makkelijk te verkrijgen is. En tot slot, omdat er zeer interessante informatie uit te halen is. Denk aan:

  1. Uitslag (positie)
  2. Naam
  3. Geboortejaar
  4. Club, plaats, land
  5. Categorie (M/V)
  6. Subcategorie (Haarlem of Leeg)
  7. Startnummer
  8. Netto tijd
  9. Bruto tijd

Mannen die Reinoud heten, rennen het hardst

Met deze data kun je veel doen. Je kunt achterhalen waar lopers vandaan komen (4), hun geboortejaar (4) en categorie (5) meenemen in je analyses. Maar je kunt ook combinaties maken van de cijfers; in welke stad wonen de snelste lopers, welke leeftijdsgroep loopt het snelst, wat is de gemiddelde snelheid van alle mannelijke renners en ga zo maar door. Je zou zelfs kunnen achterhalen of mannen met een bepaalde naam (Reinoud bijvoorbeeld) het hardst rennen.

Je kunt hoe dan ook veel meer interessante informatie uit deze dataset halen dan in een infographic past. Het maken van een plan als het gaat om welke data je tot je beschikking hebt en wat je daarvan voor je infographic gaat gebruiken, is dan ook erg belangrijk. Een goede infographic is in balans, bevat niet te veel gegevens, maar ook niet te weinig.

Zorg voor schone data

De data in het bestand moeten wel worden opgeschoond, zodat ze bruikbaar zijn voor analyse. De deelnemers van de bedrijvenloop hebben bijvoorbeeld geen woonplaats, alleen een bedrijfsnaam. De vraag is of je deze data eruit haalt of er in laat zitten. Ook is de data soms niet consistent: de tijden staan als min:sec genoteerd (bijvoorbeeld 38:14), behalve als iemand er meer dan een uur over deed, dan is het uur:min:sec (bijvoorbeeld 1:04:15).

Omdat tijden wat lastiger zijn om mee te rekenen, heb ik alles omgerekend naar minuten, als iemand een tijd neerzet van 1:10:30, wordt het dus 70.5 minuten. Dat maakt het selecteren ook makkelijker, ik kan nu eenvoudigweg het aantal mensen tellen dat tussen de 42 en 43 minuten loopt.

In Excel maak ik diverse werkbladen aan, waar ik met de data kan gaan spelen. Op het hoofdwerkblad zet ik de orginele data en de gesplitste tijden neer. Als ik een nieuw overzicht wil maken, bijvoorbeeld van het aantal deelnemers per geboortejaar, kopieer ik dat naar een nieuw blad. Ze heb ik al snel 10 werkbladen waarmee ik waardevolle analyses kan doen.

Geef inzicht in de brondata en je analyses

Wat ik erg belangrijk vind, is dat je laat zien in een infographic waar je data vandaan komt en wat je er mee gedaan hebt. Dit is geen wetenschappelijk artikel (en ik ben geen Diederik Stapel), maar toch is het belangrijk om te laten zien waar je de data vandaan hebt en hoe je aan je resultaten gekomen bent. Zeker bij omvangrijke datasets is een klein foutje zo gemaakt. Op die manier kunnen mensen jouw analyses ook narekenen.

Daarvoor is het wel verstandig om de data wat toegankelijker te maken, met headers en opmerkingen. Het kost wat meer werk, maar het geeft geïnteresseerden de mogelijkheid om de data zelf te analyseren. Voor dit artikel heb ik gewerkt met een (gewoon) Excel-bestand. Tijdens het schrijven kwam ik overigens enkele fouten tegen in de dataset, die ik er gelukkig uit kon halen.

Welke resultaten zijn het meest opvallend?

Er zijn twee vragen die je jezelf moet stellen.

  1. Wat is het verhaal van de data? Met andere woorden; wat valt het meeste op of is onverwacht? Die informatie gebruik je als de kern van je artikel of infographic.
  2. Zien de data er normaal uit? Wat normaal is, hangt voor een gedeelte natuurlijk van de data af. Om in het voorbeeld te blijven: als op de 10 kilometer alle finishtijden van de lopers onder de 40 minuten liggen, heb je misschien de data van de wedstrijdlopers te pakken en niet van de recreanten.
aantal lopers MV

Gemiddelde finishtijd per geboortejaar

De data in de bovenstaande grafiek zien er normaal uit. Er is een verdeling, zoals je die bij een hardloopwedstrijd kunt verwachten. Een paar mensen zijn heel snel, een aantal is langzaam en daartussen zit de grote verzameling lopers (de normale- of gauss verdeling).

Aantal lopers per geboortejaar

Aantal lopers per geboortejaar

Ook bij leeftijd zie je een dergelijke verdeling. Er zijn natuurlijk wel leeftijdsrestricties bij een hardloopwedstrijd van 10 kilometer. Deze wedstrijd mag je pas vanaf 12 jaar lopen, vandaar dat de jongste loper vorig jaar uit het jaar 2000 kwam. De oudste loper was 78 jaar oud (geboortejaar 1934).

gemiddelde finishtijden mannen 40min

Gemiddelde finishtijd per geboortejaar (grafiek vanaf 40 minuten)

Wat me persoonlijk opvalt, is dat leeftijd niet zoveel invloed lijkt te hebben op de gemiddelde finishtijd. De mannen zitten in de meeste gevallen gemiddeld rond de 54 minuten (op de groep uit 1949 na, die onder de 50 minuten zit). Bij de vrouwen is de gemiddelde snelheid zo rond de 60 minuten (ook hier weer met een paar uitschieters).

Tussen de gemiddelde vrouw en de gemiddelde man zit dus 6 minuten. Niet verrassend is dit ongeveer de voorsprong die vrouwen krijgen bij de Dam tot Dam-race op de mannen (het verschil in de parcoursrecords).

gemiddelde finishtijden vrouwen 40min

Gemiddelde finishtijd vrouwen per geboortejaar

Pas op met het doen van uitspraken

Als je goed kijkt naar deze statistieken, dan realiseer je je dat het toch wel een erg kleine dataset is. Er zijn duidelijke pieken in de grafiek te zien en dat komt door het ‘kleine’ aantal lopers. De piek bij de mannen helemaal links is het gemiddelde van 1 mannelijke loper uit 1934. Bij de vrouwen zit o.a. een duidelijke piek bij loopsters uit 1991, dit zijn twee dames die waarschijnlijk samen liepen of toevallig even snel zijn.

Vergelijk je dat met een ‘grote’ wedstrijd zoals bijvoorbeeld de Dam tot Dam-loop, dan heb je in plaats van 1200 records opeens 35000 tot 40000 sets data. Als je zoveel data tot je beschikking hebt, kun je met iets meer zekerheid uitspraken doen. Het zou kunnen dat de trends die ik voor deze wedstrijd heb ontdekt ook wel aan de orde zijn bij andere hardloopwedstrijden. Maar zonder data van die wedstrijden, is dat moeilijk hard te maken.

Visuele trucjes

Daarnaast kun je heel veel informatie verbergen of uitvergroten. Als je de grafiek laat beginnen bij 0 minuten finishtijd zoals hieronder, lijken de verschillen vrij klein. Als ik de verticale as aanpas, en deze bij 40 minuten laat beginnen lijken de verschillen visueel al groter (en het is toch precies dezelfde grafiek). Met de lengte van de balk stuur je het gevoel voor verhoudingen, het lijkt of de loopster uit 1991 er meer dan een derde langer over deed, terwijl het in feite maar 12 minuten waren. En zo zijn er nog wel meer trucs (of misschien fouten) om de waarheid een flinke visuele draai te geven.

Gemiddelde finishtijden vrouwen. Grafiek vanaf 0 minuten

Van start met de visualisatie

Voor de visualisatie is het van belang om te weten welke data je wil laten zien en hoe je die data wil vormgeven. Er zijn diverse tools om je te helpen (zowel gratis tools als programma’s waar je voor moet betalen), zoals Infogram en Piktochart. Ik heb ervoor gekozen om een infographic te maken met Piktochart over de ZKA-loop, met daarin de volgende data:

  • waar komen de lopers vandaan;
  • wat is de leeftijdsverdeling;
  • wat is de verhouding man/vrouw;
  • wat is het aantal lopers per leeftijdscategorie;
  • wat het verschil tussen man en vrouw qua gemiddelde finishtijd.

Zo’n infographic maken is nog best lastig

Het maken van een visueel aantrekkelijke infographic is nog niet zo makkelijk. Ik moet ook zeggen dat de infographic die ik gemaakt heb met behulp van Piktochart, niet geweldig mooi is. Het probleem ligt voornamelijk bij de geboortejaren, die had ik geclusterd in groepen van 5 jaar, maar helaas heeft Piktochart nogsteeds te weinig mogelijkheden om zo’n grote hoeveelheid data mooi op te maken. Ook de keuze voor een andere soort grafiek – bijvoorbeeld een lijngrafiek – helpt niet, omdat dan de aslabels wegvallen.

Voor de keuze van een goede tool moet je dus meer tijd uittrekken dan ik gedaan heb. De interface van Piktochart is helaas wat beperkt, maar je hebt de tool gelukkig wel snel onder de knie. Deze infographic is gemaakt in ongeveer 30 minuten.

ZKA Loop 4

Mannen die Reinoud heten, lopen niet het hardst

Eerder in het artikel gaf ik aan dat ik zomaar eens zou kunnen ontdekken dat mannen die Reinoud heten, het hardst lopen. Dat blijkt niet zo te zijn. De winnaar van de race heette Reinoud. Maar dat wil niet zeggen dat mannen die Reinoud heten in principe sneller lopen dan mannen met andere namen. Die conclusie kan ik niet trekken op basis van de data die ik nu tot mijn beschikking heb.

Wat ik daarmee wil zeggen; het is van groot belang om te weten wat de beperkingen zijn van de data waar je mee werkt. Ik kan niets zeggen over andere hardloopwedstrijden, zoals de Damloop. Mogelijk laat data van die wedstrijd dezelfde patronen zien, misschien ook helemaal niet. De uitspraken die ik kan doen gaan alleen over de data van deze hardloopwedstrijd en dan specifiek over de 10-kilometerwedstrijd van 2012.

Is zelf een infographic maken een beetje te doen?

Al met al is het maken van een goede infographic niet moeilijk en eigenlijk voor iedereen met een beetje handigheid best te doen. Met Excel kom je al een heel eind. Als je een infographic wil maken en je bent geen ontwerper (en je kunt er ook geen inhuren), maak dan gebruik van een tool. Er zijn er vele op de markt, verdiep je in de mogelijkheden van de tool die je wil gebruiken en zorg dat je weet wat de tool wel en niet kan.

Als je meer wil weten over datajournalisme is het boek ‘Handboek datajournalistiek‘ trouwens een echte aanrader (hier lees je hoofdstuk 1). Het boek behandelt hoe je uit data een verhaal kan halen (natuurlijk alleen als het er in zit!) en wat je daar vervolgens mee kunt doen.