Innovatie

Geen woorden maar open data: voorbereiding op een hackathon

0

“Data zijn het nieuwe goud”. Eurocommissaris Neelie Kroes liet vorig jaar weten dat het open maken van tot nu toe niet-publieke datasets Europa jaarlijks 70 tot 140 miljard euro kan opleveren door een toename van innovatie en bedrijvigheid. Goud vind je in in de regel echter niet zomaar op straat; je moet je mouwen opstropen om de eerste klompjes uit de grond te delven en te bewerken tot blinkend goud. Dat is bij open data niet anders.

TNO stelde een aantal datasets beschikbaar voor de hackathon ‘Rotterdam: Open for Business‘. Daarom kunnen we nu beamen dat  er bij het open maken van data – net als bij goud – méér komt kijken dan gewoon een Excelsheetje online zetten.

Zelf ervaren

In dit artikel beschrijven we onze ervaringen met het beschikbaar stellen van onze data. Arjanna en Anne Fleur hebben in hun artikel al kort aandacht besteed aan het proces voor het open maken van data. Dit proces is goed onderbouwd door theorie, zoals je van ons onderzoekers ook zou verwachten. Aangezien open data een nieuw fenomeen is, missen we in de praktijk nog de nodige ervaring in het bewerken en publiceren van open data. De hackathon ‘Rotterdam: Open for Business’ op 13 oktober 2012 was daarom een uitgelezen mogelijkheid om zélf te ervaren hoe data geopend wordt. De teams van vrijwillige programmeurs kregen van de data-eigenaren de opdracht om binnen één dag open data te verwerken tot killer apps. Kortom: de mouwen werden opgestroopt onder het omgetoverde stadsmotto ‘geen woorden maar data’.

De open data-lifecycle

De open data-lifecycle

Identificatie: met de zeef door de organisatie

Laten we ons proces volgen en beginnen bij identificatie. Dat was gelukkig niet als urenlang boven een riviertje hangen met een zeef om dat ene flintertje edelmetaal te spotten. We hadden met onze open data-workshop een hoop collega’s enthousiast gekregen. Er dienden zich dus meteen een aantal TNO’ers aan met een relevante dataset voor de hackathon. We noemen er drie:

  • uitslagen van enquêtes over hoe werknemers hun arbeidsomstandigheden ervaren
  • informatie over hoe de bodem precies is opgebouwd
  • gegevens over onze nationale hobby in de file staan, tot op de hectometerpaal nauwkeurig.
Open bodemdata TNO

Open bodemdata van TNO uit de DINO-dataset

Preparatie: bewerken en afstemmen

Na identificatie van deze datasets was het tijd om ze voor te bereiden op de hackathon, de preparatie-fase. We hebben veel contact gehad met de data-eigenaren om ze te begeleiden bij deze fase. De data moest namelijk eerst zo bewerkt worden dat het voldeed aan de richtlijnen die we samen met de organisatie van de hackathon hadden opgesteld. Hieronder een kort overzicht van onze ervaringen:

  • Het dataformaat. De gemiddelde programmeur moet overweg kunnen, en willen kunnen, met het dataformaat. Dit is een belangrijk punt: vaak is data verzameld met een specifiek doel, bijvoorbeeld voor een rapportage aan de overheid. Daarom moest de data nog verder bewerkt worden voor algemeen, open gebruik. Wij waren aangenaam verrast door de snelheid waarmee onze data-eigenaren hun specifieke datasets geschikt konden maken voor algemeen gebruik. Dit met behulp van eigen data-specialisten, die uit ingewikkelde databases heldere, versimpelde datasets wisten te halen.
  • Het meeleveren van een beschrijving van de data. De programmeurs hebben een beschrijving van de data nodig waarmee ze kunnen begrijpen wat de dataset nu precies bevat. Vaak zit de beschrijving alleen nog in de hoofden van de data-eigenaren en als het al op papier staat, dan is deze beschrijving alleen te begrijpen met een flinke hoeveelheid domeinkennis. Wij hebben onze data-eigenaren daarom gevraagd om een beschrijving te leveren met termen die voor iedereen te begrijpen zijn. De beschrijving van de bodem-dataset stond bijvoorbeeld al op een website. Daarnaast liepen onze data-eigenaren rond op de hackathon om ter plaatse ondersteuning aan de programmeurs te kunnen bieden.
  • Het eigenaarschap. De data-eigenaar moet de vrijheid hebben om de data open te stellen. Daarom kunnen er in principe alleen datasets worden aangeboden die geheel met publieke middelen zijn gefinancierd. Bij de enquête arbeidsomstandigheden leverde dit bijvoorbeeld extra afstemming op: de enquête was wel betaald met belastinggeld, maar was ook eigendom van een andere publieke partij, namelijk het CBS. De eigenaarschap legden we vast in een licentievorm. We gaven onze data vrij onder de Creative Commons-licentie CC-BY die aangeeft dat iedereen er alles mee mag doen, zolang men de bron vermeldt. Het open karakter van de licentie was geen probleem voor onze datasets, omdat het om publieke data ging.
  • De privacy. Open data mag volgens de Wet Bescherming Persoonsgegevens niet te herleiden zijn tot personen. Dat vinden we zeer belangrijk, en daar kunnen we dus kort over zijn. Daar waar de data, bijvoorbeeld over arbeidsomstandigheden, tot personen herleidbaar was zijn bepaalde demografische vragen uit de enquête weggelaten en de data te aggregeren op een hoger niveau (bijvoorbeeld wijk in plaats van buurt).
  • De scope. We hebben de eigenaren gevraagd hun dataset te beperken tot de regio Rijnmond. Voor de mobiliteits-dataset betekende deze scope bijvoorbeeld dat alleen data over verkeersstromen op de A13 werd gepubliceerd. Gelukkig was deze scope snel aan te brengen: de dataspecialisten konden gemakkelijk een selectie van de data aanbieden door middel van het filteren op geocodes.

Publicatie: op naar de hackathon

Nadat wij alle geprepareerde data in onze mailbox hadden ontvangen, werd het tijd voor publicatie. Het online zetten dus. In de toekomst streven we er naar om open data aan te bieden via een grote TNO-databank die geïndexeerd zal worden bij de Nederlandse dataportal. De TNO databank is er nog niet, dus hebben we aan Rotterdam Open Data gevraagd of zij de aangeleverde datasets in hun datastore konden plaatsen. Uiteindelijk werd onze data opgenomen, maar helaas niet zonder de nodige technische problemen op de laatste middag vóór de hackathon: het uploaden van de beschrijvingen en datasets weigerde dienst.

Op 13 oktober was het moment suprême aangebroken: de hackathon! Uit heel het land gingen deelnemende teams met programmeurs aan de slag met data om er waardevolle apps mee te maken. En de TNO-data? Uiteindelijk zijn alleen de data over arbeidsomstandigheden voor een zorg-app gebruikt. Met deze app kunnen burgers een rapportcijfer krijgen over de voorzieningen in een Rotterdamse wijk. Wat is bijvoorbeeld de kwaliteit van de ziekenhuizen of de sfeer?

En waar is het goud?

Eén app op basis van open TNO-data lijkt misschien een beetje teleurstellend. Natuurlijk, maar de ervaring was belangrijker. De hackathon bleek met name een goed moment om de energie en het enthousiasme van de open data-community te proeven. Onze data-eigenaren zijn namelijk in aanloop naar en tijdens de hackathon enthousiast geworden over open data. Ze zitten nog wel met prangende vragen als: welke data heeft de meeste waarde voor hergebruik? Wat is onze aansprakelijkheid? Welk nieuw businessmodel moeten we hanteren voor niet-publieke data? En, hoe garanderen we de datakwaliteit? Kortom: is alles wel goud wat er blinkt?

Deze vragen spreken voorzichtigheid uit die niet meer dan normaal te noemen is: wij gooien ons goud niet zómaar op straat. Eigenlijk komt die voorzichtigheid op één belangrijke vraag neer: hoe kunnen we op duurzame wijze meerwaarde halen uit open data? Voor (her-)gebruikers van de data, maar ook voor onszelf door bijvoorbeeld samen te werken bij het ontwikkelen van diensten. In een volgend artikel zullen we dan ook in gaan op het hergebruik van open data.