En tips om kwaliteit te verhogen en kosten verlagen
Veel organisaties zijn gestart met data-gedreven werken of ze zijn actief aan het onderzoeken hoe ze meer uit hun data kunnen halen. Data-gedreven werken kan een oplossing zijn om veel doelstellingen te halen. Daarnaast moeten we niet vergeten dat er ook veel mogelijk is met de open data die tegenwoordig beschikbaar is. Er zijn veel situaties waarin de inzet van open data op korte termijn veel waarde kan opleveren. In deze blog laten we zien hoe je deze gegevens kunt toepassen tot voordeel van je organisatie.
Wat is open data?
Volgens de Open Knowledge Foundation is open data:
Open data is data die vrij gebruikt kan worden, hergebruikt kan worden en opnieuw verspreid kan worden door iedereen - onderworpen enkel, in het uiterste geval, aan de eis tot het toeschrijven en gelijk delen.
De rijksoverheid geeft een uitgebreide definitie van open data op hun Open Data Portaal. Voor alledaags gebruik is die definitie wat beperkend. Je kunt ook veel voordeel behalen met data die wel vrij toegankelijk en rechtenvrij bruikbaar is, maar niet voldoet aan alle criteria van open data. Zo kan data die niet eenvoudig vindbaar is wel van veel nut zijn. Een goed voorbeeld is de data die in het begin van de coronapandemie alleen via spreadsheets beschikbaar werd gesteld door het RIVM. Bedenk wel dat er vaak domeinexperts nodig zijn om dergelijke datasets te vinden en toe te passen.
1. Voeg waarde toe aan je organisatie
Open data is bij uitstek geschikt voor het verrijken en vereenvoudigen van je businessprocessen, omdat ze een duidelijk afgebakend domein beschrijven met herkenbare koppelvlakken (identifiers). Denk bijvoorbeeld aan de open datasets van het KNMI die gebruikt kunnen worden om processen op bepaalde locaties te laten reageren op veranderende weersomstandigheden.
2. Bespaar kosten met gratis data
Vaak is data gratis te gebruiken, is de dataset van hoge kwaliteit en worden er regelmatig updates aangeboden. De kosten voor toepassing van open data zitten in de automatiseringsprocessen. En net als bij cloud-computing zijn er twee modellen om de investering te realiseren:
- CapEx: ontwikkel een proces voor inlezen en toepassen van open data in een businessproces
- OpEx: maak gebruik van cloudleveranciers om open data via een API in een businessproces toe te passen
Het OpEx-model is uitermate geschikt voor organisaties die werken met kleine datavolumes of om te testen of open data daadwerkelijk waarde toevoegt aan de organisatie. Doordat er geen licentiekosten aan open data zijn verbonden zijn de instapkosten van het OpEx-model laag.
3. Ontdek nieuwe mogelijkheden met open data
Door open data te koppelen is het mogelijk om de datasets van je organisatie ook te integreren met andere databronnen of derde partijen. In de praktijk zien we vaak dat de toepassing van open data zorgt voor een nieuwe kijk op de datasets die verrijkt worden. Met name datasets van de rijksoverheid en de EU gaan gepaard met mooie semantische modellen die helpen om de datasets van je organisatie te verbeteren. Zo kan het kiezen van de juiste unieke identifier (denk bijv. aan het IBAN-nummer) het mogelijk maken om je data te koppelen aan andere databronnen of de waarde vergroten waardoor je een nieuwe propositie kunt aanbieden.
Tips: waar moet je rekening mee houden?
Als je, na het lezen van deze drie redenen, open data wilt inzetten om de impact van je applicaties te vergroten dan zijn er een aantal zaken om rekening mee houden. Voor de meeste toepassingen zijn de onderstaande criteria voldoende om naar te kijken. Als je een stap verder wilt gaan dan kun je de uitgebreidere, formele criteria van de 6 dimensies van data kwaliteit. Bij iedere vraag geef ik een voorbeeld aan de hand van de dataset met adresgegevens van Nederland, de Basisregistratie Adressen & Gebouwen.
Kwaliteit
- Hoe accuraat is de data?
- Is een adres vastgelegd op de meter nauwkeurig?
- Hoe betrouwbaar zijn de waarden in de dataset?
- Is het 100% zeker dat een adres bestaat en dat de locatie klopt?
- Welk formaat is gebruikt om de gegevens vast te leggen?
- Als een adres geen huisletter heeft, is het veld dan NULL of een lege waarde?
Validiteit
- Hoelang is de data geldig?
- Kan ik de dataset na een jaar nog goed gebruiken?
- Welk gebied van het domein is gedekt?
- Zijn adressen op Curaçao ook aanwezig in de dataset?
- Is de data voor elke toepassing geldig?
- Kan een architect de omtrek van gebouwen gebruiken voor een technische tekening?
Actualiteit
- Wanneer is de dataset geüpdatet?
- Zijn adressen van huizen die in november 2022 (de huidige maand) zijn opgeleverd beschikbaar?
- Hoe vaak of hoe snel wordt de data ververst?
- Hoelang duurt het voordat een nieuw adres beschikbaar is in de dataset?
- Welke bronnen zijn gebruikt om de dataset te genereren?
- Zijn de adressen ingemeten door gecertificeerde landmeters of ingewonnen via crowd-sourcing?
In specifieke gevallen kan het zijn dat je meer eisen wil stellen, bijv. rondom automatisering en testbaarheid. Maar eerst wil ik iets langer stilstaan bij deze drie hoofdvragen. Let wel: hoewel ze kwantificeerbaar zijn, zegt dit niets over de toepasbaarheid in een specifiek geval.
Kwaliteit
De kwaliteit van data is subjectief en afhankelijk van je doel. Wanneer je een applicatie bouwt die een straatnaam zoekt bij een postcode dan is de locatie van een adres niet relevant en maakt het niet uit hoe nauwkeurig die is ingemeten. Als je GPS-coördinaten wilt vertalen naar een adres dan is een nauwkeurigheid van centimeters niet nuttig, omdat de afwijking van een GPS-sensor ongeveer 5 meter of meer is.
Validiteit
De geldigheid van data is de minst complexe vraag die beantwoord moet worden. De dekking (zowel geografisch als in de tijd) is meestal eenvoudig te bepalen. Het is wel de vraag of de set compleet is. Terugkomend op het voorbeeld dat we gebruiken: bevat de dataset van Nederland alle adressen? De toepasbaarheid van gegevens kan lastig zijn, omdat die niet altijd goed gedocumenteerd is.
Actualiteit
De actualiteit van data is niet altijd eenduidig. Vaak ontbreekt goede metadata om dit vast te stellen, maar het kan ook zijn dat de werkelijke actualiteit verstopt zit in de data. Zo kan een record in een database vastgelegd zijn op een bepaalde datum, maar is de meting veel eerder gedaan. Het kan ook zijn dat een record een geldigheidsdatum bevat. Zo bevat de dataset met adressen een veld waarin de status en evt. einddatum is vastgelegd; een adres kan de status ‘gesloopt’ hebben en dus is het belangrijk om hier rekening mee te houden met de verwerking van deze dataset.
Samenvatting
We hebben gezien wat open data is en waarom je deze datasets zou kunnen inzetten in je organisatie. In het kort heb ik wat handvatten gegeven om datasets te evalueren op geschiktheid. In mijn volgende blogpost laat ik je aan de hand van een praktijkvoorbeeld zien hoe je met deze kennis een realistische business case kunt implementeren.
Discussion (0)