Synthetische data: hoe ‘goedkoop’ook chique kan worden

do 15 juni 2023

Premium

Je kent het wel: van die synthetische kleren. Dat polyester carnavalspak, die trui die je niet te dicht bij een vuurtje moet houden. Ik heb bij het woord synthetisch altijd een beetje een ‘plastic’ gevoel: goedkoop, niet duurzaam.

In de wereld van (big) data en AI echter betekent het bijna het omgekeerde. Want synthetische data kan ons helpen sneller te leren van relaties en zo maatschappelijke problemen sneller op te lossen. Want wat nou als je data nodig hebt of datasets wil combineren, maar het om privacy-redenen of wetgeving niet mag? Synthetische data kunnen dan een oplossing vormen. Maar… wat zijn synthetische data?

Het CBS schrijft hierover1: Synthetische data simuleren kenmerken van relaties tussen personen en objecten (bijvoorbeeld een school of een wijk), waardoor de realiteit kan worden nagebootst zonder dat de persoon of het object geïdentificeerd wordt. Het voordeel van synthetische data is dat er, afhankelijk van het doel van de gebruiker, een afweging wordt gemaakt tussen de analytische waarde van de dataset en het onthullingsrisico (‘fidelity’).

Het CBS is inmiddels met synthetische data aan het experimenteren om te achterhalen voor welke doeleinden dergelijke data echt geschikt zijn. Bij DUO kun je zelfs al zelf synthetische datasets opvragen om onderzoek op te doen op synthetische leerlingen2. En ook IKNL biedt met de Nederlandse Kanker Registratie een synthetische dataset aan om de data beter te begrijpen en onderzoekers te helpen erachter te komen welke data ze echt nodig hebben3. Hiermee vormt het een mooie aanvulling op andere methodes om meer data beschikbaar te krijgen voor onderzoek en leren zoals anonimiseren, differentiëren en versleutelen.

Genereren synthetische data
Synthetische data kunnen worden gegenereerd door een eenvoudige beslisregel, een algoritme of een computersimulatie. De regel hier is: hoe geavanceerder het algoritme (om de werkelijkheid te weerspiegelen), hoe betrouwbaarder de data in relatie tot de werkelijkheid. Maar soms is het ook prima om een hele grote set dummy data te genereren voor test- of onderwijsdoeleinden, waar het minder van belang is de werkelijkheid zo nauwkeurig mogelijk te weerspiegelen.

Hoe dan ook is het met de huidige stand van techniek relatief eenvoudig om door middel van beslisregels of algoritmes de dataset 'vergroten’ waardoor we ook datasets makkelijker kunnen bundelen die we momenteel niet goed kunnen combineren. En is er al een groot aantal bedrijven hierin gespecialiseerd4.

En zo kunnen we data vanuit het sociaal domein (jeugdzorg maar ook bijvoorbeeld schooluitval) op een privacy-vriendelijke manier combineren met zorgdata. Maar ook om data te genereren voor clinical trials bijvoorbeeld. Of om verzekeringsgegevens breder te delen om van te leren zonder hier zeer privacygevoelige, herleidbare gegevens over te delen tussen verzekeringsmaatschappijen onderling.

Soms de ideale oplossing
Onderzoeker Chen (TUDelft5) verwacht dat al in de vrij nabije toekomst 20 tot 30 procent van de data synthetisch is. Zoals zij concludeert: “Je kunt het dan vergelijken met synthetisch leer.’ Net als met leer, kun je best zien dat het nep is. Als je goed kijkt en voelt. Maar als je geen andere stof hebt, dan is nepleer de ideale oplossing – net als synthetische data.”

Hoe mooi zou het zijn als we een landelijke oefenomgeving opzetten met elkaar waar verschillende synthetische datasets vrijelijk beschikbaar hebben voor onderwijs en onderzoek? Zodat we een grote stap kunnen maken naar meer Open Science en open overheid? Zodat onderzoekers, dataspecialisten en statistici die zelf vrijelijk kunnen combineren om nieuwe (cor)relaties te kunnen vinden.

Chique manier
En zo vormt het gebruik van synthetische data geen goedkope, maar eigenlijk een heel chique manier om onderzoek te faciliteren en te stimuleren, met privacy by design!

Referenties
1. Link
2. Link
3. Link
4. Link of link
5. Link