Anonimiteit niet gegarandeerd; welke methode voorspelt beter?

Is anoniem ook echt anoniem?

Databases die gebruikt worden voor medisch-wetenschappelijk onderzoek, bevatten steeds vaker grote hoeveelheden data. Dit geldt zowel voor het aantal personen in de dataset als voor het aantal variabelen. Grote datasets met rijke informatie over sociaal-demografische factoren, medische informatie en gedragskenmerken vormen de basis voor het moderne datagedreven onderzoek. Hierbij worden doorgaans allerlei maatregelen getroffen om de privacy van de personen in de dataset te waarborgen. Anonimiseren door het verwijderen van direct identificerende gegevens - zoals voorgeschreven in de GDPR-regulering (AVG) - voordat de dataset gedeeld wordt met onderzoekers is een veelgebruikte methode. Dat kan eventueel in combinatie met het openbaar maken van gegevens van slechts een deel van de personen. Met een statistisch model probeerden Luc Rocher en collegae individuen te identificeren uit enkele grote geanonimiseerde
Amerikaanse datasets¹.

Wereldwijd beschouwt men wetgeving gericht op de bescherming van persoonsgegevens geanonimiseerde data niet meer als persoonlijke informatie, waardoor deze vrij gebruikt, gedeeld en verkocht mag worden. Wetenschappelijk tijdschriften eisen bijvoorbeeld steeds vaker dat de gebruikte datasets ook openlijk gepubliceerd moeten worden om replicatie van de onderzoeksresultaten te bevorderen. Maar zelfs als deze datasets volledig voldoen aan de wetgeving, lijkt het mogelijk om individuen te identificeren.

Met het statistische model dat gebruikt werd in bovengenoemd onderzoek bleek het mogelijk om 99,98 procent van de Amerikanen correct te re-identificeren in een van de dataset met 15 demografische variabelen. Dit was zelfs het geval wanneer slechts een deel van de dataset gebruikt werd. Met andere woorden, niet alle personen uit de steekproef zijn ook daadwerkelijk meegenomen in de dataset, waardoor het theoretisch mogelijk zou moeten zijn dat een identificatie ook een persoon kan betreffen die niet in de dataset zit.

Dit geldt uiteraard sterker voor individuen met relatief unieke karakteristieken, bijvoorbeeld hoge leeftijd en bepaalde beroepen. De drie variabelen die de grootste bijdrage leverden aan het re-identificeren van personen was de combinatie van geboortedatum, geslacht en postcode: met deze gegevens konden de onderzoekers 79,4 procent van de inwoners van Massachusetts met een hoge betrouwbaarheid identificeren.

Maatregelen tegen re-identificatie

Uit eigen ervaring weet ik dat in veel Europese datasets uit grote cohortonderzoeken, maar ook datasets uit geregistreerde gegevens, aanvullende maatregelen worden genomen om re-identificatie te voorkomen. Zo wordt vaak alleen de leeftijd in jaren op een bepaald moment in plaats van de geboortedatum opgenomen in de dataset en is de postcode vaak helemaal niet beschikbaar. Hierdoor is het veel lastig om een unieke combinatie te maken.

Maar feit blijft dat de mogelijkheid bestaat om met een combinatie van veel variabelen
individuen te identificeren in datasets en dat dit dus niet alleen een bedreiging is bij genetisch onderzoek. Oplossingen zijn helaas nog niet voorhanden, want zelfs geavanceerdere technieken voor het anonimiseren van datasets zoals k-anonymity, dat overigens moeilijk te implementeren is in hoog-dimensionele data-sets, zijn niet altijd voldoende.