Ethiek in het onderzoek van de toekomst

Tekst gebaseerd op: ‘Ethiek van praktijkgericht onderzoek; zonder ethiek is het al moeilijk genoeg’. Hoe betrouwbaar is een studie die gebruik maakt van data verkregen via social media? Is ‘anoniem’ wel echt anoniem als het Big Data betreft? Ontwikkelingen op het gebied van data en technologie werpen nieuwe ethische consequenties op in de onderzoekswereld.

Bedrijven, overheden en onderwijsinstellingen zijn steeds meer in staat grote hoeveelheden data te analyseren om inzicht te krijgen in het gedrag van consumenten, burgers en studenten. We spreken dan over ‘Big Data’. Maar wat zijn big data eigenlijk? Een min of meer geaccepteerde zienswijze is dat big data bestaat uit drie componenten:

Een enorme omvang aan digitale data (volume)
Data zijn divers en vaak ongestructureerd (variety)
Deze data worden in een hoog tempo geproduceerd en verwerkt (velocity) [1].

Het gaat dus niet alleen om de hoeveelheid data, het gaat ook om diversiteit en snelle beschikbaar van data. De onderzoeksvragen die onderzoekers met Big Data beantwoord willen zien, is bij aanvang van de onderzoeken nog niet scherp omlijnd: de onderzoeken worden vaak iteratief bijgesteld aan de beschikbare data. Met behulp van Big Data kan er namelijk ‘onbekende en verborgen informatie’ worden gevonden; informatie die nuttig kan zijn voor de maatschappij, de praktijk, of de gezondheidszorg, maar waar voorheen nog niet aan werd gedacht. Op de Universiteit van Ontario (Institute of Technology), Canada, worden pasgeboren baby’s continue gemonitord op de intensive care. Door het continu in kaart brengen van diverse factoren zoals temperatuur, hartslag en bloeddruk, kan 24 uur voordat een complicatie plaatsvindt, deze voorspeld worden. Hierdoor kan de arts vroegtijdig een behandeling starten. Big data staat haaks op het huidige wetenschappelijk denken, waarin een hypothese geformuleerd wordt. Zo worden subsidies voor wetenschappelijk onderzoek in de gezondheidszorg vaak alleen toegekend aan projecten waarin eenduidige hypotheses worden geformuleerd. Dit betekent dat het huidige klimaat binnen ‘onderzoeksland’ (incl. de subsidieverstrekkers) dikwijls geen gelijke tred houdt met de ontwikkelingen binnen de technologie.

door het combineren van datasets bestaat de mogelijkheid dat de gegevens ‘gedeanonimiseerd’ worden

Privacy

Bij het ‘exploratieve karakter’ van big data kunnen ook kanttekeningen geplaatst worden. Deze zijn veelal gerelateerd aan privacy; ‘Wat wordt er eigenlijk allemaal verzameld en geanalyseerd?’ en ‘Wie heeft allemaal toegang tot deze data?’ Met name bij data die vertrouwelijke informatie bevatten zoals medische informatie worden deze vragen geopperd. Er zijn veel nationale en Europese wetten zijn die verband houden met privacy van gegevens (www.ccmo.nl), maar die lopen niet altijd synchroon met de voortdurende ontwikkelingen. Deze wetgeving zorgt ervoor dat individuele datasets zelden gevoelige informatie bevatten; door het verwijderen van identificerende gegevens worden deze gegevens geanonimiseerd. Echter, door het combineren van dergelijke datasets, veelal afkomstig van verschillende bronnen (bijv. in het zorgdomein), bestaat de mogelijkheid dat de gegevens ‘gedeanonimiseerd’ worden: combinaties van datasets maken de data weer herleidbaar naar specifieke personen. Uit onderzoek bleek dat maar liefst 40 procent van de deelnemers aan een, anoniem, DNA-onderzoek uiteindelijk toch geïdentificeerd konden worden [2].

Gebruik wearables

In het huidige zorglandschap wordt er steeds meer gebruik gemaakt van zogenoemde ‘lifestyle gadgets’; tijdens het dragen worden data verzameld over bijvoorbeeld het aantal genomen stappen, het calorieverbruik, en, als het ’s nachts wordt gedragen, de slaapkwaliteit. Mogen dergelijke wearables worden gebruikt om een onderzoek te starten naar de gezondheid van werknemers? Mogen medewerkers gevraagd worden de data die verkregen worden te delen? De Autoriteit Persoonsgegevens (AP) gaf in 2016 een volmondig ‘Nee’ als antwoord toen twee bedrijven wearables gebruikten om inzicht te krijgen in de hoeveelheid lichaamsbeweging en slaap van hun medewerkers. Zelfs als medewerkers toestemming geven, blijkt dit in strijd met de Wet bescherming persoonsgegevens.

Betrouwbaarheid van de data

Een tweede issue dat kan ontstaan, betreft de representativiteit van nieuwe vormen van dataverzameling. Overheden, instituten en bedrijven maken bijvoorbeeld steeds meer gebruik van sociale media om inzicht te krijgen in de gedragingen en voorkeuren van groepen. Onderzoek dat gebruik maakt van sociale media is ‘hot’. Juist omdat dergelijk onderzoek relatief gemakkelijk en snel uitvoerbaar is, is deze vorm van Internetonderzoek in trek. De vraag rijst hoe representatief data verkregen via Internet eigenlijk zijn: ‘Voor welke groep(en) is deze data representatief?’ en ‘Kan deze data gegeneraliseerd worden naar andere groepen’ zijn vragen die onderzoekers zichzelf zouden moeten stellen [3].