Data mining belicht risicofactoren; nut van virtuele interviewer

12 december 2018
Data mining belicht risicofactoren; nut van virtuele interviewer
eHealth

Data mining voor opsporen risicofactoren aangeboren oogafwijkingen

Al jarenlang wordt Big Data genoemd als een één van de belangrijkste ontwikkelingen binnen (medisch) wetenschappelijk onderzoek, die voor vele doorbraken bij het voorspellen en behandelen van allerlei aandoeningen zou gaan zorgen. Met name onderzoek naar zeldzame aandoeningen zou van deze methodologie kunnen profiteren [1], maar tot op heden is het aantal succesvolle voorbeelden nog zeer beperkt. Onlangs zijn in een studie data mining technieken toegepast om nieuwe potentiële risicofactoren voor zeldzame aangeboren oogafwijkingen te identificeren [2].

Anofthalmie (het ontbreken van een of beide ogen) en microfthalmie (het hebben van een klein oog of ogen) komen bij ongeveer 19 per 100.000 levend geboren kinderen voor. In eerdere studies zijn enkele risicofactoren voor deze aandoeningen gevonden, waaronder een hogere leeftijd van de moeder en het gebruik van bepaalde pijnstillers in het begin van de zwangerschap. De resultaten zijn echter inconsistent.

In het nieuwe onderzoek werd data uit de National Birth Defects Prevention Study gebruikt om hypothesevrij te zoeken naar verbanden tussen een groot aantal factoren zoals deze nagevraagd zijn in dit Amerikaanse onderzoek en deze twee oogaandoeningen.

Random forest

De auteurs hebben gebruik gemaakt van random forest, een veelgebruikte methode voor data mining [3]. Deze methode produceert een model gebaseerd op het belang van de variabelen bij het voorspellen van de uitkomstmaat: in dit geval anofthalmie of microfthalmie. Deze voorspellende variabelen worden hierbij zowel individueel als in combinatie getest.

In dit onderzoek werd gebruik gemaakt van informatie in 201 variabelen die door middel van telefonische interviews verkregen was van moeder van 221 patiënten en van 11.052 gezonde kinderen. Dit is overigens voor het gebruik van data mining methoden een relatief klein aantal variabelen in een kleine onderzoekspopulatie.

Nieuwe risicofactoren ontdekt

Met de data mining methode werd een aantal nieuwe potentiële risicofactoren ontdekt, waaronder: inname van bepaalde nutriënten en voedingsmiddelen tijdens de zwangerschap, passief roken voor de zwangerschap en etniciteit en opleidingsniveau van de vader. Verder werd een aantal risicofactoren geïdentificeerd die ook al in eerder onderzoek gevonden waren. Hieronder valt een lagere socio-economische status, blootstelling aan bepaalde pijnstillers en onvoldoende inname van foliumzuur. Wel moet benadrukt worden dat het hier niet per definitie gaat om oorzakelijke verbanden.

Het gebruik van data mining-methoden zoals random forest lijkt veelbelovend voor het uitpluizen van grote databestanden. Deze methoden hebben echter een aantal belangrijke methodologische beperkingen. Doordat er gezocht wordt naar associaties met veel (combinaties van) variabelen, zullen er altijd een aantal verbanden gevonden worden op basis van kans. En het is in dit verband lastig om het kaf van het koren te scheiden, waardoor dit soort studies eigenlijk altijd hypothese-genererend zijn en dus een basis vormen voor vervolgonderzoek.

Daarnaast speelt de kwaliteit van de onderliggende data ook een rol: wanneer deze niet valide zijn, zullen de resultaten ook vertekend zijn (garbage in, garbage out). Het belang van een goede dataverzameling moet dus ook hier niet onderschat worden.

Onderzoeksassistent versus tablet voor dataverzameling

Medicijngebruik is een belangrijke factor in veel klinisch onderzoek. Zo heeft meer dan 80 procent van de Amerikanen medicijnen of voedingssupplementen gebruikt in de afgelopen week [1]. Uit eerder onderzoek is echter bekend dat het ontzettend lastig is om medicijngebruik goed vast te leggen. De voorkeur gaat hierbij uit naar gestructureerde interviews door onderzoeksassistenten met een achtergrond in de farmacie, maar dit is in veel grootschalige onderzoeken te kostbaar. Jody Green en collega’s ontwikkelden hiervoor een applicatie op een tablet en testten dit in een gerandomiseerd onderzoek [2].

In dit onderzoek werd aan 220 deelnemers gevraagd om 30-35 dagen een dagboekje over medicijngebruik bij te houden. Na deze periode werd bij de helft van de deelnemers een gestructureerd interview afgenomen, waarin medicatiegebruik werd nagevraagd. Bij de andere helft van de deelnemers gebeurde dit met een applicatie op een tablet (eMedHAT). Deze applicatie volgde dezelfde structuur als het interview, maar hierbij vult de deelnemer zelf de gegevens in, in plaats van de getrainde onderzoeksassistent.

Uit de resultaten bleek dat de gegevens verkregen uit de applicatie van dezelfde kwaliteit waren als die uit de interviews (respectievelijk 75.2% versus 76.9% overeenkomst met de dagboekjes). De deelnemers die de applicatie gebruikten, waren wel meer tijd kwijt dan de deelnemers die geïnterviewd werden (26 minuten versus 15 minuten). Uiteindelijk leverde de applicatie toch tijdswinst op, doordat de onderzoekers veel minder tijd per deelnemer nodig hadden voor de verwerking van de gegevens in de tablet-groep (32 minuten) vergeleken met de interviewgroep (48 minuten).