Oratie Saskia Le Cessie: ook bij big data-onderzoek veel valkuilen

Big data in wetenschappelijk onderzoek brengt niet alleen meer en betere inzichten. Het vergroot ook de kans dat er verkeerde verbanden gelegd worden. Dat stelde Saskia Le Cessie, hoogleraar Medische Statistiek aan de Universiteit Leiden, 22 september tijdens haar oratie.

Geeft roken een hoger risico op dementie? Moet een bevalling ingeleid worden bij een groeivertraging? En leiden drie koppen koffie per dag tot minder trombose? Op dit soort vragen hopen medisch onderzoekers antwoord te krijgen door grote groepen mensen te bestuderen. Ze vergelijken vaak twee groepen en zoeken dan naar oorzaak en gevolg. Big data toepassingen bieden hier steeds meer vergelijkingsmogelijkheden, onder meer door het koppelen en analyseren van voorheen gescheiden datasets.

Let goed op voordat je conclusies trekt

Het is vaak niet eenvoudig om de juiste conclusies te trekken uit epidemiologisch onderzoek. Resultaten kunnen door toeval afwijken of vertekend zijn. “Een goede onderzoeksopzet en het gebruik van de juiste statistiek is daarom van groot belang,” stelde Saskia Le Cessie, hoogleraar Statistische Methoden in Observationeel (Klinisch) Epidemiologisch Onderzoek. “Stap daarom op tijd naar een statisticus waarmee je de onderzoeksopzet doorneemt of volg een goede cursus. Zorg dat je snapt wat je doet en weet waar de valkuilen zitten.’’

Analyseren grote databestanden
De hoogleraar ging in op een nieuw soort epidemiologische studie die opgang doet: het analyseren van grote bestaande databestanden die voor een ander doel waren opgezet. Hulpverleners verzamelen in elke spreekkamer gigantische hoeveelheden data. Daarvan worden sommige nu in hoog tempo geschikt gemaakt voor epidemiologisch onderzoek.

De verwachtingen van de analyse van deze ‘big data’ zijn hoog, omdat je met slimme computers veel nieuwe verbanden zou kunnen vinden. Le Cessie vindt het belangrijk deze verwachtingen te managen. Big data is niet altijd betere data.

“Je komt er dezelfde problemen tegen als bij de standaard epidemiologische studies. En vaak nog veel meer. Want de gegevens kunnen bijvoorbeeld invoerfouten bevatten die niet problematisch waren voor het doeleinde waarvoor ze verzameld waren, maar wel voor het epidemiologisch onderzoek. Bovendien is vaak niet bekend hoe er geregistreerd is, met welke intentie, en of artsen dat allemaal op dezelfde manier deden. Ook hier geldt dus: opletten voordat je conclusies trekt.”

Bestaande soorten klinische studies

Le Cessie ging ook in op de huidige twee soorten klinische studies en hun valkuilen: gerandomiseerd en observationeel onderzoek. In het eerste type wijst de onderzoeker via loting mensen toe aan twee groepen, die ieder een andere interventie krijgen, en kijkt dan naar de verschillen. In observationeel onderzoek vindt geen behandeling plaats, maar vergelijkt een onderzoeker een specifieke groep, bijvoorbeeld koffiedrinkers, met een niet-specifieke groep, theedrinkers in dezelfde leeftijdsgroep, en kijkt dan of er in de groep van koffiedrinkers vaker een bepaalde aandoening voorkomt.

Beide typen onderzoek hebben hun eigen tekortkomingen. Gerandomiseerd onderzoek is duur en de onderzoeker moet lang, soms vele jaren, wachten op het antwoord. Observationeel onderzoek duurt vaak minder lang, maar het direct vergelijken van groepen kan een vertekend beeld geven.