‘Machine learning vaak verkeerd ingezet in zorgsector’

Machine learning (ML) is net als deep learning een AI-concept. Hierbij worden grote datasets van bijvoorbeeld scans gebruikt om een algoritme bepaalde zaken aan te leren, zoals het ontdekken van tumoren. ML-algoritmes kunnen onder meer patronen leren ontdekken die mensen niet kunnen zien, zoals minieme veranderingen of afwijkingen op MRI-scans. Ook in Nederland worden met de regelmaat van de klok nieuwe studies gepubliceerd of digitale toepassingen in de klinische praktijk geïntroduceerd die gebruik maken van ML.

Toegevoegde waarde machine learning

In een artikel van Amazing Erasmus laat Maud Kok één van de auteurs - statistisch redacteur en neurochirurg in opleiding Victor Volovici – van het Nature Medicine-artikel aan het woord. Hij schetst wanneer ML wel of niet van toegevoegde waarde kan zijn voor gezondheidszorg en medisch-wetenschappelijk onderzoek.

Volovici en zijn medeauteurs, waaronder prof. Nan Liu (Duke-NUS Medical School, Singapore) en Ari Ercole (Cambridge, Engeland), stellen ‘absoluut te geloven’ in de kracht van ML, maar het moet wel een relevante toevoeging zijn. En dat is volgens hen niet altijd het geval. Zo zetten onderzoekers en ontwikkelaars ML vaak standaard in als analyse-tool. Dit terwijl een normale statistische methode even goed of zelfs beter werkt én beter te begrijpen is voor de gemiddelde clinicus met veel te weinig tijd.

Volovici stelt dat deze clinicus daarom vaak een artikel over een ML-tool naast zich neerlegt wegens gebrek aan inzicht in de gebruikte methodes of de beperkingen van het onderzoek. Dat beperkt ook weer de praktijkimpact. Of de clinicus moet blindelings vertrouwen op de conclusies van een ML-tool, zonder te weten hoe die tot stand gekomen zijn – het black box-fenomeen. “Dat kan natuurlijk niet, het gaat om de patiënt”, aldus Volovici.

Meer kwaad dan goed

Professor Nan Liu voegt hieraan toe dat zonder goed toezicht ML-modellen meer kwaad dan goed doen. Als voorbeeld komt het artikel in Nature Medicine met een voorval waarbij wetenschappers aan het begin van de coronacrisis een algoritme introduceerden dat aan de hand van longfoto’s corona-infecties zou kunnen voorspellen. Achteraf bleek dat het algoritme conclusies had getrokken op basis van de letter R, voor Rechterlong, die steeds op een net andere locatie op de scans te vinden was

Bovendien zijn technologieën zoals ML en deep learning niet geschikt voor de vaak kleine datasets in de gezondheidszorg en medische wetenschap. Vaak gaat het om data van enkele honderden patiënten, zeker bij zeldzame aandoeningen, in tegenstelling tot in sectoren zoals de automotive industrie (zelfrijdende auto’s) of beveiliging (gezichtsherkenning). In het snel verwerken van grote en internationaal samengestelde datasets op basis van algemeen afgesproken criteria, ligt volgens Volovici de grote kracht van ML.

Aanbevelingen

Hieronder staan de tien aanbevelingen voor een goede inzet van machine learning:

Waar nodig moeten naast ML-modellen (vooraf gedefinieerde) gevoeligheidsanalyses met behulp van traditionele statistische modellen worden gepresenteerd.
Protocollen worden gepubliceerd en waar mogelijk collegiaal getoetst, en de modelkeuze moet worden vermeld en onderbouwd.
Alle prestatieparameters van het model moeten worden bekendgemaakt en idealiter moeten de dataset en het analysescript openbaar worden gemaakt.
Publicaties die gebruikmaken van ML-algoritmen moeten vergezeld gaan van disclaimers over hun besluitvormingsproces en hun conclusies moeten zorgvuldig worden geformuleerd.
Onderzoekers moeten zich inzetten voor het ontwikkelen van interpreteerbare en transparante ML-algoritmen die kunnen worden onderworpen aan checks and balances.
Datasets moeten worden geïnspecteerd op bronnen van vooringenomenheid en de nodige stappen moeten worden genomen om vooroordelen aan te pakken.
Het type ML-techniek dat wordt gebruikt, moet worden gekozen rekening houdend met het type, de omvang en de dimensionaliteit van de beschikbare dataset.
ML-technieken moeten worden vermeden bij het omgaan met zeer kleine, maar gemakkelijk beschikbare, gemakkelijke klinische datasets.
Artsen-onderzoekers moeten ernaar streven om, indien mogelijk, grote, geharmoniseerde multicenter of internationale datasets met gegevens met een hoge resolutie aan te schaffen en te gebruiken.
Een richtlijn voor de keuze van een statistische benadering, of het nu gaat om ML of traditionele statistische technieken, zou klinische onderzoekers helpen en de juiste keuzes benadrukken.