Kan ChatGPT de medische diagnostiek verbeteren?

Artsen in opleiding bij het Jeroen Bosch Ziekenhuis hebben het diagnostische vermogen van AI-tekstgenerator ChatGPT onderzocht. In de praktijk blijkt dat de bot, met name bij patiënten met eenduidige klachten, hierbij ondersteunend kan zijn maar ook beperkingen heeft. ChatGPT's vermogen om meerdere diagnoses te suggereren voor complexe of zeldzame aandoeningen werd in het onderzoek bijvoorbeeld niet bevestigd. De bevindingen van het onderzoek zijn onlangs gepubliceerd in het gerenommeerde tijdschrift 'Annals of Emergency Medicine'.

Een recente studie onderzocht de mogelijkheid van grote taalmodellen, zoals ChatGPT, om te assisteren bij diagnostisch onderzoek. De bevindingen tonen aan dat ChatGPT vergelijkbare resultaten behaalde bij het genereren van differentiële diagnoses als medische experts die dezelfde gevallen retrospectief evalueerden.

Waardevolle ondersteuning bij diagnostiek

De bevindingen suggereren dat AI-taalmodellen in de toekomst mogelijk waardevolle ondersteuning kunnen bieden bij diagnostiek in de gezondheidszorg. ChatGPT bleek in staat om differentiële diagnoses op te stellen die vergelijkbaar waren met die van medische professionals. In 80% van de gevallen hadden zowel ChatGPT als de artsen de juiste diagnose in de top 5. In sommige gevallen stond de juiste diagnose zelfs in de top 5 van ChatGPT, terwijl artsen deze niet hadden overwogen. AI-taalmodellen kunnen artsen helpen door nieuwe ideeën aan te dragen tijdens het diagnostisch proces.

ChatGPT heeft beperkingen

Maar het was niet allemaal rozengeur en maneschijn, want de studie legde ook een aantal beperkingen bloot. Ten eerste betroffen de onderzochte gevallen slechts één primaire klacht en diagnose, in tegenstelling tot de complexe patiënten op de spoedeisende hulp met meerdere medische problemen. ChatGPT's vermogen om meerdere diagnoses te suggereren voor complexe of zeldzame aandoeningen kon niet bevestigd worden.

Hiernaast vertoonde het taalmodel soms onrealistische of inconsistente redeneringen, wat kan leiden tot verkeerde informatie en diagnoses, met ernstige gevolgen. De ethische en juridische aspecten van het gebruik van grote taalmodellen in de medische context moeten zorgvuldig worden overwogen, aangezien ChatGPT geen medisch hulpmiddel is.

Differentiële diagnostiek

Desondanks heeft de studie waardevolle inzichten opgeleverd. Het protocol voor differentiële diagnoses weerspiegelde nauwkeurig de dagelijkse praktijk. Elk geval werd systematisch in het Nederlands en Engels beoordeeld, met en zonder laboratoriumresultaten, wat de inconsistenties in ChatGPT's reacties benadrukte. Dit benadrukt de onvoorspelbaarheid van grote taalmodellen en het feit dat ze artsen kunnen ondersteunen, maar dus niet kunnen vervangen.

Wel kunnen artsen, zij het met een zeer kritische blijk, kennis tanken bij deze chatbots. Een recent onderzoek, gepubliceerd in Nature, laat zien hoe een AI-gestuurde bot, Med-Palm2 van Google, een voldoende scoort voor het officiële USMLE-examen. Iedereen die in de VS als arts aan de slag wil, moet dit examen met goed resultaat afleggen.

Artsen gebruiken slimme chatbots, zoals ChatGPT en Med-Palm 2, sowieso steeds regelmatiger als steuntje in de rug. Een bijzonder weetje is dat ook steeds meer dokters ontdekken dat zo’n large language model hen kan helpen om meer empathisch te zijn. Op meerdere plekken, zoals in de Mayo Clinic in Amerika, worden chatbots verder al ingezet als slim hulpmiddel om aankomende artsen te trainen. Ook hierbij blijft echter altijd de kritische blik van een mens nodig.

ChatGPT is géén medisch hulpmiddel

De mogelijke diagnostische mogelijkheden van ChatGPT die uit het onderzoek bij het Jeroen Bosch Ziekenhuis naar voren komen, sluiten aan bij eerdere ervaringen met grote taalmodellen. Het is volgens de onderzoekers cruciaal om te benadrukken dat ChatGPT, en vergelijkbare taalmodellen, geen medische hulpmiddelen zijn en niet bedoeld zijn om medische professionals te vervangen. Toekomstig onderzoek moet zich richten op het gebruik van taalmodellen als ondersteunende tools, en de impact op snelheid en nauwkeurigheid van diagnostiek in de kliniek. Privacywetgeving speelt hierbij een belangrijke rol, en dit onderzoek werd om die reden uitgevoerd op basis van anonieme retrospectieve dossieranalyse.

Het onderzoeksteam bestond uit Hidde ten Berg en Steef Kurstjens van het Jeroen Bosch Ziekenhuis, en Bram van Ginneken van het Radboudumc, met betrokkenheid van verschillende afdelingen, waaronder Spoedeisende Hulp, Interne Geneeskunde en het Laboratorium voor Klinische Chemie en Hematologie van het Jeroen Bosch Ziekenhuis.