AI-chatbots schieten tekort bij open medische diagnosestelling

ma 26 mei 2025 - 15:55
Diagnostiek
Nieuws

Hoewel generatieve AI-systemen zoals ChatGPT snel terrein winnen in de gezondheidszorg, toont nieuw onderzoek aan dat ze nog verre van betrouwbaar zijn als diagnostisch hulpmiddel. Uit een recente simulatiestudie van de Universiteit van Waterloo blijkt dat ChatGPT-4o, het nieuwste grote taalmodel van OpenAI, slechts in iets meer dan een derde (37%) van de gevallen correcte diagnoses stelde bij open medische vragen.

Het is niet de eerste keer dat de nauwkeurigheid en juistheid van medische diagnoses die gesteld worden door (generatieve) AI-tools ter sprake komen. Zo bleek vorig jaar al eens uit onderzoek dat ChatGPT (versie 3.5) slechts in de helft (49%) van de gevallen de juiste diagnose stelde. En dat was met een LLM die getraind was op een dataset van meer dan 400 miljard woorden. Een ander onderzoek, uit 2023, concludeerde echter dat ChatGPT-4, in bepaalde gevallen, juist beter presteerde dan menselijke artsen bij het stellen van een diagnose. Kortom, deze eerdere, en het nu gepubliceerde recente onderzoek, tonen aan dat er nog een (lange) weg te gaan is en veel (aanvullend) onderzoek nodig zal zijn.

Beoordeling

Voor het nieuwe onderzoek, gepubliceerd in JMIR, werden zo’n 100 vragen uit een medisch toelatingsexamen omgezet in open vraagvorm, vergelijkbaar met hoe patiënten hun klachten zouden beschrijven aan een chatbot. De antwoorden van het AI-model werden beoordeeld door zowel medische studenten als experts. Naast het lage percentage correcte antwoorden werd bijna twee derde van de responsen als "onduidelijk" beoordeeld, onafhankelijk van feitelijke juistheid. Dit wijst op mogelijke risico’s bij het interpreteren van de output door leken.

Een illustratief voorbeeld betrof een patiënt met huiduitslag op handen en polsen. ChatGPT suggereerde een allergische reactie op een nieuw wasmiddel, terwijl de juiste diagnose – een latexallergie door het dragen van handschoenen in een mortuarium – niet werd herkend. Volgens promovendus Troy Zada, eerste auteur van de studie, benadrukt dit het gevaar van schijnbaar plausibele maar incorrecte antwoorden. “Mensen kunnen gerustgesteld worden terwijl er wél sprake is van een ernstig probleem – of onnodig ongerust raken over een onschuldige klacht.”

Menselijke tussenkomst noodzakelijk

Hoewel ChatGPT-4o beter presteerde dan eerdere versies, onderstreept het onderzoek de noodzaak van kritische evaluatie en menselijke tussenkomst bij AI-gebaseerde diagnoses. Volgens medeauteur Dr. Sirisha Rambhatla, directeur van het Critical ML Lab, zijn het vooral de subtiele onnauwkeurigheden die problematisch zijn. “Grote fouten vallen op. Fijne nuances missen kan veel gevaarlijker zijn.”

De onderzoekers wijzen erop dat er nog weinig bekend is over hoe vaak mensen AI daadwerkelijk inzetten voor medische zelfdiagnose. Toch toont een Australisch onderzoek aan dat 1 op de 10 inwoners ChatGPT heeft geraadpleegd voor een gezondheidsprobleem. De boodschap van het onderzoeksteam is dan ook helder: AI kan een waardevolle aanvulling zijn, maar is nog niet accuraat of transparant genoeg om zelfstandig medische diagnoses te stellen. “Gebruik AI met gezond verstand, maar ga bij twijfel altijd naar een arts,” aldus Zada.