ChatGPT scoort minder dan 50 procent in medische diagnostiek

Generatieve AI-tools zoals ChatGPT zijn de afgelopen jaren flink in opkomst en dat geldt ook voor de gezondheidszorg. Een van de toepassingen waarbij met deze zogenoemde GenAI-tools wordt getest is de medische diagnostiek. Daarbij worden symptomen geprompt in bijvoorbeeld ChatGPT om te bepalen of met AI ook, en liefst vaker en beter, de juiste diagnose gesteld kan worden. Welnu, onderzoekers stellen nu dat ChatGPT slechts in iets minder dan de helft van de gevallen (49%) de juiste diagnose stelt.

Daarmee presteert ChatGPT net zo ‘matig’ als een van de bekendste alternatieven; Dr. Google. Bijzonder, zeker als je bedenkt dat ChatGPT voor de medische diagnostiek al in staat gebleken is om goedkeuring te krijgen voor gebruik in de praktijk. Dat was voor de onderzoekers van de Western University in Canada dan ook de reden om de prestaties van ChatGPT op dit gebied eens onder de loep te nemen.

Trainen met 400 miljard woorden

Daarvoor werd gekozen om, met behulp van ChatGPT 3.5, een groot taalmodel (LLM) te trainen op een enorme dataset van meer dan 400 miljard woorden van het internet. Die waren afkomstig uit meerdere bronnen, zoals boeken, artikelen en websites. Daarmee voerden de onderzoekers een kwalitatieve analyse uit van de medische informatie die de chatbot gaf door hem Medscape Case Challenges te laten beantwoorden. Dit zijn complexe klinische casussen die een uitdaging vormen voor de kennis en diagnostische vaardigheden van een medische professional.

Medische professionals moeten een diagnose stellen of een geschikt behandelplan kiezen voor een casus door te kiezen uit vier meerkeuzeantwoorden. De onderzoekers kozen voor de Case Challenges van Medscape omdat die open-source en vrij toegankelijk zijn. Om te voorkomen dat ChatGPT voorkennis had van de casussen, werden alleen de casussen meegenomen die waren geschreven na de training van versie 3.5 van de AI-tool, in augustus 2021.

150 cases geanalyseerd

In totaal werden 150 Medscape-cases geanalyseerd. Met vier meerkeuze antwoorden per casus, waren er 600 mogelijke antwoorden, waarvan er per casus natuurlijk maar één de juiste was. De geanalyseerde casussen hadden betrekking op een breed scala aan medische problemen. Cases met visuele elementen, zoals klinische beelden, medische fotografie en grafieken, werden uitgesloten.

Om te zorgen voor consistentie in de input voor ChatGPT, werd elke case-uitdaging omgezet in één gestandaardiseerde prompt, inclusief een script van de output die de chatbot moest leveren. Alle casussen werden geëvalueerd door ten minste twee onafhankelijke beoordelaars, medische stagiairs, die blind waren voor elkaars antwoorden. Ze beoordeelden de antwoorden van ChatGPT op basis van diagnostische nauwkeurigheid, cognitieve belasting (dat wil zeggen, de complexiteit en duidelijkheid van de verstrekte informatie, van laag naar hoog) en kwaliteit van de medische informatie (inclusief of deze volledig en relevant was).

49% goed beoordeeld

Van de 150 geanalyseerde Medscape-cases gaf ChatGPT correcte antwoorden in 49% van de gevallen. De chatbot toonde echter een algehele nauwkeurigheid van 74%, wat betekent dat hij onjuiste meerkeuzeopties kon identificeren en verwerpen.

“Deze hogere waarde is te danken aan het vermogen van ChatGPT om echte negatieven (onjuiste opties) te identificeren, wat aanzienlijk bijdraagt aan de algehele nauwkeurigheid en het nut ervan vergroot bij het elimineren van onjuiste keuzes. Dit verschil benadrukt de hoge specificiteit van ChatGPT, wat aangeeft dat het in staat is om uit te blinken in het uitsluiten van onjuiste diagnoses. De precisie en gevoeligheid moeten echter nog worden verbeterd om betrouwbaar de juiste diagnose te kunnen stellen”, aldus de onderzoekers.

Vals positieven en vals negatieven

Ook leverde ChatGPT vals-positieven (13%) en vals-negatieven (13%) op, wat gevolgen heeft voor het gebruik als diagnostisch hulpmiddel. Iets meer dan de helft (52%) van de gegeven antwoorden was volledig en relevant, 43% was onvolledig maar nog steeds relevant. ChatGPT produceerde antwoorden met een lage (51%) tot matige (41%) cognitieve belasting, waardoor ze gemakkelijk te begrijpen waren voor gebruikers. De onderzoekers wijzen er echter op dat dit begripsgemak, in combinatie met de mogelijkheid van onjuiste of irrelevante informatie, kan leiden tot “misvattingen en een vals gevoel van begrip”, vooral als ChatGPT wordt gebruikt als hulpmiddel voor medisch onderwijs.

“ChatGPT had ook moeite om onderscheid te maken tussen ziekten met subtiel verschillende presentaties en het model genereerde ook af en toe onjuiste of ongeloofwaardige informatie, ook wel AI-hallucinaties genoemd. Dit benadrukt het risico van alleen vertrouwen op ChatGPT voor medische begeleiding en de noodzaak van menselijke expertise in het diagnostische proces”, aldus de onderzoekers.

Beperkingen van het onderzoek

Natuurlijk - en de onderzoekers wijzen dit aan als een beperking van het onderzoek - is ChatGPT 3.5 slechts één AI-model dat mogelijk niet representatief is voor andere modellen en in toekomstige iteraties zeker zal verbeteren, waardoor de nauwkeurigheid kan toenemen. Ook waren de Medscape-cases die door ChatGPT werden geanalyseerd voornamelijk gericht op gevallen van differentiële diagnose, waarbij medische professionals onderscheid moeten maken tussen twee of meer aandoeningen met vergelijkbare tekenen of symptomen.

Hoewel toekomstig onderzoek de nauwkeurigheid van verschillende AI-modellen zou moeten beoordelen met behulp van een breder scala aan casusbronnen, zijn de resultaten van deze studie niettemin leerzaam. “De combinatie van hoge relevantie met relatief lage nauwkeurigheid raadt af om te vertrouwen op ChatGPT voor medisch advies, omdat het belangrijke informatie kan presenteren die misleidend kan zijn,” aldus de onderzoekers. “Hoewel onze resultaten aangeven dat ChatGPT consequent dezelfde informatie levert aan verschillende gebruikers, wat een aanzienlijke interbeoordelaarsbetrouwbaarheid aantoont, onthullen ze ook de tekortkomingen van de tool in het leveren van feitelijk correcte medische informatie, zoals blijkt uit de lage diagnostische nauwkeurigheid.”

Uit dit onderzoek blijkt dus dat er nog wat werk aan de winkel is voordat GenAI-tools een serieuze bijdrage kunnen gaan leveren in de medische diagnostiek. Toch zijn er de afgelopen maanden ook al diverse onderzoeken geweest die de potentie van ChatGPT en GenAI aantonen. Zo concludeerde onderzoek van het Beth Israel Deaconess Medical Center (BIDMC) heeft aangetoond dat het Large Language Model (LLM), genaamd ChatGPT-4, artsen in een aantal gevallen overtreft bij het inschatten van de waarschijnlijkheden bij diagnoses vóór en na laboratoriumtests.