ChatGPT-4 verslaat artsen regelmatig bij diagnoseproces

Recent onderzoek door het Beth Israel Deaconess Medical Center (BIDMC) heeft aangetoond dat het Large Language Model (LLM), genaamd ChatGPT-4, artsen in een aantal gevallen overtreft bij het inschatten van de waarschijnlijkheden bij diagnoses vóór en na laboratoriumtests. Dit onderzoek werpt nieuw licht op de potentie van kunstmatige intelligentie als ondersteuning bij diagnostiek en werpt vragen op over de toekomst van de gezondheidszorg.

Het onderzoek was gebaseerd op een nationale enquête, waarin meer dan 550 clinici probabilistisch redeneren gebruikten bij vijf medische gevallen. Vervolgens werden hun resultaten vergeleken met de uitkomsten van ChatGPT-4. Het onderzoek richtte zich specifiek op de capaciteiten van ChatGPT-4 bij het inschatten van waarschijnlijkheden in het diagnostische proces.

Diagnostische testresultaten

In de medische wereld worden artsen vaak geconfronteerd met de uitdaging om op basis van symptomen van patiënten en diagnostische testresultaten te bepalen hoe waarschijnlijk de aanwezigheid van een ziekte is. Deze inschattingen vereisen probabilistisch redeneren, waarbij artsen moeten beslissen hoe waarschijnlijk een diagnose is. Fouten in dit proces kunnen in de praktijk leiden tot overbehandeling, onnodige tests en medicijngebruik.

Dr. Adam Rodman, een internist en onderzoeker bij BIDMC, legt uit: "Mensen worstelen met probabilistisch redeneren, waarbij in de praktijk beslissingen moeten worden genomen op basis van het berekenen van kansen. Probabilistisch redeneren is een van de vele componenten van het stellen van een diagnose, een ongelooflijk complex proces dat gebruikmaakt van verschillende cognitieve strategieën."

ChatGPT-4 redeneert goed

Om deze uitdaging aan te gaan, onderzocht het BIDMC-team het potentieel van ChatGPT-4 om artsen te ondersteunen bij het stellen van diagnoses. Ze gebruikten een nationale enquête waarin meer dan 550 clinici probabilistisch redeneren toepasten op vijf medische gevallen. Deze gevallen omvatten onder andere patiënten met symptomen van longontsteking, borstkanker, coronaire hartziekte en urineweginfecties.

Diezelfde medische gevallen en de bijbehorende symptomen werden vervolgens aan ChatGPT-4 voorgelegd. Het model werd gevraagd de waarschijnlijkheid van een diagnose in te schatten op basis van de patiëntgegevens. Daarna werden diagnostische testresultaten, zoals röntgenfoto's, mammografieën, stress tests en urinemonsters, aan het model verstrekt. Op basis van die extra data werkte ChatGPT-4 zijn inschattingen vervolgens bij.

Accuratere analyses

Het onderzoek laat zien dat ChatGPT-4 buitengewoon nauwkeurig was bij het maken van diagnoses in het geval de testresultaten negatief waren. In deze gevallen overtrof het model consequent de prestaties van menselijke clinici. Echter, bij positieve testresultaten bleek de prestatie van ChatGPT-4 wisselend te zijn. Het model was dan in sommige gevallen nauwkeuriger dan clinici, terwijl het in andere gevallen meestal vergelijkbare resultaten behaalde.

Dr. Rodman merkt op dat mensen soms het gevoel hebben dat er ondanks een negatief testresultaat toch een hoger risico op een bepaalde ziekte is. En dat kan leiden tot overbehandeling, meer tests en te veel medicijnen." Hier komt ChatGPT-4 goed van pas, doordat de chatbot in staat is om meer accurate inschattingen te bieden.

Het onderzoek onderstreept de mogelijke rol van AI, zoals ChatGPT-4, als waardevolle klinische tool die artsen kan ondersteunen, vooral in situaties waarin diagnostische tests negatieve resultaten opleveren. De uitkomsten geven ook stof tot nadenken over de toekomst van de gezondheidszorg en hoe AI kan worden geïntegreerd in de medische praktijk.

Mogelijkheden AI groeien

De discussie over de mogelijke inzet van grote taalmodellen zoals ChatGPT om te helpen bij diagnostiek, preventie en behandelingen wordt inmiddels internationaal intensief gevoerd. AI blijkt in de praktijk zowel behulpzaam alsook feilbaar te zijn. Artsen zien echter steeds meer mogelijkheden om kunstmatige intelligentie op verschillende gebieden in te zetten.

Zo heeft een Israëlisch ziekenhuis onlangs, als eerste ter wereld, een speciale versie van ChatGPT geïmplementeerd om te helpen bij triage. Bij de Mayo Clinic in Amerika wordt druk geëxperimenteerd met LLM's, onder meer voor het opleiden van artsen. Ook zijn er in de Mayo Clinic tal van andere slimme innovaties en testen met AI, zoals de integratie van AI in de analyse van elektrocardiogrammen (ECG's). Al deze voorbeelden onderstrepen de grote potentie van kunstmatige intelligentie kan hebben in de zorg.

AI als copiloot

Ondanks de sterke groeicurve die AI maakt, blijft het belangrijk om te waken voor de valkuilen die er ook zijn. Zo zijn bijvoorbeeld het gebrek aan transparantie en consistentie bij tools zoals ChatGPT een bekend probleem. Het is volgens de onderzoekers van BIDM Cbelangrijk om deze nieuwe technologie kritisch te blijven benaderen en vooral te blijven zien als een ondersteunend hulpmiddel, dat expliciet níet bedoeld is om menselijke expertise te vervangen. AI kan volgens experts vooral goed functioneren als copiloot, die onder meer bij diagnostiek ondersteunende diensten biedt, maar niet zelf de stuurknuppel in handen krijgt.