Is ChatGPT beter dan artsen? De valkuilen van vooruitgang in AI

Krantenkoppen in de media suggereren dat kunstmatige intelligentie patiënten nauwkeuriger diagnosticeert dan artsen, dat AI empathischer is dan mensen, dat AI betere bedmanieren heeft en dat AI het zelfs beter doet dan medische studenten op examens. Maar hoeveel hiervan is waar?

AI kan een assistent zijn als je weet wat je moet vragen

In een recent onderzoek van Andrew S. Parsons, MD, MPH, en collega's van UVA Health werden de mogelijkheden van AI op het gebied van ziektediagnose onderzocht. 50 artsen die gespecialiseerd zijn in huisartsgeneeskunde, interne geneeskunde en spoedeisende geneeskunde werden in twee groepen verdeeld. De ene groep had toegang tot de premium versie van ChatGPT (ChatGPT Plus), terwijl de andere groep uitsluitend vertrouwde op hun medische expertise en ‘klassieke’ hulpmiddelen zoals Google of klinische beslissingsondersteunende systemen. Beide werden gevraagd om een diagnose te stellen voor complexe klinische gevallen. Daarnaast werd ChatGPT gevraagd om zelfstandig een diagnose te stellen.

De resultaten toonden aan dat de groep zonder ChatGPT een diagnostische accuratesse van 74 procent behaalde, terwijl de groep die ChatGPT gebruikte iets hoger scoorde met 76 procent. Opmerkelijk genoeg behaalde ChatGPT alleen al 90 procent nauwkeurigheid bij het onafhankelijk analyseren van gevallen.

Deze bevindingen verbaasden de onderzoekers. Waarom werden de prestaties van de artsen die ChatGPT gebruikten, nauwelijks beter? Over de oorzaak daarvan werd driftig gespeculeerd: Is de autoriteitsbias - de neiging om op eigen expertise te vertrouwen in plaats van externe expertise - een reden? Waarom zijn artsen niet bereid om AI te gebruiken? Wantrouwen artsen AI? De hoofdauteur van het onderzoek stelde een andere reden voor: veel artsen wisten niet hoe ze ChatGPT effectief konden gebruiken, met name bij het maken van nauwkeurige prompts.

Dr. Parsons merkte op dat artsen die meewerkten met ChatGPT niet wisten dat ze de symptomen en het medisch dossier van een patiënt in ChatGPT konden kopiëren voor een uitgebreide analyse. Dergelijke over het hoofd geziene mogelijkheden suggereren een behoefte aan meer educatie over het integreren van AI in klinische workflows.

Desondanks benadrukt het onderzoek het potentieel van AI. De hoge precisie van ChatGPT bij het onafhankelijk evalueren van klinische gevallen onderstreept de waarde ervan, met name bij het diagnosticeren van zeldzame of complexe aandoeningen. Terwijl artsen, op basis van hun expertise en ervaring, goed genoeg zijn in het identificeren van ziekten die ze vaak tegenkomen, kunnen ze moeite hebben met het herkennen van de duizenden zeldzame aandoeningen die ze zelden zien in hun klinische praktijk. AI zou deze kloof kunnen overbruggen, mits professionals in de gezondheidszorg worden opgeleid om deze tools veilig en effectief te gebruiken.

Klinisch werk is veel meer dan gegevens analyseren

Hoewel AI in gecontroleerde onderzoeken empathische, complete antwoorden kan geven, kapt het in de dagelijkse praktijk van een klinische omgeving met de nodige uitdagingen. Artsen moeten veel verschillende taken uitvoeren, waaronder het interpreteren van gegevens uit medische dossiers, het beoordelen van de sociale en financiële omstandigheden van een patiënt, het voorspellen van behandelresultaten, het beheren van risico's en het aanpakken van de emotionele aspecten van de zorg. Deze menselijke interacties - motiveren, ondersteunen en hoop geven - blijven buiten het bereik van AI.

Zelfs studies die aantonen dat AI superieur presteert in medische examens, zoals het United States Medical Licensing Examination (USMLE), moeten voorzichtig worden geïnterpreteerd. In een ander onderzoek scoorde GPT-4 een indrukwekkende 95,54 procent op USMLE-tests die van 2021 tot 2023 werden afgenomen, vergeleken met de gemiddelde studentenscore van 72,15 procent. Examens halen is echter niet het doel van een arts. Hun rol is veel complexer en bestaat uit het vermengen van wetenschap en menselijke verbinding.

Media verantwoordelijk voor groeiend vertrouwen in AI

Hoewel AI een enorme belofte inhoudt, blijft het een technologie in ontwikkeling die zowel opwinding als angst inboezemt. Helaas overschaduwen emotionele reacties vaak objectieve discussies over de rol van AI in de gezondheidszorg.

Sensationele krantenkoppen over AI die betere bedmanieren heeft dan artsen trekken misschien wel de aandacht, maar leiden de aandacht af van zinvolle debatten over het potentieel van AI. Dergelijke verhalen kunnen onnodige angst en scepsis binnen de medische gemeenschap aanwakkeren. Het gebeurt al. Het Permanent Comité van Europese Artsen (CPME) heeft bijvoorbeeld een beleid uitgebracht, “Inzet van kunstmatige intelligentie in de gezondheidszorg”, waarin wordt gepleit voor strengere controles voordat de technologie volledig wordt omarmd. Het document herhaalt oude angsten zoals “AI die artsen vervangt” of “artsen die gedwongen worden om AI te gebruiken en de aanbevelingen op te volgen”.

Experts zijn het erover eens dat AI artsen kan ondersteunen maar niet kan vervangen. Generatieve AI, zoals ChatGPT, is een krachtig statistisch hulpmiddel, maar mist het menselijk vermogen om te begrijpen, te observeren, te voelen en creatief te denken. In plaats van misleidende vergelijkingen te maken, moeten we de rol van AI benadrukken als een hulpmiddel voor samenwerking dat is ontworpen om medische professionals te verbeteren - niet om met hen te concurreren.

Is AI goed voor de zorg? Dat weten we pas als we het proberen

De gezondheidszorg moet beginnen met het implementeren van AI met een duidelijke afbakening tussen taken die geschikt zijn voor mensen en taken die beter door machines kunnen worden uitgevoerd. Andere industrieën, zoals de media, bieden waardevolle inspiratie voor deze aanpak.

AI is met name efficiënt in het analyseren van elektronische medische dossiers, het prioriteren van informatie en het afstemmen van communicatie op de voorkeuren van de patiënt, waardoor de effectiviteit van preventieprogramma's wordt vergroot. Het kan ook helpen bij het diagnosticeren van complexe klinische gevallen door te verwijzen naar actuele onderzoeken en medische richtlijnen.

Naast het stellen van diagnoses kan AI interacties tussen patiënten en artsen analyseren, helpen bij het maken van nauwkeurige elektronische medische dossiers en artsen relevante vervolgvragen stellen, bijvoorbeeld over specifieke medicijnen of diagnoses.

Deze mogelijkheden vervangen de expertise van artsen niet, maar breiden deze uit en verbeteren deze, waardoor de theorie van gepersonaliseerde zorg in de praktijk wordt gebracht. Hoe eerder de gezondheidszorg begint te experimenteren met AI, hoe minder onterechte vooroordelen en hoe groter de potentiële voordelen voor zowel zorgverleners als patiënten.