ChatGPT niet geschikt voor beoordelen hartrisico

Hoewel eerder werd gemeld dat ChatGPT in staat is om te slagen voor medische examens, blijkt uit een nieuw onderzoek dat het voor bepaalde gezondheidsbeoordelingen niet verstandig is om op ChatGPT te vertrouwen. De tool kan bijvoorbeeld niet goed beoordelen of een patiënt met pijn op de borst in het ziekenhuis moet worden opgenomen of niet.

In een onderzoek met duizenden gesimuleerde casussen van patiënten met pijn op de borst, kwam ChatGPT bij precies dezelfde patiëntgegevens telkens met een ander oordeel. De tool deed het bovendien slechter dan artsen die het hartrisico van patiënten inschatten met behulp van de traditionele methode. De bevindingen werden gepubliceerd in het Amerikaanse vakblad PLOS ONE.

“De resultaten van ChatGPT waren niet consistent”, vertelt hoofdauteur Dr. Thomas Heston, onderzoeker aan het Elson S. Floyd College of Medicine van de Washington State University. “Als je precies dezelfde patiëntgegevens meerdere keren voorlegde, beoordeelde ChatGPT het risico de ene keer als laag, de keer daarna als gemiddeld en weer een andere keer zelfs als hoog.”

Willekeur in ChatGPT4

Volgens de auteurs ligt het probleem waarschijnlijk in de willekeurigheid die is ingebouwd in de huidige versie van de software, ChatGPT4. Deze willekeurigheid zorgt ervoor dat de tool varieert in zijn antwoorden om natuurlijk taalgebruik te simuleren. In de medische wereld is echter juist een eenduidig antwoord gewenst en leidt willekeurigheid tot problemen.

“We stuitten op veel variatie en die variatie kan gevaarlijk zijn”, vertelt Heston verder. “De tool kan heel nuttig zijn, maar ik denk dat de technologie zich veel sneller ontwikkelt dan wij kunnen bijbenen. Daarom is het essentieel om veel onderzoek te doen, met name naar deze klinische situaties waarin er veel afhangt van de beslissing.”

Snel een inschatting maken

Pijn op de borst is een klacht waar mensen vaak mee op de SEH belanden. Artsen moeten dan snel kunnen inschatten hoe urgent de situatie is. Ernstige gevallen zijn relatief eenvoudig in te schatten aan de hand van de symptomen, maar bij minder ernstige gevallen is het nemen van een beslissing lastiger. Met name als het erom gaat of de patiënt ter observatie moet worden opgenomen of naar huis wordt gestuurd en buiten het ziekenhuis verder wordt opgevolgd.

Medische professionals gebruiken vaak de TIMI- en HEART-score om het hartrisico te beoordelen. Volgens Heston is zo’n score te vergelijken met een calculator die rekening houdt met een handjevol variabelen, zoals symptomen, medische voorgeschiedenis en leeftijd. Een neuraal netwerk zoals ChatGPT kan snel miljarden variabelen beoordelen en zou een complexe situatie in potentie dus sneller en grondiger kunnen analyseren.

Steeds een ander oordeel

Voor dit onderzoek genereerden Heston en zijn collega Dr. Lawrence Lewis van Washington University in St. Louis eerst drie datasets met elk 10.000 gerandomiseerde gesimuleerde casussen. Eén dataset omvatte de zeven variabelen van de TIMI-score, de tweede omvatte de vijf variabelen van de HEART-score en de derde bevatte 44 willekeurige gezondheidsvariabelen. Bij de eerste twee datasets kwam ChatGPT in 45% tot 48% van de gevallen tot een ander oordeel dan de TIMI- of HEART-score. Bij de laatste dataset legden de onderzoekers alle casussen vier keer voor aan ChatGPT. Hier oordeelde de tool in 44% van de gevallen verschillend bij dezelfde informatie.

Een ander onderzoek concludeerde onlangs nog dat ChatGPT artsen in een aantal gevallen overtreft bij het inschatten van de waarschijnlijkheden bij diagnoses vóór en na laboratoriumtests. In de medische wereld moeten artsen vaak op basis van symptomen van patiënten en diagnostische testresultaten bepalen hoe waarschijnlijk het is dat de patiënt een bepaalde ziekte heeft. Deze inschattingen vereisen probabilistisch redeneren, waarbij artsen moeten beslissen hoe waarschijnlijk een diagnose is. Fouten in dit proces kunnen in de praktijk leiden tot overbehandeling, onnodige tests en medicijngebruik.

Ook Heston noemt deze kracht van AI: “ChatGPT zou heel goed kunnen zijn in het stellen van een differentiaaldiagnose. Dat is waarschijnlijk een van zijn grootste krachten”, vertelt Heston. “Als je niet precies weet wat er aan de hand is met een patiënt, kun je de tool vragen om de vijf meest waarschijnlijke diagnoses te geven met een uitleg erbij.”

ChatGPT in de praktijk

Volgens niet-officiële gegevens gebruiken artsen ChatGPT al regelmatig in de praktijk, met name om een diagnose te verifiëren of een medicatieplan aan te passen. Oftewel: bij routinematige zorg en klinische besluitvorming. Uit beschikbaar onderzoek blijkt dat generatieve AI tegenwoordig veilig kan worden gebruikt voor het maken van medische brieven of het communiceren met zorgverzekeraars.

ChatGPT is zeer geschikt voor het uitleggen van complexe problemen aan patiënten, het maken van preventieve aanbevelingen en het ondersteunen van logistiek. Denk daarbij aan het plannen van patiëntenstromen en het werk van artsen, het maken van handleidingen voor een website en het beantwoorden van standaardvragen van patiënten. Correct gebruik van AI-tools kan de administratieve kosten met de helft verminderen.

Ook in wetenschappelijk onderzoek heeft generatieve AI in toenemende mate een plek. Onderzoekers gebruiken de technologie bijvoorbeeld om bepaalde onderdelen van een subsidieaanvraag, zoals impact statements, datamanagementparagrafen, rapportages en risicoanalyses, automatisch te genereren. Daarnaast blijkt generatieve AI steeds beter in staat om complexe data zoals kwalitatieve gegevens te verwerken en te analyseren.

In het licht van bovenstaande bevindingen uit het onderzoek en de opkomende rol van AI in de gezondheidszorg, zal ePatient Dave tijdens het aanstaande ICT&health World Conference op 16 mei een uniek perspectief bieden. Dave zal de aandacht vestigen op de rol van ChatGPT vanuit het perspectief van de patiënt, wat een bijzonder en vaak onderbelicht aspect is binnen dit onderwerp. Zijn keynote zal dienen als een kritische reflectie op hoe technologieën zoals ChatGPT de ervaring en het welzijn van patiënten beïnvloeden en hoe deze tools kunnen worden ingezet om de patiëntenzorg te verbeteren. Zijn presentatie belooft niet alleen inzicht te bieden, maar ook te inspireren en de discussie over de toekomst van de gezondheidszorg aan te wakkeren vanuit een vernieuwend perspectief.