Wanneer je op zoek bent naar informatie over een medische aandoening, dan is googelen of een AI-chatbot vragen tegenwoordig vaak sneller dan contact opnemen met een arts. De vraag is echter hoe betrouwbaar de antwoorden zijn die je van Google of ChatGPT krijgt. Voor wat betreft de AI-chatbots hebben onderzoekers van het UT Southwestern Medical Center, onderzocht hoe betrouwbaar, en compleet, de informatie is die drie AI-chatbots geven over endometriose, een pijnlijke gynaecologische aandoening die 1 op de 10 vrouwen treft.
Om te bepalen hoe goed populaire chatbots vragen over endometriose beantwoorden, verzamelden de onderzoekers antwoorden van ChatGPT-4, Claude en Gemini. Daarvoor stelden zij de chatbots10 vragen die patiënten vaak stellen over deze ziekte. “We hebben dit onderzoek gedaan omdat we wilden weten wat patiënten leren van deze chatbots. Is het nauwkeurig? Is het betrouwbaar? Komt het overeen met bijgewerkte klinische aanbevelingen en met wat we weten uit huidig onderzoek?” aldus onderzoeksleider Kimberly Kho, M.D., hoogleraar verloskunde en gynaecologie aan UT Southwestern.
Antwoorden correct, maar vaak incompleet
De chatbots gaven antwoorden op vragen zoals “Wat is endometriose?” “Hoe vaak komt endometriose voor?” en ‘Hoe wordt endometriose behandeld?’ Vervolgens werd aan negen gediplomeerde gynaecologen gevraagd om de nauwkeurigheid en volledigheid van de antwoorden te beoordelen op basis van de huidige richtlijnen en hun expertise. De medische experts kwamen tot de conclusie dat de drie chatbots vrijwel altijd het juiste antwoord gaven op vragen zoals wat endometriose is, hoe vaak het voorkomt en wat de symptomen zijn. Echter, op vragen over de behandeling of het risico op herhaling waren de antwoorden vaak onvolledig en daardoor soms ook niet correct. Het onderzoek is deze maand gepubliceerd in Science Direct.
Deze onvolledigheid kan te wijten zijn aan verschillende factoren, vertelde dr. Kho, waaronder een gebrek aan patiëntspecifieke context in de vragen, niet genoeg chatbot-trainingsgegevens die de meest recente vooruitgang in de klinische praktijk weerspiegelen en een gebrek aan consensus tussen experts op dit gebied. Van de drie bestudeerde chatbots leverde ChatGPT de meest uitgebreide en correcte antwoorden.
De conclusie van de onderzoekers was dan ook dat chatbots wel kunnen dienen als een nuttig startpunt voor medische informatie, maar dat patiënten nog steeds hun arts moeten raadplegen voor vragen en zorgen. Medische experts moeten worden geraadpleegd en betrokken bij het kwaliteitscontroleproces voor zorgspecifieke chatbots die momenteel in ontwikkeling zijn.
Een gewaarschuwd mens…
Hoe dan ook. Met de komst van het internet en zoekmachines is het steeds makkelijker om zelf op zoek te gaan naar informatie en antwoorden op (medische) vragen. Sinds de opkomst van generatieve AI-chatbots zoals ChatGPT en Gemini lijkt de zoektocht naar informatie en antwoorden nog makkelijker te worden. Zo wordt ChatGPT door studenten geneeskunde gebruikt bij de voorbereiding van examens. En zo zijn er nog veel meer voorbeelden die aantonen dat generatieve AI-tools zoals ChatGPT voor de medische wereld van toegevoegde waarde kunnen zijn, van diagnostiek, tot het automatisch genereren van (gespreks)verslagen en verbeteren van patiënten informatie.
Echter, wat voor het internet en Google al jaren geldt – pas op voor foutieve en/of incomplete informatie – geldt zeker ook voor de AI-chatbots. In de medische wereld is het gevaar van foute of incomplete informatie zowaar nog groter. Toch lijkt de opmars van generatieve AI nauwelijks nog te stoppen. Onderzoeken zoals uitgevoerd door onderzoekers van UT Southwestern Medical Center, moeten dan ook gezien worden als een waarschuwing aan het adres van iedereen die zich voor medische informatie wendt tot generatieve AI.