Dat AI artsen en andere zorgprofessionals effectief kan ondersteunen bij het uitvoeren van (administratieve) taken, het beoordelen van medische beelden (Echo, CT en MRI-scans) en het stellen van diagnoses is geen groot nieuws meer. We weten ook dat AI nog (lang) niet in staat is om taken van artsen, radiologen en andere zorgprofessionals volledig, zelfstandig, over te nemen. De mens is, en blijft, altijd verantwoordelijk. AI heeft zoals gezegd een ondersteunende functie. En dat dat goed werkt is nu aangetoond in een internationale studie onder leiding van het Max Planck Instituut for Human Developing.
In de studie, uitgevoerd in samenwerking met partners van het Human Diagnosis Project (San Francisco) en het Instituut voor Cognitieve Wetenschappen en Technologieën van de Italiaanse Nationale Onderzoeksraad (CNR-ISTC Rome), werd gekeken naar hoe AI en medici het meest efficiënt en accuraat kunnen samenwerken.
AI maakt andere fouten dan mensen
AI-oplossingen, en dan met name de grote taalmodellen (LLM’s) zoals ChatGPT, Gemini of Claude, kunnen helpen bij het stellen van een diagnose. Er kleven echter ook risico’s aan het inzetten van deze tools. Het meest bekend is misschien wel het ‘hallucineren’ van AI-bots, waarbij bijna letterlijk informatie verzonnen wordt. Vervelend als dat gebeurt in een opstel voor de Nederlandse les op school, maar mogelijk fataal als het een medische beoordeling of diagnose betreft.
Hallucineren is iets dat een arts, bij het beoordelen van symptomen of een medische scan, niet zal doen. Echter, artsen en radiologen kunnen wel aanwijzingen ‘missen’. Simpelweg doordat ze voor het menselijk ook nog onzichtbaar zijn of door een verkeerde conclusietrekking. Kortom, mensen maken andere fouren dan AI-tools, en andersom.
Samenwerking tussen AI en de mens
De studie die nu is uitgevoerd, en gepubliceerd in de Proceedings of the National Academy of Sciences, toont aan dat het combineren van menselijke expertise met AI-modellen tot de meest accurate open diagnoses leidt. De onderzoekers spreken over het ontwikkelen van hybride diagnostische collectieven. Daarin werken menselijke experts samen met AI-systemen. Volgens de onderzoekers zijn deze teams aanzienlijk nauwkeuriger dan collectieven die uitsluitend uit mensen of AI bestaan. Dit geldt met name voor complexe, open diagnostische vragen met talrijke mogelijke oplossingen, in plaats van eenvoudige ja/nee-beslissingen.
“Onze resultaten tonen aan dat samenwerking tussen mensen en AI-modellen een groot potentieel heeft om de veiligheid van patiënten te verbeteren”, zegt hoofdauteur Nikolas Zöller, postdoctoraal onderzoeker bij het Center for Adaptive Rationality van het Max Planck Institute for Human Development.
Voor het onderzoek werden de gegevens van meer dan 2100 zogenoemde medische vignetten gebruikt van het Human Diagnosis Project. Dit zijn korte beschrijvingen van medische casestudy's, inclusief de juiste diagnose. Vervolgens werden de diagnoses van artsen vergeleken met die van vijf toonaangevende AI-modellen.
De onderzoekers simuleerden verschillende diagnostische collectieven: individuen, menselijke collectieven, AI-modellen en gemengde mens-AI-collectieven. In totaal analyseerden de onderzoekers meer dan 40.000 diagnoses. Elk daarvan werd geclassificeerd en geëvalueerd volgens internationale medische normen (SNOMED CT).
Mens en AI vullen elkaar aan
De studie toont aan dat het combineren van meerdere AI-modellen de diagnostische kwaliteit verbeterde. Gemiddeld presteerden de AI-collectieven beter dan 85 procent van de menselijke diagnostici. Er waren echter talrijke gevallen waarin mensen beter presteerden. Interessant genoeg wisten mensen vaak de juiste diagnose wanneer AI faalde.
De grootste verrassing was dat het combineren van beide werelden leidde tot een aanzienlijke toename van de nauwkeurigheid. Zelfs het toevoegen van één enkel AI-model aan een groep menselijke diagnostici, of andersom, verbeterde het resultaat aanzienlijk. De meest betrouwbare resultaten kwamen voort uit collectieve beslissingen waarbij meerdere mensen en meerdere AI's betrokken waren.
De verklaring hiervoor is dat mensen en AI systematisch verschillende fouten maken. Wanneer AI faalde, kon een menselijke professional de fout compenseren, en vice versa. Deze zogenaamde foutcomplementariteit maakt hybride collectieven zo krachtig. "Het gaat er niet om mensen te vervangen door machines. We moeten kunstmatige intelligentie eerder zien als een aanvullend hulpmiddel dat zijn volledige potentieel ontplooit in collectieve besluitvorming", zegt coauteur Stefan Herzog, senior onderzoekswetenschapper bij het Max Planck Instituut voor Menselijke Ontwikkeling.
Beperkingen
De onderzoekers benadrukken echter ook de beperkingen van hun werk. De studie keek alleen naar op tekst gebaseerde casusbeschrijvingen en niet naar echte patiënten in een echte klinische setting. Of de resultaten direct kunnen worden toegepast in de praktijk, blijft een vraag die in toekomstige studies moet worden onderzocht. Evenzo richtte de studie zich uitsluitend op diagnose, niet op behandeling, en een juiste diagnose garandeert niet noodzakelijkerwijs een optimale behandeling.
Het blijft ook onzeker hoe AI-gebaseerde ondersteuningssystemen in de praktijk zullen worden geaccepteerd door medisch personeel en patiënten. De potentiële risico's van vooringenomenheid en discriminatie door zowel AI als mensen, met name met betrekking tot etnische, sociale of genderverschillen, vereisen eveneens verder onderzoek.