Medische ‘kennis’ zeven AI-chatbots in vreemde talen valt tegen

wo 26 februari 2025 - 07:07

Nieuws

Er is al heel veel gezegd en geschreven over het gebruik van generatieve AI-tools en -chatbots zoals ChatGPT, Co-Pilot, Gemini. Ook binnen de medische wereld is hun opmars niet meer te stoppen. Daarom besloot een groep wetenschappers uit Australië, de VS, Thailand en de VAE onderzoek te doen naar de kwaliteit van de antwoorden van de zeven bekendste, en meest toonaangevende, AI-chatbots op vragen over kanker in acht verschillende talen. Hun conclusie? De antwoorden en informatie die de AI-chatbots geven, zijn niet altijd juist, met name wanneer de vragen in een andere taal dan het Engels gesteld worden.

Nu miljoenen mensen zich tot AI-chatbots wenden voor gezondheidsadvies, is het van cruciaal belang dat deze tools accurate, begrijpelijke en goed onderbouwde informatie bieden. Daarom hebben een aantal wetenschappers van de Flinders University (Australië), Massachusetts General Hospital/Harvard Medical School (VS), Prince of Songkla University (Thailand) en de Universiteit van Sharjah (VAE) hier onderzoek naar gedaan. Ze kozen daarvoor zeven AI-chatbots - ChatGPT, Google's Gemini, Microsoft's Co-Pilot, MetaAI, Claude, Grok en Perplexity. Vervolgens beoordeelden ze het vermogen van deze gen-AI chatbots om veelvoorkomende vragen over kanker te beantwoorden in het Engels, Arabisch, Frans, Chinees, Thai, Hindi, Nepali en Vietnamees.

Uitdagingen en incorrecte informatie

De wetenschappers concludeerden dat er nog steeds uitdagingen zijn op het gebied van nauwkeurigheid, referentiekwaliteit en leesbaarheid van gezondheidsinformatie. Deze problemen komen met name voor wanneer AI-chatbots in andere talen dan het Engels bevraagd worden “AI-chatbots worden een essentieel hulpmiddel voor mensen die op zoek zijn naar informatie over kanker. Onze studie benadrukt echter dat we hun nauwkeurigheid moeten verbeteren, vooral in niet-Engelse talen, om ze echt betrouwbaar te maken voor iedereen,” aldus co-auteur Ashley Hopkins van de Australische Flinders University.

Bij het analyseren van de antwoorden die AI-chatbots geven op eenvoudige vragen over kanker, erkennen de wetenschappers de noodzaak van betere meertalige nauwkeurigheid, het belang van referentiekwaliteit en de vele uitdagingen op het gebied van toegankelijkheid en leesbaarheid. De onderzoekers baseren hun beoordeling van antwoorden op de criteria nauwkeurigheid, betrouwbaarheid van bronnen, leesbaarheid en medische begeleiding.

Fouten in andere talen

Bij de beantwoorden van vragen in een andere taal dan het Engels bleken 7 van de 294 antwoorden fouten te bevatten. Die varieerden van foute vertalingen, onjuiste medicijnnamen tot ongepaste behandelingsaanbevelingen. Dat AI-Chatbots de plank nogal eens misslaan als het gaat om medicijninformatie, werd vorig jaar ook al eens bevestigd in een Brits onderzoek. Ook de kwaliteit van de referenties varieerde. Bij bijna de helft (48%) van de antwoorden waren die geldig terwijl ruim een derde (39%) van de Engelse referenties van .com-links kwaliteitsproblemen opleverden.

Veel gebruikers zien de informatie die AI ophaalt van .com-links over het algemeen als authentiek, maar de onderzoekers stellen dat deze links vaak als onbetrouwbaar worden beschouwd omdat ze commerciële belangen voorrang kunnen geven boven nauwkeurigheid en wetenschappelijk bewijs. In tegenstelling tot overheidsbronnen (.gov) of academische bronnen (.edu), worden .com websites niet gehouden aan strenge normen voor medische nauwkeurigheid.

“Ons werk benadrukt de noodzaak van AI-regulering en voortdurende controle om te voorkomen dat onjuiste gezondheidsinformatie mogelijk schade veroorzaakt. Het is een wake-up call voor AI-ontwikkelaars - publiek toegankelijke AI-tools moeten worden gehouden aan de hoogste normen om ervoor te zorgen dat ze het publiek veilig en effectief dienen, en in het voordeel van iedereen.”

In hun aanbevelingen dringen de wetenschappers er bij AI-ontwikkelaars op aan om hun meertalige diensten verder te verbeteren om ervoor te zorgen dat patiënten wereldwijd het juiste gezondheidsadvies krijgen, hun AI-gegenereerde antwoorden gebruiksvriendelijker te maken en nauwer samen te werken met professionals in de gezondheidszorg om hun tools te verfijnen.