AI-chatbots worden steeds menselijker, ook qua aftakeling

do 19 december 2024 - 08:45
AI
Nieuws

De enorme vooruitgang die de afgelopen jaren geboekt is op het gebied van AI heeft de discussie of AI-tools zoals chatbots en analytische toepassingen de mens, ook in de gezondheidszorg, ooit kan vervangen. AI wordt steeds menselijker, maar dat is niet louter positief. Onderzoek heeft namelijk uitgewezen dat bijna alle toonaangevende grote taalmodellen (LLM’s) of chatbots tekenen van cognitieve achteruitgang vertonen naarmate ze ‘ouder’ worden. Ofwel, niets menselijks is AI vreemd.

Voor het onderzoek werden de openbaar beschikbare, bekendste en meest gebruikte LLM’s, die al een tijdje actief, en dus al wat ‘ouder’ zijn, getest op hun cognitieve vaardigheden. Getest werden ChatGPT versies 4 en 4o (ontwikkeld door OpenAI), Claude 3.5 “Sonnet” (ontwikkeld door Anthropic), en Gemini versies 1 en 1.5 (ontwikkeld door Alphabet). Het onderzoek werd uitgevoerd met behulp van de Montreal Cognitive Assessment (MoCA) test. Het onderzoek is onlangs gepubliceerd in BMJ.

Cognitieve test

De MoCA-test wordt veel gebruikt om cognitieve stoornissen en vroege tekenen van dementie op te sporen, meestal bij oudere volwassenen. Aan de hand van een aantal korte taken en vragen worden vaardigheden beoordeeld zoals aandacht, geheugen, taal, visuospatiale vaardigheden en executieve functies. Er kunnen maximaal 30 punten gescoord worden maar bij een score van minimaal 26 punten is de conclusie dat de geteste persoon geen last heeft van cognitieve achteruitgang.

De instructies die de LLM's kregen voor elke taak waren dezelfde als die aan menselijke patiënten werden gegeven. De scores volgden de officiële richtlijnen en werden beoordeeld door een praktiserend neuroloog. ChatGPT 4o behaalde de hoogste score op de MoCA-test (26 van de 30), gevolgd door ChatGPT 4 en Claude (25 van de 30). Gemini 1.0 scoorde het laagst (16 van de 30).

Slechte prestaties

Alle chatbots presteerden echter slecht in visuospatiale vaardigheden en uitvoerende taken, zoals het herkennen van opeenvolgdene getallen - het verbinden van omcirkelde cijfers en letters in oplopende volgorde - en de klok test, waarbij een klok met een specifieke tijd moet worden getekend. Gemini modellen faalden in de vertraagde herinneringstaak, waarbij een reeks van vijf woorden moet worden onthouden. De meeste andere taken, waaronder naamgeving, aandacht, taal en abstractie werden door alle chatbots goed uitgevoerd.

In verdere visuospatiale tests waren chatbots echter niet in staat om empathie te tonen of complexe visuele scènes nauwkeurig te interpreteren. Alleen ChatGPT 4o slaagde in de incongruente fase van de Stroop-test, die combinaties van kleurnamen en letterkleuren gebruikt om te meten hoe interferentie de reactietijd beïnvloedt. Dit zijn observationele bevindingen en de auteurs erkennen de essentiële verschillen tussen het menselijk brein en grote taalmodellen

Met name de slechte prestaties bij analyses die visuele abstractie en executieve functies vereisen, is een groot nadeel voor de ambitie om LLM’s en chatbots te gebruiken in klinische omgevingen. “Het is niet alleen onwaarschijnlijk dat neurologen binnenkort vervangen zullen worden door grote taalmodellen, maar onze bevindingen suggereren dat ze binnenkort misschien nieuwe, virtuele patiënten zullen behandelen, modellen van kunstmatige intelligentie met cognitieve stoornissen”, aldus de onderzoekers.

Meer waarschuwingen

De afgelopen maanden is AI al meerdere keren, ook door onze eigen minister van VWS, genoemd als een van de meest veelbelovende ontwikkelingen die moeten gaan bijdragen aan het oplossen van de bekende uitdagingen waar de gezondheidszorg voor staat; het personeelstekort, de groeiende zorgvraag, vergrijzing, stijgende zorgkosten en veel te hoge administratieve lasten.

De meeste experts zijn het er ook over eens dat AI wel degelijk van grote waarde kan zijn, en op sommige gebieden al is, voor een toekomstbestendig zorgsysteem. Maar waarschuwingen, zoals die van bovenstaand onderzoek, zijn er ook. Belangrijk is dat we tussen alle euforische berichten over hoe AI en chatbots beter presteren dan artsen, moeten we zeker ook de valkuilen en minder positieve tests niet uit het oog verliezen. Een onderwerp dat ook tijdens de aanstaande ICT&health World Conference door meerdere experts en ervaringsdeskundigen uit binnen- en buitenland van beide kanten belicht en besproken zal worden.