De meeste LLM’s voor medische beslissingen presteren slecht

vr 13 december 2024 - 08:45
AI
Nieuws

Dat is, in het kort de conclusie van een Israëlisch onderzoek naar de prestaties van generatieve en diagnostische AI-tools, zoals ChatGPT, die gebruikmaken van large language modellen. Het gebruik van dergelijke tools wordt steeds populairder. Als gevolg hiervan is er een groeiende wens om AI-modellen te gebruiken bij de interpretatie van medische informatie als hulpmiddel voor het nemen van cruciale medische beslissingen. Er wordt al volop onderzoek naar gedaan, maar hoewel de conclusies van die onderzoeken vrijwel altijd spreken over veel voordelen en de grote potentie van AI voor de zorg, wordt ook regelmatig gewaarschuwd voor de nadelen voor de zorg wanneer (nu nog) te veel op AI vertrouwd wordt, zoals bijvoorbeeld bij het zoeken naar informatie over medicijnen.

Een onderzoeksteam van de Ben-Gurion University of the Negev heeft de mogelijkheden van large language modellen (LLM's) die gespecialiseerd zijn in het onderzoeken en vergelijken van medische informatie. De conclusies van dit onderzoek mogen verrassend genoemd worden, zo blijkt na het lezen van de het onderzoek dat onlangs gepubliceerd werd in het Computers in Biology and Medicine.

AI heeft ‘medische potentie’

Kunstmatige intelligentie toegepast op medische informatie is een veelgebruikt hulpmiddel geworden om vragen van patiënten te beantwoorden via medische chatbots, ziekten te voorspellen, synthetische gegevens te creëren om de privacy van patiënten te beschermen of medische vragen en antwoorden te genereren voor medische studenten.

AI-modellen die tekstuele gegevens verwerken zijn effectief gebleken bij het classificeren van informatie. Wanneer de gegevens echter levensreddende klinische medische informatie worden, is er behoefte om de diepe betekenis van medische codes en de verschillen ertussen te begrijpen.

Vergelijkend LLM-onderzoek

Doctoraalstudent Ofir Ben Shoham en Dr. Nadav Rappoport van de afdeling Software and Information Systems Engineering van de Ben-Gurion Universiteit besloten te onderzoeken in hoeverre large language modellen de medische wereld begrijpen en vragen over het onderwerp kunnen beantwoorden. Hiervoor voerden ze een vergelijking uit tussen algemene modellen en modellen die waren afgestemd op medische informatie.

Hiervoor bouwden de onderzoekers een speciale evaluatiemethode, MedConceptsQA, voor het beantwoorden van vragen over medische concepten. De onderzoekers genereerden meer dan 800.000 gesloten vragen en antwoorden over internationale medische concepten op drie moeilijkheidsniveaus. Dit om te beoordelen hoe mensen die met taalmodellen werken medische termen interpreteren en onderscheid maken tussen medische concepten, zoals diagnoses, procedures en medicijnen. De onderzoekers creëerden vragen die automatisch vragen om een beschrijving van een medische code, met behulp van een algoritme dat ze ontwikkelden.

Terwijl de makkelijke vragen basiskennis vereisen, vereisen de moeilijke vragen gedetailleerd begrip en het vermogen om kleine verschillen tussen vergelijkbare medische concepten te identificeren. Vragen van gemiddeld niveau vereisen iets meer basisinformatie. De onderzoekers gebruikten bestaande standaarden voor klinische gegevens die beschikbaar zijn voor het evalueren van klinische codes, waardoor ze onderscheid konden maken tussen medische concepten voor taken zoals de medische codeerpraktijk, samenvatten, automatisch factureren en meer.

Meeste LLM’s presteren slecht

De onderzoeksresultaten gaven aan dat de meeste modellen slecht presteerden - vergelijkbaar met willekeurig raden - ook de modellen die getraind waren op medische gegevens. Dit was over de hele linie het geval, behalve bij ChatGPT-4, dat beter presteerde dan de anderen met een gemiddelde nauwkeurigheid van ongeveer 60%, hoewel het nog steeds verre van bevredigend was.

“Het lijkt erop dat in onze meting de modellen die speciaal zijn getraind voor medische doeleinden voor het grootste deel nauwkeurigheidsniveaus hebben bereikt die in de buurt komen van willekeurig raden, ondanks het feit dat ze specifiek, vooraf, op medische gegevens getraind,” aldus dr. Rappoport.

Opgemerkt moet worden dat modellen die voor algemene doeleinden zijn gemaakt (zoals Llama3-70B en ChatGPT-4) betere prestaties behaalden. ChatGPT-4 liet de beste prestaties zien, hoewel de nauwkeurigheid onvoldoende bleef voor sommige van de specifieke medische codevragen die de onderzoekers bouwden. ChatGPT-4 behaalde een gemiddelde verbetering van 9-11% vergeleken met Llama3-OpenBioLLM-70B, het klinische taalmodel dat de beste resultaten behaalde.

“Onze meting dient als een waardevolle bron voor het evalueren van de capaciteiten van grote taalmodellen om medische codes te interpreteren en onderscheid te maken tussen medische concepten. We laten zien dat de meeste klinische taalmodellen ’random guessing’ prestaties behalen, terwijl ChatGPT-3.5, ChatGPT-4 en Llama3-70B beter presteren dan deze klinische modellen, ondanks het feit dat de focus van deze modellen helemaal niet op het medische vlak ligt,” legt promovendus Shoham uit. “Bovendien kunnen we met onze vragenbank heel gemakkelijk, met één druk op de knop, andere modellen die in de toekomst worden uitgebracht, evalueren en vergelijken.”

Benchmark voor evaluatie LLM’s

Klinische gegevens bevatten vaak zowel standaard medische codes als teksten in natuurlijke taal. Dit onderzoek benadrukt de noodzaak van een bredere klinische taal in modellen om medische informatie te begrijpen en de voorzichtigheid die vereist is bij het wijdverbreide gebruik ervan. “We presenteren een benchmark voor het evalueren van de kwaliteit van informatie van medische codes en benadrukken voor gebruikers de noodzaak van voorzichtigheid bij het gebruik van deze informatie,” concludeerde dr. Rappoport.

Het Israëlische onderzoek toont ook aan hoe belangrijk het is voor zorginstellingen en -bestuurders goed geïnformeerd te kunnen kiezen voor een bepaald AI-model. Er zijn inmiddels al heel veel generatieve en diagnostische AI-tools op de markt. Het vergelijken van de verschillende tools is één, maar minstens zo belangrijk, zo niet veel belangrijker, is de kwaliteit van die verschillende tools. Enkele weken geleden startten een aantal Amerikaanse zorginstelling de Healthcare AI Challenge Collaborative. Binnen deze samenwerking kunnen artsen van de deelnemende zorginstellingen de nieuwste AI-oplossingen testen in gesimuleerde klinische omgevingen. Artsen zullen modellen tegen elkaar uitspelen in een onderlinge competitie en aan het eind van het jaar een openbare ranglijst opstellen van de beschikbare, en door hen geteste, commerciële tools.