Prestaties van Google’s medische AI-tools onderzocht

Er is veel te doen over het gebruik van AI in de zorg. Naast de zorg zelf, zijn ook de grote techbedrijven als Google en Microsoft op dit thema, en de ontwikkeling van AI-tools die artsen moeten ondersteunen, gedoken. Die tools beslaan zowel de medische documentatie – het opstellen van brieven en verslagen in patiëntendossiers – als de medische diagnostiek. Denk aan machine learning en AI-tools die radiologen helpen bij het beoordelen van scans voor de diagnostiek van aandoeningen als kanker.

Sommige tools, zoals Dragon Medical One voor het automatisch genereren van (medische) documentatie en verslaglegging tijdens een consult met een patiënt van Microsoft / Nuance, hebben hun meerwaarde in de praktijk al bewezen. Toch wordt ook nog regelmatig gewaarschuwd voor het gebruik, en de effectiviteit, van AI-tools, zoals ChatGPT in de medische diagnostiek.Terwijl andere onderzoeken de medische voordelen juist benadrukken. Er is dus nog veel werk aan de winkel en de ontwikkeling, het gebruik en ervaringen met AI-tools in de zorg is ook een van de prominente onderwerpen tijdens de ICT&health World Conference die morgen (14 mei) van start gaat.

Google timmert op het gebied van AI-ondersteunde medische diagnogstiek al geruime tijd aan de weg met DeepMind. Zo werd vorige week een nieuwe AI-model - AlphaFold 3 - gepresenteerd dat in staat is om de structuur van zaken zoals eiwitten, DNA en RNA nauwkeurig te voorspellen, evenals hoe deze elementen op elkaar inwerken. Onlangs hebben Google Resarch en en het AI-onderzoekslaboratorium van Google, DeepMind, de meerwaarde en prestaties van Med-Gemini onderzocht en beschreven. Volgens Google en de onderzoekers is Med-Gemini een enorme vooruitgang in de klinische diagnostiek met een enorm potentieel.

Gemini modellen van DeepMind

De Gemini-modellen van Google zijn een nieuwe generatie multimodale AI-modellen. Ze zijn in staat om informatie uit verschillende modaliteiten te verwerken. Denk aan tekst, afbeeldingen, video's en audio. De modellen zijn bedreven in taal en conversatie, begrijpen de uiteenlopende informatie waarop ze zijn getraind en wat ‘lange-context redeneren’ wordt genoemd, of redeneren op basis van grote hoeveelheden gegevens, zoals uren video of tientallen uren audio.

Med-Gemini heeft alle voordelen van de fundamentele Gemini-modellen, maar heeft ze verfijnd. De onderzoekers testten deze op medicijnen gerichte aanpassingen en namen hun resultaten op in het artikel. Dat is uiteindelijk een 58 pagina’s tellend document geworden dat door New Atlas samengevat is.

Autonome training en online onderzoek

Om tot een diagnose te komen en een behandelplan te formuleren, moeten artsen hun eigen medische kennis combineren met een hele reeks andere relevante informatie: symptomen van de patiënt, medische, chirurgische en sociale geschiedenis, laboratoriumresultaten en de resultaten van andere onderzoekstests, en de reactie van de patiënt daarop. voorafgaande behandeling. Behandelingen zijn een ‘verplaatsbaar feest’, waarbij bestaande behandelingen worden bijgewerkt en nieuwe worden geïntroduceerd. Al deze dingen beïnvloeden het klinische redeneren van een arts.

Daarom heeft Google met Med-Gemini uitgerbreid met online zoekmiddelen om geavanceerder klinisch redeneren mogelijk te maken. Zoals veel op geneeskunde gerichte grote taalmodellen (LLM's), werd Med-Gemini getraind in MedQA, meerkeuzevragen die representatief zijn voor US Medical License Exam (USMLE)-vragen, ontworpen om medische kennis en redenering in verschillende scenario's te testen.

Google heeft echter ook twee nieuwe datasets voor hun model ontwikkeld. De eerste, MedQA-R (Reasoning), breidt MedQA uit met synthetisch gegenereerde redeneringsverklaringen, genaamd ‘Chain-of-Thoughts’ (CoTs). De tweede, MedQA-RS (Reasoning and Search), biedt het model instructies om webzoekresultaten te gebruiken als aanvullende context om de nauwkeurigheid van antwoorden te verbeteren. Als een medische vraag tot een onzeker antwoord leidt, wordt het model gevraagd een zoekopdracht op internet uit te voeren om meer informatie te verkrijgen om de onzekerheid op te lossen.

Uitgebreid getest op medisch benchmarks

Med-Gemini werd getest op 14 medische benchmarks en behaalde een nieuwe state-of-the-art (SoTA) prestatie op 10 daarvan. Daarmee weden de GPT-4-modelfamilie werd overtroffen op elke benchmark waar een vergelijking kon worden gemaakt. Op de MedQA (USMLE)-benchmark behaalde Med-Gemini een nauwkeurigheid van 91,1% met behulp van zijn op onzekerheid gebaseerde zoekstrategie, waarmee hij 4,5% beter presteerde dan de vorige medische LLM van Google, Med-PaLM 2.

Op zeven multimodale benchmarks, waaronder de New England Journal of Medicine (NEJM) image challenge (afbeeldingen van uitdagende klinische gevallen op basis van een lijst van tien), presteerde Med-Gemini gemiddeld beter dan GPT-4 van 44,5%.

“Hoewel de resultaten veelbelovend zijn, is er nog aanzienlijk verder onderzoek nodig”, aldus de onderzoekers. “We hebben bijvoorbeeld niet overwogen om de zoekresultaten te beperken tot meer gezaghebbende medische bronnen, door gebruik te maken van multimodale zoekacties, of om analyses uit te voeren op de nauwkeurigheid en relevantie van zoekresultaten en de kwaliteit van de citaten. Verder valt nog te bezien of kleinere LLM's ook kunnen leren gebruik te maken van zoeken op internet. We laten deze verkenningen over aan toekomstig werk.”

Specifieke informatie uit EPD's halen

Elektronische medische dossiers (EPD’s) kunnen lang zijn, maar artsen moeten weten wat ze bevatten. Om de zaken nog ingewikkelder te maken, bevatten ze doorgaans tekstuele overeenkomsten (“diabetes mellitus” vs. “diabetische nefropathie”), spelfouten, acroniemen (“Rx” vs. “recept”) en synoniemen (“cerebrovasculair accident” vs. “beroerte”) – dingen die een uitdaging kunnen vormen voor AI.

Om het vermogen van Med-Gemini om medische informatie met een lange context te begrijpen en te redeneren, te testen, voerden de onderzoekers een zogenaamde 'naald-in-een-hooiberg-taak' uit met behulp van een grote, openbaar beschikbare database, de Medical Information Mart for Intensive Care of MIMIC-III, met geanonimiseerde gezondheidsgegevens van patiënten die op de intensive care zijn opgenomen.

Het doel was dat het model de relevante vermelding van een zeldzame en subtiele medische aandoening, symptoom of procedure (de ‘naald’) zou achterhalen over een grote verzameling klinische aantekeningen in het EPD (‘de hooiberg’).

Er werden tweehonderd voorbeelden samengesteld, en elk voorbeeld bestond uit een verzameling geanonimiseerde EPD-aantekeningen van 44 IC-patiënten met een lange medische geschiedenis. Ze moesten aan de volgende criteria voldoen:
- Meer dan 100 medische notities, waarbij de lengte van elk voorbeeld varieert van 200.000 tot 700.000 woorden
- In elk voorbeeld werd de voorwaarde slechts één keer genoemd
- Elk monster had één enkele interessante voorwaarde

Indrukwekkende prestaties

Er waren twee stappen voor de naald-in-een-hooiberg-taak. Eerst moest Med-Gemini alle vermeldingen van het gespecificeerde medische probleem uit de uitgebreide dossiers halen. Ten tweede moest het model de relevantie van alle vermeldingen evalueren, ze categoriseren en concluderen of de patiënt een voorgeschiedenis van dat probleem had, en een duidelijke reden voor zijn beslissing geven.

Vergeleken met de SoTA-methode presteerde Med-Gemini goed op de naald-in-een-hooiberg-taak. Het scoorde een nauwkeurigheid van 0,77 vergeleken met de SoTA-methode (0,85) en overtrof de SoTA-methode bij het terugroepen: 0,76 versus 0,73.

“Misschien wel het meest opvallende aspect van Med-Gemini zijn de mogelijkheden voor verwerking van lange contexten, omdat ze nieuwe prestatiegrenzen en nieuwe, voorheen onhaalbare toepassingsmogelijkheden voor medische AI-systemen openen”, aldus de onderzoekers. “Deze 'naald-in-een-hooiberg'-ophaaltaak weerspiegelt een echte uitdaging waarmee artsen worden geconfronteerd, en de prestaties van Med-Gemini-M 1.5 demonstreren het potentieel ervan om de cognitieve belasting aanzienlijk te verminderen en de capaciteiten van artsen te vergroten door op efficiënte wijze informatie te extraheren en te analyseren informatie uit grote hoeveelheden patiëntgegevens.”

Voor een begrijpelijke uitleg van deze belangrijke onderzoekspunten, en een update over de strijd tussen Google en Microsoft, kijk onderstaande video van AI Exploreed, beginnend na 13 minuten en 38 seconden.

Hoe verder?

De onderzoekers geven toe dat er nog veel meer werk aan de winkel is, maar de initiële mogelijkheden van het Med-Gemini-model zijn zeker veelbelovend. Belangrijk is dat ze van plan zijn om verantwoorde AI-principes, waaronder privacy en betrouwbaarheid, te integreren in het hele ontwikkelingsproces van modellen.

De volledige paper van het onderzoek kun je hier nalezen.