Amerikaanse zorginstellingen gaan generatieve AI-tools beoordelen

wo 27 november 2024 - 14:05
AI
Nieuws

Het aanbod van AI-oplossingen voor de zorg groeit al meer dan een jaar als kool. Naast oplossingen die dedicated met, door en/of voor zorginstellingen worden ontwikkeld, groeit ook het aanbod van AI-tools van (big) tech bedrijven zoals Google, Microsoft en Amazon. Die bedrijven zijn sinds 2022 verwikkeld in een race om met name generatieve AI-tools voor de zorgsector op de markt te brengen. Maar, hoe bepaal je als zorginstelling welke AI-tool voor jouw organisatie het meest geschikt is? Hoe vergelijk je de verschillende oplossingen? Dat wordt een steeds grotere uitdaging. Een aantal Amerikaanse zorgorganisaties gaat daar nu werk van maken.

Voor zorginstellingen wordt het dus steeds moeilijker om die verschillende AI-tools te beoordelen en de juiste keuze te maken. Welke tools zijn voor onze organisatie het beste geschikt? En, welke tools zijn simpelweg niet goed genoeg? Om daarop een antwoord te kunnen geven en zorginstellingen te helpen bij het maken van een keuze gaan een aantal Amerikaanse zorginstellingen, waaronder Mass General Brigham en Emory, samenwerken. Daarvoor hebben zij deze maand de Healthcare AI Challenge Collaborative gelanceerd.

Generatieve AI-tools testen en beoordelen

Binnen deze samenwerking kunnen artsen van de deelnemende zorginstellingen de nieuwste AI-oplossingen testen in gesimuleerde klinische omgevingen. Artsen zullen modellen tegen elkaar uitspelen in een onderlinge competitie en aan het eind van het jaar een openbare ranglijst opstellen van de beschikbare, en door hen geteste, commerciële tools.

“De snelheid waarmee AI-innovaties voor de zorg gelanceerd worden blijft toenemen. Deze ongekende groei leidt ertoe dat clinici worstelen met het bepalen van de effectiviteit van deze innovaties waar het gaat om het veilig leveren van waarde aan zorgverleners en onze patiënten. De Healthcare AI Challenge is een collectief antwoord op de complexiteit die komt kijken bij het bevorderen van de verantwoorde ontwikkeling en toepassing van AI in de gezondheidszorg. Deze nieuwe aanpak is erop gericht om artsen aan het roer te zetten, zodat ze het nut van verschillende AI-technologieën kunnen evalueren en uiteindelijk kunnen bepalen welke oplossingen het beste voldoen en de zorg voor patiënten verbeteren”, vertelt Keith Dreyer, DO, PhD, en onder andere leider van Mass General Brigham in Boston.

De clinici zullen de modellen beoordelen op het genereren van conceptrapporten, belangrijkste bevindingen, differentiële diagnose en andere factoren. De maatstaven voor het evalueren van de modellen zijn aan verandering onderhevig, onder andere afhankelijk vam de klinische use case van de tool. De nauwkeurigheid van de AI-tool zal altijd zwaar zal wegen, maar er zijn gevallen denkbaar, bijvoorbeeld wanner de tool gebruikt wordt om een tekstrapport te produceren, waar leesbaarheid belangrijker kan zijn. “Sommige van die gevallen zijn erg subjectief. Zoals, heb ik het gevoel dat de stijl waarin deze tekst wordt gepresenteerd beter leesbaar of toegankelijker is voor patiënten?”, vertelt Richard Bruce, universitair hoofddocent radiologie en vicevoorzitter informatica aan de University of Wisconsin School of Medicine and Public Health.

Een ranglijst van de 'beste' AI-tools

Uiteindelijk zal het samenwerkingsverband een ‘ranglijst’ van AI-tools creëren. Die wordt dan gebruikt om feedback te geven aan technologiebedrijven en om zorgstelsels te helpen bij het zoeken naar technologie. Zorginstellingen kunnen die lijst gebruiken om te helpen bij het maken van de juiste keuze voor de aanschaf van een bepaalde AI-tool.

“Zorginstellingen kunnen de transparante ranglijsten gebruiken om de besluitvorming te informeren en benchmarknormen vast te stellen. Inzichten en best practices van het consortium kunnen worden overgenomen door niet-deelnemende zorgstelsels”, vertelt Dushyant Sahani, professor en voorzitter van de afdeling radiologie aan de Universiteit van Washington.

Evaluatiekaders en richtlijnen

Ondanks de snelle verspreiding van AI in de gezondheidszorg, is de sector het maar langzaam eens geworden over hoe de kwaliteit moet worden beoordeeld. Pogingen van de industrie om evaluatiekaders en richtlijnen uit te rollen zijn tot nu toe niet verder gekomen dan de conceptfase. De Healthcare AI Challenge Collaborative moet daar verandering in brengen.

Zonder gestandaardiseerde evaluatiemethoden is het moeilijk om zelfs de meest vergelijkbare tools met elkaar te vergelijken. “Zijn er [gemeenschappelijke] meetmethoden die ze direct met elkaar vergelijken? Voor zover ik weet worden hulpmiddelen momenteel niet direct met elkaar vergeleken, afgezien van enquêtes onder gebruikers en anekdotes. Er is geen eenvoudige manier om appels met appels te vergelijken”, aldus Richard Bruce.

Tot nu toe nemen Emory Healthcare, de radiologieafdelingen van de University of Wisconsin School of Medicine and Public Health en de University of Washington School of Medicine, en de industriegroep het American College of Radiology deel aan de samenwerking. Mass General Brigham is voornemens het samenwerkingsverband verder uit te breiden.