Data efficiënt basismodel voor de detectie van biomarkers

vr 27 september 2024 - 10:40
Diagnostiek
Nieuws

Binnen de geneeskunde hebben AI-systemen veel potentie. Met name daar waar ze ingezet kunnen worden om ziekten eerder op te sporen, behandelingen te verbeteren en de werkdruk van zorgprofessionals te verlichten. De prestatie van deze tools hang echter in grote mate af van hoe goed de AI is getraind. Een nieuwe multi-tasking aanpak voor het trainen van AI maakt het mogelijk om basismodellen sneller en kosteneffectiever te trainen, met minder beschikbare data. Onderzoekers gebruiken deze aanpak om het tekort aan data in de medische beeldvorming te compenseren.

De WHO stelt dat het aantal gevallen van kanker wereldwijd aanzienlijk is toegenomen. Duidelijke indicatoren, bekend als biomarkers, zijn de sleutel tot een betrouwbare diagnose en een succesvolle behandeling. AI-systemen kunnen helpen bij het identificeren van dit soort meetbare parameters in pathologische beelden.  Daar is, en wordt, veel onderzoek naar gedaan. Die trekken eigenlijk allemaal een vergelijkbare conclusie. Gebrek aan goede, en gevarieerde, data is (nog) een drempel.

Onderzoekers van het Fraunhofer Institute for Digital Medicine MEVIS werkten samen met de RWTH Aachen University, de Universiteit van Regensburg en Hannover Medical School om hiervoor een basismodel te ontwikkelen. Het resource-efficiënte model analyseert weefselmonsters snel en betrouwbaar, op basis van slechts een fractie van de gebruikelijke trainingsgegevens.

Minder data

LLM’s, zoals die worden gebruikt voor ChatGPT, worden getraind met behulp van grote en gevarieerde datasets. Deze modellen waken zelf over het geautomatiseerde leerproces. Voor de analyse van medische beelden zijn de beschikbare gegevens over het algemeen schaars, en de kleine hoeveelheden gegevens die beschikbaar zijn in klinische onderzoeken vormen een grote uitdaging voor het gebruik van AI. Daarnaast verschilt de manier waarop klinische centra pathologische preparaten verwerken.

Deze factoren maken het moeilijker om bestaande patronen, en dus diagnostisch relevante kenmerken, betrouwbaar te detecteren. Om AI effectief te trainen, zijn grote hoeveelheden trainingsbeelden van verschillende oorsprong nodig. Maar elk dwarsdoorsnedebeeld van weefsel is meestal enkele gigabytes groot, bevat duizenden verschillende cellen, maar weerspiegelt slechts een klein deel van de aanwezige variabiliteit.

Nieuwe oplossing

Fraunhofer MEVIS heeft een oplossing bedacht op basis van gesuperviseerde training. “We ontwikkelen een trainingsstrategie voor fundamentele AI die is gemodelleerd naar de training die pathologen ondergaan. Ze hoeven niet bij elk geval opnieuw te leren wat een nucleus is. Dat is kennis uit het leerboek. Als deze concepten eenmaal zijn behandeld, zijn ze aanwezig als basis en kunnen ze worden toegepast op verschillende ziekten,” legt Dr. Johannes Lotz, een expert van Fraunhofer MEVIS, uit.

Op ongeveer dezelfde manier ondergaat hun AI-model een basistraining, waarbij het algemene kenmerken en wetten leert die bekend staan als weefselconcepten uit een brede verzameling afbeeldingen van weefseldoorsneden die met verschillende taken zijn gemaakt. Door deze taken te combineren ontstaan de grote hoeveelheden gegevens die nodig zijn om een robuust groot AI-model te trainen. De geleerde weefselconcepten worden vervolgens in een tweede stap toegepast op een specifieke taak. Op deze manier kunnen de algoritmen biomarkers identificeren die bijvoorbeeld verschillende soorten tumoren onderscheiden - en dat alles met veel minder gegevens.

“In onze oplossing is elke dataset geannoteerd door een speciaal getrainde mens met de informatie die geleerd moet worden. We geven ons model het beeld en geven tegelijkertijd het antwoord. En dat doen we voor veel verschillende taken tegelijk, met behulp van een multitask-benadering”, aldus Jan Raphael Schäfer, AI-expert bij Fraunhofer MEVIS die in het team van Lotz werkt.

Beeldregistratiemethode

Het team gebruikt ook een beeldregistratiemethode die op het instituut is ontwikkeld: HistokatFusion. Hiermee is het mogelijk om automatisch geannoteerde trainingsgegevens te genereren van weefselstudies zoals immunohistochemische kleuring, waarbij gemarkeerde antilichamen worden gebruikt om eiwitten of andere structuren te visualiseren.

Hiervoor combineert deze methode informatie van meerdere histopathologische beelden. De experts nemen deze automatisch gegenereerde annotaties op in de training van hun model, wat het verzamelen van gegevens versnelt.

Goede resultaten met weinig middelen

Vergeleken met modellen waarbij geen gebruik wordt gemaakt van gesuperviseerde training, behaalt de aanpak van de Fraunhofer-onderzoekers vergelijkbare resultaten met slechts zes procent van de trainingsgegevens. “Aangezien de hoeveelheid trainingsgegevens bij deep learning correleert met de trainingsinspanning en verwerkingskracht, ontdekten we dat we ongeveer zes procent nodig hadden van de middelen die normaal gesproken nodig zijn. Bovendien hebben we maar ongeveer 160 uur training nodig, wat een cruciale kostenfactor is. Dit betekent dat we een gelijkwaardig model kunnen trainen met veel minder inspanning,” legt Lotz uit.

De deelname van de Fraunhofer-experts aan de internationale SemiCOL-wedstrijd (Semi-supervised learning for colorectal cancer detection) voor het classificeren en segmenteren van kanker liet zien hoe goed deze voorgetrainde modellen gegeneraliseerd kunnen worden. Het team won het classificatiegedeelte van de uitdaging zonder dure aanpassingen aan hun model te hoeven doen en werd uiteindelijk tweede van de negen deelnemende teams.

Tests van interactieve beeldsegmentatie, waarbij weefselstructuren automatisch worden gedetecteerd en gemeten in een afbeelding, laten ook zien dat deze methode veel potentieel heeft. Het model heeft slechts een paar voorbeeld afbeeldingsecties nodig om concepten uit te breiden die het al heeft geleerd. Maar dat is niet alles. “Modellen gebaseerd op onze oplossing maken het mogelijk om nieuwe interactieve medische AI-trainingshulpmiddelen te ontwikkelen waarmee specialisten direct kunnen interageren met AI-oplossingen en snel relevante modellen kunnen trainen, zelfs zonder enige technische achtergrondkennis,” zegt Schäfer.

Vrij toegankelijk en overdraagbaar

De onderzoekers publiceren het voorgetrainde model en de machine learning code voor verder leren op verschillende platforms. Hierdoor kunnen specialisten het gebruiken voor niet-commerciële doeleinden en hun eigen oplossingen ontwikkelen. Het team werkt ook samen met klinische partners om de oplossing goedgekeurd te krijgen voor medische toepassingen en systematisch te valideren.

De experts van Fraunhofer MEVIS zijn er zeker van dat, wanneer deze oplossing in de dagelijkse klinische praktijk ingezet wordt, systemen met hun basismodel de werklast in de pathologie zullen verminderen en het succes van behandelingen zullen verbeteren.