Algoritme maakt opsporen zeldzame aandoeningen makkelijker

Genetische afwijkingen opsporen: het is iets waar Christian Gilissen zich al jaren mee bezig houdt. Als hoogleraar genoom bio-informatica aan het Radboudumc houdt hij zich bezig met analyse van genetische data. Als bio-informaticus is hij actief in de dagelijkse praktijk van patiëntdiagnostiek in het genetische centrum van het Nijmeegse universitaire ziekenhuis. “Die combinatie biedt voordelen, zoals het kunnen gebruiken van genetische data van patiënten voor onderzoeksdoelen naar de oorzaak van genetische ziekten. Anderzijds kunnen we conclusies uit ons onderzoek direct toepassen in de patiëntdiagnostiek.”

Een deel van de diagnoses betreft zeldzame aandoeningen die leiden tot verstandelijke beperkingen als gevolg van de novo mutaties. Dit zijn mutaties in het DNA die spontaan nieuw ontstaan en niet zijn doorgegeven door een van of beide ouders van een patiënt - meestal een jong kind.

Gilissen: “Het gaat per persoon om zo’n 60 tot 100 mutaties op circa drie miljard base-paren, dus een gering aantal. We weten dat die vaak ten grondslag liggen aan ontwikkelingsachterstanden of een verstandelijke beperking. Dat doen we normaal door genetische data van ouders en kind te vergelijken, maar dit is erg lastig. Vaak is er onvoldoende informatie, of zitten er fouten in de technologie die we gebruiken. Het gevolg is veel vals-positieven of gemiste mutaties.”

Toegang tot zorgfaciliteiten

Het genetisch centrum geeft diagnoses af die ouders onder meer toegang bieden tot zorgfaciliteiten. Ouders weten dankzij de diagnoses ook dat het defect niet veroorzaakt is door iets dat zij tijdens de zwangerschap gedaan of nagelaten hebben en dat zij het defect niet hebben doorgegeven. Dat is van belang bij een nieuwe kinderwens. Als de oorzaak een de novo mutatie is, dan is het herhalingsrisico - de kans dat een volgend kind dezelfde aandoening zal krijgen - minimaal.

“En op het moment dat we weten wat er aan de hand is, kunnen we voorspellen wat er verder met de patiënt kan gebeuren”, vervolgt Gilissen. “Of er bijvoorbeeld opgelet moet worden dat een kind op latere leeftijd geen hartaandoening ontwikkeld die vaak gepaard gaat met deze mutatie.” Last but not least: als ouders weten wat er met hun kind aan de hand is, kunnen ze zich ook via social media of fysiek bij groepen lotgenoten aansluiten en ervaringen en kennis uitwisselen.

Visuele inspectie

De diagnoses bieden dus diverse voordelen: toegang tot zorg, meer duidelijkheid, en mogelijkheden voor preventie – zowel bij het kind in kwestie als bij een eventueel volgend kind. Maar kon het niet sneller, en met minder foute diagnoses? Twee jaar terug ging Gilissen met enkele collega’s met dit vraagstuk aan de slag in de wondere wereld van AI en algoritmes. Ze ontwikkelden een algoritme - op basis van deep learning - die een visuele inspectie van de genetische data nadoet.

Via deep learning is dergelijk beeldmateriaal heel goed te analyseren, stelt Gilissen. Om het algoritme te voeden, heeft de genetica-afdeling van het Radboudumc op basis van eigen data cohorten samengesteld van opgespoorde genetische mutaties die klopten en ook die niet klopten, zodat het algoritme het verschil kon leren.

We kunnen nu beter voorspellen wat er met een patiënt kan gebeuren

“We hebben ook andere, externe datasets aan het algoritme gevoerd die met andere methoden zijn gegenereerd. Daaruit bleek dat onze methodiek minder fout-positieven genereerde. Het algoritme bleek daarnaast robuust genoeg om de data uit andere DNA-lezers, of verkregen via andere verrijkingstechnieken, correct te kunnen analyseren.”

Snellere diagnostiek

In juni brachten Gilissen en collega’s een wetenschappelijke publicatie¹ over het algoritme naar buiten. Daaruit blijkt dat de toepassing de diagnostiek van het genetisch centrum voor de novo mutaties sneller maakt en het aantal fouten beperkt, vertelt de bio-informaticus.

“Deze circa 2.000 ontwikkelingsaandoeningen zijn individueel zeldzaam, maar als je ze bij elkaar optelt, komen ze vrij vaak voor: bij zo’n 2-3 procent van de westerse bevolking. Het algoritme helpt om de specifieke aandoening te onderscheiden. Voor veel van deze aandoeningen afzonderlijk zijn er vaak nog weinig behandelmethoden. Hoe groter de cohorten zijn die je kunt genereren met een algoritme zoals wij hebben ontwikkeld, des te meer basis is er voor onderzoek om de genetisch oorzaak te achterhalen en verder onderzoek naar behandelingen te starten."

Bij de publicatie van het artikel over het algoritme hebben de onderzoekers ook een link² naar de software op Github toegevoegd (een online platform voor softwareontwikkeling en versiebeheer). “We hebben nu al een aantal onderzoeksgroepen wereldwijd die begonnen zijn om het algoritme in hun omgeving te testen”, stelt Gilissen. “In Nederland zijn er slechts negen academische centra die genetische testen uitvoeren, dus het is van belang dat ook grote centra in onder meer de VS dit oppakken, waar tot tienduizenden patiënten per jaar gediagnosticeerd worden. Zij geven ons feedback aan de hand waarvan we verbeteringen kunnen aanbrengen.”

Verder verfijnen

Gilissen en zijn team zijn twee jaar bezig geweest met het ontwikkelen van het algoritme. Dat was volgens hem ook hard nodig om alle kinderziektes eruit te halen, te voorkomen dat er biases ontstaan op basis van de deep learning data, om trainingsdata toe te voegen daar waar het algoritme nog niet zo goed mutaties kon opsporen. Nu wordt er vooral gewerkt aan verfijningen en andere toepassingen mogelijk maken op basis van veldwerk bij andere groepen.

“Zo willen we kijken of we de snelheid van de analyses kunnen vergroten. Daarnaast doet het algoritme het al goed bij het opsporen van mutaties waarbij een base veranderd wordt, maar kan het nog beter bij de vaak moeilijker op te sporen mutaties waar een base verwijderd of toegevoegd wordt. Verder willen we het algoritme ook geschikt maken voor long read sequencing, een nieuwere techniek om DNA te lezen. Nu is het algoritme vooral geschikt voor short read sequencing, het lezen van grote hoeveelheden kleine stukjes DNA.”

Tot slot hebben Gilissen en zijn collega’s nog wat ideeën voor hele andere toepassingen voor het algoritme zelf, of een ander algoritme op basis van hetzelfde deep learning-concept. “Zo willen we een algoritme inzetten om mutaties in tumoren op te sporen, ook vrij complex, of in zogeheten liquid biopsies. Daarbij meet je in het bloed of er mutaties in DNA zitten die op een tumor wijzen. Vaak zijn dat slechts hele geringe hoeveelheden tumormateriaal, dus die zijn met normale methoden op te sporen. De grootste uitdaging is overigens niet het doorontwikkelen van het algoritme, maar het vinden van de financiering om deze volgende stappen te zetten.”

Referenties

1. DeNovoCNN: a deep learning approach to de novo variant calling in next generation sequencing data

2. Link