Zijn algoritmen en machine leren wel betrouwbaar?

We leven in het tijdperk van ‘zo veilig mogelijk’ en ‘transparante verantwoording’. Nu is dat bij medische en gezondheidszaken altijd al lastig gebleken. 100 procent betrouwbare testen en behandelingen zijn gewoon niet te doen. In tal van gevallen is het (deels) ook onderbuikgevoel. Protocollen, meet- en analyse-instrumenten leveren regelmatig slechts schijnveiligheid op. Om het over ‘Protocol gevolgd, patiënt overleden’-fenomeen nog maar niet te hebben.

De hoop is nu gevestigd op slimme algoritmen en machine leren. Kan kunstmatige intelligentie de gezondheidszorg meer betrouwbaar maken? En zo ja hoeveel dan wel?

Algoritmen

Op de keper beschouwd is een algoritme gewoon een doordacht rekenmodel dat tijd bespaart en altijd op dezelfde logische manier beslist. In de praktijk zien we bij medische en gezondheidstoepassingen dan minder over het hoofd en besparen we kostbare tijd bij de diagnose en behandeling. Daar valt veel voor te zeggen. Maar wat als de gebruikte algoritmen een onverwachte (of onzichtbare foutenmarge hebben?

In ieder geval zijn algoritmen min of meer objectief. Althans, voor zover de opsteller er de juiste data en rekenmethoden heeft ingestopt. Zij kennen digitaal gezien geen persoonlijke vooroordelen of een slechte dag hebben. Verder is de uitkomstschakel net zo sterk als de zwakste algoritmeschakel.

Adviezen Digitale Overheid

De overheid heeft zich al regelmatig de vingers gebrand aan niet waar gemaakte beloften betreffende vooringenomenheid en foutloosheid van algoritmen. Dat heeft al tot de nodige schandalen en claims geleid. Tijd voor het opstellen van een aantal regels en adviezen voor het ontwikkelen van algoritmen en machineleren.

Als eerste: zorg voor de goede data. Rotzooi erin geeft ook rotzooi eruit. De gebruikte data moeten simpelweg juist, volledig, consistent en actueel zijn. Gelukkig heb je voldoende tools om de datakwaliteit te kunnen bepalen. Zie onder meer Hoe controleer je de betrouwbaarheid van data?

Het ‘stel de juiste vragen’ klinkt eenvoudig, doch is in de praktijk een stuk moeilijker dan menigeen denkt. De verkeerde vragen stellen, onjuist formuleren en zich zelf vervullende profetieën liggen op de loer. Het visgraatdiagram kan helpen om deze fouten te voorkomen.

Lekker brainstormen over oorzaken, gevolgen en factoren van invloed. Vandaar uit werken naar de vraag / vragen.

Kies het juiste type output. Dit zowel in tekst / cijfers, visualiseren als belevend. Zegt of doet de uitkomst van het algoritme de ontvanger weinig dan zal deze daar waarschijnlijk ook niets verder mee doen.

Als laatste: de benodigde methode van analyseren. Met de subvraag waar de uitkomsten (medisch of gezondheid) voor gebruikt moeten worden? Bijvoorbeeld beleid, behandeling, preventieve interventies, opsporing etc. Je moet er wel gewoon wel voldoende aanhebben. Gelukkig is er al relatief veel bekend over de in aanmerking komende algoritmen en machineleren. Je kunt ze zelfs door AI laten selecteren.

Niet of wel?

Het lijkt een heel eenvoudige selectievraag: Niet of juist wel? In de praktijk kan dat echter geheel anders uitpakken als je dit aan een algoritme of AI voorlegt. In het geval van gezichtsherkenning of het opsporen van tumorcellen gaat het meestal goed. Patronen worden vergeleken met wat in de database van het algoritme of neurale netwerk aanwezig is. Met patroonherkenning haalt het systeem al snel een betrouwbaarheid van 99-100 procent. Lastig wordt het echter als het juiste patroon niet bij de referenties zit of het beeld vervuild is.

Van een heel andere orde is het beoordelen of iemand geschikt is voor een bepaalde functie en wel / geen fraudeur is. Het algoritme is doorgaans niet slimmer of minder bevooroordeeld dan de maker(s) ervan. En dan rijst beslist de vraag of het niet of wel de juiste uitslag geeft.

'Waarschijnlijk zo'

Al vele tientallen jaren in gebruik is de zogenaamde fuzzy logic. Een inschattingsanalyse van ‘het zal wel zo het meest gewenst zijn’. Deze techniek maakte vooral furore bij foto- en filmcamera’s. De foto/videograaf behoeft zich dan zelf niet het hoofd te breken hoe een zonsondergang, portret, macro of wolkenlucht juist belicht en scherp gesteld moet worden. Later gingen de fabrikanten meer en meer over op (deel) machine leren, waarbij de opgedane ervaringen gebruikt worden voor verdere kwaliteitsverbetering.

Ook in de medische en zorgpraktijk is er sprake van fuzzy logic. Op basis van ervaring, statistiek en onderbuikgevoel wordt een diagnose en gepaste behandeling bepaald. Dat valt ook door een triage-algoritme te leren: ook hier aangevuld met machine leren en extra checkvragen. In de praktijk zit de AI dan al gauw tussen de 80 en 90 procent goed.

Zo betrouwbaar als je ze zelf maakt

Dat is uiteraard volkomen logisch. In principe is een goed werkend algoritme volkomen neutraal. Problemen zijn er echter bij welke waarden de makers aan bepaalde kenmerken of cijfers toekennen. Het algoritme gaat dan net zo als zijn geestelijke vader oordelen. Intuïtie zit er regelmatig naast, hoge cijfers zeggen niet veel over praktisch talent, om het over etniciteit, geslacht en gender nog maar niet te hebben. Kortom ons denken is vaak irrationeler dan wij beseffen. Daarop mag geen algoritme varen.

Emoties, zelfoverschatting, verwachtingen hebben en bevestiging zoeken kunnen het oordeel vertroebelen. Een algoritme zou deze problemen niet hebben. Data zijn neutraal. Het is de combinatie met menselijk handelen die de technologie goed of slecht maakt.

Een ander bekend gegeven is:

Wat je er niet in stopt, komt er ook niet uit.
Wat je er in stopt, komt er ook uit.

Nog een gegeven: data zijn meestal oud, dus op basis van eerdere kennis en ervaring ingevoerd. Wat te doen bij het opduiken van nieuwe data? Een interessant artikel over dit onderwerp is 'Algoritmes zijn zo betrouwbaar als je ze zelf maakt' - CHRO.nl.

Boeiend is de techniek waarbij twee neurale netwerken elkaar testen door onderling uitvragen. Zo test de AI de eigen bevindingen, interpretaties en ervaringen. Dat maakt de analyses een stuk betrouwbaarder.

Wantrouwen tegen algoritmen

Twijfel, onzekerheid en het 100 procent op safe willen spelen wakkeren het wantrouwen tegen het gebruik van algoritmen en AI bij medische en zorgbeslissingen aan. Dat schept vaak onwil om hen te gebruiken. De praktijk eert echter dat goede algoritmen en machinelerende systemen het regelmatig veel beter doen dan de mens. Waarom dan afwijzen? Lees ter inspiratie: A Cloudy Future: Why We Don’t Trust Algorithms When They’re Almost Always Right – Association for Psychological Science.

Een aardige vergelijking is die met de zelfrijdende auto. Ongelukken met dergelijk AI controlled voertuigen worden breed uitgemeten in de pers. Je hebt toch gewoon een menselijke chauffeur als oppas nodig? Kille berekeningen laten echter zien dat de huidige geavanceerde AI-cardrivers het er regelmatig beter afbrengen dan menselijke bestuurders. Van waar dan die onwil?

Samenvattend zijn algoritmen een machine leren steeds meer betrouwbaar geworden. Mits goed gebouwd, van de juiste referentiedata en analysemechanismen voorzien kunnen zij de medische beslissingen, zorgverlening en beleid uitgebreid ondersteunen. Met al belangrijkste winstpunten een betere accuratesse, tijd- en kostenbesparing.