We kennen machine learning en deep learning als twee verschillende benaderingen voor de ontwikkeling van AI-modellen en -algoritmen. Reinforcement learning is een derde technologie. Daarmee worden algoritmen ontwikkeld die zich na verloop van tijd, door ervaringen die opgedaan worden tijdens het gebruik, in staat zijn om een reeks beslissingen te nemen. Omdat de ontwikkelingen in AI, ook in de zorg, met zevenmijlslaarzen vooruitschrijdt, is al onderzocht of, en hoe, deze reinforcement learning algoritmen artsen kunnen ondersteunen in het beslissingsproces voor vervolgbehandelingen.
Reinforcement learning (RL)heeft de afgelopen tijd enkele baanbrekende AI-ontwikkelingen mogelijk gemaakt. Met name in het leren maken van de juiste strategische beslissingen twee denkspellen, Go en schaken.
Potentie van RL in de zorg
Met die wetenschap hebben onderzoekers van Weill Cornell Medicine en de Rockefeller University gekeken naar de potentie van deze AI-technologie om in de zorg ingezet te worden om, met evoluerende patiëntcondities, testresultaten en eerdere behandelreacties, artsen te helpen bij de keuze voor de volgende beste behandelstap om zo de meest optimale gepersonaliseerde patiëntenzorg te kunnen bieden.
Het onderzoek is onlangs gepubliceerd in de Proceedings of the Conference on Neural Information Processing Systems (NeurIPS) en introduceert ‘Episodes of Care’ (EpiCare), de eerste RL-benchmark voor de gezondheidszorg. “Benchmarks stimuleren verbeteringen in machine learning toepassingen, waaronder computer vision, natuurlijke taalverwerking, spraakherkenning en zelfrijdende auto's. We hopen dat de RL-benchmark nu de vooruitgang van RL in de gezondheidszorg zullen stimuleren,” aldus onderzoeksleider dr. Logan Grosenick, assistent-professor neurowetenschappen in de psychiatrie.
Veelbelovend...
RL-algoritmen leren van de feedback die ze krijgen en worden zo in de loop van tijd nog slimmer. Daardoor kunnen ze zelf het beleid voor hun besluitvorming verbeteren. Dat klinkt, en is veelbelovend, maar de onderzoekers benadrukken op basis van hun bevindingen dat voor de ontwikkeling van RL-algoritmen enorme hoeveelheden data nodig zijn. Het daarom nog veel te vroeg om te roepen dat RL-algoritmen en -toepassingen op korte termijn al in de dagelijkse praktijk ingezet kan gaan worden. Desalniettemin is het goed dat nu, in een relatief vroeg stadium, onderzoek gedaan is naar deze vorm van AI, zo stellen de onderzoekers. We weten immers allemaal hoe snel de ontwikkelingen op het gebied van AI evolueren, en er zijn al bewijzen gevonden dat bestaande technologieën ook de minder goede menselijke trekjes ontwikkelen.
De onderzoekers testten eerst de prestaties van vijf geavanceerde online RL-modellen op EpiCare. Alle vijf versloegen ze een basislijn voor standaardzorg, maar alleen na training op duizenden of tienduizenden realistische gesimuleerde behandelingsepisodes. Maar omdat in de echte wereld RL-algoritmen nooit rechtstreeks op patiënten zouden worden getraind, evalueerden de onderzoekers vervolgens vijf veelgebruikte “off-policy evaluation” (OPE) methodes: populaire benaderingen die historische gegevens gebruiken (zoals van klinische proeven) om de noodzaak van online gegevensverzameling te omzeilen. Met behulp van EpiCare ontdekten ze dat geavanceerde OPE-methoden consistent niet nauwkeurig presteerden voor gegevens uit de gezondheidszorg.
...maar nog niet bruikbaar
“Onze bevindingen geven aan dat de huidige geavanceerde OPE-methoden niet betrouwbaar zijn voor het nauwkeurig voorspellen van de prestaties van reinforcement learning in longitudinale gezondheidszorgscenario's,” dr. Mason Hargrave, onderzoeker aan de Rockefeller University. Omdat OPE-methoden steeds vaker worden genoemd voor toepassingen in de gezondheidszorg, benadrukt deze bevinding de noodzaak voor het ontwikkelen van nauwkeurigere benchmarking tools, zoals EpiCare, om bestaande RL-benaderingen te controleren en rekenmethodes te ontwikkelen waarmee verbeteringen kunnen worden gemeten.
“We hopen dat dit werk een betrouwbaardere beoordeling van versterkingsleren in gezondheidszorgomgevingen mogelijk zal maken en de ontwikkeling van betere RL-algoritmen en trainingsprotocollen voor medische toepassingen zal versnellen,” aldus dr. Grosenick.