De laatste tijd horen we steeds vaker dat AI dé oplossing is voor de grote uitdagingen in de zorg. Hierbij wordt vaak vergeten dat data de kern is van elk systeem - zeker bij AI. Laten we het daarom eens hebben over de kwaliteit en het gebruik van data en wat hier allemaal mis kan gaan.
Hans Rosling, een Zweedse arts, hoogleraar Internationale Gezondheid aan het Karolinska-instituut en directeur van de Gapminder Foundation, liet in zijn onderzoek1 goed zien dat het beeld van de wereld dat wij in ons hoofd hebben geconstrueerd lang niet altijd in lijn is met de onderliggende data. Onze inzichten worden gekleurd en vaak spelen onbewuste vooroordelen een rol. Wanneer mensen vragen krijgen over algemene feiten, zoals het aantal mensen dat in armoede leeft, of het percentage meisjes dat school afrondt, geeft het overgrote deel van de respondenten foute antwoorden.
Rosling toont ook dat Europeanen ten onrechte denken dat mensen buiten Europa meer roken dan zijzelf en dat ze niet weten dat bijna alle Europese kinderen immuun zijn geworden voor mazelen door de vaccinatieprogramma’s. Op basis van zijn onderzoek claimt Rosling (zie figuur bovenaan pagina 35) dat een chimpansee die willekeurig antwoorden kiest het soms beter doet dan de mens!2
De resultaten van Roslings onderzoek brengen twee problemen samen:
- Foutieve of incomplete data kunnen tot verkeerde conclusies leiden.
- De conclusies die wij vormen met data, kunnen gekleurd zijn.
In het eerste geval spreken we over de kwaliteit van de data; in het tweede geval over de kwaliteit van de conclusies.
Kwaliteit van data
Er wordt veel over ons vastgelegd in allerlei systemen, zeker in de gezondheidszorg. Onze naam-, adres- en woonplaatsgegevens, onze ziektegeschiedenis, gebruikte medicatie, persoonlijke data zoals lengte, gewicht, ons geslacht, familie-omstandigheden, etc. Alles wordt vastgelegd in datadragende systemen zoals EPD, ECD en steeds meer uitgewisseld door koppeling van systemen, maar ook nog steeds door overtypen.
Gegevens over financiële transacties van gemaakte ziektekosten, behandelresultaten, ingevulde vragenlijsten, etc. op individueel, maar ook op geaggregeerd niveau, vormen eveneens een belangrijke databron. Data wordt gebruikt om processen te optimaliseren, kosten te verlagen en de algehele efficiëntie te verbeteren. Als laatste is data van belang voor onderzoek en datagedreven beslissingen in de zorg3.
De data die we vastleggen in onze systemen - vroeger op papier - zijn naakte feiten die op zichzelf geen betekenis hebben. Mensen interpreteren deze data en maken er informatie en kennis van. Het is van groot belang dat wij kwaliteitseisen stellen aan de data, want niet alle data zijn goede data. En je wilt goede data in je systeem hebben voor betrouwbare uitkomsten.
GIGO
In dit verband duikt vaak de term GIGO op: Garbage In - Garbage Out. Als de data die je in je systeem gebruikt niet goed zijn, dan zal de uitkomst na verwerking ook niet goed zijn. Tenslotte kan de kwaliteit van de uitkomsten bij een computer nooit groter zijn dan de data die erin gaat. Het is daarom van groot belang dat je goed stilstaat bij de kwaliteit van de gebruikte data, zeker als je met data uit meerdere bronnen werkt. Zonder een goede check van brondata kunnen uitkomsten onbewust onbetrouwbaar worden en zelfs gevaarlijk.
Er zijn veel dimensies om de kwaliteit van de data te beschrijven, te controleren en te bewaken. De werkgroep datakwaliteit van DAMA (Data Management Association) onderscheidt er zelfs meer dan 404. De meest voorkomende dimensies zijn:
- Juistheid: de data moeten nauwkeurig en consistent zijn, zodat ze kunnen worden gebruikt om betrouwbare conclusies te trekken.
- Volledigheid: de data moeten alle relevante informatie bevatten die nodig is om de beoogde doelen te bereiken.
- Tijdigheid: de data moeten op tijd beschikbaar zijn om te worden gebruikt voor de beoogde doelen.
- Relevantie: de data moeten relevant zijn voor de beoogde doelen en mogen niet onnodig worden verzameld of opgeslagen.
- Uniek: de data in het systeem moeten slechts een keer voorkomen.
Daarnaast wordt er vaak een aantal criteria toegevoegd met betrekking tot het waarborgen van de beschikbaarheid, integriteit en vertrouwelijkheid van data – doorgaans vanuit het perspectief van informatiebeveiliging. Maatregelen om deze aspecten te waarborgen, raken doorgaans de software en de databases waarin de gegevens zijn opgeslagen:
- Beschikbaarheid: de data moeten gemakkelijk toegankelijk zijn wie die ze nodig hebben, terwijl de privacy en beveiliging van de gegevens worden beschermd.
- Integriteit: de data moeten worden beschermd tegen ongeautoriseerde wijzigingen of vernietiging.
- Vertrouwelijkheid: de data moeten worden beschermd tegen ongeautoriseerde toegang of openbaarmaking.
Data speelt een cruciale rol bij de analyse, beslissingsondersteuning en onderzoek in de zorg. Data-analyse van data kan voor betere preventie of vroegtijdige interventie zorgen doordat risicofactoren en trends geïdentificeerd worden.
Door big data uit verschillende bronnen te combineren en te analyseren met behulp van bijvoorbeeld AI, kunnen onderzoekers patronen ontdekken die normaal gesproken over het hoofd zouden worden gezien. Het grote volume van big data maakt de uitkomsten van de analyses betrouwbaarder. Zo kunnen de risico’s op bepaalde bijwerkingen van medicijnen bij bepaalde groepen patiënten worden voorspeld. Met deze inzichten kunnen betere behandelplannen worden opgesteld en patiënten beter worden begeleid in de behandelkeuzes.
Kwaliteit van conclusies
Als aan alle voorwaarden van datakwaliteit is voldaan, zouden wij in beginsel tot goede conclusies moeten kunnen komen. Zoals we zien bij Rosling, gaat het hier echter ook regelmatig fout. We zien dat er bias om de hoek komt kijken wanneer wij conclusies trekken.
Bias is een vooringenomenheid die objectieve waarneming of beoordeling van feiten in de weg staat, een vooroordeel. Goede kwaliteit van data helpt in beginsel om bias tegen te gaan, waardoor patiënten gelijker en eerlijker behandeld kunnen worden. Maar dan moeten we ons wel bewust zijn van onze eigen vooroordelen. Bias bij de interpretatie van zorgdata kan namelijk leiden tot ongelijke behandeling en verkeerde besluitvorming. Zo stelt Pharos, landelijk expertisecentrum voor terugdringen gezondheidsverschillen, dat vooroordelen van mensen in ons eigen denken en geautomatiseerde algoritmen terechtkomen. Dit werkt discriminatie in de hand. Daarom vindt Pharos het van belang om kritisch te onderzoeken of de algoritmen kloppen voor verschillende patiëntengroepen5.
Complexiteit
Om de uitdagingen in de zorg aan te kunnen, zijn grote veranderingen nodig. Dat stelt de overheid in de Nationale Visie en Strategie op het gezondheidsinformatiestelsel: ‘Digitalisering is een oplossingsrichting om de druk in de zorg te verminderen. De grote veranderingen vragen om slimheid in de zorg. Slimheid om te voorkomen dat zorgverleners verstrikt raken in de EPD’s, slimheid om te voorkomen dat kostbare tijd aan allerlei administratieve lasten (bijvoorbeeld overtikken) wordt besteed. Digitalisering moet bijdragen aan het voorkomen, verplaatsen en vervangen van zorg om de toegankelijkheid, betaalbaarheid en kwaliteit van zorg te bevorderen. Informatie moet voor de zorg beschikbaar zijn en gezamenlijk secundair gebruik van data voor verschillende doeleinden moet mogelijk worden.’6
Het bijbehorende proces en de bijbehorende onderdelen (zie figuur onderaan pg 35), geeft al zicht op de complexiteit als gevolg van de vele actoren en de vele activiteiten. Om nog maar te zwijgen van de hoeveelheid verschillende actoren die de activiteiten moeten uitvoeren.
De geschetste verregaande ontwikkelingen, de complexiteit van databronnen en de veelheid van actoren vragen om een goede datakwaliteit en een gepaste omgang met data. Slechte data en gekleurde beslissingen kunnen grote gevolgen hebben.
Slechte of lage kwaliteit van de brondata is vooral problematisch in de zorg, waar mensen vaak op hun kwetsbaarst zijnafhankelijk zijn van en vertrouwen op de accuraatheid van data en de daarop gebaseerde beslissingen. Zo compleet mogelijke en zo betrouwbaar mogelijke data helpt zorgverleners om beter geïnformeerde beslissingen te nemen, verbetert in plaats van verslechtert de kwaliteit en veiligheid van de zorg.
Voorbeelden te over illustreren dit: dat in het systeem terecht staat dat je aan je linkerbeen geopereerd moet worden; dat de medicatie die je gebruikt juist ingevoerd is en je niet over- of ondergedoseerd wordt; dat bekend is waar je allergisch voor bent; dat jouw medische gegevens nauwkeurig genoteerd zijn en er hierdoor betere diagnoses en dus ook een betere behandeling kan plaatsvinden.
Probleem met AI
Hier schuilt ook een groot probleem met het gebruik van AI in de zorg. Als de brondata niet goed zijn - niet juist, niet volledig, niet tijdig en niet relevant - dan gaat het fout. Er ligt namelijk garbage ten grondslag aan het systeem. Als het AI-algoritme dan ook nog eens bias heeft, is het leed niet meer te overzien. Dan kan zelfs de mens, die volgens Rosling toch al niet zo goed is met het werken met data, er geen chocolade meer van maken.
Fouten in data en bias zijn niet altijd te voorkomen7. We kunnen wél proberen de data-systemen zo kwalitatief en hoogstaand mogelijke data te laten gebruiken, zo eerlijk mogelijke algoritmes te laten maken en gebruiken. Goede datamanagementprocedures8 en continue controle of er een bias is ingeslopen, houden de data, systemen en de output telkens tegen het licht van kwaliteit en ongewenste bias.
Wet-en regelgeving is hierbij cruciaal. De Nederlandse overheid weet dit en werkt hard in Europees verband aan verbetering van datakwaliteit en tegengaan van ongewenste bias9. Tot slot moeten we blijven luisteren naar de gebruikers en ze betrekken bij de ontwikkeling van systemen. Als geen ander kennen zij de sterktes en zwaktes van de systemen in de zorg en houden zij een belangrijke sleutel in de hand voor verbetering.
In dit artikel wordt gebruikgemaakt van inzichten uit het boek Digibeter, data, informatie en processen. Van Reijswoud, V. en Molenaar, V. Te verschijnen bij Van Haren Publishing, april 2025.
CV
Vera Molenaar is Hogeschooldocent verpleegkunde en gezondheidswetenschapper. Eerder werkte ze als revalidatie- en kinderverpleegkundige alsmede als senior-adviseur in een topklinisch ziekenhuis en bij een ouderenzorginstelling. Ze is lid van de redactieraad van ICT&health.
Victor van Reijswoud is gezondheidswetenschapper en verpleegkundige en is in 1996 gepromoveerd aan de TU Delft in het vakgebied informatiesystemen. Sindsdien is hij als hoogleraar en adviseur management en informatiesystemen betrokken bij verschillende universiteiten in Europa, Afrika, Azië en Zuid-Amerika.
Referenties
1. Link
2. Rosling, H., Factfulness: Ten reasons we’re wrong about the world - and why things are better than we think, Sceptre, 2018 - TED. (2007). The best stats you’ve ever seen. (Link)
3. In het kader van databeschikbaarheid voor onderzoek wordt gesproken over FAIR principes. Deze zijn geïntroduceerd om de herbruikbaarheid van wetenschappelijke data te bevorderen. Het acronomiem staat voor Findable – vindbaar, Accessible – toegankelijk, Interoperable – uitwisselbaar, Reusable – herbruikbaar. Uit de nationale visie, pagina 19. (Link)
4. Overview data quality dimensions (Data Management Wiki.) (Link)
5. Link
6. In de nationale visie en strategie gezondheidsinformatie stelsel wordt gesteld: “Tijdige beschikbaarheid van volledige en betrouwbare informatie leidt in het primaire proces tot betere kwaliteit van zorg en verbetert de mogelijkheden tot zeggenschap van burgers in dat proces.” Dit maakt de noodzaak van goede data alleen maar sterker. (Link)
7. Er bestaat ook goede bias, denk bijvoorbeeld aan algoritmen die bewust getraind zijn om foute berichtgeving op social media te ontdekken. Ongewilde bias of bias die bedoeld is om anderen te benadelen is hetgeen je wil voorkomen.
8. Zie bijvoorbeeld het uitstekende boek van Bas van Gils, Data management: A gentle introduction, Van Haren Publishing, 2020.
9. Link