Benchmark dataset voor de beoordeling van medische AI-tools

di 20 mei 2025 - 12:15
AI
Nieuws

OpenAI heeft HealthBase gelanceerd, een benchmark dataset die bedoeld is om AI-tools te testen die ontwikkeld zijn om medische vragen te beantwoorden. Volgens experts is de komst van de benchmark dataset een grote stap vooruit om het kaf van het koren te scheiden als het gaat om generatieve AI-tools voor de gezondheidszorg.

HealthBench is het eerste grote onafhankelijke gezondheidszorgproject van OpenAI. Het omvat 5.000 ‘realistische gezondheidsgesprekken’, elk met gedetailleerde beoordelingsinstrumenten om door AI-tools gegenereerde antwoorden te kunnen evalueren. “Onze missie als OpenAI is om ervoor te zorgen dat algemene generatieve AI (AGI) goed is voor de mensheid. Deels het bouwen en inzetten van technologie en deels om ervoor te zorgen dat AI-tools een LLM’s die voor de gezondheidszorg ontwikkeld zijn, veilig en betrouwbaar zijn”, aldus Karan Singhal, hoofd van het AI-team voor de gezondheidszorg van het bedrijf.

Generatieve AI en LLM's in de zorg

Binnen de zorg worden al diverse generatieve AI-tools en op large language models (LLM's) gebaseerde oplossingen ingezet. Hoewel de meerwaarde van dergelijke oplossingen al meerdere keren beschreven en aangetoond is, blijft de  kwaliteit van een aantal tools nog wel achter bij de hoge eisen die in de zorg gesteld worden. Dat bleek onlangs ook uit een Israëlisch onderzoek. Daarin werd geconcludeerd dat de meeste large language models (LLM's), zoals ChatGPT, nog altijd onvoldoende presteren voor medische besluitvorming.

Ondanks de groeiende populariteit van AI in de gezondheidszorg, toont het onderzoek aan dat deze modellen vaak onnauwkeurige of inconsistente informatie leveren, wat risico's met zich meebrengt bij het nemen van medische beslissingen. De onderzoekers benadrukken dat, hoewel AI potentie heeft, menselijke expertise essentieel blijft in het diagnostische proces. Ze adviseren dan ook om AI-tools voorlopig alleen als ondersteunend hulpmiddel te gebruiken en niet als vervanging voor medisch professionals.

HealthBase benchmark

De dataset kwam tot stand met de hulp van 262 artsen uit 60 landen. Zij leverden meer dan 57.000 unieke criteria om te beoordelen hoe goed AI-tools gezondheidsvragen beantwoorden. De 5.000 voorbeelden in HealthBench zijn gemaakt met behulp van gesynthetiseerde gesprekken die zijn ontworpen door artsen. “We wilden een balans vinden tussen de voordelen van het vrijgeven van de gegevens en natuurlijk de privacybeperkingen van het gebruik van realistische gegevens,” zegt Singhal

De dataset bevat ook 1000 moeilijke voorbeelden waar AI-modellen moeite mee hadden. OpenAI hoopt dat deze voorbeelden ertoe kunnen bijdragen dat bestaande (en nieuwe AI-tools in de (nabije) toekomst verbeterd kunnen worden. OpenAI wil dat AI-modellen met behulp van de HealthBench dataset beter vergeleken, beoordeeld en geëvalueerd kunnen worden. Daarbij heeft het bedrijf drie factoren in acht genomen:

  • Zinvol: Scores weerspiegelen de werkelijke impact. Dit gaat verder dan examenvragen en omvat complexe, levensechte scenario's en workflows die de interactie tussen individuen en artsen met modellen weerspiegelen.
  • Betrouwbaar: Scores zijn betrouwbare indicatoren van het oordeel van artsen. Evaluaties moeten de normen en prioriteiten van professionals in de gezondheidszorg weerspiegelen, wat een rigoureuze basis vormt voor het verbeteren van AI-systemen.
  • Onverzadigd: Benchmarks ondersteunen vooruitgang. Huidige modellen moeten aanzienlijke ruimte voor verbetering laten zien, zodat modelontwikkelaars gestimuleerd worden om hun prestaties voortdurend te verbeteren.

Rubric-evaluatie 

HealthBench is een rubric-evaluatie, waarbij elk modelantwoord wordt beoordeeld aan de hand van een reeks door artsen geschreven rubriccriteria die specifiek zijn voor die conversatie. Elk criterium geeft aan wat een ideaal antwoord moet bevatten of vermijden, bijvoorbeeld een specifiek feit dat moet worden vermeld of onnodig technisch jargon dat moet worden vermeden. Elk criterium heeft een bijbehorende puntenwaarde, gewogen om overeen te komen met het oordeel van de arts over het belang van dat criterium.

HealthBench bevat 48.562 unieke rubriccriteria, die specifieke facetten van de modelprestaties uitgebreid behandelen. De antwoorden van het model worden geëvalueerd door een modelgebaseerde beoordelaar (GPT-4.1) om te beoordelen of aan elk rubriccriterium is voldaan en de antwoorden krijgen een totaalscore gebaseerd op de totaalscore van de vervulde criteria vergeleken met de maximaal mogelijke score.