AI beter in het voorspellen van onderzoeksresultaten dan experts

do 28 november 2024 - 15:50
AI
Nieuws

Experts die de resultaten van neurowetenschappelijke onderzoeken analyseren en voorspellen, worden verslagen door AI. Dat concludeert een internationaal onderzoek, uitgevoerd onder leiding van het University College London (UCL). LLM’s, die specifiek getraind worden op grote datasets met tekst, zijn in staat om onderzoeksresultaten met een grotere nauwkeurigheid te voorspellen, zo blijkt uit deze internationale studie.

De onderzoekers stellen dat hun bevindingen, gepubliceerd in Nature Human Behaviour, een grote potentie hebben om onderzoeken te versnellen en dat dit verder gaat dan alleen het ophalen van kennis. Voor hun studie legden zij de focus van LLM’s en generatieve AI niet op het zoeken en analyseren van informatie uit het verleden, maar juist op de vraag of het mogelijk is aan de hand van onderzoeksgegevens, toekomstige resultaten te kunnen voorspellen.

Evaluatie LLM’s

Het onderzoeksteam ontwikkelden voor hun studie een tool, BrainBench genaamd, om te evalueren hoe goed Large Language Models (LLM's) in staat zijn neurowetenschappelijke resultaten te voorspellen. BrainBench bestaat uit talrijke koppels samenvattingen van neurowetenschappelijke studies. In elk koppel is één versie een echt onderzoeksabstract dat kort de achtergrond van het onderzoek, de gebruikte methoden en de onderzoeksresultaten beschrijft. In de andere versie zijn de achtergrond en methoden hetzelfde, maar zijn de resultaten aangepast door experts in het relevante neurowetenschappelijke domein tot een plausibele maar onjuiste uitkomst.

De onderzoekers testten 15 verschillende algemene LLM's en 171 menselijke neurowetenschappers (die allemaal een screeningtest hadden doorstaan om hun expertise te bevestigen) om te zien of de AI of de expert correct kon bepalen welke van de twee gepaarde samenvattingen de echte was met de werkelijke studieresultaten. Dat is ook wat in 2022 al geconcludeerd werd door Fons van der Sommeren, universitair hoofddocent bij de onderzoeksgroep Video Coding & Architectures van de afdeling Electrical Engineering, concludeerde. “Je moet niet denken in termen van AI versus mens, maar in termen van mens mét AI. Ofwel: het is een heel nuttige tool specialisten goed kan ondersteunen.”

Eerder dit jaar ontdekten onderzoekers van Yale dat de voorspellende algoritmen die worden gebruikt om de werkzaamheid van behandelingen te voorspellen en om de individuele behandelingen aan te passen niet altijd goed bruikbaar zijn. Dat geldt ment name wanneer de datasets die gebruikt zijn voor het trainen van de algortimen niet groot genoeg zijn. Kleinere datasets kunnen leiden tot overfitting, een fenomeen waarbij een model responspatronen heeft geleerd die specifiek zijn voor een bepaalde dataset. Met als gevolg dat het model niet meer (goed) kan presteren wanneer het voor nieuwe data ingezet wordt.

AI presteert beter dan experts

Alle LLM's presteerden beter dan de neurowetenschappers. De LLM’s kwamen tot een gemiddelde nauwkeurigheid van 81 procent. De menselijke experts bleven steken op 63 procent. Zelfs toen het onderzoeksteam de menselijke antwoorden beperkte tot alleen diegenen met de hoogste graad van expertise voor een bepaald domein van de neurowetenschappen (gebaseerd op zelfgerapporteerde expertise), was de nauwkeurigheid van de neurowetenschappers met 66 procent nog steeds lager dan die van de LLM's.

Bovendien ontdekten de onderzoekers dat wanneer LLM's meer vertrouwen hadden in hun beslissingen, de kans groter was dat ze correct waren. Volgens de onderzoekers maakt deze bevinding de weg vrij voor een toekomst waarin menselijke experts zouden kunnen samenwerken met goed gekalibreerde AI-modellen.

Specifiek getrainde LLM presteert nog beter

De onderzoekers pasten vervolgens een bestaande LLM aan (een versie van Mistral, een open-source LLM) door deze specifiek te trainen op neurowetenschappelijke literatuur. De nieuwe LLM gespecialiseerd in neurowetenschappen, die ze BrainGPT noemden, was nog beter in het voorspellen van studieresultaten, met een nauwkeurigheid van 86 procent, daar waar de standaard versie van Mistral 83 procent nauwkeurigheid behaalde.

“In het licht van onze resultaten vermoeden we dat het niet lang meer zal duren voordat wetenschappers AI-tools gebruiken om het meest effectieve experiment voor hun vraag te ontwerpen. Hoewel onze studie zich richtte op neurowetenschappen, was onze aanpak universeel en zou deze succesvol moeten zijn in de hele wetenschap. Opmerkelijk is hoe goed LLM's de neurowetenschappelijke literatuur kunnen voorspellen. Dit succes suggereert dat een groot deel van de wetenschap niet echt nieuw is, maar overeenkomt met bestaande patronen van resultaten in de literatuur. We vragen ons af of wetenschappers wel voldoende innovatief en onderzoekend zijn”, aldus senior auteur professor Bradley Love (UCL Psychology & Language Sciences).

“Voortbouwend op onze resultaten ontwikkelen we AI-tools om onderzoekers te helpen. We zien een toekomst voor ons waarin onderzoekers hun voorgestelde experimentontwerpen en verwachte bevindingen kunnen invoeren, waarbij AI voorspellingen doet over de waarschijnlijkheid van verschillende uitkomsten. Dit zou snellere iteratie en beter geïnformeerde besluitvorming bij het ontwerpen van experimenten mogelijk maken”, voegde Dr. Luo, hoofdauteur (UCL Psychology & Language Sciences), hieraan toe.

Aan het onderzoek werkten onderzoekers mee van UCL, University of Cambridge, University of Oxford, Max Planck Institute for Neurobiology of Behavior (Duitsland), Bilkent University (Turkije) en andere instellingen in het Verenigd Koninkrijk, de VS, Zwitserland, Rusland, Duitsland, België, Denemarken, Canada, Spanje en Australië.