Onderzoekers hebben onderzocht welke kunstmatige-intelligentie-modellen betrouwbaar zijn voor gesprekken over gezondheid. Zelfs de beste LLM’s brengen in tot wel 22,2 procent van de gevallen nog steeds ernstige schade met zich mee, waarbij rum drie kwart (76,6%) van de fouten voortkomt uit ‘nalatigheid’: het nalaten om noodzakelijke onderzoeken aan te vragen of naar symptomen te informeren.
Patiënten en artsen maken gebruik van AI, maar niet altijd van de beste
Elke dag stellen ongeveer 40 miljoen mensen vragen over gezondheid aan ChatGPT. Op Google lopen dergelijke zoekopdrachten op tot een miljard, waarbij een steeds groter deel van de antwoorden door kunstmatige intelligentie wordt gegenereerd. Ook artsen maken gebruik van deze tools, meestal op informele basis. Het fenomeen heeft een naam: shadow AI, het gebruik van generatieve systemen buiten formele goedkeuring om, soms op persoonlijke smartphones. Studies suggereren dat 1 op de 5 artsen in de Verenigde Staten dit doet. Meer informatie over de methodologie en de evaluaties is te vinden via de NOHARM-benchmark.
Wanneer mensen op zoek zijn naar gezondheidsinformatie, bepaalt gemak vaak welke tool ze kiezen. Sommigen vertrouwen op Google, terwijl anderen overschakelen naar ChatGPT of Gemini. De kwaliteit en nauwkeurigheid van medische antwoorden variëren echter aanzienlijk tussen de verschillende modellen.
Een team van onderzoekers van Stanford University, Harvard en verschillende andere academische instellingen heeft deze kwestie onderzocht via het NOHARM-project, een afkorting van Numerous Options Harm Assessment for Risk in Medicine, dat de kwaliteit van door AI gegenereerd medisch advies evalueert.
Tot nu toe waren de meeste beoordelingen van medische AI erop gericht of systemen licentie-examens kunnen halen. Veel nieuwere modellen doen dat met gemak en scoren boven de 90 procent. Maar, zoals de onderzoekers opmerken, het halen van een examen is niet hetzelfde als het stellen van een diagnose bij een patiënt of het bepalen van een behandeling.
Om de praktijk beter weer te geven, stelde het team een dataset samen van 100 klinische consulten, gebaseerd op vragen die huisartsen via het elektronische consultatiesysteem van Stanford Health Care aan specialisten hadden gesteld. De scenario's omvatten beslissingen zoals het aanvragen van onderzoeken, het doorverwijzen van patiënten naar specialisten of het doorverwijzen naar spoedeisende hulp. Negenentwintig gecertificeerde artsen beoordeelden de casussen en produceerden meer dan 12.000 evaluaties van klinische beslissingen.
Een verrassende koploper
De onderzoekers testten 31 AI-tools, waaronder algemene systemen zoals ChatGPT, Gemini en Copilot, evenals gespecialiseerde medische platforms.
De beste presteerder was AMBOSS LiSA 1.0, een systeem dat is gebaseerd op een medische kennisbank. Het behaalde een nauwkeurigheidsscore van 62,3 procent, wat betekent dat de aanbevelingen in meer dan zes op de tien gevallen overeenkwamen met het oordeel van experts. De tool is een betaald platform voor clinici, dat wordt gebruikt door meer dan 1 miljoen zorgprofessionals in meer dan 180 landen, waaronder meer dan 50 medische faculteiten. In Europa is het in gebruik genomen door grote ziekenhuisnetwerken zoals HELIOS.
Vlak daarachter volgden modellen voor algemeen gebruik: Gemini 2.5 Pro met 59,9 procent, GPT 5 met 58,3 procent en Claude Sonnet 4.5 met 58,2 procent. Het medische model Glass Health 4.0 presteerde ook sterk met 59 procent. Kleinere taalmodellen bleven achter met scores tussen 42 en 49 procent.
Toch waren de verschillen aan de top vaak marginaal, soms slechts fracties van een procentpunt. Veelzeggender was hoe de systemen een evenwicht vonden tussen voorzichtigheid en patiëntveiligheid. In theorie zouden conservatievere modellen het risico op schadelijke aanbevelingen moeten verminderen. In de praktijk kan overmatige voorzichtigheid echter ook risico's met zich meebrengen. In 22 procent van de gevallen hadden patiënten ernstige schade kunnen oplopen, en in 77 procent van die gevallen was het probleem niet onjuist advies, maar het nalaten een maatregel aan te bevelen die wel had moeten worden genomen.
Beter presteren dan artsen, binnen bepaalde grenzen
De onderzoekers vergeleken de prestaties van AI ook met die van internisten. Het best presterende model scoorde in totaal meer dan 15 procentpunten beter dan artsen en meer dan 10 punten beter op het gebied van patiëntveiligheid. Dit is niet de eerste studie die dergelijke resultaten laat zien.
Dat betekent niet dat AI artsen kan vervangen. Klinische zorg omvat veel meer dan alleen het verwerken van informatie. Het vereist lichamelijk onderzoek, contextbepalend oordeel en menselijke empathie.
De studie onderzocht ook multi-agent-systemen, waarbij één AI-model een aanbeveling doet en andere modellen deze beoordelen als second opinion. Deze samenwerkingsverbanden behaalden veiligheidsscores die tot zes keer hoger lagen dan die van systemen met één model. De sterkste resultaten kwamen uit combinaties van verschillende modeltypen, zoals open-source-systemen gekoppeld aan commerciële taalmodellen en medische kennisbanken.
De bevindingen suggereren een duidelijke conclusie. Niet alle AI-modellen zijn even geschikt om gezondheidsvragen te beantwoorden. Het slagen voor een examen is geen betrouwbare maatstaf voor klinische prestaties. Om AI veilig te kunnen gebruiken in de geneeskunde, moet het gebruik ervan formeel worden gereguleerd en gebaseerd zijn op systemen die zijn getraind op hoogwaardige medische gegevens. Anders brengt het vertrouwen op algemene tools niet alleen een lagere nauwkeurigheid met zich mee, maar ook mogelijke inbreuken op de gegevensbeveiliging en de privacy van patiënten.
Top 12 LLM's voor de zorg volgens het NOHARM-onderzoek (nauwkeurigheid):
- AMBOSS LiSA 1.0 62,3%
- Gemini 2.5 Pro 59,9%
- Glass Health 4.0 59,0%
- GPT 5 58,3%
- Gemini 2.5 Flash 58,2%
- Claude Sonnet 4.5 58,2%
- DeepSeek R1 58,1%
- Grok 4 58,0%
- DeepSeek V3.1 57,7%
- Claude 3.7 Sonnet 57,6%
- Grok 4 Fast 57,2%
- GPT-5 mini - 57.0%