AI-chatbots schieten nog tekort als digitale dokters

AI-chatbots worden steeds vaker door patiënten gebruikt om symptomen te beoordelen, medisch advies in te winnen en meer inzicht te krijgen in gezondheidsproblemen. Uit een nieuw onderzoek van wetenschappers van de Pennsylvania State University blijkt echter dat de huidige AI-systemen nog niet betrouwbaar genoeg zijn om als zelfstandige medische adviseurs te fungeren.

De onderzoekers stelden vast dat door AI gegenereerde antwoorden op gezondheidsgerelateerde vragen in ongeveer 76 procent van de gevallen correct waren, wat een aanzienlijke marge laat voor mogelijk schadelijke fouten. De bevindingen zullen worden gepresenteerd op de FAccT 2026-conferentie en zijn momenteel beschikbaar als preprint op arXiv.

Gezondheidsvragen uit de praktijk

Terwijl eerdere studies de prestaties van grote taalmodellen (LLM's) in klinische omgevingen hebben onderzocht, richtten de onderzoekers van Penn State zich op een andere vraag: hoe gebruiken gewone mensen AI bij het zoeken naar gezondheidsinformatie, en hoe nauwkeurig zijn de antwoorden die ze krijgen?

Om dit te onderzoeken, organiseerde het team een “Diagnose-a-thon”, ontworpen om het gebruik van AI in de praktijk na te bootsen. Vierendertig deelnemers, waaronder docenten, medewerkers en studenten, dienden 212 gezondheidsgerelateerde vragen in die zowel echte als hypothetische medische zorgen omvatten. De vragen waren geschreven vanuit zowel het perspectief van de patiënt als dat van de arts.

Deelnemers waren vrij om een van de vier algemeen beschikbare AI-modellen te gebruiken: ChatGPT-4o, ChatGPT-3.5, Gemini 1.5 Pro en Llama 3 8B. De resulterende antwoorden werden vervolgens geëvalueerd door negen gecertificeerde artsen, die zowel de medische nauwkeurigheid als het potentieel voor schade beoordeelden.

Zwakke punten

Over het algemeen bleek uit het onderzoek dat 76,2 procent van de door AI gegenereerde antwoorden medisch accurate informatie bevatte. De prestaties varieerden aanzienlijk tussen de medische specialismen. De hoogste scores werden waargenomen in de verloskunde en gynaecologie, evenals in de otolaryngologie, waar de antwoorden een relatief hoge validiteit en een laag risico op schade vertoonden. Daarentegen hadden AI-systemen meer moeite met interne geneeskunde, neurologie en dermatologie, waarbij ze minder betrouwbare antwoorden genereerden en hogere schadecijfers kregen van de beoordelende artsen.

De onderzoekers ontdekten ook dat de opmaak van de vraag van invloed was op de prestaties. Meer specifieke vragen, met name die tussen de 60 en 250 tekens lang, leverden doorgaans nauwkeurigere antwoorden op dan zeer korte of juist te gedetailleerde vragen. Deze bevindingen suggereren dat zowel het medische onderwerp als de manier waarop gebruikers vragen formuleren een belangrijke rol spelen bij het bepalen van de AI-prestaties.

Kan aanvullende medische training de AI-prestaties verbeteren?

In een tweede fase van het onderzoek keken de onderzoekers of extra medische training de prestaties van de AI kon verbeteren. Ze verbeterden de basismodellen met behulp van medische studieboeken, klinische richtlijnen en peer-reviewed wetenschappelijke literatuur die vaak in medische opleidingen wordt gebruikt. Een panel van artsen, coassistenten en geneeskundestudenten vergeleek de antwoorden van de oorspronkelijke modellen met die van de medisch verbeterde versies.

Verrassend genoeg leidde de extra training niet altijd tot een betere kwaliteit. Voor Gemini en Llama gaven de beoordelaars zelfs de voorkeur aan de antwoorden van de oorspronkelijke modellen. Voor de ChatGPT-modellen werd geen significant verschil waargenomen. Volgens de onderzoekers wijzen de bevindingen erop dat het simpelweg toevoegen van meer medische inhoud niet automatisch leidt tot veiligere of klinisch meer geschikte uitkomsten.

Voor artsen of patiënten?

Ondanks de relatief hoge nauwkeurigheidsscores benadrukken de onderzoekers dat huidige AI-systemen nog steeds fouten produceren met een percentage van meer dan 20 procent. Dat is ongeveer twee keer zo hoog als het geschatte foutenpercentage van menselijke artsen.

Het team is dan ook van mening dat grote taalmodellen momenteel wellicht waardevoller zijn als hulpmiddelen voor besluitvorming voor zorgprofessionals dan als directe medische adviseurs voor patiënten. Volgens coauteur Jennifer Kraschnewski heeft AI aanzienlijk potentieel om de gezondheidszorg te transformeren door clinici te helpen informatie te verwerken en de patiëntenzorg te verbeteren. Menselijke expertise blijft echter essentieel voor het interpreteren van complexe medische situaties en het waarborgen van de patiëntveiligheid.

De onderzoekers concluderen dat AI waarschijnlijk een steeds grotere rol zal blijven spelen in de manier waarop mensen gezondheidsinformatie zoeken. Het is daarom cruciaal om zowel de sterke punten als de beperkingen ervan te begrijpen. Hoewel de huidige chatbots in veel situaties nuttige begeleiding kunnen bieden, benadrukt de studie dat ze nog niet betrouwbaar genoeg zijn om professioneel medisch advies te vervangen en met de nodige voorzichtigheid moeten worden gebruikt.

Eerder onderzoek

De afgelopen maanden zijn meer onderzoeken uitgevoerd naar de betrouwbaarheid van generatieve AI-chatbots als ‘medische raadgevers’. De conclusie lijkt telkens hetzelfde: veelbelovend, met potentie, maar nog te vaak inconsistent en onbetrouwbaar. Zo werd enkele weken geleden nog geconcludeerd dat populaire generatieve AI-chatbots in veel gevallen onjuiste of onvolledige medische informatie geven, wat zelfs kan leiden tot de verspreiding van misinformatie.

Een ander onderzoek, gepubliceerd in mei 2025, concludeerde dat hoewel generatieve AI-chatbots snel terrein winnen in de zorg, ze nog steeds verre van betrouwbaar waren als diagnostisch hulpmiddel. ChatGPT-4, het toenmalige nieuwste grote taalmodel van OpenAI, bleek in slechts iets meer dan een derde (37%) van de gevallen correcte diagnoses te stellen bij open medische vragen. Zeer verontrustend was de constatering dat AI-chatbots tekortschieten bij vragen over suïcide. Om tot die conclusie te komen werden de antwoorden op 30 vragen door drie toonaangevende AI-chatbots (ChatGPT, Claude en Gemini) getoetst.