Populaire generatieve AI-chatbots geven in veel gevallen onjuiste of onvolledige medische informatie. Dit is een onderwerp dat met de opkomst van ChatGPT, Gemini en andere populaire chatbots al vaker onderwerp van discussie geweest is. Uit een nieuwe studie komt naar voren dat van de onderzochte antwoorden maar liefst 50 procent als problematisch beoordeeld werd: 30 procent enigszins en 20 procent ernstig problematisch.
Volgens de onderzoekers brengt het brede gebruik van deze technologie, zonder voldoende toezicht en voorlichting, risico’s met zich mee voor de volksgezondheid. Steeds meer mensen gebruiken AI-chatbots als vervanging van zoekmachines, ook voor medische vragen en advies.
Vijf chatbots onder de loep
In het onderzoek, gepubliceerd in BMJ Open, werden vijf veelgebruikte systemen getest: Gemini, DeepSeek, Meta AI, ChatGPT en Grok. De chatbots kregen vragen over onderwerpen waar veel misinformatie over bestaat, zoals kanker, vaccins, stamceltherapie, voeding en sportprestaties. Zowel open als gesloten vragen werden gebruikt om de systemen te testen.
Opvallend was dat open vragen vaker leidden tot problematische antwoorden, terwijl gesloten vragen, met een duidelijk correct antwoord, beter werden beantwoord. Een conclusie die bijna een jaar geleden ook al werd getrokken uit een simulatiestudie. Hoewel de verschillen tussen de systemen beperkt waren, viel op dat Grok relatief vaak risicovolle antwoorden gaf. Gemini scoorde juist het beste met de meeste correcte en minst problematische reacties.
Zekerheid zonder onderbouwing
Een belangrijk aandachtspunt is de manier waarop AI-chatbots hun antwoorden formuleren. De reacties worden doorgaans met grote zekerheid gepresenteerd, maar bevatten zelden nuance, waarschuwingen of verwijzingen naar professionele zorg. Slechts in twee gevallen weigerde een chatbot om een vraag te beantwoorden, ondanks potentieel risicovolle inhoud.
Ook de kwaliteit van bronvermelding laat te wensen over. Gemiddeld scoorden referenties slechts 40 procent op volledigheid, en in veel gevallen bleken bronnen onjuist of zelfs verzonnen. Daarnaast waren de antwoorden vaak moeilijk leesbaar, vergelijkbaar met academisch taalniveau, wat de begrijpelijkheid voor het grote publiek beperkt.
Volgens de onderzoekers komt dit doordat AI-systemen geen echte kennis of begrip hebben. Ze genereren antwoorden op basis van statistische patronen in trainingsdata en zijn niet in staat om bewijs te wegen of ethische afwegingen te maken. Dit kan leiden tot overtuigend klinkende, maar inhoudelijk gebrekkige informatie.
Toezicht en educatie essentieel
De combinatie van overtuigende taal en beperkte betrouwbaarheid maakt AI-chatbots potentieel risicovol, vooral voor gebruikers zonder medische achtergrond. In het ergste geval kunnen zij worden misleid en keuzes maken die schadelijk zijn voor hun gezondheid.
Hoewel de onderzoekers erkennen dat AI-technologie zich snel ontwikkelt en de resultaten een momentopname vormen, benadrukken zij de noodzaak van actie. Zij pleiten voor betere regulering, transparantie en publieke educatie over de beperkingen van AI in de gezondheidszorg.
Daarnaast is training van zorgprofessionals essentieel, zodat zij patiënten beter kunnen begeleiden in het gebruik van deze technologie. Alleen met duidelijke kaders en verantwoord gebruik kan AI bijdragen aan betere zorg, in plaats van het versterken van bestaande problemen rond medische misinformatie.