Onafhankelijke studie stelt veiligheid ChatGPT Health ter discussie

Een eerste onafhankelijke veiligheidsanalyse van ChatGPT Health wijst op mogelijke risico’s bij het inschatten van spoedeisende zorg en bij suïcidepreventie. Onderzoekers van de Icahn School of Medicine at Mount Sinai publiceren hun bevindingen in Nature Medicine en pleiten voor structurele, externe evaluatie van AI-gezondheidstools.

ChatGPT Health, gelanceerd in januari 2026 door OpenAI, wordt volgens de ontwikkelaar dagelijks door ongeveer 40 miljoen mensen gebruikt voor gezondheidsinformatie en advies. De tool geeft onder meer aanbevelingen over de urgentie van medische zorg. Juist die functie stond centraal in het onderzoek, dat wordt omschreven als de eerste onafhankelijke veiligheidsbeoordeling van het large language model (LLM)-gebaseerde systeem.

Eerste onafhankelijke toets

Binnen enkele weken na de introductie groeide het gebruik van ChatGPT Health explosief, terwijl onafhankelijke gegevens over de betrouwbaarheid ontbraken. Dat was voor de onderzoekers aanleiding om een gestructureerde veiligheidstoets uit te voeren.

Voor de studie werden 60 klinische scenario’s ontwikkeld, verspreid over 21 medische specialismen. De casussen varieerden van relatief onschuldige klachten die thuis behandeld kunnen worden tot acute medische noodsituaties. Drie onafhankelijke artsen bepaalden per scenario het juiste urgentieniveau op basis van richtlijnen van 56 medische beroepsverenigingen.

Om realistische variatie te simuleren, werd elk scenario onder 16 verschillende contextuele omstandigheden getest, waaronder verschillen in geslacht, etniciteit, sociale factoren (zoals het bagatelliseren van klachten) en belemmeringen tot zorg, zoals gebrek aan verzekering of vervoer. In totaal werden 960 interacties met ChatGPT Health geanalyseerd en vergeleken met de medische consensus.

Ondertriage bij complexe spoedgevallen

Uit de analyse blijkt dat de AI-tool duidelijke, ‘leerboekachtige’ noodgevallen, zoals een beroerte of een ernstige allergische reactie, doorgaans correct herkent. In meer genuanceerde situaties, waar klinisch oordeel essentieel is, bleek de prestatie echter minder betrouwbaar.

In meer dan de helft van de casussen die volgens artsen directe spoedzorg vereisten, adviseerde ChatGPT Health geen onmiddellijke gang naar de spoedeisende hulp. Opvallend daarbij was dat het systeem in sommige gevallen in de uitleg wel risicofactoren benoemde, maar toch een geruststellend advies gaf. Volgens de onderzoekers is dat juist zorgwekkend in situaties waarin subtiele signalen op een potentieel ernstige verslechtering wijzen.

Inconsistente suïcidewaarschuwingen

Een tweede aandachtspunt betreft de ingebouwde suïcidepreventiefunctionaliteit. ChatGPT Health is ontworpen om in hoogrisicosituaties gebruikers door te verwijzen naar diensten zoals 113 Zelfmoordpreventie. In de praktijk bleek deze waarschuwing echter inconsistent te worden geactiveerd.

De onderzoekers constateerden dat de meldingen soms verschenen bij relatief lage risico-inschattingen, terwijl ze juist ontbraken wanneer gebruikers concrete plannen voor zelfbeschadiging beschreven. In het artikel wordt dit omschreven als waarschuwingen die “inverted relative to clinical risk” waren. Ofwel, omgekeerd evenredig aan het werkelijke risico.

Hoge inzet, hoge verantwoordelijkheid

De maatschappelijke impact van dergelijke systemen is aanzienlijk. Wanneer miljoenen mensen AI raadplegen om te bepalen of zij spoedzorg nodig hebben, kan een foutieve inschatting directe gevolgen hebben voor patiëntveiligheid.

Tegelijkertijd benadrukken de onderzoekers dat hun bevindingen niet betekenen dat consumenten AI-gezondheidstools volledig moeten vermijden. Wel adviseren zij om bij verergerende of zorgwekkende symptomen, zoals pijn op de borst, kortademigheid, ernstige allergische reacties of veranderingen in het bewustzijn, altijd direct medische hulp te zoeken. Bij gedachten aan zelfbeschadiging wordt geadviseerd contact op te nemen met de 113 Zelfmoordpreventie of een spoedeisende hulpafdeling.

AI als aanvulling, niet als vervanging

De auteurs stellen met klem dat AI-systemen bedoeld zijn als ondersteuning en niet als vervanging van klinisch oordeel. Omdat LLM-gebaseerde systemen frequent worden geüpdatet, kan de prestatie in de tijd veranderen. Dat benadrukt volgens hen de noodzaak van doorlopende, onafhankelijke evaluatie.

De onderzoeksgroep kondigt aan ook toekomstige versies van ChatGPT Health en andere consumentgerichte AI-tools te blijven beoordelen. Daarbij zal de focus worden uitgebreid naar onder meer kindergeneeskunde, medicatieveiligheid en gebruik in niet-Engelstalige contexten.

De studie maakt duidelijk dat AI in de gezondheidszorg snel terrein wint, maar dat grootschalige inzet gepaard moet gaan met transparantie, toetsing en continue kwaliteitsbewaking. In een tijd waarin digitale gezondheidsadviezen voor miljoenen mensen het eerste aanspreekpunt vormen, is onafhankelijke evaluatie volgens de onderzoekers geen luxe, maar een noodzakelijke voorwaarde voor veilige implementatie.

Het is zeker niet de eerste keer dat het gebruik van LLM’s en generatieve AI in de zorg tot discussies leidt. De afgelopen maanden was al veel te doen over de voordelen én risico’s van het gebruik van generatieve AI in de zorg, en dan met name in de ggz. Zorgen over de ‘handelswijze’ (antwoorden) op vragen van mensen die kampen met psychische klachten bijvoorbeeld. Het moge duidelijk zijn dat deze berichten, naast al het goede nieuws over de voordelen van AI-tools in de zorg, nogmaals benadrukken dat er nog heel wat drempels te nemen zijn.