Hoe goed beantwoordt OpenAI’s GPT-5 gezondheidsvragen?

De onlangs geïntroduceerde GPT-5 van OpenAI wordt aangeprezen als een belangrijke stap voorwaarts in de ontwikkeling van genAI. De nieuwe versie introduceert inderdaad verschillende belangrijke verbeteringen: het is niet langer overdreven optimistisch bij het geven van advies over geestelijke gezondheid, de frequentie van hallucinaties is tot wel tien keer afgenomen en de nauwkeurigheid van diagnoses is verdubbeld.

Sinds de lancering van ChatGPT stellen patiënten vragen aan de AI-toepassing over diagnoses, behandelingen en hoe ze hun gezondheid kunnen beheren. Sommigen uploaden zelfs laboratoriumtestresultaten en volledige medische dossiers voor een second opinion. Soms kregen ze misleidende antwoorden, soms ook een aanwijzing waarmee ze na jarenlang dokter na dokter te hebben bezocht eindelijk de oorzaak van de ziekte konden achterhalen.

Deze onzekerheid over het resultaat was het grootste probleem met ChatGPT (en andere op LLM’s gebaseerde toepassingen): hoewel eerdere modellen verrassend nauwkeurige antwoorden gaven, gaven ze af en toe ook onjuiste informatie met onterechte zelfverzekerdheid, en soms bleven ze in deze onnauwkeurigheden steken. GPT-5 moet deze tekortkomingen aanpakken met diepgaandere, genuanceerdere antwoorden en een verbeterd contextueel begrip. Dit maakt het - in potentie - een waardevolle assistent voor zowel patiënten als zorgprofessionals.

Bijzondere uitdaging

Gezondheidsgerelateerde vragen vormen een bijzondere uitdaging voor AI, omdat zelfs kleine nuances in symptomen of medische voorgeschiedenis de uitkomsten aanzienlijk kunnen beïnvloeden. Volgens OpenAI verminderen de verbeterde redeneringen en besluitvorming van GPT-5 de kans op hallucinaties aanzienlijk, waardoor het een veiliger en betrouwbaarder hulpmiddel is. Dit is wat we weten over de nieuwe mogelijkheden van GPT-5.

GPT-5 werd geëvalueerd met behulp van HealthBench, een diagnostisch platform met 5.000 real-life gezondheidsscenario's die gevalideerd zijn door zorgprofessionals. De resultaten toonden een aanzienlijke verbetering ten opzichte van eerdere modellen.

Verbeterde nauwkeurigheid

Wanneer de optie ‘denk langer’ werd ingeschakeld, verdubbelde de nauwkeurigheid van GPT-5 ten opzichte van GPT-4o. De hallucinatiepercentages voor medische vragen daalden van 15,8 procent in GPT-4o naar slechts 1,6 procent in GPT-5. Zelfs zonder deze optie, die slechts één keer per dag gratis beschikbaar is, blijft de daling enorm.

GPT-5 gaat verder dan tekstuele analyse met ingebouwde multimodale medische redenering. Het kan patiëntgegevens interpreteren in verschillende formaten, waaronder testresultaten en medische afbeeldingen. GPT-4 had op dit gebied slechts matig succes.

Bij medische onderzoeken zoals de USMLE presteerde GPT-5 beter dan menselijke experts. De multimodale mogelijkheden maken het mogelijk om tekstuele beschrijvingen te combineren met afbeeldingen, vervolgvragen te stellen en voorlopige beoordelingen te geven.

GPT-5 heeft ook een voordeel ten opzichte van algemene zoekmachines. In tegenstelling tot de klassieke Google-zoekmachine, die mogelijk prioriteit geeft aan de populariteit van de inhoud en soms de risico's overdrijft door lichte symptomen te classificeren als ernstige aandoeningen, biedt GPT-5 voorzichtigere richtlijnen, vaak gebaseerd op het meest recente bewijs. Het nieuwe model heeft ook een kleine verbetering: het zou zich nu moeten richten op praktische vervolgstappen en indien nodig professioneel advies moeten voorstellen, in plaats van de rol van een arts op zich te nemen.

Desinformatie voorkomen

OpenAI heeft waarborgen ingebouwd om te voorkomen dat GPT-5 desinformatie verspreidt. Gezondheidsadvies is nu afgestemd op het kennisniveau, de culturele context en de geografische regio van de gebruiker. Ingebouwde beperkingen zorgen ervoor dat het model geen vragen beantwoordt die buiten zijn expertise vallen of ethisch gevoelige onderwerpen behandelt, waardoor verantwoorde begeleiding prioriteit krijgt.

Uit een recent onderzoek van Harvard Business Review bleek dat gebruikers vaak ChatGPT gebruiken voor therapie of gezelschap. GPT-5 bouwt voort op deze trend met meer empathische en wetenschappelijk onderbouwde antwoorden.

In tegenstelling tot GPT-4, dat soms te optimistisch of onrealistisch advies gaf, legt GPT-5 de nadruk op professioneel advies. Het begeleidt gebruikers bij het zoeken van gekwalificeerde ondersteuning wanneer dat nodig is en biedt praktische strategieën voor het bespreken van gevoelige kwesties. Dit maakt het een veiligere en meer ondersteunende tool voor gebruikers die last hebben van angst, depressie of trauma. GPT-5 is klaar voor AI-agenten die de patiëntenzorg orkestreren.

Natuurlijke antwoorden

GPT-5 wekt de indruk dat het vanaf het eerste gesprek goed werkt. De antwoorden klinken natuurlijker. Het goede nieuws is dat het gratis te gebruiken is, hoewel de gespreksduur beperkt is. Functies zoals de optie 'denk langer' of documentanalyse zijn eenmaal per dag beschikbaar voor gratis gebruikers. Betaalde abonnementen, zoals GPT-Plus (€ 23/maand) en de PRO-versie (€ 229/maand), verwijderen deze beperkingen en bieden extra tools voor uitgebreid onderzoek en diepgaande analyses.

GPT-5 lijkt dus een aanzienlijke vooruitgang te vormen ten opzichte van GPT-4 en functioneert als een actieve gesprekspartner die proactief potentiële problemen identificeert en relevante vervolgvragen stelt – een functie die GPT-4 moeilijk kon bieden. Het model is voorzichtiger in zijn medische redenering, moedigt aan tot consultatie van professionals en vermindert hallucinaties aanzienlijk, wat een belangrijke stap is in de richting van veilig gebruik van AI in de gezondheidszorg.

Betere AI-partner

Drie jaar na de introductie van ChatGPT markeren de verhoogde gevoeligheid van GPT-5 voor onderwerpen op het gebied van geestelijke gezondheid, de verbeterde nauwkeurigheid en de multimodale mogelijkheden een opmerkelijke sprong voorwaarts, waardoor het een betrouwbaardere, genuanceerdere en empathischere AI-partner kan zijn voor zowel patiënten als clinici.

Deze vooruitgang wordt weerspiegeld in de wereldwijde acceptatie: ChatGPT bedient nu meer dan 120 miljoen dagelijkse gebruikers en 800 miljoen wekelijkse gebruikers, die dagelijks meer dan een miljard meldingen verwerken. Nu OpenAI van plan is om in de komende maanden een opener model te lanceren en zijn eerste aangepaste AI-chips voorbereidt voor implementatie tegen 2026, lijkt GPT-5 klaar voor de volgende stap in de genAI-evolutie: AI-agents die zijn afgestemd op het orkestreren van patiënttrajecten en zorgcoördinatie.