De inzet van AI in de zorg biedt kansen voor snellere en nauwkeurigere besluitvorming, maar brengt ook serieuze risico’s met zich mee. Dat geldt zeker in veiligheidskritische domeinen zoals de acute zorg, waar technologische precisie alleen niet voldoende is. Dat blijkt uit nieuw onderzoek van Ohio State University naar de interactie tussen zorgverleners en AI-systemen. De studie benadrukt dat alleen het trainen van zorgprofessionals in het gebruik van AI én het testen van algoritmes op prestaties niet volstaat. Wat cruciaal is, is het gezamenlijk evalueren van hoe mensen en technologie in de praktijk samenwerken, vooral wanneer systemen niet optimaal functioneren.
Het onderzoek werd uitgevoerd onder 462 deelnemers, waaronder 450 verpleegkundestudenten en 12 gediplomeerde verpleegkundigen. Zij kregen via een simulatie een reeks patiëntencasussen voorgelegd, waarbij zij moesten inschatten of acute zorg noodzakelijk was. Deelnemers kregen hierbij ondersteuning van een AI-systeem dat voorspellingen deed op basis van vitale functies, demografische gegevens en labwaarden. In sommige gevallen werd de AI-voorspelling vergezeld van een toelichting via datavisualisaties en annotaties.
Wat als AI niet de juiste beslissing voorsteld?
De resultaten laten zien dat correcte AI-voorspellingen de prestaties van zorgverleners aanzienlijk verbeteren: tussen de 50 en 60 procent in termen van juiste inschattingen. Maar wanneer het AI-systeem niet de juiste beslissing nam of voorstelde, dan daalde de kwaliteit van menselijke besluitvorming drastisch. Dat gold met name wanneer de foutieve aanbeveling gepresenteerd werd als een duidelijke, visuele indicator (bijvoorbeeld een rode balk). De verklarende informatie die bedoeld was om nuance te bieden, bleek in die gevallen nauwelijks invloed te hebben.
“Een AI-systeem zal nooit perfect zijn. Wat telt, is of mens en technologie samen kunnen omgaan met onvolkomenheden. In veiligheidskritische omgevingen moet je kunnen vertrouwen op de veerkracht van het hele systeem en niet alleen op de nauwkeurigheid van de machine”, stelt hoofdauteur Dane Morey, onderzoeker aan de afdeling Integrated Systems Engineering.
Evaluatieprotocollen
De onderzoekers, wiens resultaten gepubliceerd zijn in Digital Medicine, pleiten daarom voor evaluatieprotocollen waarbij zowel de prestaties van AI als die van de mens in wisselwerking worden getest. Hun aanpak, genaamd Joint Activity Testing, is specifiek ontwikkeld om AI-toepassingen te toetsen binnen complexe, risicovolle omgevingen zoals de zorg en defensie. De methodologie helpt om niet alleen de output van AI te beoordelen, maar ook de impact ervan op menselijk gedrag en besluitvorming.
Belangrijk is ook dat de evaluaties zich niet beperken tot optimale scenario’s. Juist situaties waarin AI fouten maakt, of waarin de uitkomsten niet eenduidig zijn, bieden waardevolle inzichten in de mate van overafhankelijkheid of blind vertrouwen bij gebruikers. Een van de opvallende uitkomsten van de studie is dat zelfs gediplomeerde verpleegkundigen sterk beïnvloed werden door incorrecte AI-adviezen, zeker als die visueel overtuigend gepresenteerd werden. “Goede prestaties van AI zijn geen garantie voor veilige zorg. Het draait om hoe mensen met die technologie werken, vooral als die technologie het niet bij het juiste eind heeft,” zegt medeonderzoeker Mike Rayo.
Richtlijnen
De onderzoekers ontwikkelen op basis van hun bevindingen een set richtlijnen voor mensgerichte AI-systemen in de zorg. Hierin staat onder andere dat AI-systemen actief moeten communiceren wanneer ze mogelijk onbetrouwbare of afwijkende informatie geven, en dat zorgverleners getraind moeten worden in het herkennen van deze signalen. Doel is om gezamenlijk te komen tot betere teamprestaties, waarin technologie de mens ondersteunt zonder hem te vervangen.
Dat de implementatie van AI-tools in de zorg met grote zorgvuldigheid overwogen moet worden, is een onderwerp dat al vaker onderzocht is. Zo bleek uit onderzoek van UVA Health dat ChatGPT Plus zelfstandig een indrukwekkende diagnostische nauwkeurigheid van 90 procent behaalt in complexe klinische casussen, vergeleken met ongeveer 74 procent voor artsen zonder AI-ondersteuning en 76 procent voor artsen mét ChatGPT‑ondersteuning. Echter, zo concludeerde dat onderzoek, artsen zijn meer dan alleen diagnoses. Zij balanceren empathie, sociale context, patiëntenrelatie en complexe besluitvorming in veranderlijke situaties. Allemaal aspecten waar AI nog ver buiten blijft. De conclusie over de meerwaarde van AI is vaak hetzelfde: Het moet als hulpmiddel werken ter versterking van artsen, niet ter vervanging.