Grote praktijkstudie test AI in dagelijkse zorg

Een generatieve AI-tool die huisartsen tijdens consulten ondersteunt, verbetert de kwaliteit van klinische besluitvorming zonder de patiëntveiligheid in gevaar te brengen. Dat blijkt uit een grootschalige gerandomiseerde praktijkstudie. Hoewel de technologie leidde tot betere diagnostische afwegingen en behandelplannen, werd op korte termijn geen aantoonbare verbetering gezien in de gezondheidsuitkomsten van patiënten.

Volgens de onderzoekers is het een van de eerste gerandomiseerde klinische onderzoeken waarin niet alleen is gekeken naar de prestaties van AI of zorgverleners in een gesimuleerde omgeving, maar naar de daadwerkelijke impact op patiëntniveau in de dagelijkse praktijk. De studie werd uitgevoerd door onderzoekers van de University of Birmingham en het NIHR Biomedical Research Centre: Birmingham. In totaal namen ruim 9.600 patiënten deel die werden behandeld in zestien eerstelijnsklinieken in Kenia.

AI adviseert, arts beslist

Tijdens het onderzoek werden zorgverleners willekeurig verdeeld over twee groepen. De ene groep werkte met een elektronisch patiëntendossier waarin een AI-ondersteuningssysteem was geïntegreerd, terwijl de andere groep gebruikmaakte van het reguliere systeem zonder AI. De AI-toepassing, AI Consult, is gebaseerd op een groot taalmodel en analyseerde tijdens het consult de informatie die de zorgverlener invoerde in het patiëntendossier. Op basis daarvan genereerde het systeem diagnostische suggesties en behandeladviezen die aansloten bij de nationale klinische richtlijnen van Kenia. Mogelijke aandachtspunten werden weergegeven via een eenvoudig kleurensysteem met groene, gele en rode waarschuwingen.

De AI werkte volledig op de achtergrond. Patiënten zagen de adviezen niet en de zorgverlener behield volledige verantwoordelijkheid voor alle beslissingen over diagnose, behandeling en eventuele verwijzing. Het volgen van de AI-adviezen was niet verplicht. Volgens hoofdonderzoeker Bilal Mateen, honorary professor machine learning for health aan de University of Birmingham en Chief AI Officer bij PATH, stond één vraag centraal: "This is one of the first studies to rigorously ask the hardest question about AI in health care: whether it actually improves outcomes for patients."

Betere besluitvorming

De onderzoekers vonden geen statistisch significant verschil in het aantal behandelingen dat binnen veertien dagen faalde. In de AI-groep bedroeg dit percentage 2,2 procent, tegenover 2,0 procent in de controlegroep. Ook het aantal ziekenhuisopnames en sterfgevallen was vergelijkbaar, waardoor geen aanwijzingen werden gevonden dat het gebruik van AI risico's voor patiënten met zich meebrengt.

Wel beoordeelde een onafhankelijk panel van ervaren artsen de kwaliteit van de klinische documentatie en behandelplannen in de AI-groep als duidelijk beter. Daarnaast bleken de kosten voor antibiotica lager te liggen, ondanks dat het totale aantal antibioticavoorschriften nauwelijks verschilde tussen beide groepen. Volgens de onderzoekers maakten zorgverleners met AI vaker kostenefficiënte keuzes bij het voorschrijven. Ook de ervaringen van patiënten veranderden niet. De tevredenheid over de zorg was in beide groepen vergelijkbaar, wat erop wijst dat de inzet van AI de interactie tussen patiënt en zorgverlener niet negatief beïnvloedde.

Basis voor vervolgonderzoek

Volgens de onderzoekers laten de resultaten zien dat generatieve AI veilig kan worden geïntegreerd in bestaande klinische werkprocessen zonder de autonomie van zorgverleners of het vertrouwen van patiënten aan te tasten. Tegelijkertijd benadrukken zij dat het veel moeilijker is om verbeteringen in klinische besluitvorming direct terug te zien in gezondheidsuitkomsten, zeker binnen de eerstelijnszorg waar ernstige complicaties relatief zeldzaam zijn. Co-auteur Alastair Denniston wijst erop dat veel patiënten in de huisartsenpraktijk aandoeningen hebben die vanzelf herstellen of slechts beperkte medische interventie vereisen. Daardoor zijn zeer grote studies – mogelijk met meer dan 100.000 deelnemers – nodig om kleine verschillen in patiëntuitkomsten betrouwbaar aan te tonen.

De onderzoekers benadrukken dat de studie weliswaar in Kenia werd uitgevoerd, maar dat de resultaten ook relevant zijn voor andere zorgstelsels. Wel is aanvullend onderzoek nodig om vast te stellen in hoeverre de bevindingen kunnen worden vertaald naar landen waar de kwaliteit van de eerstelijnszorg al op een hoog niveau ligt. Volgens hen bieden de resultaten vooral een realistisch beeld van wat generatieve AI op dit moment kan bijdragen aan de dagelijkse klinische praktijk en waar toekomstige investeringen en vervolgonderzoek zich op zouden moeten richten.