Een recente studie van onderzoekers van Stanford University (VS) stelt dat LLM’s (large language models, de basis voor gen AI-toepassingen) die gevraagd worden om te kiezen tussen informatie gegenereerd door een LLM of door een mens, vaak voor de LLM-optie gaan. Oftewel, er is sprake van AI-AI-bias. Dat kan volgens de onderzoekers gevaarlijk zijn, omdat AI-AI-bias kan leiden tot discriminatie van menselijke content en daarmee mensen zelf. Of en hoe AI-AI-bias invloed heeft op de Nederlandse zorg zal de komende jaren duidelijk moeten worden. Toch ziet Pieter Jeekel, voorzitter van de Nederlandse AI-coalitie, AI-AI-bias niet als een van de grotere uitdagingen in de gezondheidszorg. “Bias in AI is al ons aandachtspunt en ik weet zeker dat LLM-ontwikkelaars AI-AI-bias proberen te bestrijden.”
In het onderzoek van Lauritio et al.1 werden diverse LLM’s – waaronder GPT-3.5, GPT-4, Llama en Mixtral – gevraagd om keuzes te maken tussen content gegenereerd door een LLM en content opgesteld door een mens. Om er zeker van te zijn dat de menselijke content niet ondermaats was - en om die reden werd afgekeurd door een LLM - werden dezelfde keuzes voorgelegd aan mensen. Vervolgens werd bepaald of LLM’s vaker kozen voor LLM-content dan mensen dat zouden doen.
De LLM’s werd gevraagd om keuzes te maken tussen content in drie verschillende categorieën. Namelijk advertenties over producten, samenvattingen van de plots van bestaande films en abstracts van wetenschappelijke publicaties. Voor alle typen content gaf de LLM de voorkeur aan LLM-gegenereerde content boven het menselijke equivalent. Volgens de onderzoekers is deze AI-AI-bias zorgelijk, omdat het in de toekomst kan betekenen dat alleen de content van mensen met (betaalde) toegang tot LLM’s nog ‘waardevol’ is. En als LLM’s ooit als autonome agents gaan opereren, wordt de input van mensen mogelijk volledig genegeerd.
Risico’s zijn klein
Maar hoe bang moet de zorg nou echt zijn voor AI-AI-bias? Pieter Jeekel verwacht dat het allemaal wel meevalt in zorgorganisaties. “Enerzijds geeft AI de voorkeur aan AI-content, en anderzijds wordt er ook steeds meer door AI gegenereerd. Daardoor wordt menselijke content verdrongen.” Volgens Jeekel kan het niet anders dan dat de ontwikkelaars van LLM’s AI-AI-bias nauwlettend in de gaten houden en hiervoor (gaan) corrigeren. “Anders wordt de output van een AI-model op een gegeven moment onbruikbaar en de LLM zelf ook.”
“In theorie kan AI-AI-bias impact gaan hebben op de adviezen die een AI-tool geeft”, legt Jeekel uit. “Maar in Nederland moeten zorgverleners AI-innovaties gebruiken in hun werk die gecontroleerd zijn, ook op bias. Dus in de professionele setting is dit nog geen risico.”
'Ik maak mij meer zorgen over de bestaande bias in onderzoeken'
Bij het stellen van informele zorgvragen, bijvoorbeeld aan ChatGPT, kan AI-AI-bias de betrouwbaarheid van adviezen wel negatief beïnvloeden. “Veel burgers, en soms ook zorgverleners, vinden ChatGPT een makkelijke manier om een ogenschijnlijk goed antwoord te krijgen op een gezondheidsvraag. Dat is natuurlijk geen goed idee, maar het gebeurt in de praktijk wel.”
Betrouwbaarheid voorop
Ontraden van het gebruik van dit soort LLM’s voor gezondheidsvragen is niet voldoende. Een oplossing zou kunnen zijn om een betrouwbare AI-tool te bouwen die wél gezondheidsadvies kan geven aan burgers en zorgverleners. Jeekel: “Een LLM met informatie uit de juiste bronnen, bijvoorbeeld van Thuisarts.nl. LLM-gegenereerde teksten zijn niet altijd slecht of onwenselijk, maar de bronnen moeten wel kloppen. Zeker in de zorg is het gebruik van goede bronnen cruciaal. En de tool mag geen ‘black box’ zijn, maar moet inzichtelijk en transparant zijn. Kortom: het moet voldoen aan onze bestaande normen en richtlijnen.”
De huidige wet- en regelgeving voorkomt volgens Jeekel dat AI-AI-bias impact heeft op de kwaliteit van de gezondheidszorg. “Maar stel dat elektronische patiëntendossiers (EPD’s) in de toekomst gevuld worden door een AI, dan vormt AI-AI-bias echt een groot probleem. Want dan gaan we fouten insluiten in belangrijke dossiers. Dit soort cruciale systemen moeten echt gesloten zijn.”
Transparantie en uitlegbaarheid
“We gaan in Nederland voor mensgerichte AI”, zegt Jeekel. “Maar dat moet transparant en uitlegbaar zijn. We willen altijd dat er een mens in de keten zit. Die moeten kunnen verifiëren welke data gebruikt worden door een model. Gelukkig is er al een aantal voorbeelden van AI-innovaties voor de zorg die hun output baseren op relevante en betrouwbare bronnen, zoals Delphyr en Evidence Hunt.”
Om de verantwoorde ontwikkeling en toepassing van AI te ondersteunen, heeft de AI-coalitie voor Nederland ELSA Labs opgericht. “ELSA staat voor Ethical, Legal and Societal Aspects”, vertelt Jeekel. “In de labs ontwikkelen en toetsen we de juridische kaders en ethische richtlijnen voor AI-tools. Mensen maken fouten en AI ook. Maar AI mag minder fouten maken dan de mens, en de combinatie van mens en AI mag eigenlijk nog minder fouten maken. Om dat voor elkaar te krijgen, is het essentieel om in het begin, midden en eind van het designproces patiënten en zorgverleners te betrekken. Dat kan wat vertragend werken, maar is toch heel belangrijk.”
Samenwerking met bedrijfsleven
Zorgorganisaties en -verleners hebben het druk en moeten hun tijd niet verspillen aan het opnieuw uitvinden van het wiel, vindt Jeekel. “Ik denk dat zorgorganisaties en andere betrokken partijen, zoals gemeentes, bij dit soort uitdagingen veel te winnen hebben bij samenwerkingen met het bedrijfsleven. De zorgorganisatie moet aangeven wat zij nodig heeft, wat ze wil dat een AI-tool haar gaat opleveren en kan daar misschien ook een casus bij opstellen. Vervolgens is het verstandig om een bedrijf te zoeken dat kan daarbij helpen. Zo’n bedrijf moet natuurlijk wel van wanten weten en bekend zijn met de eisen waaraan een AI-toepassing voor de zorg moet voldoen. Zo voorkom je onder andere AI-AI-bias. We willen geen push, maar een pull vanuit zorg en welzijn.”
Ook de overheid kan deze manier van AI-innovatie in de zorg stimuleren - en doet dat bijvoorbeeld al via ZonMw. ZonMw heeft volgens Jeekel recent een prachtig AI-signalement gemaakt, waarin aangeven wordt wat voor hen van belang is en wat voor projecten ze willen stimuleren en subsidiëren. Daarnaast kunnen zorgverzekeraars een rol spelen bij AI-innovaties.
Al met al is het in Nederland best goed geregeld, waardoor we ons vooralsnog minder zorgen hoeven te maken over AI-AI-bias, meent Jeekel. “Als het voldoet aan de geldende regels en richtlijnen, is een AI-toepassing geschikt voor de zorg. Dat betekent ook dat wij er gewoon voor moeten zorgen dat alle innovaties voldoen aan die regels. Zo simpel is het eigenlijk. Dus: gebruik de juiste richtlijnen en betrouwbare bronnen, en citeer deze ook. Want die bronnen moeten wel terug te vinden zijn.”
Bestaande bias
Tot slot geeft Jeekel aan zich eigenlijk meer druk te maken om een andere vorm van bias. “Ik maak mij meer zorgen over de bestaande bias in onderzoeken, waarop AI-adviezen vervolgens gebaseerd worden. Bijvoorbeeld een studie naar een hartaandoening, waar veel meer mannen dan vrouwen aan meededen. AI kan dan adviezen gaan geven die niet goed genoeg gericht zijn op vrouwen. Hetzelfde probleem kan optreden met betrekking tot leeftijd of etnische achtergrond. Daar moeten we ontzettend goed op letten. Ook hierom is het belangrijk om in het hele AI-ontwikkelproces zowel patiënten als zorgverleners te betrekken, zodat zij dit soort biases kunnen toetsen en voorkomen.”