AI-modellen die kanker helpen diagnosticeren via microscopische weefselbeelden blijken demografische kenmerken te kunnen afleiden die voor menselijke pathologen onzichtbaar zijn. Dit leidt tot bias in diagnostiek, zo blijkt uit nieuw onderzoek van Harvard Medical School. Waar een patholoog een ‘anonieme’ plak weefsel beoordeelt, herkennen AI-modellen subtiele biologische signalen die correleren met leeftijd, geslacht of etniciteit, met meetbare impact op de nauwkeurigheid van de diagnose.
De afgelopen periode zijn heel wat AI-gedreven oplossingen de revue gepasseerd die radiologen en pathologen ondersteunen bij de beoordeling van medische scans. Over het algemeen worden deze modellen geprezen, aangezien ze bijdragen een het sneller, en in een vroeger stadium, ontdekken van tumoren en tumorweefsel. Er worden met name goede resultaten geboekt bij de diagnose van onder andere borst-, long- en prostaatkanker. Het gevaar van vooringenomenheid van deze AI-modellen wordt wel degelijk onderzocht en beschreven, maar een onderzoek, gepubliceerd in Cell Reports Medicine, zoals de Harvard Medical School nu heeft uitgevoerd is nog redelijk uniek.
AI presteert ongelijk over patiëntengroepen
Het onderzoeksteam analyseerde vier veelgebruikte AI-modellen die zijn getraind om kanker te herkennen in grote, multinationale datasets van pathologiepreparaten. In ruim een kwart (29%) van de diagnostische taken presteerden de modellen slechter bij bepaalde demografische groepen. Zo hadden ze moeite om longkankersubtypen te onderscheiden bij Afro-Amerikaanse en mannelijke patiënten, en presteerden ze slechter bij het detecteren van borstkanker bij jongere vrouwen. Ook bij nier-, schildklier- en maagkanker zagen de onderzoekers systematische verschillen.
Deze ongelijkheid ontstaat doordat AI niet alleen ziektekenmerken analyseert, maar onbedoeld óók patronen oppikt die samenhangen met demografie. Dat kan variëren van subtiele moleculaire verschillen tot de frequentie waarmee bepaalde tumortypen voorkomen in verschillende groepen.
Waarom ontstaat deze bias?
De onderzoekers identificeerden drie hoofdoorzaken:
- Ongelijke trainingsdata: Van sommige groepen zijn simpelweg meer weefselmonsters beschikbaar, waardoor modellen beter getraind zijn op veelvoorkomende patiëntprofiele
- Verschillen in ziekte-incidentie: Tumoren komen niet in alle groepen even vaak voor, waardoor AI patronen leert die beter passen bij populaties met een hogere prevalentie.
- Moleculaire variatie tussen groepen: AI herkent genetische verschillen die pathologen niet zien. Het model kan die signalen gebruiken als proxy voor diagnose. Dit is een risico wanneer die varianten minder voorkomen in andere groepen.
AI-modellen leren onderscheidend vermogen dat niet altijd medisch relevant is, maar demografisch gestuurd kan zijn, zo concludeert het odnerzoek
Bias verminderen met FAIR-Path
Om deze bias te verminderen ontwikkelde het team FAIR-Path, een raamwerk gebaseerd op contrastive learning. Deze methode dwingt AI om relevante verschillen, zoals tussen tumortypen, te versterken, terwijl verschillen tussen demografieën juist worden onderdrukt. Toegepast op de bestaande modellen reduceerde FAIR-Path de diagnostische verschillen tussen demografische groepen met maar liefst 88 procent.
“Met een relatief kleine aanpassing kun je AI leren om robuustere en eerlijkere kenmerken te gebruiken,” aldus onderzoeksleider Kun-Hsing Yu. Dat betekent dat grote, volledig representatieve datasets niet altijd noodzakelijk zijn om bias substantieel te verminderen.
Eerlijke en betrouwbare AI in de zorg
Het onderzoek benadrukt hoe cruciaal het is om AI-systemen in de zorg systematisch te controleren op bias. Voor pathologie, een domein waar diagnostiek grote gevolgen heeft voor behandeling en overleving, kan demografische vooringenomenheid direct leiden tot verschillen in kwaliteit van zorg.
Het team werkt nu samen met internationale partners om bias te onderzoeken in diverse klinische omgevingen. Ook willen ze FAIR-Path uitbreiden naar situaties met kleine datasets en beter begrijpen hoe AI-bias zich vertaalt naar ongelijkheid in gezondheidsuitkomsten.
Het team streeft naar het bouwen van AI-modellen die voor iedere patiënt betrouwbaar presteren. Zoals Yu stelt: “Als we zorgvuldiger omgaan met het ontwerp van AI-systemen, kunnen we modellen ontwikkelen die recht doen aan alle populaties. Daar ligt de toekomst van eerlijke, datagedreven kankerzorg.”