Onderzoekers hebben ’s werelds eerste praktijkgerichte testplatform ontwikkeld dat commerciële AI-algoritmen beoordeelt op eerlijkheid, nauwkeurigheid en geschiktheid voor gebruik binnen het Britse zorgsysteem, de NHS. Als eerste casus staat diabetische oogziekte centraal, een gebied waar AI veelbelovende mogelijkheden biedt om de groeiende werklast te verlichten. Het platform creëert een gelijk speelveld voor leveranciers doordat bedrijven geen directe invloed hebben op de beoordeling van hun eigen algoritmen.
Waar selectie van AI binnen de NHS nu vaak draait om kosteneffectiviteit en matchen met menselijke prestaties, laat dit onderzoek zien dat bredere en strengere toetsing noodzakelijk is. Software die als medisch hulpmiddel wordt ingezet, is zelden grootschalig beoordeeld op algoritmische eerlijkheid. Dat kan leiden tot gezondheidsverschillen, zoals eerder bleek bij minder accurate pulsoximeters voor mensen met een donkere huid.
Grootschalige test met 1,2 miljoen oogfoto’s
In The Lancet Digital Health presenteren onderzoekers van City St George’s, Moorfields Eye Hospital en partners een onafhankelijke testomgeving, gebaseerd op een ‘trusted research environment’, waarin acht CE-gemarkeerde algoritmen werden getest op 1,2 miljoen retinafoto’s uit een van de meest diverse screeningsprogramma’s van het VK. De prestaties van elk algoritme werden vergeleken met beoordelingen van maximaal drie menselijke experts. Bedrijven hadden geen toegang tot de data of menselijke labels.
De resultaten zijn veelbelovend: accuratesse bij het opsporen van klinisch relevante diabetische retinopathie lag tussen 83,7 en 98,7 procent. Voor ernstigere stadia liep dit zelfs op tot bijna 100 procent, wat vergelijkbaar of beter is dan handmatige beoordeling door professionals, en dat in slechts milliseconden tot seconden per patiënt. Het belang van deze tests is dat nu voor het eerst is aangetoond dat deze AI-systemen consistent presteren over verschillende etnische groepen, een essentieel criterium voor eerlijke en inclusieve zorg.
Naar landelijke infrastructuur voor veilige AI
Het platform kan volgens de onderzoekers uitgroeien tot een centrale infrastructuur waarin goedgekeurde algoritmen worden gehost en waar screeningcentra veilig beelden kunnen uploaden. Zo kunnen resultaten direct naar het patiëntendossier worden gestuurd, zonder dat afzonderlijke organisaties eigen systemen hoeven op te bouwen.
Volgens de onderzoekers biedt deze aanpak voordelen voor bedrijven, zorgprofessionals én patiënten: efficiëntere zorgprocessen, hogere kwaliteit, minder workload en een transparante basis voor vertrouwen in medisch AI-gebruik. Het concept kan bovendien dienen als blauwdruk voor het testen van AI in andere chronische ziekten, zoals kanker en hart- en vaatziekten.
AI en diabetische retinopathie
Begin dit jaar ontwikkelden onderzoekers een AI-tool ie de analyse van netvliesfoto’s voor de diagnostiek van diabetische retinopathie sterk kan versnellen en verbeteren. Oogartsen segmenteren fundusfoto’s nu nog handmatig, aangezien bloedvaten in verschillende diktes, vormen en zwellingspatronen nauwkeurig moeten worden onderscheiden. Dit is een proces dat tijdrovend, complex en foutgevoelig is. De nieuwe AI-oplossing automatiseert deze taak en verhoogt zowel de snelheid als de nauwkeurigheid van de diagnose.
In eerste tests op drie hoogwaardige datasets behaalde het model een nauwkeurigheid van 97 procent. Belangrijker nog is de gevoeligheid van 84 procent voor het detecteren van microvaten, gebaseerd op de DRIVE-standaard. Dat is een duidelijke verbetering ten opzichte van eerdere modellen, die juist moeite hadden met deze fijnmazige structuren. Hoewel de trainingsdatasets nog beperkt waren, wisten de onderzoekers met datavergroting en adaptieve drempeltechnieken de prestaties aanzienlijk te verhogen.