Europa wil met synthetische data voorloper in zorginnovatie worden

Tijdens de ICT&health World Conference werd, tijdens een door het IHI opgerichte SYNTHIA-project georganiseerd debat, onderzocht hoe synthetische data AI-gedreven innovatie kunnen versnellen en tegelijkertijd privacy en vertrouwen kunnen waarborgen. Belangrijkste conclusie: de Europese wetenschap heeft behoefte aan data, en kunstmatig gegenereerde datasets kunnen letterlijk levens redden.

Data als strategisch kapitaal van Europa

De vooruitgang op het gebied van kunstmatige intelligentie in de levenswetenschappen is afhankelijk van de toegang tot hoogwaardige data. In Europa blijven gezondheidsgegevens echter versnipperd, gevoelig en moeilijk te delen. Voor veel onderzoekers is de AVG een bureaucratische hindernis die datagestuurd onderzoek kan ontmoedigen, omdat ze veel tijd moeten besteden aan documentatie, terwijl het risico op overtreding van de restrictieve wetgeving groot blijft. Vanaf begin 2026 streeft de EU naar een gerichte vereenvoudiging van de AVG en selectieve deregulering om de administratieve lasten voor bedrijven te verminderen. Tegelijkertijd bieden synthetische data een potentieel transformatief alternatief in de context van beperkte toegang tot gezondheidsgegevens.

Vanuit het perspectief van de Europese Commissie zijn gegevens “de olie van innovatie” en zelfs “de olie van de economie”. Szymon Bielecki, hoofd van de afdeling Onderzoek en Innovatie, e-gezondheid, Welzijn en Vergrijzing bij DG CONNECT, Europese Commissie, plaatste synthetische data binnen de bredere digitale strategie van Europa. Hij gaf toe dat de gezondheidssector “een van de sectoren is waar het het moeilijkst is om toegang te krijgen tot gegevens van goede kwaliteit”. Strenge AVG-waarborgen, interoperabiliteitskloven en heterogene gegevensstandaarden tussen ziekenhuizen creëren structurele belemmeringen.

De Europese gezondheidsdataruimte werd voorgesteld als een mechanisme om secundair gebruik en interoperabiliteit te verbeteren. Totdat gegevens uit de praktijk echter toegankelijker en geharmoniseerd zijn, kunnen synthetische data als brug dienen. Ze kunnen “realistische omstandigheden creëren voor het testen van digitale oplossingen”, helpen bij het trainen van AI-modellen en de ontwikkeling van geneesmiddelen ondersteunen in omgevingen waar de privacy wordt gewaarborgd. “Kunstmatige intelligentie zal nooit werken zonder gegevens van goede kwaliteit”, aldus Bielecki.

De strategische ambitie van Europa is om het concurrentievermogen op het gebied van AI en digitale gezondheid te versterken. Synthetische data passen in dit bredere beleidskader voor gegevens en AI als een ondersteunende technologie en niet als vervanging voor de infrastructuur voor gegevens uit de praktijk. De Commissie benadrukte ook het belang van richtsnoeren en vrijwillige certificeringskaders om structuur en vertrouwen te bieden in praktijken voor het genereren van synthetische data.

Geldigheid, bruikbaarheid, privacy

Vanuit onderzoeksperspectief zijn synthetische data niet standaard waardevol. Ze moeten aan duidelijke wetenschappelijke criteria voldoen.

Leonor Cerda Alberich, mede-hoofdonderzoeker bij de Biomedical Imaging Research Group van het La Fe Health Research Institute (IIS La Fe), benadrukte drie belangrijke pijlers: “geldigheid, bruikbaarheid en privacy”. Synthetische datasets moeten “complexe, niet-lineaire correlaties die echte gegevens hebben” weergeven. Statistische tests, heatmaps en algoritmische validatiemethoden zijn nodig om te beoordelen of synthetische data zich gedragen als echte patiëntgegevens.

Bruikbaarheid is eveneens van cruciaal belang. Zoals zij uitlegde: “Als we een AI-model trainen met behulp van synthetische data, hebben we dan een model dat ook werkt met echte gegevens?” Deze vraag raakt de kern van de klinische relevantie. Modellen die goed presteren in synthetische omgevingen maar falen in de praktijk, bieden geen waarde.

Privacybescherming blijft de derde pijler. Het genereren van synthetische data moet bestand zijn tegen “aanvalssimulaties” en vijandige tests om ervoor te zorgen dat geen enkele individuele patiënt opnieuw kan worden geïdentificeerd. De belofte van synthetische data ligt juist in dit vermogen om de privacy te beschermen.

Het Synthia-project pakt deze uitdagingen aan via een federatieve infrastructuur die meerdere ziekenhuizen in heel Europa met elkaar verbindt. Het werkt voor verschillende ziektegebieden, waaronder longkanker, borstkanker, multipel myeloom, de ziekte van Alzheimer, lymfoom en diabetes type 2. Belangrijk is dat het project ervoor wil zorgen dat synthetische datasets “klinisch relevant zijn, en niet alleen zinvol vanuit wiskundig oogpunt”.

Dit onderscheid tussen statistische gelijkenis en klinische bruikbaarheid was een terugkerend thema tijdens de sessie.

“Je kunt nooit genoeg data hebben om een perfect model te trainen”

AI-systemen zijn “hongerig naar gegevens”, aldus Hongxu Yang, AI-wetenschapper bij GE Healthcare, die de uitdagingen van het verzamelen, opschonen en annoteren van grootschalige beelddatasets benadrukte. Synthetische data bieden een mogelijke manier om de robuustheid en prestaties voor diverse patiëntenpopulaties te verbeteren. Klinische kennis is volgens hem onmisbaar: “Als je het model ontwikkelt met behulp van klinische kennis, is het veel gemakkelijker om het model te ontwikkelen.” Hij voegde eraan toe dat door klinische inzichten te integreren, modellen “goedkoper, sneller te ontwikkelen en ook stabieler” kunnen zijn.

Saverio D'Amico, CEO en medeoprichter van TRAIN en AI-teamleider bij Humanitas Research Hospital, beschreef synthetische data als een “technologische oplossing voor klinische problemen”. Hij omschreef het als “een soort plastic data, dus conditioneerbare data”. Zodra een generatief model is getraind op basis van echte gegevens, kan het worden gevraagd om patiëntencohorten met specifieke kenmerken te produceren, bijvoorbeeld gedefinieerde comorbiditeiten. Deze mogelijkheid opent nieuwe perspectieven voor gepersonaliseerde geneeskunde en zeldzame ziekten.

Een bijzonder aansprekend voorbeeld betrof pediatrisch neuroblastoom. In zeer gevoelige klinische scenario's is het opzetten van traditionele controlegroepen ethisch complex. Synthetische data kunnen helpen bij het opzetten van externe of synthetische controlegroepen wanneer vergelijkingsmateriaal uit de praktijk niet voldoet aan de inclusiecriteria. Zoals D'Amico opmerkte, is een van de belangrijkste uitdagingen in de geneeskunde “het gebrek aan klinisch bewijs”, en synthetische data kunnen fungeren als een “versterker” om de statistische kracht en signaaldetectie te verbeteren.

“Synthetische data zijn als een multifunctioneel mes dat we moeten gebruiken”, concludeerde D'Amico.

Sara Okhuijsen, CTO en medeoprichter van OASYS NOW, ging in op de innovatiebarrière waarmee startende bedrijven worden geconfronteerd. Ze beschreef het “cold start-probleem”: start-ups hebben gegevens nodig om hun modellen te valideren, maar vertrouwen en toegang komen pas na validatie. Synthetische data kunnen helpen om “de afweging tussen privacy en bruikbaarheid op een andere manier te doorbreken” en productontwikkeling te versnellen met inachtneming van privacybeperkingen. Tegelijkertijd benadrukte ze dat synthetische data moeten worden gezien als onderdeel van een bredere toolbox van privacybeschermende technologieën, waaronder vertrouwelijke computing.

Ethische risico's mogelijk als synthetische data niet zorgvuldig worden behandeld

Ondanks het sterke optimisme bleef het debat kritisch. Davide Cirillo, hoofd van de Machine Learning for Biomedical Research Unit van het Barcelona Supercomputing Center en medeoprichter van OneCareAI, omschreef synthetische data als “een tweesnijdend zwaard”. Hoewel het “ethisch aantrekkelijk” is vanwege het behoud van privacy en verbeterde toegang, is het ook “ethisch riskant”.

Vooringenomenheid was een belangrijk punt van zorg. Als de oorspronkelijke echte gegevens die worden gebruikt om generatieve modellen te trainen, vooringenomen zijn, kunnen synthetische data “deze vooringenomenheid verspreiden” en zelfs versterken. De schijnbare neutraliteit van synthetische datasets kan vals vertrouwen wekken als de validatieprocessen ontoereikend zijn.

Verantwoordelijkheid roept ook complexe vragen op. Als synthetische data leiden tot verkeerde klinische beslissingen of discriminerende resultaten, “wie is dan verantwoordelijk?” Ligt de verantwoordelijkheid bij de gegevensverzamelaars, de modelontwikkelaars of de organisaties die het systeem implementeren? Deze verantwoordelijkheidskloof vereist bestuursmechanismen die verder gaan dan technische validatie.

Cirillo stelde dat synthetische data moeten worden behandeld als een ‘sociaal-technisch bezit’. Dat omvat effectbeoordeling, verantwoord ontwerp, transparantie en bewustwording van patiënten. Patiënten moeten het ‘recht hebben om te weten’ of systemen die van invloed zijn op hun zorg, zijn getraind met behulp van synthetische data. Vertrouwen is afhankelijk van openheid.

Duidelijkheid op het gebied van regelgeving blijft een andere open kwestie. Deelnemers uit de sector wezen erop dat het aantonen van gelijkwaardigheid tussen synthetische en echte gegevens in het kader van regelgevingskaders zoals de EU AI Act een uitdaging blijft. Duidelijke richtlijnen zijn essentieel om de acceptatie in heel Europa op te schalen.

Hoe SYNTHIA de weg vrijmaakt voor synthetische data

Met initiatieven zoals SYNTHIA hopen belanghebbenden in heel Europa toegang te krijgen tot kunstmatige datasets om het onderzoek in de levenswetenschappen en de ontwikkeling van op AI gebaseerde innovatie te versnellen. SYNTHIA, dat in september 2024 van start ging als het eerste project voor synthetische data in het kader van het Innovative Health Initiative (IHI), heeft tot doel een robuuste infrastructuur, validatiekaders en klinische use cases te ontwikkelen voor synthetische data in de gezondheidszorg waarbij de privacy wordt gewaarborgd. Het project richt zich op de ontwikkeling en validatie van methoden voor het genereren van synthetische data voor meerdere gegevenstypen, waaronder laboratoriumresultaten, klinische aantekeningen, genomica en beeldvorming. Om de relevantie voor de praktijk aan te tonen, dienen zes ziektegebieden als gebruiksscenario's: longkanker, borstkanker, multipel myeloom, diffuus grootcellig B-cellymfoom, de ziekte van Alzheimer en diabetes type 2.

Tijdens het debat was men het er algemeen over eens dat synthetische data een aanzienlijk potentieel hebben om AI-gedreven wetenschap te versnellen, het digitale gezondheidsecosysteem van Europa te versterken en innovatie op het gebied van zeldzame ziekten, beeldvorming en klinische proeven te ondersteunen. Tegelijkertijd benadrukten de deelnemers dat kwaliteitsborging, methodologische transparantie, ethische waarborgen en duidelijkheid op het gebied van regelgeving onontbeerlijk zijn om de geloofwaardigheid en acceptatie in klinisch onderzoek en de klinische praktijk te waarborgen.

Synthetische data kunnen helpen om de waarde van het gefragmenteerde Europese gezondheidsgegevenslandschap te ontsluiten door onderzoek mogelijk te maken en tegelijkertijd de privacy van patiënten te beschermen. Het succes op lange termijn zal echter niet alleen afhangen van technologische vooruitgang, maar ook van het handhaven van wetenschappelijke nauwkeurigheid, klinische relevantie en maatschappelijk vertrouwen.