SYNTHIA: Europa moet Health AI stimuleren met synthetische data

do 15 januari 2026 - 15:50
Data
Interview

Synthetische data worden een veelbelovende manier om datagestuurd gezondheidsonderzoek in Europa te bevorderen met respect voor de privacy van patiënten. Pieternella (Ellen) de Waal – hoofd communicatie en verspreiding van het door de EU gefinancierde SYNTHIA-project – legt uit hoe synthetische data worden getest voor zes ziekten, waarom dit belangrijk is voor betrouwbare gezondheids-AI en wat we kunnen verwachten van het debat over synthetische data tijdens de ICT&Health World Conference 2026.

Waarom zijn synthetische gegevens een gamechanger voor AI-onderzoek op het gebied van gezondheidszorg in Europa?

Synthetische gegevens bieden een oplossing voor een van de grootste paradoxen in de gezondheidszorg. De uitdaging is als volgt: voor de ontwikkeling van effectieve AI voor gepersonaliseerde geneeskunde zijn enorme hoeveelheden diverse patiëntgegevens nodig. Maar we zijn terecht gebonden aan strenge privacyregels, zoals de AVG. Hoe kunnen we op verantwoorde wijze innoveren en tegelijkertijd patiënten beschermen?

Synthetische gegevens zijn het antwoord, en het SYNTHIA-project pakt deze uitdaging aan. We genereren kunstmatige gegevens die statistisch gezien echte patiëntenpopulaties nabootsen, maar geen echte patiëntinformatie bevatten. Het is alsof we een ‘digitale tweeling’ van gezondheidszorggegevens creëren – deze ziet eruit en gedraagt zich als het echte werk voor onderzoek, maar je kunt deze niet herleiden tot een individu.

Ten eerste breken we gegevenssilo's af. Europese gezondheidsgegevens zijn versnipperd over lidstaten en instellingen. Met synthetische gegevens kunnen we inzichten delen zonder gevoelige informatie over de grenzen heen te verplaatsen.

Ten tweede innoveren we zonder onze waarden in gevaar te brengen. Europa loopt voorop op het gebied van gegevensbescherming en ethische AI – synthetische gegevens handhaven deze principes en geven onderzoekers tegelijkertijd de gegevensvolumes die ze zo hard nodig hebben.

Ten derde kunnen we vooringenomenheid aanpakken. In echte datasets zijn bepaalde populaties vaak ondervertegenwoordigd. Met synthetische gegevens kunnen we meer evenwichtige datasets creëren, zodat AI-tools voor iedereen even goed werken.

Binnen het SYNTHIA-consortium werken we aan zes ziekten om deze aanpak te demonstreren, waaronder bloedkanker, oncologie, de ziekte van Alzheimer en diabetes type 2. Onze AI-modellen, die worden ontwikkeld om te worden getraind op synthetische gegevens, zullen vergelijkbaar presteren als modellen die zijn getraind op echte gegevens, zonder privacyproblemen.

Wat is de tijdlijn van het project en wanneer kunnen we de eerste resultaten verwachten?

Als eerste IHI-project op het gebied van synthetische gegevens is het consortium in 2024 van start gegaan en heeft het eerste jaar zich gericht op het leggen van een solide basis voor innovatie. De experts van SYNTHIA hebben de technische kerninfrastructuur opgezet die ten grondslag ligt aan het SYNTHIA-platform, waardoor veilige, federatieve toegang tot gezondheidsgegevens in heel Europa mogelijk is.

De klinische teams van SYNTHIA hebben uitgebreide studieprotocollen ontwikkeld waarin de klinische variabelen en onderzoeksvragen voor elk van de zes ziektegevallen duidelijk worden gedefinieerd. We hebben ook ons gegevensbeheerplan en onze gegevensbeschermingseffectbeoordeling voltooid, belangrijke mijlpalen die ervoor zorgen dat we verantwoord omgaan met gegevens en volledig voldoen aan de Europese regelgeving. Het meest opwindende is dat we al zijn begonnen met het genereren van synthetische gegevens voor meerdere gebruiksscenario's, waardoor we de stap van theorie naar praktijk hebben gezet en het werkelijke potentieel van deze technologie voor de vooruitgang van gepersonaliseerde geneeskunde hebben aangetoond.

Nu we ons tweede jaar ingaan, richt SYNTHIA zich op cruciale prioriteiten die de toekomst van synthetische gegevens in de gezondheidszorg zullen bepalen. We zullen “goede synthetische gegevens” niet alleen vanuit technisch oogpunt definiëren, maar ook door middel van een gezamenlijke consensus binnen ons diverse consortium van onderzoekers, clinici en industriële partners. We verfijnen onze visie voor de duurzaamheid van het SYNTHIA-platform op de lange termijn, zodat de tools en datasets die we ontwikkelen ook na afloop van het project toegankelijk en waardevol blijven voor de onderzoeksgemeenschap. Daarnaast blijven we een brede coalitie van belanghebbenden samenbrengen – van academische onderzoekers en industriële partners tot regelgevende instanties en organisaties voor de beoordeling van gezondheidstechnologie – om overeenstemming te bereiken over robuuste validatienormen die vertrouwen zullen wekken en een bredere acceptatie van synthetische data in het Europese gezondheidszorgecosysteem mogelijk zullen maken.

SYNTHIA richt zich op zes specifieke ziekten als use cases: longkanker, borstkanker, multipel myeloom, diffuus grootcellig B-cel non-Hodgkin-lymfoom (DLBCL), de ziekte van Alzheimer en diabetes type 2.

Deze ziekten brengen gemeenschappelijke uitdagingen voor onderzoek met zich mee, waaronder zeldzame subgroepen van patiënten, privacygevoelige gegevens, dure klinische proeven en lange follow-up periodes. Door deze specifieke gevallen aan te pakken, laat SYNTHIA zien dat synthetische gegevens daadwerkelijk praktische problemen kunnen oplossen waarmee onderzoekers dagelijks worden geconfronteerd – niet alleen door ontbrekende cijfers aan te vullen, maar ook door studies mogelijk te maken die anders onmogelijk of onbetaalbaar zouden zijn.

Het is slim om met zes ziekten te beginnen in plaats van te beweren dat alles kan worden opgelost. Het toont methodische validatie aan: “hier werkt het, hier is het bewijs.” Voor een gevoelig gebied als de gezondheidszorg, waar slechte gegevens letterlijk mensen kunnen schaden, toont deze afgewogen aanpak aan dat het nut reëel en verifieerbaar is, en niet overdreven.

Wat laten deze use cases zien over het nut van synthetische gegevens?

Als we kijken naar de focus van SYNTHIA op ziekten, valt vooral de proof-of-concept-strategie op, die in wezen zegt: “synthetische gegevens zijn niet alleen theoretisch interessant, ze werken ook in de praktijk om echte medische aandoeningen aan te pakken”. De diversiteit aan ziekten toont de brede toepasbaarheid van synthetische gegevens aan. Door aandoeningen te selecteren met fundamenteel verschillende onderliggende biologie (kanker veroorzaakt door genetische mutaties, diabetes die voortkomt uit metabole disfunctie, of neurologische aandoeningen met hun eigen specifieke mechanismen), hoopt SYNTHIA te bewijzen dat zijn aanpak breed toepasbaar is voor verschillende soorten ziekten. Dit is geen methode die uitsluitend is geoptimaliseerd voor één medisch scenario, maar een algemeen toepasbaar instrument dat zich aanpast aan diverse biologische contexten.

Wat zijn de belangrijkste componenten van het SYNTHIA-platform – inclusief tools voor het genereren van synthetische gegevens en evaluatiekaders – en hoe zullen deze onderzoekers en ontwikkelaars ondersteunen?

Vanuit wetenschappelijk perspectief, gericht op het genereren van synthetische gegevens, is het SYNTHIA-platform gebaseerd op drie primaire componenten. De eerste is de Federated Learning-module, die de essentiële infrastructuur biedt om gegevens veilig te verbinden en gestructureerde synthetische datasets te genereren. De andere twee componenten vormen de wetenschappelijke kern van het platform en richten zich op het genereren en valideren van gegevens. De generatiemodule is ontworpen om het optimale generatieve model te selecteren en te valideren op basis van de beschikbare gegevens. Dit gebeurt in nauwe samenwerking met het validatiekader, dat de kwaliteit van synthetische gegevens beoordeelt aan de hand van drie belangrijke pijlers: statistische betrouwbaarheid, bescherming van de privacy en klinisch nut. Bovendien evalueert dit kader de kwaliteit van de oorspronkelijke gegevens uit de praktijk om te bepalen of deze voldoende representatief zijn om een synthetisch cohort van hoge kwaliteit te produceren.

Hoe zorgt SYNTHIA ervoor dat synthetische gegevens robuust en betrouwbaar genoeg zijn om te worden gebruikt bij de ontwikkeling van AI-modellen, met name voor klinische besluitvormingsondersteuning of voorspellende modellering?

SYNTHIA zorgt ervoor dat synthetische gegevens betrouwbaar zijn door middel van een uitgebreid validatieproces dat in het platform is ingebouwd. In plaats van een uniforme kwaliteitsnorm toe te passen, beoordeelt SYNTHIA synthetische gegevens aan de hand van drie belangrijke criteria: hoe nauwkeurig ze de echte patiëntgegevens weerspiegelen (statistische betrouwbaarheid), hoe goed ze de privacy van patiënten beschermen en of ze daadwerkelijk bruikbaar zijn voor klinische doeleinden.

Belangrijk is dat deze evaluatie is afgestemd op de specifieke onderzoeksvraag. De normen voor “goed genoeg” verschillen naargelang wat men wil bereiken. Het uitbreiden van een kleine dataset, het plannen van een klinische proef, het testen van een AI-algoritme of het delen van gegevens met medewerkers hebben allemaal verschillende vereisten en aanvaardbare compromissen.

Door deze factoren samen in hun context te beoordelen, bevestigt SYNTHIA twee essentiële punten: ten eerste dat de synthetische gegevens een nauwkeurige weergave zijn van echte patiëntenpopulaties (en niet alleen willekeurige getallen die toevallig goed lijken), en ten tweede dat ze wetenschappelijk verantwoord zijn voor de specifieke klinische toepassing waarvoor ze bedoeld zijn. Deze gerichte validatieaanpak maakt het mogelijk om synthetische gegevens met vertrouwen te gebruiken voor AI-ontwikkeling in klinische besluitvorming en voorspellende modellering.

Welke rol speelt interdisciplinaire samenwerking tussen clinici, AI-ontwikkelaars, juridische experts en industriële partners bij het bereiken van de doelstellingen van SYNTHIA?

Aangezien SYNTHIA een door het Innovative Health Initiative (IHI) gefinancierd project is met deze unieke constellatie van experts, is interdisciplinaire samenwerking niet alleen nuttig, maar ook essentieel om synthetische gegevens in de gezondheidszorg te laten werken.

Het creëren van synthetische gegevens voor medisch gebruik is in wezen een multidimensionaal probleem dat geen enkele discipline alleen kan oplossen. AI-ontwikkelaars kunnen briljante generatieve modellen bouwen, maar zonder clinici weten ze niet welke klinische variabelen er daadwerkelijk toe doen of hoe ziekten zich bij echte patiënten manifesteren. Synthetische gegevens kunnen statistisch perfect zijn, maar klinisch gezien betekenisloos.

Clinici zorgen voor medische validiteit en garanderen dat de synthetische patiënten daadwerkelijk echte ziektepatronen weerspiegelen en dat de gegevens bruikbaar zijn voor echte onderzoeksvragen. AI-ontwikkelaars leveren de technische middelen om op grote schaal realistische, hoogwaardige gegevens te genereren. Juridische experts zijn cruciaal om door het mijnenveld van privacyregels, wetgeving inzake gegevensbescherming en ethische grenzen te navigeren – zij bepalen wat toegestaan is. Industriepartners baseren alles op de praktische realiteit: wat hebben geneesmiddelenontwikkelaars eigenlijk nodig? Welke formaten werken met bestaande systemen? En, heel belangrijk, patiëntenvertegenwoordigers zorgen ervoor dat het onderzoek verankerd blijft in wat voor patiënten belangrijk is: hun prioriteiten, zorgen over privacy en gegevensgebruik, en de resultaten waar zij om geven. Zonder de stem van patiënten zouden zelfs technisch degelijke, klinisch valide synthetische gegevens hun doel kunnen missen bij het aanpakken van de werkelijke behoeften van patiënten of ethische grenzen kunnen overschrijden die patiënten onaanvaardbaar zouden vinden.

Waarom de structuur van IHI dit mogelijk maakt: Het IHI-raamwerk brengt deze belanghebbenden samen met op elkaar afgestemde prikkels in plaats van concurrerende belangen. Dit betekent dat ze vanaf het begin samen oplossingen kunnen ontwerpen in plaats van dat AI-teams iets bouwen en vervolgens hopen dat clinici het zullen gebruiken. Elke discipline controleert en valideert de andere – waardoor synthetische gegevens worden gecreëerd die technisch deugdelijk, klinisch zinvol, wettelijk conform en praktisch bruikbaar zijn. Zonder deze samenwerking zou u synthetische gegevens ontvangen die in de implementatiefase zouden mislukken.

Wat zijn de verwachte resultaten en langetermijneffecten van SYNTHIA op gezondheidsonderzoek, gepersonaliseerde geneeskunde en het bredere Europese AI-ecosysteem?

Met zijn missie om synthetische gegevens te gebruiken om gepersonaliseerde geneeskunde naar nieuwe hoogten te tillen, zal SYNTHIA naar verwachting op meerdere niveaus effect hebben:

Voor gezondheidsonderzoek: het doorbreken van datasilo's en privacybarrières die momenteel ontdekkingen vertragen. Onderzoekers krijgen toegang tot rijke, diverse datasets die anders onmogelijk te delen zouden zijn, waardoor studies naar zeldzame ziekten, ondervertegenwoordigde bevolkingsgroepen en complexe aandoeningen worden versneld.

Voor gepersonaliseerde geneeskunde: het mogelijk maken van de ontwikkeling van echt op maat gemaakte behandelingen door het verstrekken van de diverse patiëntgegevens die nodig zijn om te begrijpen hoe verschillende individuen op therapieën reageren, waarbij wordt afgestapt van een uniforme aanpak en wordt overgestapt op precisie-interventies die zijn afgestemd op individuele kenmerken.

Voor het Europese AI-ecosysteem: het vestigen van Europees leiderschap op het gebied van betrouwbare, ethische AI voor de gezondheidszorg. SYNTHIA ontwikkelt kaders, normen en gevalideerde methodologieën die Europa positioneren als de wereldwijde referentie voor verantwoord gebruik van synthetische gegevens, waarbij innovatie wordt bevorderd en tegelijkertijd de hoogste privacy- en ethische normen worden gehandhaafd.

Op de lange termijn betekent dit een snellere ontwikkeling van geneesmiddelen, meer gerichte therapieën, lagere kosten voor de gezondheidszorg en uiteindelijk betere resultaten voor patiënten – en dat alles terwijl Europa voorop blijft lopen op het gebied van innovatie op het gebied van AI in de gezondheidszorg.

Wat kunnen we verwachten van het debat over synthetische gegevens tijdens de ICT&Health World Conference 2026?

Tijdens onze sessie (27 januari, 11u30) zullen we de cruciale vragen behandelen: Hoe valideren we deze datasets? Wat zijn de implicaties op het gebied van regelgeving? Hoe bouwen we vertrouwen op? Ik ben ervan overtuigd dat synthetische gegevens Europa in staat zullen stellen om voorop te lopen op het gebied van AI-gestuurde gepersonaliseerde geneeskunde – waarbij we trouw blijven aan onze privacyverplichtingen en tegelijkertijd het volledige potentieel van gezondheidsgegevens benutten voor betere resultaten voor patiënten.

SYNTHIA – Synthetic Data Generation framework for integrated validation of use cases and AI healthcare applications – wordt ondersteund door de Innovative Health Initiative Joint Undertaking (IHI JU) in het kader van subsidieovereenkomst nr. 101172872.


Hoe de zorg haar toekomst inricht? Duizenden zorgprofessionals ontdekken wat echt werkt en verzilveren kansen. Claim ook jouw ticket en ervaar het op het ICT&health World Conference 2026!