Voor de ontwikkeling van nieuwe methoden voor vroege detectie van Alzheimer of innovatieve behandelingen voor verschillende soorten kanker zijn enorme hoeveelheden data nodig. Maar strenge regelgeving op het gebied van gegevensbescherming verhindert onderzoekers vaak om zelfs beschikbare datasets te gebruiken. Veel wetenschappers vermijden het werken met patiëntgegevens uit angst voor juridische risico's. Een veelbelovende oplossing ligt in synthetische data die door kunstmatige intelligentie worden gegenereerd. In Europa loopt het SYNTHIA-project voorop.
Het tweezijdig zwaard van de AVG
De AVG beschermt onze persoonlijke gegevens. Tegelijkertijd kan deze verordening de toegang tot gegevens die essentieel zijn voor levensreddend onderzoek ernstig beperken. De verwerking van gezondheidsgegevens is vaak zo complex en omslachtig dat waardevolle datasets ongebruikt blijven.
Neem bijvoorbeeld de ontwikkeling van geneesmiddelen. Nieuwe verbindingen moeten eerst in laboratoria worden getest, vervolgens op dieren en ten slotte op mensen. Dit proces is bedoeld om de veiligheid en effectiviteit te waarborgen. Het duurt jaren om dit proces te voltooien. Onderzoekers moeten deelnemers werven, gegevens verzamelen en analyseren en goedkeuringen van regelgevende instanties verkrijgen. Gemiddeld duurt dit 12 jaar en kan het tot 5 miljard dollar kosten. Vanwege deze hoge drempels richten farmaceutische bedrijven zich vaak alleen op de commercieel meest veelbelovende behandelingen.
Stel je nu eens voor dat dit hele onderzoeksproces virtueel plaatsvindt. Door gebruik te maken van door AI gegenereerde digitale tweelingen in plaats van echte patiënten, zouden onderzoekers meerdere virtuele proeven tegelijk kunnen uitvoeren, waardoor zowel tijd als kosten worden bespaard. Gepersonaliseerde therapieën zouden toegankelijker kunnen worden. Kleinere onderzoeksteams zouden zich op dit gebied kunnen begeven. Innovatie zou niet langer uitsluitend afhankelijk zijn van grote farmaceutische bedrijven.
Kunstmatige data, echte mogelijkheden
Wanneer een tool als ChatGPT inhoud creëert, genereert deze synthetische informatie. Deze gegevens zien er realistisch uit, maar zijn niet afkomstig van echte personen. Synthetische data bieden twee grote voordelen. Ze kunnen snel en betaalbaar in grote hoeveelheden worden geproduceerd. Ze zijn ook niet onderworpen aan privacyregels. Er zijn geen toestemmingsformulieren, geen anonimisering en geen ingewikkelde goedkeuringen nodig.
Dit is vooral waardevol in de gezondheidszorg. Patiëntgegevens, waaronder klinische resultaten, demografische gegevens, genetische informatie en behandelingsgeschiedenis, zijn ongelooflijk nuttig voor onderzoek. Maar het anonimiseren van deze gegevens kost tijd en neemt nog steeds niet alle wettelijke beperkingen weg.
Er worden verschillende technieken gebruikt om synthetische data te creëren, waaronder statistische modellen, op regels gebaseerde systemen en neurale netwerken. In de gezondheidszorg zijn Generative Adversarial Networks (GAN's) bijzonder veelbelovend. Ze kunnen gegevens genereren die de complexiteit van echte datasets weerspiegelen. Hybride modellen die synthetische en echte gegevens combineren, zijn ook nuttig, vooral in gevallen waarbij zeldzame ziekten of gepersonaliseerde geneeskunde betrokken zijn.
Waarom de zorg synthetische data nodig heeft
Synthetische data zijn niet alleen nuttig voor de ontwikkeling van geneesmiddelen. Ze ondersteunen ook de diagnose van ziekten, het trainen van algoritmen en virtuele klinische proeven. Ze kunnen helpen bij het simuleren van scenario's op het gebied van de volksgezondheid en het modelleren van epidemieën.
Ondanks deze voordelen blijft het gebruik ervan beperkt. Een van de redenen hiervoor is het ontbreken van duidelijke normen. Synthetische gegevens kunnen niet worden beoordeeld met dezelfde kwaliteitsmaatstaven als echte gegevens. Een ander probleem is dat het genereren van betrouwbare synthetische datasets diepgaande expertise op het gebied van kunstmatige intelligentie vereist. Als de gegevens niet nauwkeurig zijn, kan dit leiden tot onjuiste onderzoeksresultaten. In de geneeskunde is dat risico onaanvaardbaar.
SYNTHIA: een Europese stap voorwaarts
Het SYNTHIA-project, dat eind 2024 van start ging, is het meest ambitieuze Europese initiatief op het gebied van synthetische data voor de gezondheidszorg. Het project loopt tot 2029 en wordt gefinancierd door het Innovative Health Initiative van de EU met een budget van 22,4 miljoen euro. Het doel is om een federaal platform te bouwen waarmee onderzoekers op een veilige en ethische manier synthetische patiëntgegevens kunnen genereren, evalueren en gebruiken.
SYNTHIA richt zich op zes ziekten: long- en borstkanker, multipel myeloom, diffuus grootcellig B-cellymfoom, de ziekte van Alzheimer en diabetes type 2.
Het maakt gebruik van geavanceerde AI-methoden zoals GAN's, federatief leren en hybride modellering. Het project produceert synthetische datasets die multimodaal en longitudinaal zijn. Deze omvatten laboratoriumresultaten, klinische aantekeningen, beeldvormingsgegevens, genomica en mobiele gezondheidsgegevens. Elke dataset wordt beoordeeld op privacy, nauwkeurigheid en klinisch nut. Labels geven aan waarvoor de gegevens kunnen worden gebruikt, hoe betrouwbaar ze zijn en welke privacywaarborgen er zijn.
Het platform stelt onderzoekers in heel Europa in staat om te werken met synthetische data die voldoen aan kwaliteitsnormen en niet in strijd zijn met de AVG-regels.
Zoals de coördinatoren van SYNTHIA uitleggen: “Het creëren van efficiënte synthetische datasets met behulp van AI is de enige manier om de privacy van gegevens te beschermen en tegelijkertijd vooruitgang te boeken op het gebied van precisiegeneeskunde.”
Europa heeft nu de kans om een voortrekkersrol te spelen op het gebied van datagestuurd medisch onderzoek. Maar succes hangt af van regelgeving. Synthetische data kunnen hun belofte alleen waarmaken als nieuwe wetten de wetenschap ondersteunen zonder nieuwe barrières op te werpen.