Big data, machine learning geen vervanging statistisch onderzoek

Big data en machine learning moeten de huidige statische aanpak van medisch onderzoek niet vervangen, maar aanvullen. Om het behandeleffect voor een individu te voorspellen, blijven gerandomiseerde studies essentieel. Dat benadrukte hoogleraar Klinische Biostatistiek en Medische Besliskunde Ewout Steyerberg op 23 maart in zijn oratie.

Steyerberg is sinds januari 2017 als hoogleraar verbonden aan het Leids Universitair medisch Centrum (LUMC). Hij heeft zijn wetenschappelijke carrière gewijd aan zogeheten klinische voorspelmodellen bij medisch onderzoek. “Met geavanceerde statistiek kunnen we vragen beantwoorden zoals ‘hoe groot is de kans dat iemand met bepaalde risicofactoren een ziekte krijgt?’ of ‘wat is de kans dat een patiënt met kanker na vijf jaar nog in leven is?’ Doordat we deze kansen steeds beter op individueel niveau kunnen schatten, kunnen artsen steeds betere beslissingen nemen over de behandeling.”

Voorspellen behandeling per individu

Het vakgebied van Steyerberg is relatief recent verrijkt met de beschikbaarheid van toepassingen op het gebied van big data (grootschalige datasets) en nieuwe analyse-instrumenten met machine / deep learning-technieken. De hoogleraar vindt beide technologieën aantrekkelijk voor het beantwoorden van bepaalde vragen. Hij waarschuwt echter voor de inzet er van om per individu te voorspellen welke behandeling het meest effectief is. Misleiding ligt dan op de loer. Bij routinematig verzamelde gegevens moeten onderzoekers zich volgens de hoogleraar altijd bewust zijn van vooringenomenheid (bias). Het effect van een behandeling kan bijvoorbeeld vertekend zijn doordat een arts ziekere patiënten vaker een bepaalde behandeling geeft dan minder zieke patiënten. “Het is een illusie om te denken dat je voor deze ‘confounding by indication’ kunt corrigeren als je machine learning gebruikt om big data te analyseren. De beste manier waarop je voor individuele patiënten iets kunt leren over welke behandeling werkt, blijft een gerandomiseerde studie, waarbij patiënten per toeval een behandeling krijgen toegewezen. Hoe graag we het ook zouden willen, big data met machine learning is geen shortcut-oplossing voor personalised medicine.”

Nut voor onderzoek kent beperkingen

Saskia Le Cessie, hoogleraar Medische Statistiek aan de Universiteit Leiden, stelde in september 2017 tijdens haar oratie al dat big data zijn beperkingen heeft. Het gebruik ervan in wetenschappelijk onderzoek brengt niet alleen meer en betere inzichten. Het vergroot ook de kans dat er verkeerde verbanden gelegd worden.

Focus op evidence-based medicine

Behalve hoogleraar is Steyerberg afdelingshoofd van de nieuw opgerichte afdeling Biomedical Data Sciences van het LUMC, waarin de afdelingen Medische Besliskunde en Medische Statistiek & Bioinformatica samengaan. De komende tijd gaat hij samen met de afdeling Klinische Epidemiologie van prof. Frits Rosendaal in het LUMC het Centrum voor Kwantitatieve Geneeskunde oprichten. “Ik denk dat het heel goed is om meer verbinding te zoeken en elkaar te versterken door gezamenlijk onderzoek te doen naar het ontwikkelen en toepassen van epidemiologische en statistische methoden. Hierdoor ontstaan kansen om ‘evidence-based medicine’ beter naar de kliniek te brengen.”