Data voor wetenschappelijk onderzoek: The Bigger The Better òf Klein maar Fijn?

Onderzoek met big data en bijbehorende statistische analyse door data scientists is hip. Zo zijn er specifieke subsidieoproepen gericht op big data, zoals binnen het Nationale Wetenschaps- agenda Thema ‘Kansrijke start voor kinderen met behulp van big data’. Verder stijgt het aantal publicaties op dit gebied zeer sterk en zijn de salarissen van data scientists substantieel hoger dan die van een reguliere biostatisticus. Maar waar komt deze hype vandaan?

Big data lijkt zijn intrede in de medische wetenschappen gemaakt te hebben in september 2008, toen het toonaangevende tijdschrift Nature een uitgave wijdde aan de uitdaging hoe om te gaan met de stroom aan data die dagelijks gegenereerd wordt. Maar pas vanaf 2012-2013 komt de stroom wetenschappelijke artikelen over dit onderwerp echt op gang.

Oorspronkelijk werd big data dan ook gedefinieerd als de passieve verzameling en opslag van data, resulterend in datasets die te groot en te complex zijn voor de standaard analysemethoden. Door de opkomst van onder andere machine learning en AI is deze definitie inmiddels achterhaald en wordt big data vaak gekarakteriseerd door de zes V’s: Value, Volume, Velocity, Variety, Veracity en Variability1.

Met deze karakteristieken in het achterhoofd worden in individuele databases - of koppelingen van meerdere databases met heel veel factoren van heel veel mensen - associaties tussen deze factoren opgespoord. Vaak gebeurt dit hypothesevrij, waardoor er vraagtekens te plaatsen zijn bij de relevantie (en de betrouwbaarheid) van de gevonden verbanden. Maar dit levert zeker ook nieuwe hypotheses op voor vervolgonderzoek, dat meestal uitgevoerd wordt met traditionele dataverzameling.

Daarnaast wordt big data vaak ingezet voor het maken van predictiemodellen met personalized healthcare in het achterhoofd2. Wel staat de toegevoegde waarde vergeleken met traditionele regressiemethoden onder druk - zoals besproken in ICT&health 2019 editie 4 en onlangs bevestigd in een nieuwe studie3.

Klein maar fijn: deep data
Qua terminologie waarschijnlijk minder bekend, maar ook deep data is in opkomst: nog verder inzoomen op een specifieke populatie en een beperkt aantal variabelen heel gedetailleerd meten. Dit wordt vaak mogelijk gemaakt met nieuwe methoden van dataverzameling. Voorbeelden zijn apps die een aantal keer per dag middels een push message een korte vragenlijst voorleggen, activity trackers, continue monitoring van vitale parameters en dedicated gadgets.

Onder die laatste categorie valt bijvoorbeeld de One Button Tracker, een 3D-geprint kastje ter grootte van een luciferdoosje met slechts één enkele knop. Hiermee kan op discrete wijze – het kastje past immers in een broekzak – frequent voorkomend gedrag vastgelegd worden. Iedere klik wordt samen met de datum en tijd vastgelegd en kan via een USB-uitgang uitgelezen worden. De mogelijkheden en beperkingen van de One Button Tracker binnen medisch-wetenschappelijk onderzoek worden op dit moment onderzocht bij het Radboud REshape Innovation Center.

Net als bij big data brengt het analyseren van deep data uitdagingen met zich mee. Met standaard analysemethoden is het vaak onmogelijk om de grote hoeveelheid meetpunten per deelnemer op correcte wijze te analyseren. Technieken voor datareductie spelen hierin een belangrijke rol en er zijn ook relatief gebruiksvriendelijke methoden ontwikkeld voor datavisualisatie, bijvoorbeeld het R package ggplot2 (R is een bekend pakket voor statistische analyses, waarin packages geïnstalleerd kunnen worden voor specifieke analyses - ggplot2 is zo’n pakket, red.).

Daarnaast worden er nieuwe vormen van onderzoek ontwikkeld en uitgevoerd om zoveel mogelijk waarde uit de deep data voor het individu te halen, met de N=1 trial als bekendste voorbeeld. Dit type onderzoek, dat relatief populair is in de Quantified Self-beweging, is een klinische trial waaraan slechts één patiënt deelneemt, die achtereenvolgens de interventie en controle (of andersom) ondergaat.

In sommige situaties kan dit design heel effectief zijn in het aantonen van causaliteit, maar vaak wordt dit design toch gezien als proof of concept of hypothese-genererend voor een groter klinisch onderzoek. Onlangs is er een ethisch raamwerk ontwikkeld om voor N=1 trials onderscheid te maken tussen evidence-based klinische zorg en wetenschappelijk onderzoek4.