Not so Big Data

Toch niet zo Big

Helaas is er niet alles ICT-goud wat er blinkt. In een aantal gevallen blijken Big Data weliswaar groot in volume doch een stuk kleiner in relevante toepassingsmogelijkheden en zij geven lastige belemmeringen en datalekken bij privacy en hacking. Dan is Big ineens toch not so big.

Reden genoeg om van het begin af aan te doorgronden waar de zwakke punten van Big Data zitten en deze vervolgens te verhelpen.

Wat willen we weten?

Data verzamelen heeft tot doel bruikbare informatie op te leveren. Anders kan je het net zo goed niet doen! Vooraan staat wat willen wij nu en veelal ook straks weten. Dat nu valt dikwijls redelijk makkelijk te formuleren. Wat wij straks willen weten is nogal eens onduidelijk. Je kunt dit proberen vooraf al in te schatten. Veel beter is echter om met flexibele notatie –en zoeksystemen te werken.

Besef dat het verzamelen van data zonder een goed omschreven doel zowel ethisch als juridisch discutabel is!

Welke vorm van data entry?

Data dien je eerst in een systeem, hoe klein dan ook, in te voeren (de data entry) alvorens deze te kunnen verwerken en analyseren. Dat kan bijvoorbeeld via sensoren, apps, menselijke respondenten en software-zoekmachines die files, netwerken en databases / bibliotheken afzoeken naar bruikbare info.

Bij de data entry spelen de betrouwbaarheid, snelheid van bewerking / doorzoeken en de relevantie tot de gestelde analyse / onderzoeksvraag een belangrijke rol. Sensoren en apps, bijvoorbeeld persoonlijk health-kits, zijn doorgaans behoorlijk betrouwbaar. Meetfouten en verkeerde interpretatie komen echter meer voor dan vaak gedacht. Hoe error proof is het systeem eigenlijk?

Ook andere media

Bij data entry denk je in de eerste plaats aan tekst en getallen. Die voer je bijvoorbeeld via een toetsenbord, scanner of app in. In het tijdperk van E-Health bestaan er echter nog tal van andere mediamogelijkheden. Het gesproken woord is in opmars en het aantal fouten t.g.v. uitspraak en interpretatie neemt snel af. Beeldinterpretatie door videocamera’s van beweging, gebaren (gestures) en andere observaties kan steeds nauwkeuriger en bespaart tijd. Je ziet deze technieken al in het slimme huis, de smartcar en bij hospitality.

De schakel mens

Bij menselijke responders verandert het spectrum van een betrouwbare data entry aanmerkelijk. Begrijpt de respondent de gestelde vragen wel? Hoe gemotiveerd is deze bij het opgeven en invullen? Hoe is de belevingswereld (eigen interpretatie) van de cliënt en welke meetinstrumenten zet deze eigenlijk in?

De waarde van vragenlijsten (analoog en digitaal) staat hierbij nogal eens ter discussie. Zeker als de respondenten er weinig inzien of geen stimulerende en/of interactieve terugkoppeling krijgen. Bij de quantified self, dashboarding en zelf de eigen gezondheid managen is er relatief veel engagement hetgeen de consequentie en betrouwbaarheid van de data entry bevordert.

Het coderingsdilemma

Een ware gruwel bij de data-invoer is het zogenaamde vinkjessysteem. Alleen aangevinkte items zijn in te voeren en later weer terug te vinden. Dat stuit op bezwaren zoals geen vinkje niet te verwerken en dat de programmeur de (nogal eens onpraktische) invoer voor de gebruiker bedenkt.

Dataclusters of assets bieden al een stuk meer gebruikersgemak. Onder één entry zit een aan elkaar gekoppelde reeks handelingen die je niet meer afzonderlijk behoeft aan te vinken. Alleen de afwijkingen / uitzonderingen specificeren.

Het meest interessante voor Big Data zijn de open flexibele invoersystemen. Ook wel containers genoemd. In een container kan je zelf van alles stoppen. Het datasysteem herkent het type container en schakelt de daarbij behorende algoritmes voor bewerking en analyse in. Tekst, foto’s, laboratoriumbepalingen, vragenlijsten video, geluid noem maar op en het past allemaal zonder mankeren in het Big Data-systeem.

Uitwisselbaarheid en protectionisme

Een verlammend struikelpunt vormt de tegenvallende uitwisselbaarheid van Big Data-bestanden tussen verschillende systemen. Daarbij krijg je te maken met formats, wijze van opslag en protectionisme van de leveranciers.

De al eerder genoemde assets en containers kunnen daarbij al helpen. Veel beter is echter een openarchitectuur en het uitsluiten van protectionistische aanbieders die alleen hun eigen afgeschermde systeemtype promoten. Een kwaliteitseis moet gewoon zijn dat Big Data-systemen onderling kunnen uitwisselen.

Slimme zoeksystemen

Helaas zijn een niet gering aantal datasystemen gewoon dom wat betreft het doorzoeken en analyseren van gegevens. Vaste zoekpaden en alleen het herkennen van gegevens die aan selecte criteria voldoen beperken hun bruikbaarheid aanzienlijk.

Slimme zoekprocedures zoals bij webbrowsers en kunstmatige intelligentie zijn dringend gewenst. Dit zowel voor de zoekvragen en analyses van nu als die nog in de (nabije) toekomst gaan komen.

Visualisatie

Data worden pas informatie als de gebruiker / aanvrager er zicht op krijgt. Anders blijft het slechts een gegevensbrij. Hier is E-Health nu net zo sterk in. Dashboarding, coachende trackers, Geografische Gezondheids Informatie Systemen (GGIS), smart health monitoring bij de quantified zelf en healthy smarthomes, community’s en city’’s. Dat maakt de Big Data pas echt bruikbaar. Hier valt echter nog een behoorlijke inhaalslag bij de gezondheid te doen.

Privacy, regelzucht en veiligheid

Het misbruik van data vormt een reëel gevaar. De belangrijkste knelpunten in deze zijn:

Het openbaar worden van persoonlijke gegevens onder de hoede van zorgverleners waarvoor de eigenaar geen toestemming heeft gegeven. Onzorgvuldigheid en datalekken zijn aan de orde van de dag, Vaak echter gewoon te voorkomen.
Misbruik door de ongewenst data verzamelende commercie. De gebruiker heeft dat vaak niet in de gaten totdat er ongevraagde aanbiedingen komen.
Het gebruik van data als selectiecriteria voor verzekeringen, hypotheken en het krijgen van gemeentelijke voorzieningen. Niet alleen ethisch gezien nogal eens verwerpelijk maar ook nog vaak irrelevante criteria.
De overheid die teveel van haar burgers wil weten. Je weet maar nooit of je deze data nog nodig hebt en Big Brother is watching you.
Sabotage en hachking.

Dit vraagt gewoon om algemeen geaccepteerde sluitende afspraken.

Al met al zijn data pas echt big als daar ook verantwoord en flexibel mee om gegaan wordt. Het doel heiligt niet de middelen en omgekeerd de middelen niet het doel. Big Data zijn bedoeld als een grote vooruitgang bij de effectieve preventieve en curatieve gezondheidszorg op maat. En de burger wil best data ter beschikking stellen als deze daar ook echt meer gezondheidswinst voor terug krijgt.