Wat is Big Data

De voornaamste vraag in het Metro interview was eigenlijk “leg eens uit voor de “leek” wat Big Data nu exact is”. Daar kan natuurlijk een lang en een kort antwoord op gegeven worden. In deze post leg ik snel en beknopt uit wat Big Data nu exact is.

Big Data is een grote verzameling van digitale data. Deze data is opgeslagen in een enorme database. Volgens de norm is Big Data zoveel data dat de database met deze data niet meer te beheren is met normale database management systemen. Big Data kan bestaan uit allerlei samenhangende data of volledig van elkaar losstaande data.

Dus wat is Big Data? Big Data is simpelweg een enorme hoeveelheid digitale data.

Naast dat Big Data heel veel data is zijn er veel verschillende definities van Big Data. Een van de beste definities is van Gartner. Gartner zegt als Data voldoet aan 2 of 3 van onderstaande eigenschappen dan spreken we over Big Data:

Grote hoeveelheden data
Data komt wordt op hoge snelheid verzameld en/of opgevraagd
De diversiteit van de data, dus ongestructureerde data

Uiteraard bestaat Big Data al veel langer maar dan vaak in de vorm van een offline archief. Als we kijken naar offline data dan zou een bibliotheek als Offline Big Data kunnen worden aangemerkt. Een boekenkast of een encyclopedie dan weer niet.

Hoe komt men aan deze Big Data?

Deze data wordt uit vele soorten bronnen gehaald. Bedrijven en overheden slaan enorme hoeveelheden data op en bewaren deze relatief lang. Maar ook geven mensen zelf veel meer data bloot. Denk aan alle data die opgeslagen wordt op cloud diensten en op het internet. Alle afbeeldingen, opmerkingen en video’s die te vinden zijn over mensen op social media en op soortgelijke websites. Meningen die we vrijgeven middels enquêtes. Afbeeldingen en video’s die gemaakt worden in openbare gelegenheden. Trackers zoals RFID en browser cookies. Maar denk ook aan moderne apparaten die veel data doorsturen zoals slimme meters, smart TV’s, telefoons etc.

Het gros van de Big Data wordt dus door ons zelf vrijgegeven en kan dus worden verzameld.

Weetje: Iemand die Big Data verzameld noemen we een “dataminer”, Big Data wordt opgeslagen in een “datawarehouse” en iemand die deze Big Data statistisch analyseert noemen we een “datascientist”.

Het gevaar van Big Data

Het gevaar van Big Data is dat er weinig controle is op deze data. Wie verzameld welke data? Met welk doel wordt deze data verzameld? Wat wordt er met deze data gedaan? Etc.

Als consument weet je dus niet wie welke data in handen heeft. Het ziekenhuis heeft een deel data, de overheid heeft een deel data maar deze data komt misschien weer samen bij een ziektekostenverzekeraar. Door diensten te bundelen ontstaan er nog grotere data collecties. Big Data wordt het meeste gebruikt en geanalyseerd voor marketingdoeleinden. Als voorbeeld zouden we Facebook kunnen gebruiken. Je likes op Facebook geven al een aardig beeld van jou als persoon. Facebook marketeers kunnen dus een like profiel van je opstellen en zo gerichte aanbiedingen doen. Zeker als je likeprofiel aangevuld wordt met data uit internetcookies zoals je vaak bezochte webshops. Big Data wordt ook veel gebruikt en verzameld voor wetenschappelijk onderzoek en ter bevordering van de openbare veiligheid (AIVD / MIVD). Denk bij die laatste weer aan de sleepwet / tapwet waarbij de term Big Data echt op zijn plek is!

Je weet als consument dus ook niet wie jou data doorstuurt of doorverkoopt en waar jou verzamelde data over 10 jaar opgeslagen is. Wat ooit opgeslagen was in 1 database (bij Big Data praat men liever over een databestand) kan over 10 jaar aanwezig zijn in 25 databestanden. Wie heeft er inzicht in deze bestanden en hoe worden die bestanden beveiligd? En wat als zo’n databestand een keer gehackt wordt? Waar blijft je data dan en wie kan jou hiermee chanteren?

We hebben dus te maken met:

Variëteit in data (verschillende bronnen kunnen verschillende of verouderde data bevatten)
Kwaliteit van de data (hoe betrouwbaar is de ene bron t.o.v. de andere bron)
Complexiteit van de data (is de data uit verschillende bronnen met elkaar te combineren)

In Engeland noemen we deze eigenschappen de “V’s” (Variability, Veracity, Variatie).

Veiligheid

Omdat veiligheid een belangrijk aspect is bij Big Data kan het volgens de Wetenschappelijke Raad voor het Regeringsbeleid niet uitblijven dat de huidige wet- en regelgeving wordt versterkt om fundamentele rechten en vrijheden van individuen te waarborgen. Buiten het feit dat er regels moeten komen voor het verzamelen van data moeten er ook strenge regels komen voor de analyse en het gebruik van Big Data. Wie mag deze data gaan analyseren? Heeft deze persoon zwijgplicht? Is de analyse in het belang van het individu, algemene veiligheid of alleen in het belang van commerciële doeleinden?

Daarnaast denk ik dat essentieel nagedacht moet worden over de beveiliging van deze datasets.

Wat kun je er zelf aan doen?

We zijn allemaal zo gewend aan onze telefoon, voice bestuurde apparaten, social media en internetgebruik dat het lastig wordt om hier als individu zelf iets tegen te doen. Belangrijk is simpelweg de bewustwording van het feit dat alles wat je online zet en alles wat je doorstuurt verzameld en opgeslagen wordt. Dat dit geanalyseerd wordt en dat deze data misschien over een tijd op vele verschillende locaties staat waar je zelf geen controle over hebt.

Probeer dus zelf te overwegen wat je prijs wilt geven. Misschien moet je die foto van je dochter in badpak op het strand maar even niet online zetten. Kan dit mogelijk consequenties hebben? Wordt deze foto later niet terug gevonden op de computer van een kinderporno liefhebber? Ik weet het, dit is een vergaand en ernstig voorbeeld maar in theorie is het mogelijk. Eens online betekend dat het nooit meer echt verwijderd kan worden.

Of misschien is een zogenaamde “slimme meter” toch geen goed idee. Wat als een onbetrouwbaar persoon (medewerker of niet) ziet dat de meter een paar dagen niets meer doorstuurt en dat dit een afwijking is van het normale patroon. Dit zou betekenen dat je wellicht een weekje op vakantie bent en dat je huis op dat moment onbeheerd is. Zou dit patroon jaarlijks terugkomen en dus inzichtelijk worden voor een Big Data analist (owja, datascientist 🙂 ) dan weet deze exact wanneer je het komende jaar op vakantie bent.

De simpelste data kan na analyse veel vrijgeven over jou als persoon. Ben dus voorzichtig met het delen van al je data. De kans dat er iets ernstigs mee gebeurt is niet groot maar zeker groter dan dat je de data helemaal niet zou delen. Bewustwording is de sleutel…

De Big Data oplossing

We weten allemaal dat Big Data bestaat en dat dit in de toekomst alleen maar grotere proporties aanneemt. Ik denk dat de enige logische oplossing voor het in stand houden van Big Data een gecentraliseerde Big Data omgeving is waar alle Big Data opgeslagen wordt. Deze omgeving moet bestaan uit een grote bak met ongestructureerde Big Data die alleen geanalyseerd mag worden door gekwalificeerd personeel. Na analyse verdwijnt deze Big Data in een grote database die op verschillende niveaus inzichtelijk is voor iedereen en op andere niveaus alleen voor mensen met een zwijgplicht en een bepaalde functie. Daarnaast zou je individuen toegang kunnen geven tot hun persoonlijke Big Data waarbij men deze kan controleren op juistheid en het verzoek tot verwijdering van deze data kan indienen.

Op deze manier hebben we slechts 1 Big Data set te bewaken en te beveiligen. Deze dataset zou nooit inzichtelijk mogen zijn voor andere overheden en mag ook nooit doorverkocht worden.

Ik weet dat dit geen satisfier is voor veel gebruikers van Big Data zoals marketeers die vervolgens hun eigen “net niet” Big Data sets zullen verzamelen en doorverkopen (mits wet- en regelgeving dit zou verbieden). En ook is deze oplossing niet zaligmakend voor ieder individu. Ik denk echter wel dat een gecentraliseerde en gereguleerde Big Data database ons o.a. de volgende voordelen op zou leveren:

Betere fysieke beveiliging
Up-to-date data
Inzicht in verzamelde data door individuen
Inzicht in alle data door veiligheidsdiensten
Centrale en betrouwbare bron
Registratie van personen die in aanraking is geweest met bepaalde data
Verwijdering van data mogelijk voor individuen
Voorkomen van inzichtelijkheid door andere overheden
Voorkomen dat data doorverkocht wordt
etc…

Natuurlijk roept een centrale Big Data dataset ook de nodige vragen op en brengt het veel problemen met zich mee. Persoonlijk denk ik echter dat we op de huidige manier niet door kunnen gaan met het verzamelen van data. Dit zal op lange termijn nog meer problemen opleveren.

Food for thought…

Vond je het een interessant of leuk artikel? Overweeg s.v.p. of je me wilt sponsoren met een bakje arbeidsvitaminen. Want met koffie is immers alles beter :-)

Koop een bak koffie voor me!