Forside Baggrund

Klumme: Big Data? Sikke noget sludder.


I denne klumme følger skribenten op på en Big Data-klumme fra sidste år. Siden er der nemlig kommet noget af en modreaktion på fænomenet. Ikke fordi, det ikke er brugbart, men begrebet giver bare ikke ret meget mening.


I august sidste år skrev jeg en klumme om Big Data og om, hvordan det muligvis var den næste revolution inden for data. Siden er der dog allerede ved at komme et tilbageslag mod Big Data. Det lader dog ikke til, at Big Data-hypen lægger sig lige med det samme. Flere og flere taler om det som ‘The Next Big Thing’, fordi vi kan bruge det til så meget forskelligt. Men efterhånden som tiden er gået, er mit spørgsmål: Hvad betyder ‘Big’?


Når man læser Nate Silvers ‘The Signal and the Noise’, begynder man at tænke lidt nærmere over Big Data-fænomenet. For dem, som ikke genkender navnet Nate Silver, så er det ham, der sidder på New York Times og forudsiger amerikanske valg med stor nøjagtighed lang tid i forvejen. Ved sidste valg forudsagde han valgmandsstemmernes præcise fordeling 100% korrekt, og befolkningsstemme-procenten ligeså. Ved sidste midtvejssvalg gjorde han det samme.


 


Kvalitet frem for kvantitet


Det har fået mange til at pege på Nate Silver som et eksempel på, hvordan Big Data kan bruges til at forudsige alt muligt. Men Silver selv skriver i ovennævnte bog, at det ikke handler om kvantiteten af data, men kvaliteten. Det handler om at have den rigtige data for at udføre den disciplin, der hedder Predictive Analytics, der spreder sig med lynets hast lige nu, hvis man spørger Silver.


Predictive Analytics er den statistiske videnskab og teknologien bag de skræddersyede reklamer, der dukker mere og mere op i vores hverdag. Når Google Now på Android kan fortælle dig, hvor lang tid det vil tage dig at køre hjem fra arbejde i myldretiden en halv time før du har behov for det (ganske uopfordret) er det fordi Google har statistik på, hvor tit du gør dette og hint, og hvor sandsynligt det er, du benytter det samme mønster igen.


Det er Predictive Analytics, der som oftest er blevet bundet sammen med Big Data. Men igen: Hvad er ‘Big’? Hvornår er et datasæt stort nok til at blive kaldt et stort datasæt? Det, der er Big Data idag er Small Data i morgen. Der var engang, hvor den mængde Commodore 64-data, der kunne være på en floppy-disk blev anset for at være ‘Big’, fordi det var mere, end der kunne være på et kassettebånd. Det er simpelthen et begreb, der er så relativt, at det mister sin mening.


 


Big Data er dine data


Blandt andet derfor, men også fordi Big Data også kan betyde Big Noise, altså ubrugelig data, der først skal sorteres fra, (eller ‘vaskes’ fra, som det hedder i fagterminologien), protesterer flere prominente hjerner nu mod buzzbegrebet Big Data. Nate Silver er én af dem.


En anden er en af Microsofts kvikkeste hjerner, der ikke arbejder direkte med software eller hardware. Danah Boyd, der er medie og informations-forsker, begyndte at arbejde for Microsoft efter hun fik en Ph.D. fra UC Berkeley, der som regel slås med Stanford om at være verdens næstbedste universitet efter Harvard.


Hos Microsoft arbejder hun med etik, netop i forbindelse med indsamling af data, som vi brugere genererer – og derfor måske har mere ret til at kontrollere, end vi siger ja til i diverse slutbrugeraftaler.


Pointen er, at det er os, der genererer disse store mængder data, og i forhold til, hvad Facebook og Google tjener på at benytte sig af disse data, burde vi måske få lidt mere ud af det end bare at få lov til at bruge deres tjenester.


 


Drop ?Big?


Det er for så vidt en anden diskussion, hovedpointen er, at Danah Boyd ligesom Nate Silver stiller sig meget kritisk overfor Big Data-begrebet. Hun peger også på problemet med at støjen vokser lige så meget som datamængden. Men hun peger også på det menneskelige element. For uanset, hvor meget data, du kan indsamle, så er det stadig en menneskehjerne, der stiller de spørgsmål, man gerne vil have dataene til at besvare. Derfor vil det ofte vil det være øjnene, der betragter, der ‘farver’ resultaterne af stor data-analyse.


Så lad os holde op med at tale om ‘Big Data’. Lad os i stedet tale om ‘Fast Data’, for hvis der er noget, vi er sikre på, så er det, at vi næppe kommer ned i hastighed, når det gælder vores evne til at samle data ind over hele verden. Eller måske skal vi bare snakke om data-analyse.


Eller blot: Data.

Annonce