Vandtortur - En analyseanalogi går en bro for langt

dropanalyse

Data, som vand, findes i mange former. Det menneskelige sind har udviklet sig til at filtrere de fleste af de data, der kommer vores vej, fordi der simpelthen er så meget af det.

Når du åbner dine øjne og ører, er data overalt. Vægfarven, lyden af ​​klimaanlægget og lugten af ​​din nabos kaffe behandles som fugtighed. Vandet er i luften hele tiden, men det er ikke nyttigt at være meget opmærksom på det.

Når vand kondenserer til tåge, tvinger det dig til at se det og vanskeliggør forståelsen af ​​verden omkring dig. Ufuldstændige datasæt, ødelagte data, dårlig videnskab, falske konklusioner og kognitiv bias får dig til at miste din vej i tågen.

Data falder som regn. Når der bare er lidt, er det vildt utilfredsstillende - lige nok til at gøre din bil beskidt og forvirre samtalen. Du finder dig selv at tørre stedet af på dine briller, når nogen sprøjter et tilfældigt datapunkt, hentet fra en eller anden uklar kilde.

  • Forældet vand i en lavvandet dam er farligt. Data, der indsamles fra en upålidelig forsyning, hverken renset eller normaliseret og efterladt til at blive stagnerende, kan let føre til defekte konklusioner.
  • A konstant sipling vand kan være lige nok til at fylde en kantine eller opretholde et skovøkosystem. Kun tre datapunkter (antallet af sendte e-mails, versus åbnet versus klikket) kan opretholde et marketingprogram.
  • A sundere flow data i form af en lille bæk kan bruges til badning. En kontinuerlig datastrøm muliggør benchmarking og historisk sammenligning. Optimering af destinationsside kan opnås med stabile konverteringsdata.
    A beskeden flod kan drive en mølle til at save træ eller male hvede. En anbefalingsmotor har kun brug for det pålidelige bidrag fra en håndfuld bifloder for at øge værdien af ​​indkøbsvogne.
  • A vandfald af kan drive et stort vandhjul, og en tilstrækkelig tilstrømning af information kan føre til et dynamisk indholdssystem i realtid.
  • A flod det er bredt og dybt nok kan understøtte en hel transportindustri. Nok data kan flyde pramme og fragtskibe i form af en samling cookies fra reklamenetværk, loyalitetskortprogrammedataaggregatorer og datamæglere.

Når data ankommer til forventede beløb på forventede tidspunkter, kan de fanges, kanaliseres og tages i brug. Vandingssystemer, dæmninger og reservoirer giver en følelse af kontrol og giver mulighed for opførelse af en stadigt bredere infrastruktur med kanaler, låse og dæmninger. Datalager er bygget på mindre troværdige strømme.

Renlighed er ved siden af ​​guddommelighed

Rent vand er afgørende for livets succes, kunstvanding, kørende kraftværker osv. Definitionen af ​​'rent' kan ændre sig med det formål; det er OK, hvis der er alger i vand, der afkøler et kraftværk, og det er ikke acceptabelt, hvis der er mere end 10 dele pr. mia. arsen i drikkevand.

Data er de samme. Uanset om du har en persons titel (Mr., Mrs., Ms.) i en direct mail-ansøgning er det ubetydeligt ... medmindre du sender en mail til læger. Men beskidte data vil slå dig op hver gang.

Som US Chief Data Scientist, DJ Patil, sæt det på et CTO-topmøde i første runde, “Hvis du ikke tænker på, hvordan du holder dine data rene helt fra starten, er du f ^ ¢ & ed. Jeg garanterer det. At prøve at rydde op efter det, vil i det mindste tage måneder. ”

Hvis du opvarmer vand til kogepunktet, kan det drive en hel industriel revolution. Data ser ud til at gøre det samme. Fra det øjeblik computere kunne gemme såvel som beregne, er data blevet indsamlet så hurtigt som lagerudstyret kunne oprettes for at gøre det.

Datasøen

Når dataene fra disse bifloder siver igennem møllens motorer, ender det hele i søen bag dæmningen. Da data slippes ud på en kontrolleret måde driver de dataindustriens turbiner; disse kæmpe motorer til databehandling med navne som Google og Facebook. Der vil ikke være nogen tørke her.

Og endelig er der en dyb pool af vand, der venter på, at analytikeren dykker ned. Scuba-udstyr og spydpistol i hånden, analytikeren undersøger dybet, kortlægger ny jord og opdager nye arter. Det er en meget spændende tid at være dataudforsker.

Derfor har så mange af dem dukket op til Topmøde for eMetrics siden 2002. Den næste mulighed er i Boston den 27. september til den 1. oktober 2015.

Registrering af topmødet eMetrics

A Bridge Too Far

Og hvad med datakraften til at skære den næste Grand Canyon? Hvad med issmeltning af strukturerede data? Hvordan behandler vi spildevand i en verden, der bliver mere og mere bevidst om privatlivets fred?

Det er spørgsmål til en anden gang og vand under broen.

Hvad mener du?

Dette websted bruger Akismet til at reducere spam. Lær, hvordan dine kommentardata behandles.