Ett datapunkt for alle kilder

12-06-2018

Hva trenger du, egentlig? Et datavarehus eller en glitrende datasjø? «Begge», sier Ingo Steins, som er deputy director of operations hos *um. Han liker dessuten å tenke et steg videre fra datasjøer til dataanalyse-plattformer.

Fra tidenes morgen, iallfall i et IT-perspektiv, har selskaper brukt datavarehus-teknologi.

– Dette er verdifull teknologi, men kostbare systemer å drifte og utvide, forklarer Steins.

Se for deg at du har samlet data i 15 til 20 år og fortsatt holder på. Da har du uten tvil havnet i situasjoner med knapphet på lagringsplass. Blant alternativene er å kjøpe ny, kostbar maskinvare og lisenser, arkivere data på rimeligere lagringsmedier eller til og med slette data. 

Nye kilder

En annen hodepine for dataingeniørene er ønsker fra andre avdelinger om å blande inn data fra vanlige kilder som nettbutikker, nettsteder og kanskje til og med offentlige kilder som Facebook og LinkedIn.

– Inn i ingeniørenes elskede og striglete datavarehus ønsker kolleger å lagre alle mulige ustrukturerte data som til og med kan ha feil eller virus. Dette er verken fristende eller særlig smart å gjøre, sier han.

Løsningen er ikke å droppe datavarehus-strategien, men utvide den med big data (stordata)-systemer.

Hold deg oppdatert! Få invitasjoner til arrangementer, nyheter, blogginnlegg og ekspertartikler direkte i din innboks:

En infrastruktur i tillegg

“Datasjøer erstatter ingenting, men er et nytt tilleggselement for virksomhetens datainfrastruktur som løser nye oppgaver. Datavarehus er fortsatt svært viktig for virksomhetene, men ikke like fleksible som datasjøene, sier Stein.

Han er innforstått med at dette er gammelt nytt for enhver dataingeniør, men fortsatt ikke for ledere og beslutningstakere flest – disse folka som alltid ønsker å kutte datavarehuskostnadene bort fra budsjettet.

I datasjøer kan du lagre informasjon fra en mengde ulike kilder inkludert ERP, regneark, csv, XML, doc, pdf og til og med e-post.

– Det ville ta uker og måneder å strukturere denne type informasjon i datavarehus, i og med at teknologien er bygget på strengt strukturerte filsystemer. Jobben innebærer dessuten omfattende og komplisert restrukturering av databaseoppsett. I stordata-systemer kan du enkelt kopiere data inn i datasjøene og prosessere dem senere.

btn-top

Stordata-hengemyrer

– Dette kan virke som en drøm. Og det er det, fortsetter Steins.

– Men, det kan også utvikle seg til ditt verste mareritt. Struktur og dokumentasjon er nøkkelen også når det gjelder datainnsjøer. Du må må ganske enkelt vite hva som er i sjøen. I motsatt fall så får du ikke en vakker sjø, men noe mer i retning av en datahengemyr.

I datainnsjø-terminologi blir rådata betegnet som landingssonen og startpunktet for analyse. Ut i fra landingssonen vil dataingeniører forberede dataene for analyse ved å ta dem gjennom en renselses og anrikningsfase (hvor de til og med sletter saker og ting).

– Det går faktisk ikke å gi generelle oppskrifter for hvordan du skal håndtere dataene eller forklare hva sluttresultatet vil bli. Dette er helt avhengig av hvilke typer datakilder du har, hva du ønsker å oppnå, hvilken type virksomhet du driver og lignende problemstillinger, forklarer Steins.

– Men det som er sikkert, er at du kan bruke dataene for statistikk- eller analyseformål, fôre dem tilbake i produksjonssystemet ditt eller til og med laste dem opp i datavarehus.

Å utvide et datavarehus tar vanligvis mye tid inkludert å supplere maskinparken med ny hardware og splitte data manuelt. Datasjøer er ektefødte barn av den distribuerte verden hvor du kjapt kan skalere data- og prosesseringssystemer – faktisk med tusenvis av maskiner – i den offentlige skyen.

btn-top

Ett datapunkt

– Datasjøer er et hypet begrep med uklart innhold for mange. Vi foretrekker begrepet dataanalyseplattform. Dataanalyseplattform går utover datasjøer-begrepet og inkluderer datavarehus og andre systemer – plattformen utgjør ett felles datapunkt for ulike datakilder i virksomheten din, sier Steins.

– Vi foretrekker begrepet dataanalyseplattform fremfor datasjøer. En dataanalyseplattform utgjør ett felles datapunkt for alle de ulike datakildene i virksomheten din, sier Ingo Steins, deputy director for operations i The The Unbelievable Machine Company (*UM) som inngår i Basefarm-gruppen.

btn-top

Ønsker du mer informasjon?

btn-top