Hopp til innhold

Datavarehus

Fra Wikipedia, den frie encyklopedi

Datavarehus er en type databasesystem som søker å organisere data på en tematisk rettet måte, med andre ord å strukturere informasjon og strukturen av disse slik at de egner seg for analytisk behandling.

Opprinnelse og definisjon

[rediger | rediger kilde]

Bill Inmon kom opp med begrepet datavarehus, og regnes som feltets grunnlegger.[1][2]

A warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process.

Bill Inmon

På grunn av at såkalte kuber er en meget velegnet måte å støtte effektiv temabasert, analytisk uttrekk av data, har det dannet seg en feilaktig oppfatning av at kubemodellen er selve definisjonen av datavarehus. Dette er ikke riktig. Bill Inmon, i motsetning til Ralph Kimball, mener at grunndataene for datavarehuset skal lagres på tredje normalform, mens selve rapporteringen skal skje på kuber som henter sine data fra grunnmodellen.

To faglige leirer: Inmon og Kimball

[rediger | rediger kilde]

Mens Bill Inmon har fått æren for å oppfinne datavarehuset, har Ralph Kimball hatt mer suksess og innflytelse med sine bøker om datavarehus. Kimball hevder filosofien med at et datavarehus er unionen av en organisasjons samling av datatorg (engelsk data mart). Inmon derimot, mener at det kun finnes ett sentralt datavarehus som er delt i en normalisert grunnmodell som gir data til mange rapporteringskuber.

De to tilnærmingene har ulike fordeler. Mens Kimballs tilnærming muliggjør rask implementasjon av de enkelte temavarehusene (datatorgene) innen hvert tema, krever Inmons tilnærming mer planlegging, analyse etc.. Noe som fort kan bli kostbart og, ikke minst i stor fallhøyde. Bill Inmons tilnærming er imidlertid mer egnet for store dataintegrasjonsprosjekter, hvor en strukturert tilnærming til datakvalitet og ytelse er viktig.

De to tilnærmingene kan henholdsvis kalles sentraliserte og desentraliserte datavarehus. Sistnevnte, som er støttet av Kimballs leir, kan også betegnes som føderert datavarehus (federated datawarehouse) eller datatorg-sentrert utvikling (data mart centric development).

DM is the only viable technique for databases that are designed to support end user queries in a data warehouse. ER is very useful for the transaction capture and data administration phases of constructing a warehouse but it should be avoided for the end-user delivery.

Ralph Kimball

Denne uttalelsen har skapt mange kontroverser og misforståelser. Den viktigste er at dimensjonsmodellen nærmest er den definerende egenskapen ved et datavarehus eller temavarehus.

The nice thing about relationally designed tables as a basis for a data warehouse is that in a relational format the relational data can be reshaped and reformed into any configuration that is needed. Stated differently, when relational design is done properly and the data exists at a low level of granularity in the data warehouse, any other configuration of data can be supported – multidimensional cubes, star schemas, flat files, etc.

Bill Inmon

Den største kontroversen mellom de to leirene går på hvor vidt man skal ha en konkret grunnmodell i bunnen av en datavarehussatsing, hvor alle dataene hentes fra, eller om et datavarehus bare skal være en abstrakt union mellom alle temavarehusene.

Hybride metoder

[rediger | rediger kilde]

Kimball-metodikken kan beskrives som en ovenfra designmetode, mens Inmon-metodikken kan beskrives som en nedenfra designmetode. Det finnes også flere hybride metoder (også kalt ensemble-metoder) som prøver å eliminere dataredundans, men samtidig legge til rette for enkel dimensjonsmodellering for forretningsinnsikt.

Den hybride metoden fokalmodellering ble lansert i 1998 av svenske Patrik Lager og kolleger.[3][4]

Datahvelvmodellering er en hybrid metode som fokuserer på å kombinere langtids historikk fra ulike kildesystemer med fokus på sporing, revisjonskontroll og motstandsdyktighet mot endringer i kilde-datamodeller. Første versjon ble lansert i 2000 av amerikanske Dan Linstedt, og i 2013 ble datahvelv 2.0 lansert med noen små forbedringer.

Ankermodellering er også en entitetsbasert modelleringsteknikk, og har utvidelser for å arbeide med temporale data. Den er strengt formalisert, og er godt egnet for informasjon som over tid endrer både struktur og innhold. Rammeverket ble presentert i 2008, og er oppfunnet av svenskene Lars Rönnbäck og Olle Regardt.

Aktiviteter knyttet til datavarehus

[rediger | rediger kilde]

Datapopulasjon

[rediger | rediger kilde]

De fleste datavarehus lastes daglig, ukentlig eller månedlig, og i noen tilfeller nær sanntid. For å holde kontroll med kompleksiteten i lastemønsteret brukes vanligvis såkalte ETL verktøy. ETL prosessen er normalt kjerneaktiviteten i forvaltning av datavarehus løsninger. I de senere år har ETL prosessen gjennomgått en spesialisering til egne aktiviteter for håndtering av metadata, datakvalitet, dataprofilering, dataauditing og flere andre områder.

Behovsanalyse

[rediger | rediger kilde]

Mange datavarehusprosjekter har egne aktiviteter knyttet til behovsanalyse, hvor rapporteringsbehov identifiseres. Denne aktiviteten søker å konsolidere behov i organisasjonen, slik at man kan definere og strukturere forretningsbegreper som i sin tur danner grunnlaget for å definere forskjellige rapporteringskuber eller datamarts (temavarehus på norsk).

Dimensjonsmodellering

[rediger | rediger kilde]

Dimensjonsmodellering er å definere og modellere kuber, og er en av kjerneaktivitetene i datavarehussammenheng.

Referanser

[rediger | rediger kilde]
  1. ^ Jill Dyché (2000). e-Data: turning data into information with data warehousing. Addison-Wesley. p.323.
  2. ^ Alexander Factor (2001). Analyzing Application Service Providers. Prentice Hall PTR. p.290.
  3. ^ «ToM Focal – Introduction to Focal implementation | Top of Minds - Specialisterna med fokus på kompetens» (på svensk). Besøkt 28. april 2024. 
  4. ^ «INTRODUCTION TO THE FOCAL FRAMEWORK How to Model, Design and Code in a Focal Data Warehouse» (PDF). 

[1]