Data warehousing er et system utviklet for å lagre og organisere data i sentrale arkiver, inkludert data fra andre kilder. Det er et kjernekonsept av forretningsmessig intelligens i relationsdatabase-modeller som benytter analytiske teknikker for å integrere forretningsdata i en sentral database.
Det finnes to vanlige arkitektoniske modeller som brukes i datalagring:
Begge er de vanlige flerdimensjonale databasemodellene som brukes til å møte behovene til store databaser for analytiske formål i ekte datalager.
Vi presenterer en objektiv sammenligning mellom de to for bedre å forstå hvilken som er bedre enn den andre.
Det er den vanligste og allment aksepterte arkitektoniske modellen som brukes til å utvikle datalager og data mars hvor dataene er organisert i fakta og dimensjoner. Det er den enkleste arkitektoniske modellen der en faktabord brukes til å referere til flere dimensjonstabeller, etterligne et stjernemønster.
Som navnet antyder, ligner diagrammet en stjerne med faktabordet i midten og flere dimensjonstabeller som utstråler det, og skaper en stjerne som mønster.
Det er også kjent som Star Join Schema, og det lagrer alle attributter av en dimensjon i en denormalisert faktabord for å raskt navigere gjennom store flerdimensjonale datasett som regner for hurtige spørringsresponser.
Det er en forlengelse av stjerneskjemaet med ekstra funksjonalitet. I motsetning til stjerneskjema normaliseres dimensjonstabellene i snøflakskjema i flere relaterte tabeller.
Den arkitektoniske modellen representerer et logisk arrangement av tabeller i et mange-til-ett-forholdshierarki der flere dimensjonstabeller blir normalisert i underdimensjonstabeller, som ligner et snøflak som mønster, derav navnet.
Det er en mer komplisert versjon av stjerneskjemaet med flere sammenhenger mellom dimensjonstabeller som står for langsom behandlingstid for å hente data, noe som betyr langsomme svarresponsider. Det minimerer data redundans som igjen forbedrer søksytelsen.
I relasjonsdatabaser er stjerneskjema den enkleste arkitektoniske modellen som brukes til å utvikle datalager og flerdimensjonal dataark. Som navnet antyder, ligner modellen en stjerne med punkter som utstråler fra midten, og betyr at faktabordet er sentrum og punktene er dimensjonstabellene. Som andre dimensjonsmodeller består den av data i form av fakta og dimensjoner. Snowflake skjema er derimot den mer komplekse arkitektoniske modellen som refererer til en flerdimensjonal database med logisk arrangement av tabeller i form av en snøfnugg.
Snøflakeskjemaet er ganske lik stjerneskjemaet, med unntak av at det kan ha mer enn en dimensjonstabell som videre normaliseres i flere tilhørende tabeller, referert til som underdimensjonstabeller. Det representerer flere nivåer av relasjoner som grener ut i et snøflaksmønster. Star-skjema lagrer imidlertid alle relaterte attributter av en dimensjon til en denormalisert dimensjonstabell som gjør det enkelt å forstå og håndtere enklere spørringer.
Et dimensjonstabell kan ikke inneholde dupliserte rader i relasjonsdatabase-modeller for det enkle faktum at det kan opprette tvetydigheter i gjenfinning. Hver tabell skal ha en kolonne eller en kombinasjon av kolonner kalt primærnøkkelen som unikt identifiserer alle tabelloppføringer. En fremmednøkkel er en kolonne eller en gruppe kolonner som gir en kobling mellom to tabeller. I stjerneskjema har hver dimensjonstabell en primærnøkkel som er relatert til en fremmednøkkel i faktabordet. Virksomhetshierarkiet i et snøflakskjema er representert ved et primærnøkkel / utenlandsk nøkkelforhold mellom dimensjonstabeller.
Hovedforskjellen mellom de to relasjonelle databasemodellene er normalisering. Dimensjonstabellene i stjerneskjema er ikke normalisert, noe som betyr at forretningsmodellen vil bruke relativt mer plass til å lagre dimensjonstabeller, og mer plass betyr mer overflødige poster som til slutt vil føre til inkonsekvens. Snowflake skjema, derimot, minimerer data redundans fordi dimensjon tabeller er normalisert som står for langt mindre redundante poster. Virksomhetshierarkiet og dets dimensjoner er bevaret gjennom referanseintegritet, noe som betyr at relasjoner kan oppdateres uavhengig i datalager.
Stjerneskjemaet har færre sammenhenger mellom dimensjonstabellen og faktabordet sammenlignet med det av snøflakeskjemaet som har flere sammenføyninger som står for mindre søkekompleksitet. Fordi dimensjonene i et stjerneskjema er koblet gjennom et sentralt faktabord, har det klare samlingsveier som betyr rask svarrespons og rask responstid betyr bedre ytelse. Snowflake-skjemaet har høyere antall tilkoblinger så lengre spørringsresponsider som resulterer i mer komplekse spørsmål som i siste instans kompromitterer ytelsen.
Begge er de vanligste og allment vedtatte arkitektoniske modellene som brukes til å utvikle databasepakker og data mars. Hver forretningsmodell har imidlertid en god andel av fordeler og ulemper. Mens stjerneskjema er den enkleste flerdimensjonale modellen som brukes til å organisere data i fakta og dimensjoner, er det ideelt for å utvikle data mars som involverer mindre komplekse relasjoner. Snowflake-skjema er en logisk fremstilling av tabeller i en flerdimensjonal database der dimensjonene lagres i underdimensjonstabeller. Hovedforskjellen mellom de to er normalisering. Dimensjonstabellene i et snøflakskjema er fullstendig normalisert i flere oppslagstabeller, mens i et stjerneskjema deformaliseres dimensjonstabellene i en sentral faktabord.