De hovedforskjell mellom dataintegrasjon og ETL er at dataintegrasjon er prosessen med å kombinere data i forskjellige kilder for å gi en enhetlig visning til brukerne, mens ETL er prosessen med å pakke ut, transformere og laste inn data i et datalagringsmiljø.
Dataintegrasjon refererer til å kombinere data fra ulike kilder til meningsfull og verdifull informasjon. Derfor leverer en komplett dataintegreringsløsning pålitelige data fra forskjellige kilder. Det er en viktig prosess når man slår sammen flere systemer og konsoliderer applikasjoner for å gi en enhetlig visning av dataene. På den annen side er ETL en prosess som følges før lagring av data i et datalager. Det innebærer utpakking, transformering og lasting av data.
1. Hva er dataintegrasjon
- Definisjon, funksjonalitet
2. Hva er ETL
- Definisjon, funksjonalitet
3. Hva er forskjellen mellom dataintegrasjon og ETL
- Sammenligning av nøkkelforskjeller
Big Data, Data Integration, Data Warehouse, ETL
Dataintegrasjon er prosessen med å kombinere data som er lokalisert i forskjellige kilder for å gi en enhetlig visning til brukerne. Dataintegrasjonen varierer imidlertid fra søknad til applikasjon. I en kommersiell søknad kan to organisasjoner fusjonere sine databaser. I en vitenskapelig applikasjon som i et bioinformatikkprosjekt kan forskningsresultater fra ulike repositorier kombineres til en enkelt enhet.
Figur 1: Dataintegrasjon
En felles bruk av dataintegrasjon er også å analysere de store dataene som krever deling av store datasett i datalagring. Samlet sett er dataintegrasjon en vanskelig prosess. Videre krever det tilstrekkelig generellhet til å imøtekomme forskjellige integreringssystemer som relasjonsdatabaser, XML-databaser osv.
Et datalager er et system som hjelper til med å analysere data, lage rapporter og visualisere dem. Ledere, dataanalytikere, bedriftsanalytikere kan analysere disse dataene for å ta forretningsbeslutninger. Det er tre trinn å følge før lagring av data i et datalager. Det kalles ETL. Det innebærer datautvinning, transformasjon og innlasting i datalageret.
Det finnes ulike datakilder i en organisasjon. Det første trinnet er å trekke ut data fra disse forskjellige kildene. Datautvinning skal imidlertid ikke påvirke ytelsen eller responstiden til den opprinnelige datakilden. Full utvinning og delvis utvinning er to metoder for å trekke ut data.
Det andre trinnet er transformasjon. Her blir de ekstraherte dataene renset, kartlagt og omgjort på en nyttig måte. Datautvelgelse, kartlegging og datautrensing er noen grunnleggende transformasjonsteknikker. Videre er det også noen avanserte datatransformasjonsteknikker. De standardiserer, tegnesettkonvertering og kodinghåndtering, splitting og fusjonering av felt, oppsummering og de-duplisering.
Det siste trinnet er å hente de forberedte dataene og lagre dem i datalageret. Det kalles lasting. Her kan lastingen være en innledende belastning, inkrementell belastning eller full oppfriskning. Initial lasting er å laste databasen for første gang. Incremental loading er å bruke endringene som krever periodisk, mens full forfriskning er å slette dataene i en eller flere tabeller og for å laste inn nye data.
Dataintegrasjon er prosessen med å kombinere data bosatt i forskjellige kilder og gi brukerne en samlet visning av dem. ETL er en tre-trinns funksjon av utvinning, transformering og lasting som oppstår før lagring av data i datalageret. Derfor er dette den viktigste forskjellen mellom dataintegrasjon og ETL.
Vitenskapelige og kommersielle applikasjoner bruker Dataintegrasjon mens datalagring er et program som bruker ETL. Dette er en annen forskjell mellom dataintegrasjon og ETL.
Forskjellen mellom dataintegrasjon og ETL er at dataintegrasjonen er prosessen med å kombinere data i forskjellige kilder for å gi en enhetlig visning til brukerne, mens ETL er prosessen med å utvinne, transformere og laste inn data i et datalagringsmiljø.
1. "Dataintegrasjon." Wikipedia, Wikimedia Foundation, 4. oktober 2018, Tilgjengelig her.
2. "Data Integration." Data Integrasjon | Data Integration Info, tilgjengelig her.
3. vtakkar. 3 - ETL Tutorial | Utdrag Transform and Load, Vikram Takkar, 8. september 2015, Tilgjengelig her.
Bilde Courtesy:
1. "Data Integration (KAFKA) (Case 3)" Av Carlos.Franco2018 - Eget arbeid (CC BY-SA 4.0) via Commons Wikimedia
2. "Datawarehouse referansearkitektur" Av DataZoomers - (CC BY-SA 4.0) via Commons Wikimedia