Hovedforskjellen mellom datautvinning og datalagring er det Data mining er prosessen med å identifisere mønstre fra en stor mengde data mens datalagring er prosessen med å integrere data fra flere datakilder til en sentral plassering.
Data mining er prosessen med å oppdage mønstre i store datasett. Det bruker ulike teknikker som klassifisering, regresjon, etc. for å ta forretningsbeslutninger. På den annen side er datalagring prosessen med å utvinne, transformere og laste data fra flere datakilder til datalageret. Data mining teknikker kan brukes til et datalager for å oppdage nyttige mønstre.
1. Hva er Data Mining
- Definisjon, funksjonalitet
2. Hva er datalagring
- Definisjon, funksjonalitet
3. Forskjellen mellom data mining og datalagring
- Sammenligning av nøkkelforskjeller
Data Mining, Data Warehousing, Data
Data mining er prosessen med å oppdage mønstrene i et stort datasett. Data mining utvider med andre ord nye mønstre, forhold mellom dataenheter. Gruvedataene skal være nye, korrekte og ha potensiell bruk.
Prosessen med å utvinne nyttig informasjon fra data involverer flere trinn. Det første trinnet er datasalg. Data kommer fra flere kilder og har flere formater. Derfor er alle dataene integrert og lagret i et enkelt sted, kalt et datalager. Det andre trinnet er forbehandling. Det innebærer oppsummering, normalisering og aggregering. Disse transformasjonene bidrar til å lage data som er egnet for data mining. Det tredje trinnet er datautvinning. Det bruker teknikker eller algoritmer som clustering, regresjon, klassifisering for å trekke ut mønstre av dataene. Det fjerde trinnet er mønstervurdering. Det kontrollerer nøyaktigheten av den oppnådde utgangen. Det siste trinnet er å representere resultatene ved hjelp av grafer.
Figur 1: Data Mining
De viktigste teknikkene for å utføre datautvinning er anomalitetsdeteksjon, tilknytningsregelutvinning, gruppering, klassifisering og regresjon. For det første bidrar anomalitetsdeteksjon til å identifisere uvanlige mønstre for å forstå variasjonen i data. For det andre bidrar assosieringsregel mining til å finne interessante tilknytningsmønstre blant variabler. For det tredje identifiserer clustering klasser i data som ligner på hverandre. For det fjerde identifiserer klassifiseringen klassene som en observasjon tilhører. Endelig hjelper regressjoner å finne forholdet mellom variabler. Dette er hovedteknikker som brukes i data mining.
I en bedriftsorganisasjon finnes data i ulike databaser. For det første trekkes data fra flere kilder ut og transformeres. Da blir de lastet inn i en sentral plassering kalt et datalager. Data warehousing er prosessen med å laste data fra ulike datakilder til et datalager. Deretter kan ulike strategier brukes for å analysere data for å støtte sluttbrukere til å ta forretningsbeslutninger. Videre kan dataene i datalageret deles inn i data mars. Disse dataene har data for et bestemt sett av brukere. For eksempel kan menneskelige ressursavdelingen bruke deres data mart. Salgsavdelingen kan bruke salgsmart og så videre.
Figur 2: Datavarehus
Datavarehus er fagorientert, integrert, tidsvariant og ikke-flyktig. Et datalager er emneorientert. Det gir kunnskap om et emne enn den pågående operasjonen. Den er integrert fordi den konsoliderer data fra ulike datakilder. Lagerdata gir informasjon med hensyn til en bestemt tidsperiode. Så det er tid variant. Endelig gir det ikke-volatilitet fordi dataene ikke skal slettes eller oppdateres etter at dataene er lastet inn i lageret. Kort sagt, datalagring er gunstig for å ta beslutninger for organisasjonen.
Data mining er prosessen med å oppdage mønstre i store datasett som involverer metoder ved krysset mellom maskinlæring, statistikk og databasesystemer. Data warehousing er prosessen med å utvinne, transformere og laste data fra flere datakilder til en sentral plassering kalt et datalager.
I data mining analyseres dataene jevnlig. Dataene lagres jevnlig i datalagring.
Data mining analyserer et utvalg av data mens datalagring lagrer en stor mengde data.
Data mining oppdager mønstre i data for bedre beslutningsprosesser. På den annen side gir datalagring en mekanisme for en organisasjon å lagre en stor mengde data.
Forskjellen mellom datautvinning og datalagring er at datautvinning er prosessen med å identifisere mønstre fra en stor mengde data, mens datalagring er prosessen med å integrere data fra flere datakilder til en sentral plassering. Vanligvis utfører ingeniører datalagring, og bedriftsbrukere utfører datautvinning ved hjelp av ingeniører.
1. Data Mining ved hjelp av R | Data Mining Tutorial for Beginners | R Opplæring for nybegynnere | Edureka, Edureka !, 8. november 2017, Tilgjengelig her.
2. Data Warehouse Tutorial For Beginners | Data Warehouse Concepts | Datalagring | Edureka, Edureka !, 22. juni 2017, Tilgjengelig her.
1. "Data Mining" Av Arbeck - Eget arbeid (CC BY 3.0) via Commons Wikimedia
2. "Data warehouse overview" Av Hhultgren - Eget arbeid (Public Domain) via Commons Wikimedia