Data Mining vs Data Warehousing
Prosessen med data mining refererer til en filial av datavitenskap som omhandler utvinning av mønstre fra store datasett. Disse settene kombineres deretter ved hjelp av statistiske metoder og fra kunstig intelligens. Datautvinning i moderne virksomhet er ansvarlig for transformasjon av rå data til kilder til kunstig intelligens. Dataene blir manipulert og er dermed i stand til å gi pålitelige beslutninger som kan brukes i beslutningsprosesser. Dette gir bedrifter en fordel i forhold til konkurranse fordi de har datasett som kan stole på å gi intelligens. Data mining brukes også av organisasjoner i profilering praksis, inkludert markedsføring, overvåking vitenskapelig funn og oppdagelse av svindel.
Det finnes andre vanlige termer som kan knyttes til datautvinning, for eksempel datafiske, data-mudring eller til og med data-snooping. Alle disse peker mot forskjellige variasjoner av data mining som er ansatt i sampling små datasett som kan være for små til å produsere statistiske påvirkninger. Disse er imidlertid avgjørende for å redegjøre for gyldigheten av data i bruk og kan brukes til å lage en hypotese når man ser frem til å nå en gitt datap populasjon.
Et datalager, derimot, er et begrep som beskriver et system i en organisasjon som brukes i datainnsamlingen. Disse dataene som samles inn av et datalager, er det som tilbys av transaksjonssystemene, for eksempel faktura, kjøpsposter eller lånekontoer. Datapostene er hentet fra de enkelte etableringspunkter og er samlet under ett tak som er datalageret. Disse dataene blir deretter rapportert, og rapporteringen er gjort på en aggregert måte for å hjelpe brukere av bedriftsinformasjonen ved å ta gyldige beslutninger. Datavarehuset for å jobbe effektivt krever datakilden, en database og et rapporteringsverktøy.
Det kan derfor sies at et datalager er en database som brukes til de spesifikke formålene med rapportering av data som er analysert. Disse dataene kommer fra de forskjellige systemene som er satt opp for rapportering.
For å oppnå sin funksjon opprettholder datalageret funksjonene i tre forskjellige lag. Disse inkluderer oppføring, integrasjon og tilgang. I oppstartsprosessen lagres rå data av utviklere for det eneste formålet med analyse og støtte. Integrasjonslaget brukes i integrasjon av data og å ha et abstraksjonsnivå fra brukere av dataene. Til slutt er tilgangslaget viktig for å få data ut av forskjellige brukere av data.
Både datautvinning og datalagring kan refereres til som verktøy som brukes til innsamling av forretningsinformasjon. Hovedforskjellen mellom de to er hvordan forretningsunderretningen samles inn. Det kan derfor sies at data som har vært godt lagret, er ganske enkelt å mine og dermed gjøre bruk av. Datamagasinet er dermed ansvarlig for å gjøre arbeidet med datautvinningen enklere når det gjelder å huske alle relevante data som må utvinnes på et sentralt sted, i stedet for når datautvinning må fortsette å søke data på forskjellige steder. Dette bidrar til å spare på tiden for datautvinning og ressursene som brukes i gruvedrift.
Sammendrag
Data mining er prosessen med å trekke ut data fra store datasett.
Data warehousing er prosessen med å samle alle relevante data sammen.
Både datautvinning og datalagring er forretningsmessige innsamlingsverktøy.
Data mining er spesifikk i datainnsamling.
Data warehousing er et verktøy for å spare tid og forbedre effektiviteten ved å bringe data fra forskjellige steder fra ulike områder av organisasjonen sammen.
Datavarehus har tre lag, nemlig staging, integrasjon og tilgang.