Data Mining vs OLAP
Både data mining og OLAP er to av de vanlige Business Intelligence (BI) teknologiene. Forretningsintelligens refererer til datamaskinbaserte metoder for å identifisere og utvinne nyttig informasjon fra bedriftsdata. Data mining er feltet datavitenskap som omhandler utpakking av interessante mønstre fra store datamengder. Den kombinerer mange metoder fra kunstig intelligens, statistikk og databasestyring. OLAP (online analytisk behandling) som navnet antyder, er en kompilering av måter å spørre multidimensjonale databaser.
Data mining er også kjent som Knowledge Discovery in data (KDD). Som nevnt ovenfor er det et felt av datavitenskap, som omhandler utvinning av tidligere ukjente og interessante opplysninger fra rå data. På grunn av den eksponentielle dataveksten, særlig på områder som næringsliv, har datautvinning blitt et svært viktig verktøy for å konvertere denne store mengden data til forretningsinformasjon, da manuell utvinning av mønstre har blitt tilsynelatende umulig de siste tiårene. For eksempel er det for tiden brukt til ulike applikasjoner som sosial nettverksanalyse, bedrageringsdeteksjon og markedsføring. Data mining handler vanligvis om følgende fire oppgaver: clustering, klassifisering, regresjon og forening. Clustering identifiserer like grupper fra ustrukturerte data. Klassifisering er læringsregler som kan brukes på nye data og vil typisk inkludere følgende trinn: forhåndsbehandling av data, utforming av modellering, læring / funksjonsvalg og evaluering / validering. Regresjon er å finne funksjoner med minimal feil på modelldata. Og foreningen ser etter forhold mellom variabler. Data mining er vanligvis brukt til å svare på spørsmål som de viktigste produktene som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart.
OLAP er en klasse av systemer, som gir svar på flerdimensjonale spørringer. Vanligvis brukes OLAP for markedsføring, budsjettering, prognoser og lignende applikasjoner. Det er selvsagt at databasene som brukes for OLAP, er konfigurert for komplekse og ad hoc-spørringer med en rask ytelse i tankene. Vanligvis brukes en matrise til å vise utgangen av en OLAP. Rynene og kolonnene dannes av dimensjonene til spørringen. De bruker ofte metoder for aggregering på flere tabeller for å få oppsummeringer. For eksempel kan det brukes til å finne ut om salget av dette året i Wal-Mart sammenlignet med fjoråret? Hva er prognosen for salget i neste kvartal? Hva kan man si om trenden ved å se på prosentandringen?
Selv om det er åpenbart at Data mining og OLAP er like fordi de opererer på data for å få etterretning, kommer hovedforskjellen fra hvordan de opererer på data. OLAP-verktøy gir flerdimensjonal dataanalyse, og de gir oppsummeringer av dataene, men kontraherende er datautvinning fokusert på forhold, mønstre og påvirkninger i datasettet. Det er en OLAP-avtale med aggregering, som koker ned til driften av data via "tillegg", men data mining tilsvarer "divisjon". Andre bemerkelsesverdige forskjeller er at OLAP, mens data mining verktøyer modelldata og returnerer handlinger, vil gjennomføre sammenligning og kontrastteknikker langs forretningsdimensjonen i sanntid.