KDD vs Data mining
KDD er et felt innen datavitenskap, som inkluderer verktøy og teorier for å hjelpe mennesker med å utvinne nyttig og tidligere ukjent informasjon (dvs. kunnskap) fra store samlinger av digitaliserte data. KDD består av flere trinn, og Data Mining er en av dem. Data Mining er anvendelse av en spesifikk algoritme for å trekke ut mønstre fra data. Likevel brukes KDD og Data Mining utveksling.
Hva er KDD?
Som nevnt ovenfor er KDD et datavitenskapsområde, som omhandler utvinning av tidligere ukjente og interessante opplysninger fra rå data. KDD er hele prosessen med å forsøke å gi mening av data ved å utvikle hensiktsmessige metoder eller teknikker. Denne prosessen omhandler kartlegging av lavnivådata i andre former som er mer kompakte, abstrakte og nyttige. Dette oppnås ved å lage korte rapporter, modellere prosessen med å generere data og utvikle prediktive modeller som kan forutsi fremtidige saker. På grunn av den eksponensielle dataveksten, særlig på områder som næringsliv, har KDD blitt en svært viktig prosess for å konvertere denne store mengden data til forretningsinformasjon, da manuell utvinning av mønstre har blitt tilsynelatende umulig de siste tiårene. For eksempel er det for tiden blitt brukt til ulike applikasjoner som sosial nettverksanalyse, bedrageringsdeteksjon, vitenskap, investering, produksjon, telekommunikasjon, datarensing, sport, innhenting av informasjon og i stor grad for markedsføring. KDD brukes vanligvis til å svare på spørsmål som hva er de viktigste produktene som kan bidra til å oppnå høy fortjeneste neste år i Wal-Mart ?. Denne prosessen har flere trinn. Det starter med å utvikle en forståelse av applikasjonsdomenet og målet og deretter opprette et måldatasett. Dette følges av rengjøring, forbehandling, reduksjon og projeksjon av data. Neste trinn bruker Data Mining (forklart nedenfor) for å identifisere mønster. Til slutt, oppdaget kunnskap konsolideres ved å visualisere og / eller tolke.
Hva er Data Mining?
Som nevnt ovenfor er Data Mining bare et skritt i den generelle KDD-prosessen. Det er to viktige data mining mål som definert av målet for søknaden, og de er nemlig verifisering eller oppdagelse. Verifisering verifiserer brukerens hypotese om data, mens oppdagelsen automatisk finner interessante mønstre. Det er fire viktige data mining oppgave: clustering, klassifisering, regresjon og forening (oppsummering). Clustering identifiserer like grupper fra ustrukturerte data. Klassifisering er læringsregler som kan brukes på nye data. Regresjon er å finne funksjoner med minimal feil på modelldata. Og foreningen ser etter forhold mellom variabler. Deretter må den spesifikke data mining algoritmen velges. Avhengig av målet kan forskjellige algoritmer som lineær regresjon, logistisk regresjon, beslutningstrender og Naïve Bayes velges. Deretter søkes mønstre av interesse for en eller flere representasjonsformer. Endelig evalueres modellene enten ved hjelp av prediktiv nøyaktighet eller forståelighet.
Hva er forskjellen mellom KDD og Data mining?
Selv om de to begrepene KDD og Data Mining er mye brukt om hverandre, refererer de til to relaterte, men litt forskjellige begreper. KDD er den overordnede prosessen med å utvinne kunnskap fra data mens Data Mining er et skritt inne i KDD-prosessen, som omhandler å identifisere mønstre i data. Med andre ord, Data Mining er bare anvendelsen av en bestemt algoritme basert på det overordnede målet for KDD-prosessen.