Forskjell mellom overvåket og unsupervised maskinlæring

Nøkkelforskjell - Overvåket vs unsupervised Maskinlæring
 

Overvåket læring og uovervåket læring er to kjernebegreper for maskinlæring. Overvåket læring er en maskinopplæringsoppgave for å lære en funksjon som kartlegger en inngang til en utgang basert på eksempelvis input-output-parene. Unservervised Learning er maskinlæringsoppgaven for å avlede en funksjon for å beskrive skjult struktur fra umerkede data. De nøkkelforskjell mellom overvåket og ikke-overvåket maskinlæring er det Overvåket læring bruker merket data mens uovervåket læring bruker umerket data.

Maskinlæring er et felt i datavitenskap som gir muligheten for et datasystem til å lære av data uten å være eksplisitt programmert. Det gjør det mulig å analysere dataene og forutsi mønstre i den. Det er mange bruksområder for maskinlæring. Noen av dem er ansiktsgjenkjenning, gestegenkjenning og talegjenkjenning. Det er ulike algoritmer knyttet til maskinlæring. Noen av dem er regresjon, klassifisering og clustering. De vanligste programmeringsspråkene for å utvikle maskinbaserte applikasjoner er R og Python. Andre språk som Java, C ++ og Matlab kan også brukes.

INNHOLD

1. Oversikt og nøkkelforskjell
2. Hva er veiledet læring
3. Hva er Unservervised Learning
4. Likheter mellom overvåket og unsupervised maskinlæring
5. Side ved side-sammenligning - Overvåket vs U-overvåket maskinlæring i tabellform
6. Sammendrag

Hva er veiledet læring?

I maskinlæringsbaserte systemer fungerer modellen i henhold til en algoritme. Under veiledet læring overholdes modellen. For det første er det nødvendig å trene modellen. Med den oppnådde kunnskapen kan den forutsi svar på fremtidige forekomster. Modellen er opplært med et merket datasett. Når en ut av prøvedata er gitt til systemet, kan det forutsi resultatet. Følgende er et lite utdrag fra det populære IRIS datasettet.

Ifølge tabellen ovenfor er Sepal lengde, Sepal bredde, Patel lengde, Patel bredde og Arter kalt attributter. Kolonnene er kjent som funksjoner. Én rad har data for alle attributter. Derfor kalles en rad en observasjon. Dataene kan enten være numeriske eller kategoriske. Modellen er gitt observasjonene med tilhørende artenavn som inngang. Når en ny observasjon er gitt, bør modellen forutse typen arter som den tilhører.

I veiledet læring er det algoritmer for klassifisering og regresjon. Klassifisering er prosessen med å klassifisere de merkede dataene. Modellen opprettet grenser som adskilt kategorier av data. Når nye data leveres til modellen, kan den kategorisere basert på hvor punktet eksisterer. K-Nærmeste naboer (KNN) er en klassifikasjonsmodell. Avhengig av k-verdien, er kategorien bestemt. For eksempel, når k er 5, hvis et bestemt datapunkt er nær åtte datapunkter i kategori A og seks datapunkter i kategori B, blir datapunktet klassifisert som A.

Regresjonen er prosessen med å forutse utviklingen av de forrige dataene for å forutsi utfallet av de nye dataene. Ved regresjon kan utgangen bestå av en eller flere kontinuerlige variabler. Prediksjon er gjort ved hjelp av en linje som dekker de fleste datapunkter. Den enkleste regresjonsmodellen er en lineær regresjon. Det er raskt og krever ikke innstillingsparametere som i KNN. Hvis dataene viser en parabolsk trend, er den lineære regresjonsmodellen ikke egnet.

Det er noen eksempler på veiledte læringsalgoritmer. Generelt er resultatene generert fra veiledte læringsmetoder mer nøyaktige og pålitelige fordi inntastingsdataene er velkjente og merket. Derfor må maskinen bare analysere de skjulte mønstrene.

Hva er Unservervised Learning?

I ikke-overvåket læring er modellen ikke overvåket. Modellen arbeider på egenhånd, for å forutsi utfallet. Det bruker maskinlæringsalgoritmer for å komme til konklusjoner om umerkede data. Vanligvis er de ikke-overvåkede læringalgoritmene vanskeligere enn veiledte læringalgoritmer fordi det er lite informasjon. Clustering er en type ikke-overvåket læring. Det kan brukes til å gruppere de ukjente dataene ved hjelp av algoritmer. K-middel- og tetthetsbasert klynging er to klyngalgoritmer.

k-middelalgoritme, plasserer k centroid tilfeldig for hver klynge. Deretter tildeles hvert datapunkt til nærmeste sentroid. Euklidisk avstand brukes til å beregne avstanden fra datapunktet til sentroid. Datapunktene er klassifisert i grupper. Posisjonene for k-sentroider beregnes igjen. Den nye sentroidposisjonen bestemmes av gjennomsnittet av alle poeng i gruppen. Igjen er hvert datapunkt tilordnet nærmeste sentroid. Denne prosessen gjentas til sentroider ikke lenger endres. k-mean er en rask klyngingsalgoritme, men det er ingen spesifisert initialisering av klyngepunkter. Det er også en stor variasjon av klyngemodeller basert på initialisering av klyngepunkter.

En annen clustering algoritme er Tetthet basert clustering. Det er også kjent som Density Based Spatial Clustering Applications med støy. Det fungerer ved å definere en klynge som det maksimale settet av tetthetsforbindelser. De er to parametere som brukes til tetthetsbasert klynging. De er Ɛ (epsilon) og minimumspunkter. Ɛ er maksimalradius av nabolaget. Minipunktene er det minste antall poeng i Ɛ-nabolaget for å definere en klynge. Det er noen eksempler på klynger som faller inn i uovervåket læring.

Generelt er resultatene generert fra ikke-overvåkede læringalgoritmer ikke mye nøyaktige og pålitelige fordi maskinen må definere og merke inndataene før de bestemmer de skjulte mønstrene og funksjonene.

Hva er likheten mellom overvåket og ikke-overvåket maskinlæring?

  • Både Overvåket og Unsupervised Learning er typer maskinlæring.

Hva er forskjellen mellom overvåket og unsupervised maskinlæring?

Overvåket vs Unsupervised Machine Learning

Overvåket læring er maskinopplæringsoppgaven for å lære en funksjon som kartlegger en inngang til en utgang basert på eksempelinput-utgangspar. Unservervised Learning er Maskinopplæringsoppgaven for å avlede en funksjon for å beskrive skjult struktur fra umerkede data.
 Hovedfunksjonalitet
Under veiledet læring forutsetter modellen utfallet basert på de merkede inngangsdataene. I ikke-overvåket læring forutsetter modellen utfallet uten merkede data ved å identifisere mønstrene på egenhånd.
Nøyaktigheten av resultatene
Resultatene generert fra veiledte læringsmetoder er mer nøyaktige og pålitelige. Resultatene som oppstår fra uopplærte læringsmetoder er ikke så nøyaktige og pålitelige.
Hovedalgoritmer
Det er algoritmer for regresjon og klassifisering i veiledet læring. Det er algoritmer for clustering i ikke-overvåket læring.

Sammendrag - Overvåket vs unsupervised Maskinlæring

Overvåket læring og unsupervised læring er to typer maskinlæring. Overvåket læring er maskinopplæringsoppgaven for å lære en funksjon som kartlegger en inngang til en utgang basert på eksempelinput-utgangspar. Unservervised Learning er Maskinopplæringsoppgaven for å avlede en funksjon for å beskrive skjult struktur fra umerkede data. Forskjellen mellom overvåket og ikke-overvåket maskinlæring er at overvåket læring bruker merket data mens uovervåket lener bruker umerket data.

Henvisning:

1.TheBigDataUniversity. Maskinlæring - Overvåket VS Unsupervised Learning, Cognitive Class, 13 Mar. 2017. Tilgjengelig her 
2. "Unservervised Learning." Wikipedia, Wikimedia Foundation, 20. mars 2018. Tilgjengelig her 
3. "Overvåket læring." Wikipedia, Wikimedia Foundation, 15. mars 2018. Tilgjengelig her

Bilde Courtesy:

1.'2729781 'av GDJ (offentlig domene) via pixabay