Forskjellen mellom lineær regresjon og logistisk regresjon

De hovedforskjell mellom lineær regresjon og logistisk regresjon er at lineær regresjon brukes til å forutsi en kontinuerlig verdi mens logistisk regresjon brukes til å forutse en diskret verdi.

Maskininnlæringssystemer kan forutsi fremtidige resultater basert på opplæring av tidligere innganger. Det er to hovedtyper maskininnlæring kalt overvåket læring og uovervåket læring. Regresjon og klassifisering faller under veiledet læring, mens klynging faller under uovervåket læring. Overordnede læringalgoritmer bruker merket data for å trene datasettet. Lineær regresjon og logistisk regresjon er to typer overvåkede læringalgoritmer. Linjær regresjon brukes når den avhengige variabelen er kontinuerlig, og modellen er lineær. Logistisk regresjon brukes når den avhengige variabelen er diskret, og modellen er ikke-lineær.

Nøkkelområder dekket

1. Hva er lineær regresjon
     - Definisjon, funksjonalitet
2. Hva er logistisk regresjon
     - Definisjon, funksjonalitet
3. Forskjellen mellom lineær regresjon og logistisk regresjon
     - Sammenligning av nøkkelforskjeller

Nøkkelord

Lineær regresjon, logistisk regresjon, maskinlæring

Hva er lineær regresjon

Lineær regresjon finner forholdet mellom uavhengige og avhengige variabler. Begge er sammenhengende. Den uavhengige variabelen er variabelen som ikke endres av de andre variablene. Det er betegnet med x. Det kan også være flere uavhengige variabler som x1, x2, x3, etc. Dependent variabel endres i henhold til den uavhengige variabelen, og er betegnet av y.

Når det er en uavhengig variabel, er regresjonsligningen som følger.

y = b0 + b1x

For eksempel, anta at x representerer nedbør og y representerer avkastningsutbyttet.

Figur 1: Linjær regresjon

Datasettet vil se ut ovenfor. Deretter velges en linje som dekker de fleste datapunkter. Denne linjen representerer de forventede verdiene.

Figur 2: Avstand mellom de faktiske datapunktene og de anslåtte verdiene

Deretter finner avstanden fra hvert data til linjen som vist i grafen ovenfor. Dette er avstanden mellom den faktiske verdien og den forutsagte verdien. Denne avstanden er også kjent som feilen eller residualene. Den beste passformen skal ha minst summen av felter. Når ny nedbørsverdi er gitt (x), er det mulig å finne tilsvarende avkastningsutbytte (y) ved hjelp av denne linjen.  

I den virkelige verden kan det være flere uavhengige variabler (x1, x2, x3 ...). Dette kalles for flere lineære regresjoner. Den multiple lineære regresjonsligningen er som følger.

Hva er logistisk regresjon

Logistisk regresjon kan brukes til å klassifisere to klasser. Det er også kjent som binær klassifisering.  Kontrollerer om en e-post er spam eller ikke forutsier om en kunde vil kjøpe et produkt eller ikke, forutsi om det er mulig å få en kampanje eller ikke, er noen andre eksempler på logistisk regresjon.

Figur 3: Logistisk regresjon

Anta at antall timer en student studerte per dag er den uavhengige variabelen. Avhengig av det, er sannsynligheten for å bestå en eksamen beregnet. Verdien 0,5 regnes som terskelen. Når det nye antall timer er gitt, er det mulig å finne den tilsvarende sannsynligheten for å bestå eksamenen ved hjelp av denne grafen. Hvis sannsynligheten er over 0,5, anses den som 1 eller pass. Hvis sannsynligheten er under 0,5, så regnes det som 0 eller mislykkes.

Bruk av den lineære regresjonsligningen til sigmoid-funksjonen vil gi den logistiske regresjonsligningen.

Sigmoid-funksjonen er    

Et annet viktig poeng å merke seg er at logistisk regresjon bare gjelder for å klassifisere 2 klasser. Det brukes ikke til multiklassklassifisering.

Forskjellen mellom lineær regresjon og logistisk regresjon

Definisjon

Lineær regresjon er en lineær tilnærming som modellerer forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. I motsetning til dette er logistisk regresjon en statistisk modell som forutsier sannsynligheten for et utfall som kun kan ha to verdier.

bruk

Mens lineær regresjon brukes til å løse regresjonsproblemer, brukes logistisk regresjon til å løse klassifikasjonsproblemer (binær klassifisering).

metodikk

Lineær regresjon anslår den avhengige variabelen når det er en endring i den uavhengige variabelen. Logistisk regresjon beregner muligheten for at en hendelse oppstår. Dette er en viktig forskjell mellom lineær regresjon og logistisk regresjon.

Output Value

I lineær regresjon er også utgangsverdien kontinuerlig. I logistisk regresjon er utdataverdien diskret.

Modell

Selv om lineær regresjon bruker en rett linje, bruker logistisk regresjon en S-kurve eller sigmoid-funksjon. Dette er en annen viktig forskjell mellom lineær regresjon og logistisk regresjon.

eksempler

Forutsi BNP i et land, forutsi produktpris, forutsi husets salgspris, er poengsummen noen eksempler på lineær regresjon. Forutsi om en epost er spam eller ikke, forutsi om kredittkorttransaksjonen er svindel eller ikke, forutsi om en kunde vil ta et lån eller ikke, er noen eksempler på logistisk regresjon.

Konklusjon

Forskjellen mellom lineær regresjon og logistisk regresjon er at lineær regresjon brukes til å forutsi en kontinuerlig verdi mens logistisk regresjon brukes til å forutsi en diskret verdi. Kort fortalt brukes lineær regresjon for regresjon, mens logistisk regresjon brukes til klassifisering.

Henvisning:

1. Linjær regresjonsanalyse | Lineær regresjon i Python | Maskininlæringsalgoritmer | Simplilearn, 26. mars 2018, Tilgjengelig her.
2. Logistisk regresjon | Logistisk regresjon i Python | Maskininlæringsalgoritmer | Simplilearn, 22. mars 2018, Tilgjengelig her.

Bilde Courtesy:

1. "Lineær regresjon" Av Sewaqu - Eget arbeid, Public Domain) via Commons Wikimedia
2. "Residuals for Linear Regression Fit" Av Thomas.haslwanter - Eget arbeid (CC BY-SA 3.0) via Commons Wikimedia
3. "Logistisk kurve" Av Qef (talk) - Lagd fra grunnen av gnuplot (Public Domain) via Commons Wikimedia