De hovedforskjell mellom lineær regresjon og logistisk regresjon er at lineær regresjon brukes til å forutsi en kontinuerlig verdi mens logistisk regresjon brukes til å forutse en diskret verdi.
Maskininnlæringssystemer kan forutsi fremtidige resultater basert på opplæring av tidligere innganger. Det er to hovedtyper maskininnlæring kalt overvåket læring og uovervåket læring. Regresjon og klassifisering faller under veiledet læring, mens klynging faller under uovervåket læring. Overordnede læringalgoritmer bruker merket data for å trene datasettet. Lineær regresjon og logistisk regresjon er to typer overvåkede læringalgoritmer. Linjær regresjon brukes når den avhengige variabelen er kontinuerlig, og modellen er lineær. Logistisk regresjon brukes når den avhengige variabelen er diskret, og modellen er ikke-lineær.
1. Hva er lineær regresjon
- Definisjon, funksjonalitet
2. Hva er logistisk regresjon
- Definisjon, funksjonalitet
3. Forskjellen mellom lineær regresjon og logistisk regresjon
- Sammenligning av nøkkelforskjeller
Lineær regresjon, logistisk regresjon, maskinlæring
Lineær regresjon finner forholdet mellom uavhengige og avhengige variabler. Begge er sammenhengende. Den uavhengige variabelen er variabelen som ikke endres av de andre variablene. Det er betegnet med x. Det kan også være flere uavhengige variabler som x1, x2, x3, etc. Dependent variabel endres i henhold til den uavhengige variabelen, og er betegnet av y.
Når det er en uavhengig variabel, er regresjonsligningen som følger.
y = b0 + b1x
For eksempel, anta at x representerer nedbør og y representerer avkastningsutbyttet.
Figur 1: Linjær regresjon
Datasettet vil se ut ovenfor. Deretter velges en linje som dekker de fleste datapunkter. Denne linjen representerer de forventede verdiene.
Figur 2: Avstand mellom de faktiske datapunktene og de anslåtte verdiene
Deretter finner avstanden fra hvert data til linjen som vist i grafen ovenfor. Dette er avstanden mellom den faktiske verdien og den forutsagte verdien. Denne avstanden er også kjent som feilen eller residualene. Den beste passformen skal ha minst summen av felter. Når ny nedbørsverdi er gitt (x), er det mulig å finne tilsvarende avkastningsutbytte (y) ved hjelp av denne linjen.
I den virkelige verden kan det være flere uavhengige variabler (x1, x2, x3 ...). Dette kalles for flere lineære regresjoner. Den multiple lineære regresjonsligningen er som følger.
Logistisk regresjon kan brukes til å klassifisere to klasser. Det er også kjent som binær klassifisering. Kontrollerer om en e-post er spam eller ikke forutsier om en kunde vil kjøpe et produkt eller ikke, forutsi om det er mulig å få en kampanje eller ikke, er noen andre eksempler på logistisk regresjon.
Figur 3: Logistisk regresjon
Anta at antall timer en student studerte per dag er den uavhengige variabelen. Avhengig av det, er sannsynligheten for å bestå en eksamen beregnet. Verdien 0,5 regnes som terskelen. Når det nye antall timer er gitt, er det mulig å finne den tilsvarende sannsynligheten for å bestå eksamenen ved hjelp av denne grafen. Hvis sannsynligheten er over 0,5, anses den som 1 eller pass. Hvis sannsynligheten er under 0,5, så regnes det som 0 eller mislykkes.
Bruk av den lineære regresjonsligningen til sigmoid-funksjonen vil gi den logistiske regresjonsligningen.
Sigmoid-funksjonen er
Et annet viktig poeng å merke seg er at logistisk regresjon bare gjelder for å klassifisere 2 klasser. Det brukes ikke til multiklassklassifisering.
Lineær regresjon er en lineær tilnærming som modellerer forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. I motsetning til dette er logistisk regresjon en statistisk modell som forutsier sannsynligheten for et utfall som kun kan ha to verdier.
Mens lineær regresjon brukes til å løse regresjonsproblemer, brukes logistisk regresjon til å løse klassifikasjonsproblemer (binær klassifisering).
Lineær regresjon anslår den avhengige variabelen når det er en endring i den uavhengige variabelen. Logistisk regresjon beregner muligheten for at en hendelse oppstår. Dette er en viktig forskjell mellom lineær regresjon og logistisk regresjon.
I lineær regresjon er også utgangsverdien kontinuerlig. I logistisk regresjon er utdataverdien diskret.
Selv om lineær regresjon bruker en rett linje, bruker logistisk regresjon en S-kurve eller sigmoid-funksjon. Dette er en annen viktig forskjell mellom lineær regresjon og logistisk regresjon.
Forutsi BNP i et land, forutsi produktpris, forutsi husets salgspris, er poengsummen noen eksempler på lineær regresjon. Forutsi om en epost er spam eller ikke, forutsi om kredittkorttransaksjonen er svindel eller ikke, forutsi om en kunde vil ta et lån eller ikke, er noen eksempler på logistisk regresjon.
Forskjellen mellom lineær regresjon og logistisk regresjon er at lineær regresjon brukes til å forutsi en kontinuerlig verdi mens logistisk regresjon brukes til å forutsi en diskret verdi. Kort fortalt brukes lineær regresjon for regresjon, mens logistisk regresjon brukes til klassifisering.
1. Linjær regresjonsanalyse | Lineær regresjon i Python | Maskininlæringsalgoritmer | Simplilearn, 26. mars 2018, Tilgjengelig her.
2. Logistisk regresjon | Logistisk regresjon i Python | Maskininlæringsalgoritmer | Simplilearn, 22. mars 2018, Tilgjengelig her.
1. "Lineær regresjon" Av Sewaqu - Eget arbeid, Public Domain) via Commons Wikimedia
2. "Residuals for Linear Regression Fit" Av Thomas.haslwanter - Eget arbeid (CC BY-SA 3.0) via Commons Wikimedia
3. "Logistisk kurve" Av Qef (talk) - Lagd fra grunnen av gnuplot (Public Domain) via Commons Wikimedia