Standardavvik og varians er statistiske tiltak for spredning av data, det vil si de representerer hvor mye variasjon det er fra gjennomsnittet, eller i hvilken grad verdiene typisk "avviker" fra gjennomsnittet (gjennomsnitt). En varians eller standardavvik på null indikerer at alle verdiene er identiske.
Variansen er gjennomsnittet av kvadratene av avvikene (dvs. forskjellen i verdier fra gjennomsnittet), og standardavviket er kvadratroten av den variansen. Standardavvik brukes til å identifisere avvikere i dataene.
Standardavvik | varians | |
---|---|---|
Matematisk formel | Kvadratroten av variansen | Gjennomsnittlig av kvadratene av avvik for hver verdi fra gjennomsnittet i en prøve. |
symbol | Gresk bokstav sigma - σ | Ingen dedikert symbol; uttrykt som standardavvik eller andre verdier. |
Verdier i forhold til gitt datasett | Samme skala som verdier i det angitte datasettet; derfor uttrykt i de samme enhetene. | Skala større enn verdiene i det gitte datasettet; ikke uttrykt i samme enhet som verdiene selv. |
Er verdier negativ eller positiv? | Alltid ikke-negativ | Alltid ikke-negativ |
Real World Application | Befolkning prøvetaking; identifisere avvikere | Statistiske formler, økonomi. |
Formelen for standardavvik og varians uttrykkes ofte ved bruk av:
Variansen av et sett av n like sannsynlige verdier kan skrives som:
Standardavviket er kvadratroten av variansen:
Formler med greske bokstaver har en måte å se skremmende på, men dette er mindre komplisert enn det ser ut til. For å sette det i enkle trinn:
Det gir variansen. Ta kvadratroten av variansen for å finne standardavviket.
Denne utmerkede videoen fra Khan Academy forklarer begrepet varians og standardavvik:
La oss si et datasett inkluderer høyden på seks løvetann: 3 tommer, 4 tommer, 5 tommer, 4 tommer, 11 tommer og 6 tommer.
Først finner du gjennomsnittet av datapunktene: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5
Så gjennomsnittlig høyde er 5,5 tommer. Nå trenger vi avvikene, så vi finner forskjellen på hver plante fra gjennomsnittet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5
Nå kvadrat hvert avvik og finn summen deres: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5
Del nå summen av kvadrater med antall datapunkter, i dette tilfellet planter: 43,5 / 6 = 7,25
Så variansen til dette datasettet er 7,25, som er et ganske vilkårlig tall. For å konvertere det til en virkelig måling, ta kvadratroten på 7,25 for å finne standardavviket i inches.
Standardavviket er ca. 2,69 tommer. Det betyr at for en prøve, er noen løvetann innen 2,69 inches av den gjennomsnittlige (5,5 tommer) 'normal'.
Avvik er kvadrert for å hindre negative verdier (avvik under gjennomsnittet) fra å avbryte de positive verdiene. Dette virker fordi et negativt antall kvadreres blir en positiv verdi. Hvis du hadde et enkelt datasett med avvik fra gjennomsnittet av +5, +2, -1 og -6, vil summen av avvikene komme ut som null hvis verdiene ikke er kvadret (dvs. 5 + 2 - 1 - 6 = 0).
Variansen uttrykkes som en matematisk dispersjon. Siden det er et vilkårlig tall i forhold til de opprinnelige målingene av datasettet, er det vanskelig å visualisere og anvende i real-world-forstand. Å finne variansen er vanligvis bare det siste trinnet før du finner standardavviket. Variansverdier brukes noen ganger i finans og statistiske formler.
Standardavviket, som uttrykkes i de opprinnelige enhetene i datasettet, er mye mer intuitivt og nærmere verdiene til det opprinnelige datasettet. Det brukes oftest til å analysere demografi eller populasjonsprøver for å få en følelse av hva som er normalt i befolkningen.
I en normal fordeling faller ca. 68% av befolkningen (eller verdiene) innenfor 1 standardavvik (1σ) av gjennomsnittet, og om lag 94% faller innenfor 2σ. Verdier som avviger fra gjennomsnittet med 1,7σ eller mer betraktes som regel utelukkende.
I praksis forsøker kvalitetssystemer som Six Sigma å redusere feilfrekvensen, slik at feilene blir en outlier. Uttrykket "six sigma-prosess" kommer fra ideen om at hvis man har seks standardavvik mellom prosessmiddel og nærmeste spesifikasjonsgrense, vil praktisk talt ingen elementer mislykkes i å oppfylle spesifikasjoner.[1]
I virkelige verdenapplikasjoner representerer datasett vanligvis populasjonsprøver, i stedet for hele populasjoner. En litt modifisert formel brukes hvis befolkningsbaserte konklusjoner skal trekkes fra en delprøve.
En 'standardavvikseksempel' brukes hvis alt du har er et eksempel, men du ønsker å gjøre en uttalelse om populasjonsstandardavviket som prøven trekkes fra
Den eneste måten prøve standardavviksformelen er forskjellig fra standardavviksformelen er "-1" i nevnen.
Ved bruk av løvetanneksemplet ville denne formelen være nødvendig hvis vi samplet bare 6 løvetann, men ønsket å bruke denne prøven for å angi standardavviket for hele feltet med hundrevis av løvetann.
Summen av kvadrater vil nå deles med 5 i stedet for 6 (n - 1), noe som gir en varianse på 8,7 (i stedet for 7,25), og en standardprøveavvik på 2,95 tommer, i stedet for 2,69 tommer for den opprinnelige standardavviket. Denne endringen brukes til å finne en feilmargin i en prøve (9% i dette tilfellet).