Standardavvik vs. variasjon

Standardavvik og varians er statistiske tiltak for spredning av data, det vil si de representerer hvor mye variasjon det er fra gjennomsnittet, eller i hvilken grad verdiene typisk "avviker" fra gjennomsnittet (gjennomsnitt). En varians eller standardavvik på null indikerer at alle verdiene er identiske.

Variansen er gjennomsnittet av kvadratene av avvikene (dvs. forskjellen i verdier fra gjennomsnittet), og standardavviket er kvadratroten av den variansen. Standardavvik brukes til å identifisere avvikere i dataene.

Sammenligningstabell

Standardavvik versus variant sammenligning diagram
Standardavvikvarians
Matematisk formel Kvadratroten av variansen Gjennomsnittlig av kvadratene av avvik for hver verdi fra gjennomsnittet i en prøve.
symbol Gresk bokstav sigma - σ Ingen dedikert symbol; uttrykt som standardavvik eller andre verdier.
Verdier i forhold til gitt datasett Samme skala som verdier i det angitte datasettet; derfor uttrykt i de samme enhetene. Skala større enn verdiene i det gitte datasettet; ikke uttrykt i samme enhet som verdiene selv.
Er verdier negativ eller positiv? Alltid ikke-negativ Alltid ikke-negativ
Real World Application Befolkning prøvetaking; identifisere avvikere Statistiske formler, økonomi.

Innhold: Standardavvik vs Varians

  • 1 Viktige begreper
  • 2 symboler
  • 3 formler
  • 4 Eksempel
    • 4.1 Hvorfor kvadrat avvikene?
  • 5 Real World Applications
    • 5.1 Finne avvikere
  • 6 Sample Standard Deviation
  • 7 Referanser

Viktige begreper

  • Mener: gjennomsnittet av alle verdier i et datasett (legg til alle verdier og del deres sum etter antall verdier).
  • Avvik: avstanden til hver verdi fra gjennomsnittet. Hvis gjennomsnittet er 3, har en verdi på 5 en avvigelse på 2 (trekker gjennomsnittet fra verdien). Avvik kan være positiv eller negativ.

Symboler

Formelen for standardavvik og varians uttrykkes ofte ved bruk av:

  • x⋅ = gjennomsnittet eller gjennomsnittet av alle datapunkter i problemet
  • X = et individuelt datapunkt
  • N = antall poeng i datasettet
  • Σ = summen av [kvadratene til avvikene]

formler

Variansen av et sett av n like sannsynlige verdier kan skrives som:

Standardavviket er kvadratroten av variansen:

Formler med greske bokstaver har en måte å se skremmende på, men dette er mindre komplisert enn det ser ut til. For å sette det i enkle trinn:

  1. finn gjennomsnittet av alle datapunkter
  2. finn ut hvor langt hvert punkt er borte fra gjennomsnittet (dette er avviket)
  3. kvadrat hvert avvik (dvs. differansen av hver verdi fra gjennomsnittet)
  4. del summen av rutene med antall poeng.

Det gir variansen. Ta kvadratroten av variansen for å finne standardavviket.

Denne utmerkede videoen fra Khan Academy forklarer begrepet varians og standardavvik:

Eksempel

La oss si et datasett inkluderer høyden på seks løvetann: 3 tommer, 4 tommer, 5 tommer, 4 tommer, 11 tommer og 6 tommer.

Først finner du gjennomsnittet av datapunktene: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Så gjennomsnittlig høyde er 5,5 tommer. Nå trenger vi avvikene, så vi finner forskjellen på hver plante fra gjennomsnittet: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Nå kvadrat hvert avvik og finn summen deres: 6.25 + 2.25 + .25 + 2.25 + 30.25 + 2.25 = 43.5

Del nå summen av kvadrater med antall datapunkter, i dette tilfellet planter: 43,5 / 6 = 7,25

Så variansen til dette datasettet er 7,25, som er et ganske vilkårlig tall. For å konvertere det til en virkelig måling, ta kvadratroten på 7,25 for å finne standardavviket i inches.

Standardavviket er ca. 2,69 tommer. Det betyr at for en prøve, er noen løvetann innen 2,69 inches av den gjennomsnittlige (5,5 tommer) 'normal'.

Hvorfor kvadrat avvikene?

Avvik er kvadrert for å hindre negative verdier (avvik under gjennomsnittet) fra å avbryte de positive verdiene. Dette virker fordi et negativt antall kvadreres blir en positiv verdi. Hvis du hadde et enkelt datasett med avvik fra gjennomsnittet av +5, +2, -1 og -6, vil summen av avvikene komme ut som null hvis verdiene ikke er kvadret (dvs. 5 + 2 - 1 - 6 = 0).

Real World Applications

Variansen uttrykkes som en matematisk dispersjon. Siden det er et vilkårlig tall i forhold til de opprinnelige målingene av datasettet, er det vanskelig å visualisere og anvende i real-world-forstand. Å finne variansen er vanligvis bare det siste trinnet før du finner standardavviket. Variansverdier brukes noen ganger i finans og statistiske formler.

Standardavviket, som uttrykkes i de opprinnelige enhetene i datasettet, er mye mer intuitivt og nærmere verdiene til det opprinnelige datasettet. Det brukes oftest til å analysere demografi eller populasjonsprøver for å få en følelse av hva som er normalt i befolkningen.

Finne utelukker

En normal fordeling (Bell kurve) med bånd tilsvarende 1σ

I en normal fordeling faller ca. 68% av befolkningen (eller verdiene) innenfor 1 standardavvik (1σ) av gjennomsnittet, og om lag 94% faller innenfor 2σ. Verdier som avviger fra gjennomsnittet med 1,7σ eller mer betraktes som regel utelukkende.

I praksis forsøker kvalitetssystemer som Six Sigma å redusere feilfrekvensen, slik at feilene blir en outlier. Uttrykket "six sigma-prosess" kommer fra ideen om at hvis man har seks standardavvik mellom prosessmiddel og nærmeste spesifikasjonsgrense, vil praktisk talt ingen elementer mislykkes i å oppfylle spesifikasjoner.[1]

Eksempel Standardavvik

I virkelige verdenapplikasjoner representerer datasett vanligvis populasjonsprøver, i stedet for hele populasjoner. En litt modifisert formel brukes hvis befolkningsbaserte konklusjoner skal trekkes fra en delprøve.

En 'standardavvikseksempel' brukes hvis alt du har er et eksempel, men du ønsker å gjøre en uttalelse om populasjonsstandardavviket som prøven trekkes fra

Den eneste måten prøve standardavviksformelen er forskjellig fra standardavviksformelen er "-1" i nevnen.

Ved bruk av løvetanneksemplet ville denne formelen være nødvendig hvis vi samplet bare 6 løvetann, men ønsket å bruke denne prøven for å angi standardavviket for hele feltet med hundrevis av løvetann.

Summen av kvadrater vil nå deles med 5 i stedet for 6 (n - 1), noe som gir en varianse på 8,7 (i stedet for 7,25), og en standardprøveavvik på 2,95 tommer, i stedet for 2,69 tommer for den opprinnelige standardavviket. Denne endringen brukes til å finne en feilmargin i en prøve (9% i dette tilfellet).

referanser

  • Enkelt eksempel på å beregne standardavvik - AppSpot
  • Standardavviksformler - Mat er moro
  • Absolutt avvik og variasjon - Laerd Statistikk
  • Standardavvik og variasjon - Mat er moro
  • Wikipedia: Standardavvik
  • Wikipedia: Variant # Egenskaper
  • Omfang, varians og standardavvik som tiltak for spredning - Khan Academy
  • Moduser, medianer og midler: Et samlende perspektiv