Forskjell mellom standardavvik og standardfeil

Introduksjon

Standard Deviation (SD) og Standard Error (SE) er tilsynelatende lignende terminologier; Men de er konseptuelt så varierte at de brukes nesten utvekslingsmessig i statistikklitteraturen. Begge begrepene foregår vanligvis med et pluss-minus-symbol (+/-) som indikerer at de definerer en symmetrisk verdi eller representerer en rekke verdier. Uansett, begge termer vises med et gjennomsnitt (gjennomsnitt) av et sett med målte verdier.

Interessant nok har et SE ingenting å gjøre med standarder, med feil, eller med kommunikasjon av vitenskapelige data.

Et detaljert titt på opprinnelsen og forklaringen av SD og SE vil avsløre, hvorfor profesjonelle statistikere og de som bruker det markert, har begge en tendens til å feile.

Standardavvik (SD)

En SD er en beskrivende statistikk som beskriver spredningen av en distribusjon. Som en beregning er det nyttig når dataene distribueres normalt. Det er imidlertid mindre nyttig når dataene er svært skjev eller bimodale fordi det ikke beskriver veldig godt formen på fordelingen. Vanligvis bruker vi SD når du rapporterer egenskapene til prøven, fordi vi har tenkt å beskrive hvor mye data varierer rundt gjennomsnittet. Andre nyttige statistikker for å beskrive spredningen av dataene er interkvartil-rekkevidde, 25. og 75. prosentiler, og rekkevidden av dataene.

Figur 1. SD er et mål for spredningen av dataene. Når data er et eksempel fra en normalt distribuert distribusjon, forventer man at to tredjedeler av dataene ligger innenfor en standardavvik av gjennomsnittet.

Variansen er a beskrivende statistikk også, og den er definert som kvadratet av standardavviket. Det rapporteres ikke vanligvis når man beskriver resultater, men det er en mer matematisk trekkbar formel (a.v.s. summen av kvadrert avvik) og spiller en rolle i beregningen av statistikk.

For eksempel, hvis vi har to statistikker P & Q med kjente avvik Var(P) & Var(Q), da variansen av summen P + Q er lik summen av avvikene: Var(P) +Var(Q). Det er nå klart hvorfor statistikere liker å snakke om avvik.

Men standardavvik har en viktig betydning for spredning, spesielt når dataene er normalt fordelt: Intervallet betyr +/ - 1 SD kan forventes å fange 2/3 av prøven, og intervallet betyr +- 2 SD kan forventes å fange 95% av prøven.

SD gir en indikasjon på hvor langt de enkelte svarene på et spørsmål varierer eller "avviker" fra gjennomsnittet. SD forteller forskeren hvordan spredt responsene er - er de konsentrert rundt det gjennomsnittlige eller spredt vidt? Stemte alle dine respondenter på produktet ditt midt på skalaen din, eller godkjente noen det, og noen avviste det?

Vurder et eksperiment der respondentene blir bedt om å rangere et produkt på en rekke attributter på en 5-punkts skala. Gjennomsnittet for en gruppe på ti respondenter (merket 'A' til 'J' nedenfor) for "god verdi for pengene" var 3,2 med en SD på 0,4 og gjennomsnittet for "produktsikkerhet" var 3,4 med en SD på 2,1.

Ved første øyekast (ser bare på midler) ser det ut til at påliteligheten ble vurdert høyere enn verdien. Men høyere SD for pålitelighet kan indikere (som vist i fordelingen nedenfor) at svarene var svært polariserte, der de fleste respondentene ikke hadde noen pålitelighetsproblemer (vurdert attributten en "5"), men et mindre, men viktigt segment av respondentene hadde et pålitelighetsproblem og vurdert attributten "1". Når man ser på gjennomsnittet alene, er det bare en del av historien, men oftest er det dette forskerne fokuserer på. Fordelingen av svar er viktig å vurdere og SD gir et verdifullt beskrivende mål for dette.

respondent God verdi for pengene Produktsikkerhet
EN 3 1
B 3 1
C 3 1
D 3 1
E 4 5
F 4 5
G 3 5
H 3 5
Jeg 3 5
J 3 5
Mener 3.2 3.4
Std. dev. 0.4 2.1

Første undersøkelse: Respondenter vurderer et produkt på en 5-punkts skala

To svært forskjellige fordelinger av svar på en 5-punkts karakterskala kan gi samme gjennomsnitt. Vurder følgende eksempel som viser responsverdier for to forskjellige karakterer.

I det første eksemplet (Vurdering "A") er SD null fordi ALLE svar var nøyaktig gjennomsnittsverdien. De individuelle svarene avvikk ikke i det hele tatt fra gjennomsnittet.

I vurdering "B", selv om gruppen mener er den samme (3.0) som den første distribusjonen, er Standardavviket høyere. Standardavviket på 1,15 viser at de individuelle svarene, i gjennomsnitt *, var litt over 1 poeng fra gjennomsnittet.

respondent Vurdering "A" Vurdering "B"
EN 3 1
B 3 2
C 3 2
D 3 3
E 3 3
F 3 3
G 3 3
H 3 4
Jeg 3 4
J 3 5
Mener 3.0 3.0
Std. dev. 0,00 1,15

Andre undersøkelse: Respondenter vurderer et produkt på en 5-punkts skala

En annen måte å se på SD er å plotte distribusjonen som et histogram av svar. En distribusjon med lav SD ville vise seg som en høy smal form, mens et stort SD ville bli indikert med en bredere form.

SD betyr generelt ikke "riktig eller feil" eller "bedre eller verre" - en lavere SD er ikke nødvendigvis mer ønskelig. Den brukes bare som en beskrivende statistikk. Det beskriver fordelingen i forhold til gjennomsnittet.

Technical ansvarsfraskrivelse relatert til SD

Å tenke på SD som en "gjennomsnittlig avvik" er en utmerket måte å begå seg konseptuelt på. Det er imidlertid ikke beregnet som et gjennomsnitt (hvis det var, ville vi kalle det "gjennomsnittlige avviket"). I stedet er det "standardisert", en noe kompleks metode for å beregne verdien ved å bruke summen av rutene.

For praktiske formål er beregningen ikke viktig. De fleste tabulasjonsprogrammer, regneark eller andre datahåndteringsverktøy beregner SD for deg. Mer viktig er å forstå hva statistikken formidler.

Standard feil

En standardfeil er en slutnings statistikk som brukes når man sammenligner prøveinnretninger (gjennomsnitt) på tvers av populasjoner. Det er et mål på presisjon av utvalgsmiddelet. Eksempelmiddelet er en statistikk avledet fra data som har en underliggende distribusjon. Vi kan ikke visualisere det på samme måte som dataene, siden vi har utført et enkelt eksperiment og bare har en enkelt verdi. Statistisk teori forteller oss at prøven betyr (for en stor "nok" prøve og under noen regelmessige forhold) er omtrent normalt distribuert. Standardavviket for denne normale fordeling er det vi kaller standardfeilen.

Figur 2. Fordelingen på bunnen representerersenter distribusjonen av dataene, mens fordelingen øverst er den teoretiske fordelingen av sample mean. SD på 20 er et mål for spredningen av dataene, mens SE av 5 er et mål for usikkerhet rundt sample gjennomsnittet.

Når vi vil sammenligne resultatene fra et toprøveforsøk av Behandling A mot Behandling B, må vi anslå hvor nøyaktig vi har målt midler.

Faktisk er vi interessert i hvor nøyaktig vi har målt forskjellen mellom de to midlene. Vi kaller dette tiltakets standardfeil for forskjellen. Du kan ikke bli overrasket over at standardfeilen til forskjellen i prøveinnretningen er en funksjon av standardfeilene til midlene:

Nå som du har forstått at standardfeilen til gjennomsnittet (SE) og standardavviket for distribusjonen (SD) er to forskjellige dyr, kan du kanskje lure på hvordan de ble forvirret i utgangspunktet. Mens de avviker konseptuelt, har de et enkelt forhold matematisk:

,hvor n er antall datapunkter.

Legg merke til at standardfeilen avhenger av to komponenter: standardavviket til prøven og størrelsen på prøven n. Dette gir intuitiv mening: jo større standardavviket av prøven, desto mindre nøyaktig kan vi være om vårt estimat av det sanne gjennomsnittet.

Dessuten, den store prøvestørrelsen, jo mer informasjon vi har om befolkningen og jo mer presist kan vi anslå det sanne midlet.

SE er en indikasjon på påliteligheten til gjennomsnittet. En liten SE er en indikasjon på at prøven betyr at det er en mer nøyaktig refleksjon av den faktiske populasjonsmidlet. En større prøvestørrelse vil normalt resultere i et mindre SE (mens SD ikke er direkte påvirket av prøvestørrelsen).

De fleste undersøkelsesforskningene innebærer å tegne en prøve fra en befolkning. Vi gjør deretter avledninger om befolkningen fra resultatene hentet fra denne prøven. Hvis en annen prøve ble trukket, vil resultatene trolig ikke nøyaktig matche den første prøven. Hvis gjennomsnittverdien for et karakterattributt var 3,2 for en prøve, kan det være 3,4 for en andre prøve av samme størrelse. Hvis vi skulle tegne et uendelig antall prøver (av samme størrelse) fra vår befolkning, kunne vi vise de observerte midlene som en fordeling. Vi kunne deretter beregne et gjennomsnitt av alle våre prøveinnretninger. Dette betyr at det ville være den sanne befolkningens gjennomsnitt. Vi kan også beregne SD av fordelingen av prøveinnretninger. SD av denne fordelingen av prøveinnretning er SE av hver enkelt prøvemiddelmiddel.

Vi har dermed vår viktigste observasjon: SE er SD av populasjonsmiddelet.

Prøve Mener
første 3.2
andre 3.4
tredje 3.3
fjerde 3.2
femte 3.1
... . ... .
... . ... .
... . ... .
... . ... .
... . ... .
Mener 3.3
Std. dev. 0,13

Tabell som illustrerer forholdet mellom SD og SE

Det er nå klart at hvis SD av denne fordelingen hjelper oss å forstå hvor langt en prøve betyr fra den sanne befolkningen, så kan vi bruke dette til å forstå hvor nøyaktig en individuell prøve betyr i forhold til det sanne midlet. Det er essensen av SE.

I virkeligheten har vi kun trukket en enkelt prøve fra vår befolkning, men vi kan bruke dette resultatet til å gi et estimat av påliteligheten til vårt observerte utvalgsmiddel.

Faktisk, SE forteller oss at vi kan være 95% sikre på at vår observerte sample betyr er pluss eller minus omtrent 2 (faktisk 1,96) Standard feil fra populasjonsmiddelet.

Tabellen under viser fordelingen av svar fra vår første (og eneste) prøve som brukes til vår forskning. SE av 0,13, som er relativt liten, gir oss en indikasjon på at vårt gjennomsnitt er relativt nær det virkelige gjennomsnittet av vår samlede befolkning. Feilmarginen (ved 95% tillit) for vårt gjennomsnitt er (omtrent) to ganger den verdien (+/- 0.26), og forteller oss at det sanne midlet er mest sannsynlig mellom 2,94 og 3,46.

respondent Vurdering
EN 3
B 3
C 3
D 3
E 4
F 4
G 3
H 3
Jeg 3
J 3
Mener 3.2
Std. Err 0,13

Sammendrag

Mange forskere mislykkes i å forstå forskjellen mellom standardavvik og standardfeil, selv om de vanligvis inngår i dataanalyse. Mens de faktiske beregningene for standardavvik og standardfeil ser veldig ut, representerer de to svært forskjellige, men komplementære tiltak. SD forteller oss om formen på distribusjonen vår, hvor nær de individuelle dataverdiene er fra middelverdien. SE forteller oss hvor nært vårt utvalgsmiddel er det virkelige gjennomsnittet av den samlede befolkningen. Sammen bidrar de til å gi et mer komplett bilde enn det som er den eneste som kan fortelle oss.