Standardafvigelse | et tal, der bruges til at fortælle, hvordan målingerne for en gruppe er spredt ud fra gennemsnittet

Standardafvigelse er et tal, der bruges til at fortælle, hvordan målingerne for en gruppe er spredt ud fra gennemsnittet (middelværdien eller den forventede værdi). En lav standardafvigelse betyder, at de fleste tal ligger tæt på gennemsnittet, mens en høj standardafvigelse betyder, at tallene er mere spredte.

Den rapporterede fejlmargin er normalt dobbelt så stor som standardafvigelsen. Forskere rapporterer normalt standardafvigelsen for tal fra det gennemsnitlige tal i eksperimenter. De beslutter ofte, at kun forskelle, der er større end to eller tre gange standardafvigelsen, er vigtige. Standardafvigelse er også nyttig i forbindelse med penge, hvor standardafvigelsen for renteindtægter viser, hvor stor forskel en persons renteindtægt kan være på gennemsnittet.

Mange gange kan der kun måles en stikprøve eller en del af en gruppe. Så kan man finde et tal tæt på standardafvigelsen for hele gruppen ved hjælp af en lidt anderledes ligning, der kaldes stikprøvens standardafvigelse, som forklares nedenfor. I så fald repræsenteres standardafvigelsen for hele gruppen af det græske bogstav σ {\displaystyle \sigma } $\sigma$ , og stikprøvens ved s {\displaystyle s} $s$ .

Eksempel på to stikprøvepopulationer med samme gennemsnit og forskellige standardafvigelser. Den røde population har middelværdi 100 og SD 10; den blå population har middelværdi 100 og SD 50.

Et plot af en normalfordeling (eller klokkekurve). Hvert farvet bånd har en bredde på en standardafvigelse.

Et datasæt med en middelværdi på 50 (vist med blå farve) og en standardafvigelse (σ) på 20.

Grundlæggende eksempel

Overvej en gruppe med følgende otte tal:

2 , 4 , 4 , 4 , 4 , 4 , 5 , 5 , 5 , 7 , 9 {\displaystyle 2,\ 4,\ 4,\ 4,\ 4,\ 4,\ 4,\ 5,\ 5,\ 5,\ 7,\ 9} $2,\ 4,\ 4,\ 4,\ 5,\ 5,\ 7,\ 9$

Disse otte tal har et gennemsnit (gennemsnit) på 5:

2 + 4 + 4 + 4 + 4 + 4 + 5 + 5 + 5 + 7 + 9 8 = 5 {\displaystyle {\frac {2+4+4+4+4+4+5+5+5+5+7+9}{8}}}=5} ${\frac {2+4+4+4+5+5+7+9}{8}}=5$

For at beregne populationens standardafvigelse skal du først finde forskellen mellem hvert tal på listen og gennemsnittet. Derefter kvadreres resultatet af hver forskel:

( 2 - 5 ) 2 = ( - 3 ) 2 = 9 ( 5 - 5 ) 2 = 0 2 = 0 ( 4 - 5 ) 2 = ( - 1 ) 2 = 1 ( 5 - 5 ) 2 = 0 2 = 0 2 = 0 ( 4 - 5 ) 2 = ( - 1 ) 2 = 1 ( 7 - 5 ) 2 = 2 2 2 = 4 ( 4 - 5 ) 2 = ( - 1 ) 2 = 1 ( 9 - 5 ) 2 = 4 2 = 16 {\displaystyle {\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16\\\end{array}}} ${\begin{array}{lll}(2-5)^{2}=(-3)^{2}=9&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(5-5)^{2}=0^{2}=0\\(4-5)^{2}=(-1)^{2}=1&&(7-5)^{2}=2^{2}=4\\(4-5)^{2}=(-1)^{2}=1&&(9-5)^{2}=4^{2}=16\\\end{array}}$

Find derefter gennemsnittet af disse værdier (summen divideret med antallet af tal). Til sidst tager du kvadratroden:

( 9 + 1 + 1 + 1 + 1 + 1 + 0 + 0 + 0 + 4 + 16 ) 8 = 2 {\displaystyle {\sqrt {\frac {(9+1+1+1+1+0+0+0+4+16)}{8}}}}=2} ${\sqrt {\frac {(9+1+1+1+0+0+4+16)}{8}}}=2$

Svaret er populationens standardafvigelse. Formlen er kun sand, hvis de otte tal, vi startede med, er hele gruppen. Hvis de kun er en del af gruppen, der er udvalgt tilfældigt, kan vi få et uforudset skøn over, hvad populationens standardafvigelse er, ved at dividere med 7 (som er n - 1) i stedet for 8 (som er n) i bunden (nævneren) af ovenstående formel. Svaret er så den (bias-korrigerede) stikprøvens standardafvigelse. Dette kaldes Bessel-korrektion. Vi bruger ofte denne korrektion, fordi stikprøvevariansen, dvs. kvadratet på stikprøvens standardafvigelse, er en uforbeholden estimator af populationsvariansen, med andre ord er den forventede værdi eller det langsigtede gennemsnit af stikprøvevariansen lig med den (sande) populationsvarians. Det er imidlertid ikke tilfældet, at stikprøvens standardafvigelse er en uforbeholden estimator af populationens standardafvigelse. 1 Selv om Bessels korrektion er et uforbeholden estimat af variansen, har dette estimat en højere gennemsnitlig kvadratfejl end det skæve estimat, eller med andre ord, det skæve estimat (dvs. ved at dividere med n i stedet for n-1) er i gennemsnit tættere på den sande værdi.

Flere eksempler

Her er et lidt sværere eksempel fra det virkelige liv: Den gennemsnitlige højde for voksne mænd i USA er 70" med en standardafvigelse på 3". En standardafvigelse på 3" betyder, at de fleste mænd (ca. 68 %, hvis man antager en normalfordeling) har en højde, der er 3" højere til 3" lavere end gennemsnittet (67"-73") - en standardafvigelse. Næsten alle mænd (ca. 95 %) har en højde, der er 6" højere til 6" lavere end gennemsnittet (64"-76") - to standardafvigelser. Tre standardafvigelser omfatter alle tallene for 99,7 % af den undersøgte stikprøvepopulation. Dette er tilfældet, hvis fordelingen er normal (klokkeformet).

Hvis standardafvigelsen var nul, ville alle mænd være nøjagtigt 70" høje. Hvis standardafvigelsen var 20", ville nogle mænd være meget højere eller meget kortere end gennemsnittet, med et typisk interval på omkring 50"-90".

Et andet eksempel: Hver af de tre grupper {0, 0, 14, 14, 14}, {0, 6, 8, 14} og {6, 6, 8, 8, 8} har et gennemsnit (middelværdi) på 7. Men deres standardafvigelser er 7, 5 og 1. Den tredje gruppe har en meget mindre standardafvigelse end de to andre, fordi alle tallene ligger tæt på 7. Generelt fortæller standardafvigelsen, hvor langt resten af tallene har tendens til at ligge fra gennemsnittet, og den vil have samme enheder som tallene selv. Hvis gruppen {0, 6, 8, 14} f.eks. er alderen på en gruppe på fire brødre i år, er gennemsnittet 7 år og standardafvigelsen 5 år.

Standardafvigelse kan tjene som et mål for usikkerhed. Inden for videnskaben hjælper f.eks. standardafvigelsen for en gruppe gentagne målinger forskerne med at vide, hvor sikre de er på det gennemsnitlige tal. Når det skal afgøres, om målinger fra et forsøg stemmer overens med en forudsigelse, er standardafvigelsen af disse målinger meget vigtig. Hvis det gennemsnitlige tal fra eksperimenterne er for langt væk fra det forudsagte tal (hvor afstanden måles i standardafvigelser), er det muligt, at den teori, der testes, ikke er rigtig. For yderligere oplysninger, se forudsigelsesinterval.

Eksempler på anvendelse

Ved at forstå standardafvigelsen for et sæt værdier kan vi vide, hvor stor en forskel fra "gennemsnittet" (middelværdien) der kan forventes at være.

Vejret

Som et simpelt eksempel kan man se på de gennemsnitlige daglige høje temperaturer for to byer, en inde i landet og en tæt på havet. Det er nyttigt at forstå, at intervallet af daglige høje temperaturer for byer tæt på havet er mindre end for byer inde i landet. Disse to byer kan hver især have den samme gennemsnitlige daglige høje temperatur. Standardafvigelsen af den daglige høje temperatur for kystbyen vil dog være mindre end for byen inde i landet.

Sport

En anden måde at se det på er ved at se på sportshold. Inden for enhver sport vil der være hold, der er gode til nogle ting og ikke til andre. De hold, der er højest placeret, vil ikke vise store forskelle i evnerne. De klarer sig godt i de fleste kategorier. Jo lavere standardafvigelsen for deres evner i hver kategori er, jo mere afbalancerede og konsekvente er de. Hold med en højere standardafvigelse vil imidlertid være mindre forudsigelige. Et hold, der normalt er dårligt i de fleste kategorier, vil have en lav standardafvigelse. Et hold, der normalt er godt i de fleste kategorier, vil også have en lav standardafvigelse. Et hold med en høj standardafvigelse kan dog være et hold, der scorer mange point (stærk offensiv), men som også lader det andet hold score mange point (svagt forsvar).

Hvis man forsøger at vide på forhånd, hvilke hold der vil vinde, kan man se på standardafvigelserne for de forskellige hold "statistikker". Tal, der afviger fra det forventede, kan matche styrker og svagheder for at vise, hvilke årsager der kan være vigtigst for at vide, hvilket hold der vil vinde.

I racerløb måles den tid, det tager en kører at gennemføre hver omgang rundt om banen. En kører med en lav standardafvigelse i omgangstiden er mere konsekvent end en kører med en højere standardafvigelse. Disse oplysninger kan bruges til at hjælpe med at forstå, hvordan en kører kan reducere den tid, det tager at gennemføre en omgang.

Penge

Inden for penge kan standardafvigelse betyde risikoen for, at en pris vil stige eller falde (aktier, obligationer, ejendomme osv.). Det kan også betyde risikoen for, at en gruppe af priser vil stige eller falde (aktivt forvaltede investeringsforeninger, indeksinvesteringsforeninger eller ETF'er). Risiko er en af grundene til at træffe beslutninger om, hvad man skal købe. Risiko er et tal, som folk kan bruge til at vide, hvor mange penge de kan tjene eller tabe. Når risikoen bliver større, kan afkastet af en investering blive større end forventet (den "plus" standardafvigelse). En investering kan imidlertid også tabe flere penge end forventet (standardafvigelsen "minus").

En person skulle f.eks. vælge mellem to aktier. Aktie A har i de seneste 20 år haft et gennemsnitligt afkast på 10 % med en standardafvigelse på 20 procentpoint (pp). Aktie B havde i de seneste 20 år et gennemsnitligt afkast på 12 %, men en højere standardafvigelse på 30 procentpoint. Ved at tænke over risikoen kan personen beslutte, at aktie A er det sikrere valg. Selv om de måske ikke tjener så mange penge, vil de sandsynligvis heller ikke tabe mange penge. Personen mener måske, at aktie B's 2 point højere gennemsnit ikke er den ekstra standardafvigelse på 10 pp (større risiko eller usikkerhed i forbindelse med det forventede afkast) værd.

Regler for normalt fordelte tal

De fleste matematiske ligninger for standardafvigelse forudsætter, at tallene er normalfordelte. Det betyder, at tallene er spredt på en bestemt måde på begge sider af gennemsnitsværdien. Normalfordelingen kaldes også for en Gauss-fordeling, fordi den blev opdaget af Carl Friedrich Gauss. Den kaldes ofte klokkekurven, fordi tallene spredes ud, så de har form som en klokke på en graf.

Tal er ikke normalfordelte, hvis de er grupperet på den ene eller den anden side af gennemsnitsværdien. Tal kan være spredt ud og stadig være normalfordelte. Standardafvigelsen fortæller, hvor meget tallene er spredt ud.

Mørkeblå er mindre end en standardafvigelse fra gennemsnittet. For normalfordelingen omfatter dette 68,27 procent af tallene, mens to standardafvigelser fra gennemsnittet (medium og mørkeblå) omfatter 95,45 procent, tre standardafvigelser (lys, medium og mørkeblå) omfatter 99,73 procent, og fire standardafvigelser udgør 99,994 procent.

Forholdet mellem gennemsnittet (middelværdien) og standardafvigelsen

Gennemsnittet (middelværdien) og standardafvigelsen for et datasæt skrives normalt sammen. Så kan man forstå, hvad gennemsnittet er, og hvor bredt de andre tal i gruppen er spredt ud.

Den måde, som en gruppe tal er spredt på, kan også angives ved variationskoefficienten (CV), som er standardafvigelsen divideret med gennemsnittet. Det er et dimensionsløst tal. Variationskoefficienten ganges ofte med 100 % og skrives som en procentdel.

Historie

Udtrykket standardafvigelse blev første gang brugt skriftligt af Karl Pearson i 1894, efter at han havde brugt det i foredrag. Det var som en erstatning for tidligere betegnelser for samme idé: Gauss brugte f.eks. middelfejl.

Relaterede sider

Nøjagtighed og præcision
Prøvestørrelse
Standardfejl
Afvigelse

Spørgsmål og svar

Spørgsmål: Hvad er standardafvigelse?

A: Standardafvigelse er et tal, der bruges til at fortælle, hvordan målinger for en gruppe er spredt ud fra gennemsnittet (middelværdien eller den forventede værdi).

Q: Hvad betyder en lav standardafvigelse?

A: En lav standardafvigelse betyder, at de fleste tal ligger tæt på gennemsnittet.

Spørgsmål: Hvad betyder en høj standardafvigelse?

A: En høj standardafvigelse betyder, at tallene er mere spredte.

Spørgsmål: Hvordan bruges standardafvigelse i penge?

A: I penge viser standardafvigelsen på renteindtægter, hvor stor forskel der kan være mellem en persons renteindtægter og gennemsnittet.

Spørgsmål: Hvornår kan man kun måle en del af en gruppe?

Svar: Mange gange kan man kun måle en stikprøve eller en del af en gruppe.

Spørgsmål: Hvordan repræsenteres hele gruppens standardafvigelse?

A: Hele gruppens standardafvigelse repræsenteres af det græske bogstav َ {\displaystyle \sigma } .

Spørgsmål: Hvordan repræsenteres stikprøvens standardafvigelse?

A: Prøvens standardafvigelse er repræsenteret ved s {\displaystyle s} .