Standardfejlen er standardafvigelsen af stikprøvefordelingen af en statistik. Udtrykket kan også bruges om et skøn (et godt gæt) af denne standardafvigelse, der er taget ud fra en stikprøve af hele gruppen.
Gennemsnittet af en del af en gruppe (kaldet en stikprøve) er den sædvanlige måde at estimere gennemsnittet for hele gruppen på. Det er ofte for vanskeligt eller koster for mange penge at måle hele gruppen. Men hvis man måler en anden stikprøve, vil den få et gennemsnit, der er lidt anderledes end den første stikprøve. Standardfejlen for gennemsnittet er en måde at vide, hvor tæt gennemsnittet af stikprøven ligger på gennemsnittet for hele gruppen. Det er en måde at vide, hvor sikker man kan være på gennemsnittet fra stikprøven.
I virkelige målinger er den sande værdi af standardafvigelsen af gennemsnittet for hele gruppen normalt ikke kendt. Derfor anvendes udtrykket standardfejl ofte som et tæt gæt på det sande tal for hele gruppen. Jo flere målinger der er i en stikprøve, jo tættere vil gættet være på det sande tal for hele gruppen.
Hvad er forskellen på standardafvigelse og standardfejl?
- Standardafvigelsen (SD) beskriver spredningen i de enkelte observationer i en stikprøve eller population: hvor meget værdierne typisk afviger fra gennemsnittet.
- Standardfejlen (SE) beskriver spredningen af en statistisk funktion (fx stikprøvegennemsnittet) når vi gentagne gange tager stikprøver fra samme population. SE måler usikkerheden i estimatet.
- En nyttig intuition: SD handler om variation mellem personer/observationer; SE handler om variation mellem stikprøve-estimater.
Beregning af standardfejl
Der er forskellige formler afhængig af hvilken statistik, man estimerer:
- Standardfejl for gennemsnittet (når man bruger stikprøvens standardafvigelse s som skøn for populations-σ):
SE = s / sqrt(n)
hvor s er stikprøvens standardafvigelse og n er stikprøvestørrelsen. - Standardfejl for et populationsgennemsnit (hvis populations-σ er kendt):
SE = σ / sqrt(n). - Standardfejl for en andel (proportion):
SE = sqrt( p*(1 - p) / n )
hvor p er andelen i stikprøven (eller et antaget populations-estimat).
Bemærk: Når populationsstørrelsen N ikke er meget større end stikprøven (fx når n > 5% af N), kan man korrigere med en såkaldt finite population correction (FPC):
FPC = sqrt( (N - n) / (N - 1) )
Så justeres SE ved at multiplicere med FPC.
Tilknytning til konfidensintervaller og hypotesetest
- Standardfejlen er den centrale størrelse i konfidensintervaller: et 95% konfidensinterval for et gennemsnit er ofte givet ved
gennemsnit ± z*SE (hvor z ≈ 1.96 hvis populations-σ kendes og normalfordelingen kan anvendes), eller
gennemsnit ± t_{n-1}*SE (hvor t er t-fordelingens kritiske værdi, når σ estimeres fra stikprøven). - I hypotesetest bruges SE til at standardisere forskelle (f.eks. t- eller z-statistik) og dermed vurdere, om en observeret forskel kan skyldes tilfældighed.
Hvornår bruger man t-fordeling fremfor z-fordeling?
- Hvis populations-σ er ukendt (det mest almindelige), og du estimerer den med stikprøvens s, bør du bruge t-fordelingen—særligt ved små stikprøver (typisk n < 30).
- Ved store stikprøver giver t- og z-fordelingen næsten samme svar, så z-tilnærmelsen kan være acceptabel.
Tolkning og praktiske eksempler
- Eksempel 1 (gennemsnit): Hvis s = 15 og n = 25, så er SE = 15 / sqrt(25) = 3. Et 95% CI (med z ≈ 1.96) er gennemsnit ± 1.96*3 ≈ gennemsnit ± 5.88.
- Eksempel 2 (andel): Hvis p = 0.6 og n = 100, så er SE = sqrt(0.6*0.4/100) ≈ 0.049. Et 95% CI cirka p ± 1.96*SE ≈ 0.6 ± 0.096.
- Størrelseseffekt: SE falder som 1/sqrt(n). For at halvere SE skal stikprøven ganges med fire.
Almindelige fejl og gode råd
- Forveksling af SD og SE: Husk at SD beskriver spredning i data, mens SE beskriver usikkerheden i et estimat.
- Brug t-fordeling når σ ikke er kendt og stikprøven er lille.
- Sørg for, at betingelserne for normaltilnærmelse er opfyldt ved brug af formler (fx for andele: np og n(1−p) må ikke være for små).
- Tag finite population correction i brug, når stikprøven udgør en ikke-ubetydelig del af populationen.
- Rapportér både estimat og SE (eller konfidensinterval) for at give et klart billede af usikkerheden.
Sammenfatning
Standardfejlen kvantificerer usikkerheden i et stikprøvestatistik som fx gennemsnittet eller en andel. Den beregnes typisk ved SE = s / sqrt(n) for gennemsnittet eller SE = sqrt(p(1−p)/n) for andele. Mindre SE betyder større præcision i estimatet. Ved ukendt populations-σ og små stikprøver skal man bruge t-fordelingen; ved store stikprøver er z-tilnærmelsen ofte tilstrækkelig.



.jpg)