Statistisk signifikans – definition, α‑niveau og historisk baggrund
Lær om statistisk signifikans, α‑niveau og historien bag Fisher, Neyman og Pearson — forstå definition, hypotesetest og valg af grænseværdier.
Definition
I statistik anvendes variabler til at beskrive en måling. En sådan variabel eller et resultat betegnes statistisk signifikant, når sandsynligheden for, at resultatet skyldes tilfældige udsving under en antaget nulhypotesen, er mindre end et forudbestemt niveau. Denne sandsynlighed vurderes typisk ved en statistisk hypotesetest, hvor man sammenholder en observeret teststatistik med den forventede fordeling under nulhypotesen.
α‑niveau og p‑værdi
α‑niveauet (ofte skrevet α) er den grænse, man sætter for, hvor stor sandsynlighed for tilfældighed man accepterer, før man afviser nulhypotesen. Hvis man vælger α = 0,05, betyder det, at man tillader en 5% risiko for at begå en Type I‑fejl (forkaste en sand nulhypotese).
p‑værdien er den faktiske sandsynlighed, beregnet ud fra data, for at få et resultat mindst så ekstremt som det observerede, hvis nulhypotesen er sand. Reglen er:
- hvis p < α, forkastes nulhypotesen (resultatet betegnes signifikant ved niveau α);
- hvis p ≥ α, forkastes nulhypotesen ikke (resultatet er ikke signifikant ved niveau α).
En vigtig pointe er, at p‑værdi ikke er sandsynligheden for, at nulhypotesen er sand, og at signifikans ikke automatisk betyder praktisk eller klinisk relevans.
Enkle eksempler
- Hvis en test giver p = 0,03 og α = 0,05, så er p < α, og resultatet anses som statistisk signifikant ved 5%-niveauet.
- Hvis man foretager en ensidet test, er sandsynlighedsberegningen anderledes end ved en tosidet test; derfor skal valg af ensidet/tosidet afgøres før dataindsamling, eller det skal begrundes.
Historisk baggrund
Begrebet statistisk signifikans blev skabt af Ronald Fisher, da han udviklede metoder til statistisk hypotesetestning og i 1925 beskrev disse som "signifikanstest" i Statistical Methods for Research Workers. Fisher foreslog ofte 0,05 (én ud af tyve) som et praktisk grænseværdiniveau for at forkaste nulhypotesen, men han mente ikke, at denne grænse var absolut.
I 1933 udviklede Jerzy Neyman og Egon Pearson en alternativ, mere formel ramme med faste beslutningsregler, hvor de introducerede ideen om at fastsætte signifikansniveauet (f.eks. 0,05) på forhånd. De kaldte dette niveau for α og fremhævede også betydningen af Type II‑fejl og testens power (1 − β), som er sandsynligheden for korrekt at afvise en falsk nulhypotese.
Fisher selv understregede senere, bl.a. i Statistical methods and scientific inference (1956), at signifikansniveauer bør fastsættes efter de konkrete omstændigheder og ikke som en universel regel.
Begrænsninger og misforståelser
- Signifikans ≠ relevans: Et statistisk signifikant resultat kan være uden praktisk betydning, især i meget store datasæt, hvor små effekter bliver signifikante.
- p‑værdier er følsomme: for stikprøvestørrelse, modelantagelser og multiple testning. Mange sammenligninger øger risikoen for falske positive, hvis der ikke korrigeres for multiple test.
- Dichotomi: At opdele resultater i "signifikant/ikke signifikant" kan føre til tab af information. Det anbefales at rapportere eksakte p‑værdier, effektstørrelser og konfidensintervaller.
Moderne anbefalinger
- Forudregistrer design og α‑niveau, så valg af tests og tærskler ikke styres af data.
- Rapporter eksakte p‑værdier, effektstørrelser og konfidensintervaller for at give et mere nuanceret billede af resultaterne.
- Overvej korrektion ved multiple sammenligninger (fx Bonferroni eller FDR‑metoder) og undersøg testens power ved planlægning af stikprøvestørrelse.
- Undgå blind tro på en enkelt grænseværdi; vurder resultater i kontekst af tidligere viden, mekanismer og praktisk betydning.
Kort opsummering
Statistisk signifikans handler om, hvor usandsynligt et observeret resultat er under nulhypotesen. α er den forudbestemte grænse for, hvor stor sandsynlighed for tilfældighed man accepterer; p‑værdien er den beregnede sandsynlighed ud fra data. Begrebet har rødder i arbejde af Fisher og Neyman–Pearson, og moderne praksis anbefaler en mere nuanceret rapportering og fortolkning frem for blot at følge en fast tærskel.
Spørgsmål og svar
Q: Hvad er en statistisk signifikant variabel?
A: En variabel er statistisk signifikant, hvis sandsynligheden for at opnå dens resultat (eller et mere ekstremt resultat) er mindre end en given værdi under en bestemt antagelse om status quo.
Q: Hvad bruges statistisk signifikans til?
A: Statistisk signifikans bruges til at bestemme, hvor usandsynligt et eksperimentelt resultat er, når en bestemt status quo-antagelse antages at være sand.
Q: Hvad bruges statistiske hypotesetests til?
A: Statistiske hypotesetests bruges til at kontrollere signifikans.
Q: Hvem opfandt begrebet statistisk signifikans?
A: Ronald Fisher opfandt begrebet statistisk signifikans i sin publikation fra 1925, Statistical Methods for Research Workers, da han udviklede statistisk hypotesetestning.
Q: Hvilket cutoff-niveau foreslog Fisher for at afvise nulhypotesen?
A: Fisher foreslog en sandsynlighed på en ud af tyve (0,05 eller 5%) - som et praktisk cutoff-niveau for at forkaste nulhypotesen.
Q: Hvem anbefalede, at signifikansniveauet blev fastsat før dataindsamlingen?
A: Jerzy Neyman og Egon Pearson anbefalede, at signifikansniveauet (for eksempel 0,05), som de kaldte α, blev fastsat før enhver dataindsamling.
Q: Havde Fisher til hensigt, at cutoff-værdien på 0,05 skulle være fast?
A: Nej, Fisher havde ikke til hensigt, at denne cutoff-værdi skulle være fast. I sin publikation fra 1956, Statistical methods and scientific inference, anbefalede han, at signifikante niveauer blev fastsat i henhold til specifikke omstændigheder.
Søge