Definition
I statistik anvendes variabler til at beskrive en måling. En sådan variabel eller et resultat betegnes statistisk signifikant, når sandsynligheden for, at resultatet skyldes tilfældige udsving under en antaget nulhypotesen, er mindre end et forudbestemt niveau. Denne sandsynlighed vurderes typisk ved en statistisk hypotesetest, hvor man sammenholder en observeret teststatistik med den forventede fordeling under nulhypotesen.
α‑niveau og p‑værdi
α‑niveauet (ofte skrevet α) er den grænse, man sætter for, hvor stor sandsynlighed for tilfældighed man accepterer, før man afviser nulhypotesen. Hvis man vælger α = 0,05, betyder det, at man tillader en 5% risiko for at begå en Type I‑fejl (forkaste en sand nulhypotese).
p‑værdien er den faktiske sandsynlighed, beregnet ud fra data, for at få et resultat mindst så ekstremt som det observerede, hvis nulhypotesen er sand. Reglen er:
- hvis p < α, forkastes nulhypotesen (resultatet betegnes signifikant ved niveau α);
- hvis p ≥ α, forkastes nulhypotesen ikke (resultatet er ikke signifikant ved niveau α).
En vigtig pointe er, at p‑værdi ikke er sandsynligheden for, at nulhypotesen er sand, og at signifikans ikke automatisk betyder praktisk eller klinisk relevans.
Enkle eksempler
- Hvis en test giver p = 0,03 og α = 0,05, så er p < α, og resultatet anses som statistisk signifikant ved 5%-niveauet.
- Hvis man foretager en ensidet test, er sandsynlighedsberegningen anderledes end ved en tosidet test; derfor skal valg af ensidet/tosidet afgøres før dataindsamling, eller det skal begrundes.
Historisk baggrund
Begrebet statistisk signifikans blev skabt af Ronald Fisher, da han udviklede metoder til statistisk hypotesetestning og i 1925 beskrev disse som "signifikanstest" i Statistical Methods for Research Workers. Fisher foreslog ofte 0,05 (én ud af tyve) som et praktisk grænseværdiniveau for at forkaste nulhypotesen, men han mente ikke, at denne grænse var absolut.
I 1933 udviklede Jerzy Neyman og Egon Pearson en alternativ, mere formel ramme med faste beslutningsregler, hvor de introducerede ideen om at fastsætte signifikansniveauet (f.eks. 0,05) på forhånd. De kaldte dette niveau for α og fremhævede også betydningen af Type II‑fejl og testens power (1 − β), som er sandsynligheden for korrekt at afvise en falsk nulhypotese.
Fisher selv understregede senere, bl.a. i Statistical methods and scientific inference (1956), at signifikansniveauer bør fastsættes efter de konkrete omstændigheder og ikke som en universel regel.
Begrænsninger og misforståelser
- Signifikans ≠ relevans: Et statistisk signifikant resultat kan være uden praktisk betydning, især i meget store datasæt, hvor små effekter bliver signifikante.
- p‑værdier er følsomme: for stikprøvestørrelse, modelantagelser og multiple testning. Mange sammenligninger øger risikoen for falske positive, hvis der ikke korrigeres for multiple test.
- Dichotomi: At opdele resultater i "signifikant/ikke signifikant" kan føre til tab af information. Det anbefales at rapportere eksakte p‑værdier, effektstørrelser og konfidensintervaller.
Moderne anbefalinger
- Forudregistrer design og α‑niveau, så valg af tests og tærskler ikke styres af data.
- Rapporter eksakte p‑værdier, effektstørrelser og konfidensintervaller for at give et mere nuanceret billede af resultaterne.
- Overvej korrektion ved multiple sammenligninger (fx Bonferroni eller FDR‑metoder) og undersøg testens power ved planlægning af stikprøvestørrelse.
- Undgå blind tro på en enkelt grænseværdi; vurder resultater i kontekst af tidligere viden, mekanismer og praktisk betydning.
Kort opsummering
Statistisk signifikans handler om, hvor usandsynligt et observeret resultat er under nulhypotesen. α er den forudbestemte grænse for, hvor stor sandsynlighed for tilfældighed man accepterer; p‑værdien er den beregnede sandsynlighed ud fra data. Begrebet har rødder i arbejde af Fisher og Neyman–Pearson, og moderne praksis anbefaler en mere nuanceret rapportering og fortolkning frem for blot at følge en fast tærskel.