Student's t-fordeling er en sandsynlighedsfordeling, som blev udviklet af William Sealy Gosset i 1908. Student er det pseudonym, som han brugte, da han offentliggjorde den artikel, der beskriver fordelingen.

En normalfordeling beskriver en hel population, mens t-fordelinger beskriver stikprøver udtaget fra en hel population; derfor er t-fordelingen forskellig for hver stikprøvestørrelse, og jo større stikprøven er, jo mere ligner fordelingen en normalfordeling.

T-fordelingen spiller en rolle i mange almindeligt anvendte statistiske analyser, herunder Student's t-test til vurdering af den statistiske signifikans af forskellen mellem to stikprøvegennemsnit, opbygning af konfidensintervaller for forskellen mellem to populationsgennemsnit og i lineær regressionsanalyse. Student's t-fordeling forekommer også i den Bayesianske analyse af data fra en normal familie.

Definition og matematisk udtryk

Student's t-fordeling beskrives ved et parameter kaldet frihedsgrader (ofte betegnet ν). For en standardiseret t-fordeling er tæthedsfunktionen givet ved

f(t) = Gamma((ν + 1)/2) / (sqrt(ν π) · Gamma(ν/2)) · (1 + t²/ν)^(-(ν + 1)/2),

hvor Gamma er gammafunktionen, ν er antal frihedsgrader, og π er pi. Denne formel viser, at fordelingen har tykkere haler end en normalfordeling, især for lave ν.

Grundlæggende egenskaber

  • Symmetri: t-fordelingen er symmetrisk omkring 0, så median og modus er 0.
  • Forventning: For ν > 1 er forventningen 0. For ν ≤ 1 er forventningen ikke defineret.
  • Varians: For ν > 2 er variansen lig med ν/(ν − 2). For 1 < ν ≤ 2 er variansen uendelig, og for ν ≤ 1 er variansen ikke defineret.
  • Skævhed: Skævheden er 0 (fordelingen er symmetrisk). Kurtosen er større end for normalfordelingen, hvilket afspejler de tungere haler; højere øjeblikke kræver større ν for at være definerede.
  • Grænseadfærd: Når ν → ∞, konvergerer t-fordelingen mod standard normalfordeling. Mindre ν giver markant tykkere haler.
  • Afhængighed af stikprøvestørrelse: For en enkel stikprøve er ν typisk n − 1 (hvor n er stikprøvestørrelsen). I regression er ν ofte n − p (p = antal estimerede parametre).

Oprindelse og tolkning

T-fordelingen opstår, når man tager forholdet mellem en standard normalfordelt variabel Z og kvadratroden af en uafhængig chi-i-anden fordelt variabel divideret med dens frihedsgrader. Formelt:

t = Z / sqrt(W/ν),

hvor Z ~ N(0,1) og W ~ χ²(ν) uafhængige. Dette forhold forklarer, hvorfor t-fordelingen har tykkere haler: estimering af varians fra data øger usikkerheden i standardiseringen.

Anvendelser i praksis

  • Student's t-test: Bruges til at teste om et stikprøvegennemsnit afviger fra et hypotetisk populationsgennemsnit (én-sample t-test), til sammenligning af to gennemsnit (to-sample t-test) og til parrede observationer (paired t-test). I praksis vælger man ofte også Welch's t-test, når varianserne ikke antages lig.
  • Konfidensintervaller: Konfidensinterval for et gennemsnit beregnes som x̄ ± t_{α/2,ν} · s/√n, hvor t_{α/2,ν} er den kritiske t-værdi for niveau α og ν frihedsgrader, s er stikprøvestandardafvigelsen.
  • Regressionsanalyse: I lineær regression følger estimatorerne for koefficienterne (standardiseret) en t-fordeling med ν = n − p frihedsgrader, og t-tests bruges til at vurdere signifikans af individuelle koefficienter.
  • Bayesianske modeller: T-fordelingen anvendes både som en robust fejldistribution (t-fejl i stedet for normal) og optræder i posteriorfordelinger ved visse valg af priors.
  • Små stikprøver: T-fordelingen er især vigtig ved små stikprøver, hvor normalapproksimationen ikke er pålidelig.

Praktiske bemærkninger og antagelser

  • T-test og konfidensintervaller baseret på t-fordelingen forudsætter typisk, at data (eller fejlled i regression) er omtrent normalfordelte eller i det mindste ikke stærkt afvigende. T-fordelingen er dog relativt robust over for moderate afvigelser fra normalitet, især når stikprøven vokser.
  • Ved uens varians mellem grupper anbefales Welch's t-test, som bruger en tilnærmet frihedsgradskalkulation (Welch–Satterthwaite-approximation) i stedet for den simple n1 + n2 − 2.
  • Valg af ensidet eller tosidet test bestemmer, om man bruger t_{α,ν} eller t_{α/2,ν} som kritisk værdi.

Eksempel i korte træk

Hvis du har en stikprøve på n = 10 observationer med stikprøvegennemsnit x̄ og stikprøvestandardafvigelse s, er et 95 % konfidensinterval for populationsgennemsnittet:

x̄ ± t_{0.025, 9} · s / sqrt(10).

Værktøjer og implementering

De fleste statistikpakker har funktioner til tæthed, fordelingsfunktion, kvantil og tilfældig simulering for t-fordelingen (fx dt, pt, qt, rt i R). Ved rapportering bør man anføre frihedsgrader og, ved hypotesetest, hvilken variant af t-test der er anvendt (ens varians vs. uens varians).

Student's t-fordeling er dermed et centralt værktøj i inferens ved små og moderate stikprøver og i regressionssammenhænge, idet den kvantificerer ekstra usikkerhed som følge af variansestimering fra data.