Student's t-fordeling: Definition, egenskaber og anvendelser i statistik

Lær Student's t‑fordeling: klar definition, nøgleegenskaber og praktiske anvendelser i t‑test, konfidensintervaller og regression. Perfekt til studier og statistisk analyse.

Forfatter: Leandro Alegsa

Student's t-fordeling er en sandsynlighedsfordeling, som blev udviklet af William Sealy Gosset i 1908. Student er det pseudonym, som han brugte, da han offentliggjorde den artikel, der beskriver fordelingen.

En normalfordeling beskriver en hel population, mens t-fordelinger beskriver stikprøver udtaget fra en hel population; derfor er t-fordelingen forskellig for hver stikprøvestørrelse, og jo større stikprøven er, jo mere ligner fordelingen en normalfordeling.

T-fordelingen spiller en rolle i mange almindeligt anvendte statistiske analyser, herunder Student's t-test til vurdering af den statistiske signifikans af forskellen mellem to stikprøvegennemsnit, opbygning af konfidensintervaller for forskellen mellem to populationsgennemsnit og i lineær regressionsanalyse. Student's t-fordeling forekommer også i den Bayesianske analyse af data fra en normal familie.

Definition og matematisk udtryk

Student's t-fordeling beskrives ved et parameter kaldet frihedsgrader (ofte betegnet ν). For en standardiseret t-fordeling er tæthedsfunktionen givet ved

f(t) = Gamma((ν + 1)/2) / (sqrt(ν π) · Gamma(ν/2)) · (1 + t²/ν)^(-(ν + 1)/2),

hvor Gamma er gammafunktionen, ν er antal frihedsgrader, og π er pi. Denne formel viser, at fordelingen har tykkere haler end en normalfordeling, især for lave ν.

Grundlæggende egenskaber

  • Symmetri: t-fordelingen er symmetrisk omkring 0, så median og modus er 0.
  • Forventning: For ν > 1 er forventningen 0. For ν ≤ 1 er forventningen ikke defineret.
  • Varians: For ν > 2 er variansen lig med ν/(ν − 2). For 1 < ν ≤ 2 er variansen uendelig, og for ν ≤ 1 er variansen ikke defineret.
  • Skævhed: Skævheden er 0 (fordelingen er symmetrisk). Kurtosen er større end for normalfordelingen, hvilket afspejler de tungere haler; højere øjeblikke kræver større ν for at være definerede.
  • Grænseadfærd: Når ν → ∞, konvergerer t-fordelingen mod standard normalfordeling. Mindre ν giver markant tykkere haler.
  • Afhængighed af stikprøvestørrelse: For en enkel stikprøve er ν typisk n − 1 (hvor n er stikprøvestørrelsen). I regression er ν ofte n − p (p = antal estimerede parametre).

Oprindelse og tolkning

T-fordelingen opstår, når man tager forholdet mellem en standard normalfordelt variabel Z og kvadratroden af en uafhængig chi-i-anden fordelt variabel divideret med dens frihedsgrader. Formelt:

t = Z / sqrt(W/ν),

hvor Z ~ N(0,1) og W ~ χ²(ν) uafhængige. Dette forhold forklarer, hvorfor t-fordelingen har tykkere haler: estimering af varians fra data øger usikkerheden i standardiseringen.

Anvendelser i praksis

  • Student's t-test: Bruges til at teste om et stikprøvegennemsnit afviger fra et hypotetisk populationsgennemsnit (én-sample t-test), til sammenligning af to gennemsnit (to-sample t-test) og til parrede observationer (paired t-test). I praksis vælger man ofte også Welch's t-test, når varianserne ikke antages lig.
  • Konfidensintervaller: Konfidensinterval for et gennemsnit beregnes som x̄ ± t_{α/2,ν} · s/√n, hvor t_{α/2,ν} er den kritiske t-værdi for niveau α og ν frihedsgrader, s er stikprøvestandardafvigelsen.
  • Regressionsanalyse: I lineær regression følger estimatorerne for koefficienterne (standardiseret) en t-fordeling med ν = n − p frihedsgrader, og t-tests bruges til at vurdere signifikans af individuelle koefficienter.
  • Bayesianske modeller: T-fordelingen anvendes både som en robust fejldistribution (t-fejl i stedet for normal) og optræder i posteriorfordelinger ved visse valg af priors.
  • Små stikprøver: T-fordelingen er især vigtig ved små stikprøver, hvor normalapproksimationen ikke er pålidelig.

Praktiske bemærkninger og antagelser

  • T-test og konfidensintervaller baseret på t-fordelingen forudsætter typisk, at data (eller fejlled i regression) er omtrent normalfordelte eller i det mindste ikke stærkt afvigende. T-fordelingen er dog relativt robust over for moderate afvigelser fra normalitet, især når stikprøven vokser.
  • Ved uens varians mellem grupper anbefales Welch's t-test, som bruger en tilnærmet frihedsgradskalkulation (Welch–Satterthwaite-approximation) i stedet for den simple n1 + n2 − 2.
  • Valg af ensidet eller tosidet test bestemmer, om man bruger t_{α,ν} eller t_{α/2,ν} som kritisk værdi.

Eksempel i korte træk

Hvis du har en stikprøve på n = 10 observationer med stikprøvegennemsnit x̄ og stikprøvestandardafvigelse s, er et 95 % konfidensinterval for populationsgennemsnittet:

x̄ ± t_{0.025, 9} · s / sqrt(10).

Værktøjer og implementering

De fleste statistikpakker har funktioner til tæthed, fordelingsfunktion, kvantil og tilfældig simulering for t-fordelingen (fx dt, pt, qt, rt i R). Ved rapportering bør man anføre frihedsgrader og, ved hypotesetest, hvilken variant af t-test der er anvendt (ens varians vs. uens varians).

Student's t-fordeling er dermed et centralt værktøj i inferens ved små og moderate stikprøver og i regressionssammenhænge, idet den kvantificerer ekstra usikkerhed som følge af variansestimering fra data.


 

Historie

Gosset arbejdede på et bryggeri og var interesseret i problemerne med små prøver, f.eks. de kemiske egenskaber af byg. I de problemer, han analyserede, kunne prøvestørrelsen være så lille som tre. På grund af den lille stikprøvestørrelse er det ikke muligt at estimere standardafvigelsen. I mange af de tilfælde, som Gosset stødte på, var sandsynlighedsfordelingen af prøverne heller ikke kendt.

En version af pseudonymet er, at Gossets arbejdsgiver foretrak, at de ansatte brugte pseudonymer (i stedet for deres rigtige navn), når de offentliggjorde videnskabelige artikler, så han brugte navnet "Student" for at skjule sin identitet. En anden version er, at bryggeriet ikke ønskede, at deres konkurrenter skulle vide, at de brugte t-testen til at teste råvarernes kvalitet.


 

Egenskaber

Hvis vi tager en stikprøve på n observationer fra en normalfordeling, kan t-fordelingen med ν = n-1 frihedsgrader defineres som fordelingen af placeringen af stikprøvens gennemsnit {\displaystyle {\overline {X}}}, i forhold til den sande middelværdi \mu, divideret med stikprøvens standardafvigelse {\displaystyle s} over normaliseringstermen {\displaystyle {\sqrt {n}}} (dvs. {\displaystyle T={\tfrac {{\overline {X}}-\mu }{s/{\sqrt {n}}}}} ). På denne måde kan t-fordelingen bruges til at estimere, hvor sandsynligt det er, at den sande middelværdi ligger inden for et givet interval.

T-fordelingen er symmetrisk og klokkeformet ligesom normalfordelingen, men har større haler, hvilket betyder, at den er mere tilbøjelig til at producere værdier, der ligger langt fra dens gennemsnit. Dette gør den nyttig til at forstå den statistiske adfærd for visse typer af forhold mellem tilfældige størrelser, hvor variationen i nævneren forstærkes og kan give afvigende værdier, når nævneren i forholdet falder tæt på nul. Student's t-fordeling er et specialtilfælde af den generaliserede hyperboliske fordeling.


 

Relaterede sider

  • F-fordeling
 

Spørgsmål og svar

Spørgsmål: Hvad er Student's t-fordeling?


Svar: Student's t-fordeling er en sandsynlighedsfordeling, som blev udviklet af William Sealy Gosset i 1908. Den beskriver stikprøver udtaget fra en fuld population, og jo større stikprøvestørrelsen er, jo mere ligner den en normalfordeling.

Sp: Hvem udviklede Student's t-fordeling?


Svar: William Sealy Gosset udviklede Student's t-fordeling i 1908. Han brugte pseudonymet "Student", da han offentliggjorde den artikel, der beskrev den.

Spørgsmål: Hvad er nogle af anvendelsesmulighederne for Student's t-fordeling?


Svar: Student's t-fordeling spiller en rolle i mange almindeligt anvendte statistiske analyser, herunder Student's t-test til vurdering af den statistiske betydning af forskelle mellem to stikprøvegennemsnit, konstruktion af konfidensintervaller for forskelle mellem to populationsgennemsnit og lineær regressionsanalyse. Den forekommer også i Bayesiansk analyse af data fra en normal familie.

Sp: Hvordan påvirker stikprøvestørrelsen formen af en t-fordeling?


Svar: Jo større stikprøvestørrelsen er, jo mere ligner den en normalfordeling. For hver forskellig stikprøvestørrelse findes der en unik t-fordeling, der beskriver den.

Spørgsmål: Er der nogen sammenhæng mellem Student's T-fordeling og normalfordeling?


A: Ja - mens normalfordelinger beskriver hele populationer, beskriver studenters T-fordelinger stikprøver udtaget fra disse populationer; som sådan har de ligheder, men adskiller sig fra hinanden afhængigt af deres respektive størrelser. Som nævnt ovenfor har større stikprøver en tendens til at ligne normalfordelinger mere end mindre stikprøver.

Spørgsmål: Er der et andet navn for denne type fordeling?


A: Nej - denne type fordeling er kendt som "Student's T-fordeling", opkaldt efter dens udvikler William Sealy Gosset, som brugte pseudonymet "Student", da han offentliggjorde sin artikel om den.


Søge
AlegsaOnline.com - 2020 / 2025 - License CC3