Fejl og residualer i statistik – definition, forskel og eksempler
Forstå forskellen mellem statistiske fejl og residualer: klare definitioner, konkrete eksempler og praktisk betydning for målinger og stikprøveanalyse.
Statistiske fejl og residualer opstår, fordi målinger aldrig er nøjagtige.
Det er ikke muligt at foretage en nøjagtig måling, men det er muligt at sige, hvor nøjagtig en måling er. Man kan måle den samme ting igen og igen og samle alle dataene sammen. Det giver os mulighed for at lave statistik over dataene. Det, der menes med fejl og residualer, er forskellen mellem den observerede eller målte værdi og den reelle værdi, som er ukendt.
Hvis der kun er én tilfældig variabel, er forskellen mellem statistiske fejl og residualer forskellen mellem populationens middelværdi og middelværdien af den (observerede) stikprøve. I så fald er residualet forskellen mellem det, som sandsynlighedsfordelingen siger, og det, der faktisk blev målt.
Lad os antage, at der er et forsøg med at måle højden på 21-årige mænd fra et bestemt område. Middelværdien af fordelingen er 1,75 m. Hvis en tilfældigt udvalgt mand er 1,80 m høj, er den "(statistiske) fejl" 0,05 m (5 cm); hvis han er 1,70 høj, er fejlen -5 cm.
En residual (eller tilpasningsfejl) er på den anden side et observerbart estimat af den uobserverbare statistiske fejl. I det enkleste tilfælde er der tale om en tilfældig stikprøve af n mænd, hvis højde måles. Stikprøvens gennemsnit anvendes som et skøn over populationens gennemsnit. Så har vi:
- Forskellen mellem højden for hver mand i stikprøven og den uobserverbare befolkningsgennemsnit er en statistisk fejl, og
- Forskellen mellem højden for hver enkelt mand i stikprøven og den observerbare stikprøvens gennemsnit er en residual.
Summen af residualerne i en tilfældig stikprøve skal være nul. Residualerne er derfor ikke uafhængige. Summen af de statistiske fejl i en tilfældig stikprøve behøver ikke at være nul; de statistiske fejl er uafhængige tilfældige variabler, hvis individerne er valgt uafhængigt af hinanden i populationen.
Kort sagt:
Uddybet forklaring
Der er to niveauer af "fejl" man ofte taler om:
- Statistisk (sande) fejl: forskellen mellem en observation og den sande, men ukendte populationsværdi. Denne fejl kan ikke måles direkte, fordi populationsparameteren (fx populationens gennemsnit) normalt er ukendt.
- Residual: den observerede forskel mellem en observation og en estimator (fx stikprøvemiddelværdien eller en models forudsagte værdi). Residualen kan beregnes fra data og bruges til at vurdere modeltilpasning og afvigelser i en stikprøve.
Praktisk eksempel med tal
Antag populationens middelværdi er 1,75 m. I en stikprøve på tre mænd måles højderne: 1,80 m, 1,70 m og 1,72 m.
- Populationens fejl (i forhold til 1,75): 0,05 m, -0,05 m og -0,03 m. Disse er statistiske fejl (de refererer til den sande, men ukendte population).
- Stikprøvemiddelværdien er (1,80+1,70+1,72)/3 = 1,74 m. Residualerne (i forhold til stikprøvemiddelværdien) er 0,06 m, -0,04 m og -0,02 m. Bemærk at residualerne summerer til 0 (undtagen for små rundingsfejl).
Egenskaber og vigtige pointer
- Residualer summerer til nul, når de er beregnet i forhold til stikprøvemiddelværdien eller en regressionsmodel med konstantled (intercept). Dette følger af definitionen af gennemsnittet eller af løsningen ved mindste kvadraters metode.
- Statistiske fejl (dvs. observation minus sand populationværdi) behøver ikke at summerer til nul og betragtes som uafhængige, hvis observationerne er uafhængigt udvalgte.
- Residualer er ikke uafhængige, fordi de er afhængige af estimatoren (fx stikprøvemiddelværdien). Når man estimerer en parameter, binder den estimerede parameter residualerne sammen gennem en restriktion (fx sum = 0).
- Residualer bruges til modelkontrol: residualplots kan afsløre systematiske mønstre (dårlig model), heteroskedasticitet (varierende spredning), outliers og autokorrelation.
- Større begreber: bias (systematisk afvigelse) er forskellen mellem forventningen af en estimator og den sande parameter; varians beskriver spredningen af estimatorer. Residualer og fejl indgår i måling af disse størrelser fx i middel kvadreret fejl (MSE).
Residualer i regressionssammenhæng
I en regressionsmodel defineres residualen for observation i som:
residual = observeret værdi - forudsagt værdi
Mindste kvadraters metode vælger parametre, så summen af kvadrerede residualer er mindst mulig (SSE = sum of squared errors/residuals). Når modellen indeholder et konstantled, vil residualerne altid summe til nul. Standardiserede residualer (residual divideret med et estimat af standardafvigelsen) bruges til at sammenligne residualer på tværs af observationer og finde potentielle outliers.
Hvornår skal man tænke på fejl vs residualer?
- Ved teoretisk analyse og sandsynlighedsmodeller taler man ofte om statistiske fejl, fordi man tænker på observationer i forhold til sand population.
- Ved dataanalyse, modeltilpasning og diagnostik arbejder man typisk med residualer, fordi de kan observeres og analyseres direkte.
Kort sagt — de vigtigste forskelle
- Statistisk fejl: Forskel mellem en observation og den sande (ukendte) populationsværdi. Kan ikke beregnes direkte (ukendt population).
- Residual: Forskel mellem en observation og en estimator / forudsagt værdi (fx stikprøvemiddel eller regressionsforudsigelse). Kan beregnes fra data.
- Sum: Residualerne i en stikprøve med et estimat af gennemsnittet summe til nul; de statistiske fejl gør ikke nødvendigvis det.
- Uafhængighed: Statistiske fejl kan være uafhængige; residualer er ikke uafhængige, fordi de afhænger af estimatoren.
Hvis du vil, kan jeg lave et lille regneeksempel i et regneark eller vise, hvordan man plotter residualer i fx R eller Python for at kontrollere en models tilpasning.
Relaterede sider
Spørgsmål og svar
Spørgsmål: Hvad forstås ved statistiske fejl og residualer?
A: Statistiske fejl og residualer henviser til forskellen mellem den observerede eller målte værdi og den reelle værdi, som er ukendt.
Spørgsmål: Hvordan kan man måle nøjagtigheden af en måling?
Svar: Man kan måle den samme ting igen og igen og samle alle dataene sammen. Dette giver os mulighed for at lave statistik over dataene for at bestemme, hvor nøjagtig en måling er.
Spørgsmål: Hvad er et eksempel på en statistisk fejl?
Svar: Et eksempel på en statistisk fejl ville være, hvis der blev foretaget et forsøg med at måle højden på 21-årige mænd fra et bestemt område med et forventet gennemsnit på 1,75 m, men en tilfældigt udvalgt mand var 1,80 m høj; så ville den "(statistiske) fejl" være 0,05 m (5 cm).
Sp: Hvad er et eksempel på en residual?
Svar: Et eksempel på en residual ville være, hvis der var et forsøg med at måle højden på 21-årige mænd fra et bestemt område med et forventet gennemsnit på 1,75 m, men en tilfældigt udvalgt mand var 1,70 m høj; så ville residualet (eller tilpasningsfejlen) være -0,05 m (-5 cm).
Sp: Er restværdier uafhængige variabler?
Svar: Nej, summen af residualerne i en tilfældig stikprøve skal være nul, så de er ikke uafhængige variabler.
Spørgsmål: Er statistiske fejl uafhængige variabler?
A: Ja, summen af de statistiske fejl i en tilfældig stikprøve behøver ikke at være nul; derfor er de uafhængige tilfældige variabler, hvis enkeltpersoner vælges uafhængigt af hinanden fra populationen.
Spørgsmål: Er det muligt at foretage nøjagtige målinger?
A: Nej, det er ikke muligt at foretage nøjagtige målinger, fordi målinger aldrig er nøjagtige.
Søge