Korrelation vs kausalitet: Definition og måleværktøjer i statistik
Forstå forskellen mellem korrelation og kausalitet: definitioner, faldgruber og praktiske måleværktøjer i statistik — undgå fejlslutninger og tolk data korrekt.
I statistik og sandsynlighedsregning betyder korrelation, hvor tæt to datasæt er forbundet. Korrelation kvantificerer både retning og styrke af en sammenhæng mellem to variabler, men siger ikke nødvendigvis noget om årsagssammenhæng.
Korrelation betyder ikke altid, at det ene er årsag til det andet. Det er meget muligt, at der er en tredje faktor involveret, eller at sammenhængen er tilfældig. Et klassisk eksempel er sammenhængen mellem is-salg og drukneulykker: begge stiger om sommeren, fordi varmen (en fælles tredje faktor) påvirker dem begge — ikke fordi det ene forårsager det andet.
Korrelationen har normalt en af to retninger. Disse er positive eller negative. Hvis den er positiv, stiger de to sæt sammen. Hvis den er negativ, stiger den ene, mens den anden falder. Styrken af korrelationen måles typisk med en talværdi, som ligger i intervallet -1 til 1: værdier nær -1 eller 1 angiver en kraftig lineær sammenhæng, mens værdier nær 0 indikerer ingen lineær sammenhæng.
Måleværktøjer for korrelation
Der anvendes mange forskellige målinger af korrelation i forskellige situationer. På et spredningsdiagram tegner man f.eks. en linje med bedste tilpasning for at vise retningen af sammenhængen. De mest brugte mål er:
- Pearsons korrelationskoefficient (r) — måler styrken af en lineær sammenhæng mellem to kontinuerte variabler. Vær forsigtig: et lavt r-nummer betyder ikke nødvendigvis fravær af sammenhæng, hvis relationen er ikke-lineær.
- Spearmans rangkorrelation (ρ) — et ikke-parametrisk mål, der bruges når forholdet er monotont men ikke nødvendigvis lineært, eller når data er rangordnede.
- Kendalls tau — et andet mål for rangkorrelation, ofte mere robust ved små prøvestørrelser og mange bundne værdier.
- Partiel korrelation — estimerer korrelationen mellem to variabler efter kontrol for en eller flere ekstra variabler (bruges til at afdække mulige confoundere).
Tolkning, signifikans og visualisering
Ud over selve korrelationskoefficienten bør man:
- Tjekke spredningsdiagrammer for at se, om relationen er linear, monotont stigende/faldende eller kompleks/non-lineær.
- Beregn konfidensintervaller og p-værdier for at vurdere statistisk usikkerhed og om fundet kan være opstået ved et udvalgsvariation.
- Være opmærksom på outliers, som kan påvirke korrelationsmål kraftigt.
- Brug transformationer eller ikke-lineære modeller, hvis sammenhængen ikke er lineær.
Korrelation vs kausalitet — hvordan afgør man årsag?
Kausalitet betyder, at ændring i én variabel direkte forårsager ændring i en anden. At påvise kausalitet kræver mere end korrelationsmål; det kræver design eller metoder, der kan isolere årsagseffekter. Almindelige tilgange er:
- Randomiserede kontrollerede forsøg (RCT) — den mest robuste metode til at etablere kausalitet, idet randomisering mindsker påvirkning fra confoundere.
- Longitudinale studier — følger de samme enheder over tid og kan vise tidsmæssig rækkefølge (hvad kommer før hvad).
- Instrumentvariable — bruges når der er mistanke om endogenitet; et instrument påvirker den forklarende variabel men ikke direkte udfaldet.
- Quasi-eksperimentelle metoder — f.eks. regressionsdiskontinuitet, difference-in-differences og natural experiments.
- Tidsserieanalyser — herunder Granger-kausalitet, der kan teste om én tidsserie giver information om fremtidige værdier af en anden (bemærk: Granger-kausalitet er ikke nødvendigvis sand kausalitet, men et skridt imod årsagsfortolkning).
Tolkningstips og faldgruber
- Forveksl ikke korrelation med årsag — overvej altid alternative forklaringer og mulige confoundere.
- Se efter skjulte variabler — en tredje variabel kan skabe en tilsyneladende sammenhæng (spuriøs korrelation).
- Vær opmærksom på stikprøvestørrelse — små prøver giver usikre estimater og kan lede til fejlkonklusioner.
- Kontroller for multiple tests — når mange korrelationer testes, øges risikoen for tilfældige signifikante resultater.
- Brug faglig viden — statistik alene kan sjældent bevise årsag uden teoretisk eller eksperimentel støtte.
Kort sagt: korrelation er et nyttigt redskab til at beskrive og opdage sammenhænge mellem variabler, men for at konkludere, at noget er årsag til noget andet, skal man bruge stærkere design eller metodiske tilgange, som kan håndtere confounding og etablere tidsmæssig rækkefølge.
Denne spredningsdiagram har positiv korrelation. Det kan man se, fordi tendensen går opad og til højre. Den røde linje er en linje med den bedste tilpasning.
Forklaring af korrelation
Stærk og svag er ord, der bruges til at beskrive korrelation. Hvis der er en stærk korrelation, ligger punkterne tæt på hinanden. Hvis der er en svag korrelation, er punkterne spredt fra hinanden. Der er måder at få tal til at vise, hvor stærk korrelationen er. Disse målinger kaldes korrelationskoefficienter. Den mest kendte er Pearson-produkt-momentkorrelationskoefficienten. Man indtaster data i en formel, og den giver et tal. Hvis tallet er 1 eller -1, er der en stærk korrelation. Hvis svaret er 0, er der ingen korrelation. En anden form for korrelationskoefficient er Spearmans rangkorrelationskoefficient.
Korrelation vs. årsagssammenhæng
Korrelation betyder ikke altid, at den ene ting er årsag til den anden ting (årsagssammenhæng), fordi noget andet kan have forårsaget begge ting. F.eks. køber folk is på varme dage, og folk går også på stranden, hvor nogle bliver ædt af hajer. Der er en sammenhæng mellem salget af is og hajangreb (i dette tilfælde stiger begge dele i takt med, at temperaturen stiger). Men bare fordi salget af is stiger, betyder det ikke, at salget af is forårsager (kausalitet) flere hajangreb eller omvendt.
Fordi korrelation ikke er ensbetydende med årsagssammenhæng, vil videnskabsmænd, økonomer osv. teste deres teorier ved at skabe isolerede miljøer, hvor kun én faktor ændres (hvor dette er muligt). Men politikere, sælgere, nyhedsbureauer og andre antyder ofte, at en bestemt korrelation indebærer årsagssammenhæng. Dette kan skyldes uvidenhed eller et ønske om at overbevise. Således kan en nyhedsudsendelse tiltrække opmærksomhed ved at sige, at folk, der oftere forbruger et bestemt produkt, har et bestemt sundhedsproblem, hvilket antyder en årsagssammenhæng, som i virkeligheden kunne skyldes noget andet.
Relaterede sider
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. (2003). Anvendt multipel regressions-/korrelationsanalyse for adfærdsvidenskab. (3rd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates.
Spørgsmål og svar
Q: Hvad er korrelation?
A: Korrelation er en måde at angive, hvor tæt to datasæt er på hinanden.
Q: Betyder korrelation, at det ene sæt data forårsager det andet?
A: Nej, korrelation betyder ikke altid, at det ene sæt data er årsag til det andet. Faktisk er der ofte en tredje faktor involveret.
Q: Hvad er de to korrelationsretninger?
A: De to korrelationsretninger er positiv og negativ.
Q: Hvad betyder en positiv korrelation?
A: En positiv korrelation betyder, at de to datasæt går op sammen.
Q: Hvad betyder en negativ korrelation?
A: En negativ korrelation betyder, at det ene datasæt stiger, mens det andet falder.
Q: Findes der forskellige målinger af korrelation?
A: Ja, der bruges mange forskellige korrelationsmålinger til forskellige situationer.
Q: Hvordan viser folk ofte korrelationens retning på en spredningsgraf?
A: Man tegner ofte en linje for bedste tilpasning for at vise korrelationens retning på en spredningsgraf.
Søge