I statistik og sandsynlighedsregning betyder korrelation, hvor tæt to datasæt er forbundet. Korrelation kvantificerer både retning og styrke af en sammenhæng mellem to variabler, men siger ikke nødvendigvis noget om årsagssammenhæng.
Korrelation betyder ikke altid, at det ene er årsag til det andet. Det er meget muligt, at der er en tredje faktor involveret, eller at sammenhængen er tilfældig. Et klassisk eksempel er sammenhængen mellem is-salg og drukneulykker: begge stiger om sommeren, fordi varmen (en fælles tredje faktor) påvirker dem begge — ikke fordi det ene forårsager det andet.
Korrelationen har normalt en af to retninger. Disse er positive eller negative. Hvis den er positiv, stiger de to sæt sammen. Hvis den er negativ, stiger den ene, mens den anden falder. Styrken af korrelationen måles typisk med en talværdi, som ligger i intervallet -1 til 1: værdier nær -1 eller 1 angiver en kraftig lineær sammenhæng, mens værdier nær 0 indikerer ingen lineær sammenhæng.
Måleværktøjer for korrelation
Der anvendes mange forskellige målinger af korrelation i forskellige situationer. På et spredningsdiagram tegner man f.eks. en linje med bedste tilpasning for at vise retningen af sammenhængen. De mest brugte mål er:
- Pearsons korrelationskoefficient (r) — måler styrken af en lineær sammenhæng mellem to kontinuerte variabler. Vær forsigtig: et lavt r-nummer betyder ikke nødvendigvis fravær af sammenhæng, hvis relationen er ikke-lineær.
- Spearmans rangkorrelation (ρ) — et ikke-parametrisk mål, der bruges når forholdet er monotont men ikke nødvendigvis lineært, eller når data er rangordnede.
- Kendalls tau — et andet mål for rangkorrelation, ofte mere robust ved små prøvestørrelser og mange bundne værdier.
- Partiel korrelation — estimerer korrelationen mellem to variabler efter kontrol for en eller flere ekstra variabler (bruges til at afdække mulige confoundere).
Tolkning, signifikans og visualisering
Ud over selve korrelationskoefficienten bør man:
- Tjekke spredningsdiagrammer for at se, om relationen er linear, monotont stigende/faldende eller kompleks/non-lineær.
- Beregn konfidensintervaller og p-værdier for at vurdere statistisk usikkerhed og om fundet kan være opstået ved et udvalgsvariation.
- Være opmærksom på outliers, som kan påvirke korrelationsmål kraftigt.
- Brug transformationer eller ikke-lineære modeller, hvis sammenhængen ikke er lineær.
Korrelation vs kausalitet — hvordan afgør man årsag?
Kausalitet betyder, at ændring i én variabel direkte forårsager ændring i en anden. At påvise kausalitet kræver mere end korrelationsmål; det kræver design eller metoder, der kan isolere årsagseffekter. Almindelige tilgange er:
- Randomiserede kontrollerede forsøg (RCT) — den mest robuste metode til at etablere kausalitet, idet randomisering mindsker påvirkning fra confoundere.
- Longitudinale studier — følger de samme enheder over tid og kan vise tidsmæssig rækkefølge (hvad kommer før hvad).
- Instrumentvariable — bruges når der er mistanke om endogenitet; et instrument påvirker den forklarende variabel men ikke direkte udfaldet.
- Quasi-eksperimentelle metoder — f.eks. regressionsdiskontinuitet, difference-in-differences og natural experiments.
- Tidsserieanalyser — herunder Granger-kausalitet, der kan teste om én tidsserie giver information om fremtidige værdier af en anden (bemærk: Granger-kausalitet er ikke nødvendigvis sand kausalitet, men et skridt imod årsagsfortolkning).
Tolkningstips og faldgruber
- Forveksl ikke korrelation med årsag — overvej altid alternative forklaringer og mulige confoundere.
- Se efter skjulte variabler — en tredje variabel kan skabe en tilsyneladende sammenhæng (spuriøs korrelation).
- Vær opmærksom på stikprøvestørrelse — små prøver giver usikre estimater og kan lede til fejlkonklusioner.
- Kontroller for multiple tests — når mange korrelationer testes, øges risikoen for tilfældige signifikante resultater.
- Brug faglig viden — statistik alene kan sjældent bevise årsag uden teoretisk eller eksperimentel støtte.
Kort sagt: korrelation er et nyttigt redskab til at beskrive og opdage sammenhænge mellem variabler, men for at konkludere, at noget er årsag til noget andet, skal man bruge stærkere design eller metodiske tilgange, som kan håndtere confounding og etablere tidsmæssig rækkefølge.
