Spearmans rangkorrelation (ρ): definition, formel og anvendelse

Lær Spearmans rangkorrelation (ρ): definition, formel og praktisk anvendelse — forstå korrelation mellem ordnede data og beregn rho trin for trin.

Forfatter: Leandro Alegsa

Inden for matematik og statistik er Spearmans rangkorrelationskoefficient et mål for korrelation, opkaldt efter dens ophavsmand, Charles Spearman. Det skrives kort som det græske bogstav rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) eller nogle gange som r s {\displaystyle r_{s}} {\displaystyle r_{s}}. Det er et tal, der viser, hvor tæt to datasæt er forbundet. Det kan kun anvendes til data, der kan ordnes i rækkefølge, f.eks. fra højeste til laveste værdi.

Den generelle formel for r s {\displaystyle r_{s}}}{\displaystyle r_{s}} er ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\cfrac {6\sum d^{2}}}{n(n^{{2}-1)}}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Hvis du f.eks. har data for, hvor dyre forskellige computere er, og data for, hvor hurtige computerne er, kan du se, om de er forbundet, og hvor tæt de er forbundet, ved hjælp af r s {\displaystyle r_{s}} {\displaystyle r_{s}}.

Hvad måler Spearmans ρ?

Spearmans rangkorrelation måler styrken og retningen af en monoton sammenhæng mellem to variable. Det vil sige, om én variabel typisk stiger når den anden stiger (positiv korrelation), eller falder når den anden stiger (negativ korrelation). Metoden kræver kun, at data kan ordnes (rangordnes) og er derfor ikke afhængig af lineæritet eller af de egentlige måleenheder.

Trinvis beregning

En enkel fremgangsmåde for at beregne ρ er:

  • 1) Rangordn værdierne i hvert datasæt separat (mindst til størst eller omvendt).
  • 2) For hver observation beregn forskellen d mellem de to rangordener (rang_X − rang_Y).
  • 3) Kvadrér disse forskelle og summer: ∑ d².
  • 4) Indsæt i formlen: ρ = 1 − (6 ∑ d²) / (n (n² − 1)), hvor n er antallet af observationer.

Håndtering af lige rækker (ties)

Hvis der er identiske værdier (ties), tildeles hver identisk værdi middelrangen. For eksempel, hvis to observationer deler 2. og 3. plads, får begge rang 2,5. Formlen med 6∑d² giver stadig et brugbart resultat, når man giver middelrækker, men hvis der er mange ties kan man i praksis beregne Spearmans ρ ved først at erstatte de oprindelige værdier med deres rækker og derefter beregne Pearson-korrelationen på disse rækker — dette håndterer ties korrekt i de fleste softwarepakker. For meget store mængder ties kan eksakte p‑værdier kræve specielformler eller permutationstest.

Fortolkning

  • ρ = +1: Perfekt stigende monoton sammenhæng (rangerne er identiske).
  • ρ = −1: Perfekt faldende monoton sammenhæng (rangerne er præcist omvendte).
  • ρ ≈ 0: Ingen monoton sammenhæng (der kan dog stadig være en ikke‑monoton relation).

Størrelsen af ρ angiver styrken af den monotone sammenhæng, men hvad der er "stor" afhænger af konteksten og stikprøvestørrelsen.

Signifikans og test

For små prøver kan man bruge eksakte test (permutationsfordeling) for at beregne p‑værdien for ρ under nulhypotesen om ingen sammenhæng. For større prøver anvendes ofte en tilnærmelse, og mange statistiske programmer angiver p‑værdier ud fra asymptotiske fordelinger. En praktisk tilgang er at bruge en permutationstest, hvis man ønsker en præcis p‑værdi uden stærke fordelingsantagelser.

Eksempel

Antag vi har 5 computere med priser (i tusinde kr.) og hastigheder (benchmark):

  • Pris: 8, 12, 10, 6, 14
  • Hastighed: 200, 320, 280, 150, 400

Rækker for pris: 2, 4, 3, 1, 5. Rækker for hastighed: 2, 4, 3, 1, 5. Her er rangene identiske, så d = 0 for hver observation og ∑d² = 0 → ρ = 1, hvilket indikerer en perfekt stigende monoton sammenhæng mellem pris og hastighed i dette eksempel.

Hvornår skal man vælge Spearman frem for Pearson?

  • Brug Spearman når du er interesseret i monotone sammenhænge, eller når data ikke opfylder krav om normalfordeling og linearitet.
  • Brug Pearson når du specifikt ønsker at måle lineær sammenhæng mellem to kontinuerte, omtrent normalfordelte variable uden mange outliers.

Begrænsninger

Spearmans ρ fanger kun monotone sammenhænge — hvis forholdet mellem variabler er ikke‑monotont (f.eks. kurveformet), kan ρ være tæt på nul selvom variablerne er stærkt afhængige. Desuden reducerer rangtransformeringen information om størrelsesforholdene mellem værdierne (kun orden bevares), hvilket kan være en fordel eller ulempe afhængig af analyseformålet.

Anvendelser

Spearmans korrelation bruges bredt inden for biologiske og samfundsvidenskabelige studier, psykologi, økologi og overalt hvor data er ordinal eller hvor antagelserne for Pearson ikke er opfyldte. Den er også velegnet som et robust alternativ ved tilstedeværelse af outliers.

Hvis du vil beregne Spearmans ρ i praksis kan du bruge statistikprogrammer som R, Python (scipy.stats.spearmanr), eller almindelige statistikpakker — de håndterer rangordning og ties automatisk og tilbyder ofte både koefficient og signifikans (p‑værdi).

Arbejder på det

Første trin

For at beregne r s {\displaystyle r_{s}}}{\displaystyle r_{s}} skal du først rangordne hver enkelt data. Vi vil bruge eksemplet fra introen om computere og deres hastighed.

Så den computer med den laveste pris vil være på plads 1. Den, der ligger højere end den, ville få plads 2. Derefter går det opad, indtil alle er rangeret. Du skal gøre dette med begge datasæt.

PC

Pris ($)

R a n k 1 {\displaystyle Rank_{1}}} {\displaystyle Rank_{1}}

Hastighed (GHz)

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

A

200

1

1.80

2

B

275

2

1.60

1

C

300

3

2.20

4

D

350

4

2.10

3

E

600

5

4.00

5

Trin to

Dernæst skal vi finde forskellen mellem de to rækker. Derefter ganger man forskellen med sig selv, hvilket kaldes kvadrering. Forskellen kaldes d {\displaystyle d}{\displaystyle d} , og det tal, man får, når man kvadrerer d {\displaystyle d}{\displaystyle d} , kaldes d 2 {\displaystyle d^{2}} {\displaystyle d^{2}}.

R a n k 1 {\displaystyle Rank_{1}}} {\displaystyle Rank_{1}}

R a n k 2 {\displaystyle Rank_{2}} {\displaystyle Rank_{2}}

d {\displaystyle d} {\displaystyle d}

d 2 {\displaystyle d^{2}}} {\displaystyle d^{2}}

1

2

-1

1

2

1

1

1

3

4

-1

1

4

3

1

1

5

5

0

0

Tredje trin

Tæl, hvor mange data vi har. Disse data har rang 1 til 5, så vi har 5 stykker data. Dette tal kaldes n {\displaystyle n}n .

Fjerde trin

Til sidst bruger vi alt det, vi har regnet ud indtil nu, i denne formel: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}}{n(n^{{2}-1)}}}} {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} betyder, at vi tager summen af alle de tal, der var i kolonnen d 2 {\displaystyle d^{2}} {\displaystyle d^{2}}. Dette skyldes, at ∑ {\displaystyle \sum }{\displaystyle \sum } betyder total.

∑ d 2 {\displaystyle \sum d^{2}}{\displaystyle \sum d^{2}} er 1 + 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1+1}{\displaystyle 1+1+1+1}, hvilket er 4. Formlen siger, at det skal ganges med 6, hvilket er 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} {\displaystyle n(n^{2}-1)}er 5 × ( 25 - 1 ) {\displaystyle 5\ gange (25-1)}, {\displaystyle 5\times (25-1)}hvilket er 120.

Så for at finde ud af r s {\displaystyle r_{s}} {\displaystyle r_{s}}, gør vi simpelthen 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}}=0,8}{\displaystyle 1-{\cfrac {24}{120}}=0.8} .

Derfor er Spearmans rangkorrelationskoefficient 0,8 for dette datasæt.

Hvad tallene betyder

r s {\displaystyle r_{s}}}{\displaystyle r_{s}} giver altid et svar mellem -1 og 1. De mellemliggende tal er som en skala, hvor -1 er en meget stærk forbindelse, 0 er ingen forbindelse, og 1 er også en meget stærk forbindelse. Forskellen mellem 1 og -1 er, at 1 er en positiv sammenhæng, og -1 er en negativ sammenhæng. En graf af data med en r s {\displaystyle r_{s}}{\displaystyle r_{s}}-værdi på -1 ville se ud som den viste graf, bortset fra at linjen og punkterne ville gå fra øverst til venstre til nederst til højre.

For eksempel var r s {\displaystyle r_{s}}}{\displaystyle r_{s}} 0,8 for de data, som vi lavede ovenfor. Det betyder altså, at der er en positiv korrelation. Fordi den er tæt på 1, betyder det, at forbindelsen er stærk mellem de to datasæt. Så vi kan sige, at disse to datasæt er forbundet og stiger sammen. Hvis den var -0,8, kunne vi sige, at der er en sammenhæng, og at når den ene går op, går den anden ned.

Zoom

Denne spredningsdiagram har en positiv korrelation. Værdien r s {\displaystyle r_{s}}}{\displaystyle r_{s}} ville være tæt på 1 eller 0,9. Den røde linje er en linje med den bedste tilpasning.

Hvis to tal er det samme

Nogle gange er der to eller flere tal, der er ens, når man rangordner data. Når dette sker i r s {\displaystyle r_{s}} {\displaystyle r_{s}}tager vi gennemsnittet eller gennemsnittet af de rangnumre, der er ens. Disse kaldes ensartede rangeringer. For at gøre dette rangordner vi de bundne tal, som om de ikke var bundne. Derefter lægger vi alle de rangeringer sammen, som de ville have, og dividerer det med hvor mange der er. Lad os f.eks. sige, at vi skulle rangordne, hvor godt forskellige personer klarede sig i en staveprøve.

Testresultat

Rang

Rang (med bundne)

4

1

1

6

2

2 + 3 + 4 3 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

3

2 + 3 + 4 3 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

6

4

2 + 3 + 4 3 3 = 3 {\displaystyle {\tfrac {\tfrac {2+3+4}{3}}=3} {\displaystyle {\tfrac {2+3+4}{3}}=3}

8

5

5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

8

6

5 + 6 2 = 5,5 {\displaystyle {\tfrac {\tfrac {5+6}{2}}}=5,5} {\displaystyle {\tfrac {5+6}{2}}=5.5}

Disse numre anvendes på nøjagtig samme måde som normale rangnumre.

Relaterede sider

Spørgsmål og svar

Q: Hvad er Spearmans rangkorrelationskoefficient?


A: Spearmans rangkorrelationskoefficient er et mål for korrelation, som viser, hvor tæt to sæt data er forbundet. Den kan kun anvendes for data, der kan sættes i rækkefølge, f.eks. fra højest til lavest.

Spørgsmål: Hvem skabte Spearmans rangkorrelationskoefficient?


Svar: Charles Spearman skabte Spearmans rangkorrelationskoefficient.

Spørgsmål: Hvordan er den generelle formel for Spearmans rangkorrelationskoefficient skrevet?


Svar: Den generelle formel for Spearmans rangkorrelationskoefficient er ρ = 1 - 6∑d2/n(n2-1).

Spørgsmål: Hvornår skal man bruge Spearmans rangkorrelationskoefficient?


Svar: Du bør bruge Spearmans rangkorrelationskoefficient, når du ønsker at se, hvor tæt to datasæt hænger sammen, og om de overhovedet hænger sammen.

Spørgsmål: Hvilken type data fungerer den med?


Svar: Den fungerer med alle typer data, der kan sættes i rækkefølge, f.eks. fra højest til lavest.

Spørgsmål: Kan du give et eksempel på, hvor du ville bruge denne foranstaltning?



A: Et eksempel på, hvor man kan bruge dette mål, kunne være, hvis man har data for, hvor dyre forskellige computere er, og data for, hvor hurtige computerne er, så kan man se, om de er forbundet, og hvor tæt de er forbundet ved hjælp af r_s.


Søge
AlegsaOnline.com - 2020 / 2025 - License CC3