Simpsons paradoks

Simpsons paradoks er et paradoks fra statistikken. Det er opkaldt efter Edward H. Simpson, en britisk statistiker, som beskrev det første gang i 1951. Statistikeren Karl Pearson beskrev en meget lignende effekt i 1899 - Udny Yules beskrivelse stammer fra 1903. Nogle gange kaldes den for Yule-Simpson-effekten. Når man ser på gruppers statistiske scorer, kan disse scorer ændre sig, alt efter om man ser på grupperne enkeltvis, eller om de kombineres til en større gruppe. Dette tilfælde forekommer ofte inden for samfundsvidenskab og medicinsk statistik. Det kan forvirre folk, hvis frekvensdata bruges til at forklare et årsagssammenhæng. Andre navne for paradokset er bl.a. omvendingsparadokset og amalgamationsparadokset.

Eksempel: Behandling af nyresten

Dette er et eksempel fra en medicinsk undersøgelse, der sammenligner succesraten for to behandlinger af nyresten.

Tabellen viser succesraten og antallet af behandlinger for behandlinger af både små og store nyresten, hvor behandling A omfatter alle åbne procedurer og behandling B er perkutan nefrolithotomi:

Behandling A

Behandling B

succes

fejl

succes

fejl

Små sten

Gruppe 1

Gruppe 2

antal patienter

81

6

234

36

93%

7%

87%

13%

Store sten

Gruppe 3

Gruppe 4

antal patienter

192

71

55

25

73%

27%

69%

31%

Både

Gruppe 1+3

Gruppe 2+4

antal patienter

273

77

289

61

78%

22%

83%

17%

Den paradoksale konklusion er, at behandling A er mere effektiv, når den anvendes på små sten, og også når den anvendes på store sten, men at behandling B er mere effektiv, når begge størrelser behandles på samme tid. I dette eksempel vidste man ikke, at størrelsen af nyrestenen havde indflydelse på resultatet. Dette kaldes en skjult variabel (eller lurking variable) i statistik.

Hvilken behandling, der anses for at være den bedste, bestemmes af en ulighed mellem to forholdstal (succeser/total). Den omvendte ulighed mellem disse forhold, som skaber Simpsons paradoks, sker, fordi to virkninger opstår samtidig:

  1. Størrelsen af de grupper, der kombineres, når der ikke tages hensyn til den lurende variabel, er meget forskellige. Lægerne har en tendens til at give de svære tilfælde (store sten) den bedre behandling (A) og de mildere tilfælde (små sten) den ringere behandling (B). Derfor domineres de samlede tal af gruppe tre og to og ikke af de to meget mindre grupper et og fire.
  2. Den lurende variabel har en stor indvirkning på forholdet, dvs. at succesraten i højere grad påvirkes af sagens alvor end af valget af behandling. Derfor klarer gruppen af patienter med store sten, der anvender behandling A (gruppe tre) sig dårligere end gruppen med små sten, selv om sidstnævnte anvendte den ringere behandling B (gruppe to).

AlegsaOnline.com - 2020 / 2023 - License CC3