Simpsons paradoks

Forfatter: Leandro Alegsa

20-04-2022 11:27

Simpsons paradoks er et paradoks fra statistikken. Det er opkaldt efter Edward H. Simpson, en britisk statistiker, som beskrev det første gang i 1951. Statistikeren Karl Pearson beskrev en meget lignende effekt i 1899 - Udny Yules beskrivelse stammer fra 1903. Nogle gange kaldes den for Yule-Simpson-effekten. Når man ser på gruppers statistiske scorer, kan disse scorer ændre sig, alt efter om man ser på grupperne enkeltvis, eller om de kombineres til en større gruppe. Dette tilfælde forekommer ofte inden for samfundsvidenskab og medicinsk statistik. Det kan forvirre folk, hvis frekvensdata bruges til at forklare et årsagssammenhæng. Andre navne for paradokset er bl.a. omvendingsparadokset og amalgamationsparadokset.

Eksempel: Behandling af nyresten

Dette er et eksempel fra en medicinsk undersøgelse, der sammenligner succesraten for to behandlinger af nyresten.

Tabellen viser succesraten og antallet af behandlinger for behandlinger af både små og store nyresten, hvor behandling A omfatter alle åbne procedurer og behandling B er perkutan nefrolithotomi:

	Behandling A		Behandling B
	succes	fejl	succes	fejl
Små sten	Gruppe 1		Gruppe 2
antal patienter	81	6	234	36
	93%	7%	87%	13%
Store sten	Gruppe 3		Gruppe 4
antal patienter	192	71	55	25
	73%	27%	69%	31%
Både	Gruppe 1+3		Gruppe 2+4
antal patienter	273	77	289	61
	78%	22%	83%	17%

Den paradoksale konklusion er, at behandling A er mere effektiv, når den anvendes på små sten, og også når den anvendes på store sten, men at behandling B er mere effektiv, når begge størrelser behandles på samme tid. I dette eksempel vidste man ikke, at størrelsen af nyrestenen havde indflydelse på resultatet. Dette kaldes en skjult variabel (eller lurking variable) i statistik.

Hvilken behandling, der anses for at være den bedste, bestemmes af en ulighed mellem to forholdstal (succeser/total). Den omvendte ulighed mellem disse forhold, som skaber Simpsons paradoks, sker, fordi to virkninger opstår samtidig:

Størrelsen af de grupper, der kombineres, når der ikke tages hensyn til den lurende variabel, er meget forskellige. Lægerne har en tendens til at give de svære tilfælde (store sten) den bedre behandling (A) og de mildere tilfælde (små sten) den ringere behandling (B). Derfor domineres de samlede tal af gruppe tre og to og ikke af de to meget mindre grupper et og fire.
Den lurende variabel har en stor indvirkning på forholdet, dvs. at succesraten i højere grad påvirkes af sagens alvor end af valget af behandling. Derfor klarer gruppen af patienter med store sten, der anvender behandling A (gruppe tre) sig dårligere end gruppen med små sten, selv om sidstnævnte anvendte den ringere behandling B (gruppe to).

Søge

Simpsons paradoks

Eksempel: Behandling af nyresten

Søg efter bogstav