Estadística General

Paradoja de Simpson

La Paradoja de Simpson o efecto Yule-Simpson

Describe la paradoja en la cual una tendencia que aparece en grupos de datos desaparece cuando estos se combinan, apareciendo una tendencia contraria para los datos agregados.

Este efecto de asociación se puede dar entre dos variables (cuantitativas o categóricas) cuando se controla el efecto de una tercera variable a la que se denomina variable confusora o de confusión.

Este fenómeno si bien se le atribuye a Edward Simpson, quien lo describió en 1951, fue previamente descripto por Karl Pearson en 1899 y posteriormente por Udny Yule a principios de 1900.

La paradoja muestra que en determinados casos se produce un cambio en la asociación o relación entre un par de variables, ya sean categóricas o cuantitativas, cuando se controla por el efecto de una tercera variable.

Esto ocurre, cuando se analiza una variable respuesta respecto a otras variables explicativas en algún estudio o experimento y una tercera variable hace cambiar el tipo o intensidad o el sentido de correlación o asociación entre las otras, esta variable de confusión puede ser una variable no controlada con lo cual el investigador podría llegar a no ser consciente de este efecto y llegar a una conclusión errónea.

Por ejemplo, veamos la siguiente tabla:

Tratamiento A

Tratamiento B

Hombres

93% (81/87)

87% (234/270)
Mujeres 73% (192/263)

69% (55/80)

Total 78% (273/350)

83% (289/350)

*En cada celda se representa el porcentaje de éxitos según el tratamiento recibido.

 

La paradoja consiste en que el tratamiento A aparece como superior al B en el grupo de los hombres y las mujeres (hombres 93% vs 87% y mujeres 73 vs 69%) respectivamente sin embargo cuando observamos los resultados globales el tratamiento B tiene un porcentaje mayor de éxitos 83% vs 78% o sea la asociación es inversa en los grupos agregados.

El tema radica en que es posible que si sumamos los distintos numeradores y denominadores de las fracciones que aparecen en ambas desigualdades el orden varíe.

Un ejemplo es el siguiente  Desigualdad1 Paradoja de Simpson , mientras que Desigualdad 2 Paradoja de Simpson