Correlación vs Causalidad

Correlación vs Causalidad

Esta semana toca un Especial Probabilidad y Estadística inspirado por el libro El Andar del Borracho de Leonard Mlodinow.

El primer objetivo es divorciar, de una vez por todas, los conceptos de Correlación y Causalidad.

Su asociación indebida es fuente de numerosos errores de interpretación que, en ocasiones, han tenido graves consecuencias.

Causalidad

El otro día vimos qué se entiende por correlación entre dos magnitudes. Sin embargo es muy común ver estudios estadísticos de baja calidad en los que la correlación entre dos variables se interpreta directamente en los términos: “Si X = k·Y entonces X causa Y“. A continuación veremos unos cuantos ejemplos en los que dicha afirmación resulta ser rotundamente falsa.

  • Y causa X: En el caso de que X e Y estén directamente relacionadas nadie nos asegura que sea X la que causa Y y no al revés. Por ejemplo, en un estudio médico se llegó a la conclusión que dormir más de 10 horas o menos de 6 era perjudicial para la salud. Lo que nadie comentó es que el estudio se realizó midiendo las horas de sueño de gente enferma y que por lo tanto no se demostraba que dormir mal (X) cause la enfermedad (Y) como pretendían sino que estar enfermo (Y) te hace dormir mal (X) que es algo mucho más razonable.
  • X causa Z y Z causa Y: A veces resulta que X realmente está causando Y pero lo hace de una manera indirecta. Así pues, un tercer suceso Z, que está causado por X y quizá por algún otro factor, es el verdadero causante de Y. Por ejemplo, es importante determinar el verdadero origen de una enfermedad, si descubrimos que fumar tabaco (X) provoca cáncer (Y) cabe preguntarse si inhalar otro tipo de humo (Z) también lo provoca. En este ejemplo, si sabemos que el verdadero causante de Y es Z, lo más importante sería determinar cual es el principal causante de Z (que puede no ser X).
  • Z causa X e Y: En ocasiones un tercer factor es el causante tanto de X como de Y y mantiene sincronizadas ambas magnitudes. Por ejemplo, en un estudio estadounidense que aparece reflejado en el interesante Freakonomics se concluía que los niños que tenían más libros en casa (X) sacaban mejores notas (Y). El gobierno local decidió hacer una fuerte inversión y regalar decenas de libros a todos los escolares sin darse cuenta de que lo que en realidad pasaba era que las familias con mejor nivel cultural (Z) compraban más libros (X) y educaban mejor a sus hijos (Y).
  • X e Y no están relacionados en absoluto: Este es el caso más cachondo y sin embargo no es el menos frecuente. Estudiando un número suficientemente grande de variables estadísticas siempre puedes encontrar dos de ellas que estén tan correlacionadas como quieras. Científicos con sentido del humor se han dedicado a estudiar la relación existente entre variables exóticas por para dejar en evidencia a los conspiranoicos que ven relaciones en todas partes.

En fin, este no ha sido más que un breve repaso al tema del que se podrían escribir varios libros. A modo de resumen basta con que recordéis que:

A) El coeficiente de correlación lineal no es capaz de detectar relaciones no lineales entre dos variables.

y B) Hay muchos tipos de relación entre dos variables y hay que ser muy cuidadoso a la hora de interpretar la correlación en términos de causalidad.

BOLAEXTRA: La imagen de este post pertenece a la genial XKCD y fue sugerida por Meldor.

Escrito en 29/04/09 10:42 por Carlos Luna en las categorías:

Comentarios

Gravatar.com se ha roto

Un ejemplo actual sobre una falsa causalidad sacada de una más o menos cierta correlación:

Al Gore, en su lucha contra el cambio climático, muestra al público dos gráficas superpuestas, la de la temperatura y la de la concentración de CO2 desde hace 650.000 años hasta la actualidad. En dichas gráficas uno puede observar que hay una clara “correlación visual” entre las dos magnitudes, a continuación manifiesta orgullosamente que está claro que cuando el CO2 sube la temperatura sube y viceversa y deduce una causa efecto del CO2 sobre la temperatura. Pero lo que no se puede observar en sus gráficas y que él tampoco dice es que hay un desplazamiento de 800 años entre las oscilaciones de una y de otra. Y lo que es más importante, y se calla, el CO2 VA POR DETRÁS DE LA TEMPERATURA. Por lo tanto, la causalidad, si la hubiere, seria al revés, es decir, a más temperatura más CO2.

Nota aclaratoria: No soy el primo de Rajoy ni tengo nada que ver con ambos. Simplemente soy un modesto científico que simplemente pone en duda las aparentes evidencias y que de modelos sabe alguna cosa.

Miquel N. | 29/04/09 18:52 | #
Gravatar.com se ha roto

@Miquel N.: Sí, me suena que de modelos matemáticos sabes algo… xD

Carlos Luna | 29/04/09 19:21 | #
Gravatar.com se ha roto

Els creacionistes són uns dels grans defensors de “correlació=causa” (Déu ens va donar la vista perquè poguéssim veure, i similars). Aquesta va ser una denúncia important per fundar la religió pastafari. A la seva plana, demostren com el calentament global està “causat” per la disminució del nombre de pirates, com es pot veure clarament a: http://www.venganza.org/wp-content/uploads/2006/11/piratesarecool4.jpg , i per tant, la solució passa per incrementar el nombre de pirates (ara potser se solucionarà gràcies a Somàlia!). Afirmen que els arguments dels creacionistes són en general d’aquest altíssim nivell.
Font: http://es.wikipedia.org/wiki/Pastafarismo#Creencias

Meldor | 29/04/09 19:45 | #

Deja un Comentario

Quizás quieras usar textile para dar formato a tu comentario.

"linktext":http://       _em_       *strong*       -strike-       ^sup^       ~sub~
bq. Blockquote       # Lista numerada       * Lista no-numerada       ==html crudo, sin textile==

(no será mostrado) (http://...)