Correlación vs Causalidad

Esta semana toca un Especial Probabilidad y Estadística inspirado por el libro El Andar del Borracho de Leonard Mlodinow. El primer objetivo es divorciar, de una vez por todas, los conceptos de Correlación y Causalidad. Su asociación indebida es fuente de numerosos errores de interpretación que, en ocasiones, han tenido graves consecuencias.

Correlación

Dos cosas están correlacionadas si se comportan con cierta sincronía. Por ejemplo, si dos magnitudes se comportan tal que suben y bajan simultáneamente diremos que están correlacionadas. De igual manera si cuanto más sube una más baja la otra también diremos que están (inversamente) correlacionadas.

En general, si no se dice lo contrario, cuando se habla de correlación en realidad se está hablando de correlación lineal que es aquella en la que dos magnitudes (X e Y) cumplen que X ≈ k·Y siendo k un número positivo o negativo. Por ejemplo, si nos desplazamos en coche a velocidad constante se cumple una relación entre la distancia recorrida (X) y el tiempo invertido en cubrirla (Y) de manera que X ≈ k·Y donde, en este caso el coeficiente k es la velocidad de nuestro vehículo.

Pero hay otros tipos de correlación, por ejemplo, la que existe entre el radio de una esfera (X) y su volumen (Y). En este caso no se cumple X ≈ k·Y para ningún valor de k de manera que X e Y no están correlacionados linealmente. Sin embargo podemos observar que X³ ≈ k·Y y por lo tanto podemos afirmar que X³ y Y sí están correlacionados linealmente. Es este el motivo por el cual normalmente no se habla de correlaciones que no sean lineales.

Lamentablemente la vida no es tan bonita como una ecuación matemática y por lo tanto tenemos que recurrir a herramientas estadísticas que nos ayudan a extraer información cuantitativa de unos datos afectados por decenas de errores de diversos tipos.

Una de las herramientas más utilizadas es, precisamente, el coeficiente de correlación de Pearson que, para no entrar en tecnicismos, definiré como un número R que cumple que -1 < R < 1 y que nos indica si cometemos un gran error al considerar correlacionadas dos variables.

Así, si R = 1 ambas variables están (directamente) correlacionadas, si R = -1 ambas variables están (inversamente) correlacionadas y si R = 0 no podemos afirmar que ambas variables estén correlacionadas linealmente. Destaco lo de linealmente porque es posible que esas variables estén relacionadas de otra manera pero el coeficiente de correlación no nos aporta información al respecto.

En la siguiente imagen podéis ver unas cuantas gráficas que he encontrado en la Wikipedia y que ilustran el concepto de Correlación Lineal.

Ejemplos de Correlación Lineal

En la primera línea se observa que cuanto más se parece la gráfica X-Y a una recta más se acerca R a valores como 1 o -1 mientras que si los datos están dispersos R se mantiene próximo a 0.

En la segunda linea se demuestra que el valor de R no depende del valor de k pero sí de su signo (con la excepción del caso k = 0 donde tenemos un problema).

Finalmente, la tercera linea ilustra el hecho de que dos variables pueden estar fuertemente correlacionadas y aún así tener un coeficiente de correlación lineal igual a 0.

Es importante notar que las herramientas estadísticas son de muy poca utilidad sin un experto que interprete los resultados a posteriori. También es útil darse cuenta de lo útil que resulta representar correctamente los datos de manera gráfica y no quedarse tan sólo con el resumen parcial que ofrecen herramientas como la media, la desviación estándar o el coeficiente de correlación.

BOLAEXTRA: Como ya me pasó con El Espejismo de Dios de Dawkins, el libro me Mlodinow me ha parecido tan interesante como mal traducido.

Escrito en 27/04/09 10:41 por Carlos Luna en las categorías:

Comentarios

Gravatar.com se ha roto

Només faltava aquest detallet:

http://xkcd.com/552/

:)

Meldor | 27/04/09 11:06 | #
Gravatar.com se ha roto

el dia que vegi unes correlacions com les de la tercera fila crec que m’agafarà alguna cosa!! jejeje

la que fa número 5 de la mateixa 3a fila em recorda “vagament” al símbol de les olimpíades de Barcelona (http://tinyurl.com/df7kso) jejejeje

apa, que vagi molt bé! :)

Laura | 27/04/09 11:59 | #
Gravatar.com se ha roto

@Meldor: xD

@Laura: Los ejemplos patológicos se llaman patológicos por algo…

Carlos Luna | 27/04/09 12:19 | #
Gravatar.com se ha roto

Se’n pot dir “patològic”, o “anecdòtic”, que en qualsevol cas també ve de “pato” xD

Bon post!

Solaufein | 27/04/09 12:37 | #
Gravatar.com se ha roto

Ostres, sento entrar només per dir això però, Pere, un joc de paraules d’aquesta categoria no m’hauria sortit ni a mí XD

Enhorabona per la teva condició de perico, per cert!

Abraçades i petons a tots!

Sete | 27/04/09 22:31 | #
Gravatar.com se ha roto

Si no me equivoco, todo esto está relacionado con el ajuste por mínimos cuadrados, ¿no? Es decir, intentar aproximar un resultado futuro a partir de una serie de observaciones y su posterior adaptación a un modelo lineal.

Mr. Pink | 01/05/09 01:50 | #
Gravatar.com se ha roto

@Mr. Pink: Pues ahora no recuerdo cual es el modelo lineal que subyace en el cálculo del coeficiente de correlación pero no me extrañaría que fuese el de mínimos cuadrados. En cualquier caso de manera formal la correlación se define en función de la covarianza de dos variables aleatorias.

Eso sí, hay que recordar que el coeficiente de correlación no nos dice nada sobre el modelo lineal sino sobre lo bien o mal que se ajusta este a nuestros datos. Es decir, no estamos calculando la recta que mejor se ajusta y luego calculando el error cuadrático medio (que es lo que se hace en algunos contextos) sino que estamos midiendo, directamente, cómo de razonable sería ajustar unos datos a un modelo lineal sin pararnos a pensar en ese modelo.

Carlos Luna | 01/05/09 07:48 | #
Gravatar.com se ha roto

Efectivamente, el ajuste por mínimos cuadrados es el método para calcular, a partir de una nube de puntos, la recta que cumple que la suma de las distancias de cada punto con la recta es mínima, y posteriormente se aplica el coeficiente de correlación para ver si el ajuste es aceptable.

También cabría decir que el ajuste por mínimos cuadrados también permite hacer una aproximación a un modelo exponencial mediante un cambio de variable.

Mr. Pink | 01/05/09 15:11 | #
Gravatar.com se ha roto

@Mr. Pink: En realidad lo que haces mínimo es la distancia (vertical) entre los puntos y la recta al cuadrado. Por otra parte, haciendo cambios de variable, se pueden usar muchos modelos. Incluidos los periódicos como por ejemplo X ≈ sin(Y)

Carlos Luna | 03/05/09 16:55 | #
Gravatar.com se ha roto

¿Por qué el caso central es un problema? ¿No es un caso de indepencia entre variables? Segun creo haber entendido, lo que tenemos es que para cualquier valor de X, siempre se obtendrá el mismo valor para Y [o al revés, según notación].

Me ha gustado la frase la vida no es tan bonita como una ecuación matemática. Queda patente que las Matemáticas pertenecen al Mundo de las Ideas, mientras que el Mundo Sensible, basto e imperfecto, sólo puede tratarse con Estadística :P

Eisenreich | 07/05/09 14:27 | #
Gravatar.com se ha roto

@Eisenreich: El caso central es un problema por la siguiente razón. Se ve claramente una recta y por lo tanto podemos pensar que hay una clara correlación lineal. Sin embargo, por la fórmula usada para calcular R tenemos que para una inclinación de la recta de -ε, R es igual a -1; para una inclinación de 0, R es igual a 0 y para una inclinación de +ε, R es igual a +1. Lo cual no es todo lo continuo que quisiéramos ¿no crees?

Esto es así porque la fórmula da 0 si para un valor dado de Y tenemos puntos en cualquier coordenada X: (x1,y), (x2,y), …, (xn,y). Hay correlación porque para todo valor de X tan sólo hay un valor de Y que contenga puntos pero al ser una relación constante en una de las variables la fórmula nos puede llevar a pensar lo contrario (si no lo dibujamos ;-)

Carlos Luna | 07/05/09 16:51 | #
Gravatar.com se ha roto

nageladia menica thopania manuce yoyitanea cotelanima ehctamuch

esmakiola | 09/09/10 23:51 | #
Gravatar.com se ha roto

私も理解手の先生ではない理解していないので、

| 09/09/10 23:57 | #

Deja un Comentario

Quizás quieras usar textile para dar formato a tu comentario.

"linktext":http://       _em_       *strong*       -strike-       ^sup^       ~sub~
bq. Blockquote       # Lista numerada       * Lista no-numerada       ==html crudo, sin textile==

(no será mostrado) (http://...)