Las claves del análisis causal: si correlación no implica causalidad, entonces ¿qué implica?

 

Día a día nos encontramos situaciones en las que es esencial comprender correctamente los mecanismos subyacentes a partir del análisis de datos generados por todo tipo de sistemas. Tenemos ejemplos muy claros en el ámbito de la ciberseguridad, donde resulta fundamental apuntar al origen de una amenaza, dados unos indicios de ataque; o en el ámbito de la Industria 4.0, donde es igualmente decisivo saber qué hacer y dónde actuar cuando se detecta un fallo en un sistema o proceso productivo.

Suele decirse que correlación no implica causalidad, aunque, de forma inadvertida, en ocasiones caemos en el error de suponer que existe una relación causal entre dos variables que siguen un cierto patrón común. En este post vamos a revisar algunas implicaciones que se deben tener en cuenta a la hora de trabajar con técnicas de análisis causal. Este tipo de técnicas son de gran utilidad para determinar con certeza el origen de un problema cuando sólo observamos algunos síntomas.

Calentando motores: Regresión y causalidad

De acuerdo, correlación no implica causalidad. ¿Y una regresión lineal implica causalidad?

La respuesta rápida es que no. Es fácil encontrar ejemplos de datos no relacionados que, tras un cálculo de regresión, logran pasar todo tipo de test estadísticos. El siguiente es un ejemplo popular que ilustra el concepto de “causalidad” data-driven.

 

 

A la vista de los datos, ¿necesitamos más piratas para enfriar el planeta? ¿O tal vez los piratas son extremadamente sensibles al incremento de la temperatura media global?

A veces se dice que este tipo de “causalidad” está sólo en el ojo del que mira. En clave de humor es célebre la página Spurious Correlations de Tyler Vigen.

 

 

Para series temporales existe el concepto de causalidad en el sentido de Granger. El llamado test de Granger tiene por objeto deducir si el comportamiento actual y pasado de una serie temporal A predice el comportamiento de una serie temporal B. Su principal limitación es que encuentra sólo la “causalidad predecible”, y que, mal utilizado, puede conducir a conclusiones absurdas como las comentadas anteriormente. Bien es cierto que su simplicidad computacional hace que se siga empleando como herramienta básica de análisis causal.

Antes de continuar, veamos la diferencia entre correlación y regresión, que son dos tipos de análisis que a veces tienden a mezclarse y confundirse. El análisis basado en correlación permite cuantificar el grado en que se relacionan dos variables. En cambio, el análisis basado en regresión trata de encontrar la mejor recta (o curva) de ajuste para predecir el valor de una variable dependiente Y a partir del valor conocido de una variable independiente X. En la correlación ambas variables están en igualdad de condiciones (el coeficiente de correlación es el mismo si se intercambian). Por contra, en una regresión sí importa cuál es X y cuál es Y, ya que la función que mejor predice Y a partir de X en general no coincide con la función que mejor predice X a partir de Y.

 

 

¿La ausencia de correlación implica ausencia de causalidad?

La respuesta es que esto tampoco es cierto. Como contraejemplo sirve cualquier sistema de control. El control es claramente imposible sin relaciones causales, pero conseguir controlar algo significa, a grandes rasgos, que alguna variable se mantiene constante, lo cual implica que dicha variable no estará correlacionada con otras variables, incluyendo aquellas que provoquen que sea constante.

Un ejemplo es el termostato de Milton Friedman. Como se sabe, cuando se presiona el acelerador de un vehículo, este va más rápido. Y si el vehículo tiene que subir una pendiente, entonces va más despacio. Pero supongamos que esta información es desconocida para un pasajero que ve cómo el conductor trata de mantener una velocidad constante en una carretera de montaña. El pasajero verá el pedal del acelerador subir y bajar, y al coche descender y ascender. Si el conductor es habilidoso y el coche suficientemente potente, notará que el vehículo mantiene una velocidad constante. Así que, si sólo observa estas variables, podría concluir fácilmente que la posición del pedal no tiene ningún efecto en la velocidad, o que la pendiente del trazado tampoco tiene efecto alguno.

No hay forma de evitar esta mala interpretación por medio de técnicas de regresión multivariable entre velocidad, posición del pedal y pendiente. Ello se debe a que, en este caso, la posición del pedal y la pendiente son perfectamente colineales. Además, entre la posición del pedal y la velocidad, lo mismo que entre la pendiente y la velocidad, la correlación observada es nula.

¿Causalidad implica correlación?

Sabemos que puede haber múltiples explicaciones para la correlación. Pero démosle la vuelta a la implicación: ¿Causalidad implica correlación? Pareciera que sí. Pero nuevamente, la respuesta es que no tiene por qué.

En primer lugar, que haya causalidad no implica que exista algún tipo de correlación lineal (que es la manera en que suele imaginarse la correlación entre dos variables). Concretamente, el coeficiente de correlación (r) refleja cómo cambia una variable cuando lo hace la otra: si r es positivo, existe una tendencia a que una variable suba cuando la otra sube; si r es negativo, existe una tendencia a que una variable suba cuando la otra baja. Sin embargo, el coeficiente de correlación no ofrece información sobre la intensidad de dicha relación ni sobre muchos otros aspectos en relaciones no lineales, tal y como muestra la siguiente figura con varios conjuntos de puntos (x, y).

 

 

En segundo lugar, que exista causalidad entre dos variables ni siquiera implica que pueda medirse algún tipo de correlación entre ellas.

Para ilustrarlo con un ejemplo, supongamos que tiramos sucesivamente dos monedas y que sólo cuando ambas muestran el mismo resultado -dos caras o dos cruces- un sistema enciende una bombilla. Podemos afirmar que tanto una moneda como la otra provocan que la bombilla se encienda o se apague (es evidente que existe causalidad). Sin embargo, si observamos una de las monedas y el estado de la bombilla, no podremos establecer ningún tipo de correlación o de dependencia estadística.

En teoría de la probabilidad y en teoría de la información, el concepto de información mutua mide la dependencia existente entre dos variables aleatorias. Es decir, mide la reducción de la incertidumbre de una variable aleatoria debido al conocimiento del valor de la otra (está, por tanto, estrechamente ligado al concepto de entropía). Para relaciones no lineales como las de la fila inferior en la figura previa, Y podría estar perfectamente causado por X, pero la correlación entre ambas variables es nula. Lo que sí podemos afirmar en esos casos es que causalidad implica una alta información mutua.

Transitividad y bidireccionalidad causal

Si tenemos una cadena causal probabilística del tipo ABC, es decir, donde A causa B, y donde B causa C, ¿podemos deducir que A causa C?

De nuevo, la intuición puede jugarnos una mala pasada y la respuesta (a estas alturas, esperable) es que no necesariamente. La explicación formal es que sólo se puede garantizar que las relaciones causales probabilísticas son transitivas si se cumple la llamada

Consideraciones prácticas

Respondiendo a la pregunta que nos hacíamos al principio: ¿qué implica entonces que exista correlación entre A y B? En este post no hemos profundizado en técnicas o algoritmos de análisis causal ni en las matemáticas que permiten modelar o medir la incertidumbre. En cualquier caso, la recomendación es plantear una lista con todas las opciones posibles y tratar de revisar metódicamente cada una de ellas para determinar cuál es la más probable. Así pues, si A está correlacionado con B, entonces:

El principio de causa común de Reichenbach (Common Cause Principle, o CCP) [3] establece que si ocurre una coincidencia improbable, debe existir una causa común. Esto equivale a decir que las correlaciones fuertes tienen explicaciones causales. Por ejemplo, supongamos que en una habitación dos bombillas se apagan de repente. Se considera improbable que, por casualidad, ambas bombillas se fundan a la vez, así que buscaremos la causa en un fusible común quemado o en alguna otra interrupción general del suministro eléctrico. La coincidencia improbable se explica, de este modo, como resultado de una causa común.

Análisis causal y Big Data

En Gradiant trabajamos en diversos proyectos de analítica Big Data donde resulta esencial identificar correctamente situaciones en las que existe causalidad. Un término de moda en el ámbito IT es el de Sistemas Inteligentes en Red (INetS) de Gradiant