El término «relación espuria» se usa comúnmente en estadística y, en particular, en técnicas de investigación experimental, las cuales intentan comprender y predecir relaciones causales directas (X → Y). Una correlación no causal puede ser creada falsamente por un antecedente que causa ambos (W → X y W → Y). Las variables mediadoras (X → W → Y), si no se detectan, estiman un efecto total en lugar de un efecto directo sin ajuste para la variable mediadora M. Debido a esto, las correlaciones identificadas experimentalmente no representan relaciones causales a menos que se puedan descartar relaciones espúreas.
ExperimentsEdit
En los experimentos, las relaciones falsas a menudo se pueden identificar controlando otros factores, incluidos aquellos que se han identificado teóricamente como posibles factores de confusión. Por ejemplo, considere a un investigador que intenta determinar si un nuevo medicamento mata las bacterias; cuando el investigador aplica el fármaco a un cultivo bacteriano, la bacteria muere. Pero para ayudar a descartar la presencia de una variable de confusión, otro cultivo se somete a condiciones que son lo más idénticas posible a las que enfrenta el cultivo mencionado en primer lugar, pero el segundo cultivo no está sujeto a la droga. Si hay un factor de confusión invisible en esas condiciones, este cultivo de control también morirá, de modo que no se puede extraer ninguna conclusión sobre la eficacia del fármaco a partir de los resultados del primer cultivo. Por otro lado, si la cultura de control no muere, entonces el investigador no puede rechazar la hipótesis de que el fármaco es eficaz.
Análisis estadísticos no experimentalesEditar
Disciplinas cuyos datos son en su mayoría los no experimentales, como la economía, suelen emplear datos de observación para establecer relaciones causales. El conjunto de técnicas estadísticas utilizadas en economía se denomina econometría. El principal método estadístico en econometría es el análisis de regresión multivariable. Por lo general, una relación lineal como
y = a 0 + a 1 x 1 + a 2 x 2 + ⋯ + akxk + e {\ displaystyle y = a_ {0} + a_ {1} x_ {1} + a_ Se hipotetiza {2} x_ {2} + \ cdots + a_ {k} x_ {k} + e}
, en la que y {\ displaystyle y} es la variable dependiente (se supone que es la variable causada), xj {\ displaystyle x_ {j}} para j = 1, …, k es la j-ésima variable independiente (que se supone que es una variable causal) y e {\ displaystyle e} es el término de error (que contiene los efectos combinados de todos otras variables causales, que deben no estar correlacionadas con las variables independientes incluidas). Si hay motivos para creer que ninguno de los x j {\ displaystyle x_ {j}} s es causado por y, entonces se obtienen estimaciones de los coeficientes a j {\ displaystyle a_ {j}}. Si se rechaza la hipótesis nula de que aj = 0 {\ displaystyle a_ {j} = 0}, entonces la hipótesis alternativa de que aj ≠ 0 {\ displaystyle a_ {j} \ neq 0} y, de manera equivalente, que xj {\ displaystyle x_ {j }} hace que y no se pueda rechazar. Por otro lado, si no se puede rechazar la hipótesis nula de que aj = 0 {\ displaystyle a_ {j} = 0}, entonces, de manera equivalente, la hipótesis de que no hay efecto causal de xj {\ displaystyle x_ {j}} en y no se puede rechazar . Aquí, la noción de causalidad es una de causalidad contributiva: si el valor verdadero aj ≠ 0 {\ displaystyle a_ {j} \ neq 0}, entonces un cambio en xj {\ displaystyle x_ {j}} resultará en un cambio en y a menos que alguna otra variable causal, ya sea incluida en la regresión o implícita en el término de error, cambie de tal manera que compense exactamente su efecto; por lo tanto, un cambio en x j {\ displaystyle x_ {j}} no es suficiente para cambiar y. Del mismo modo, un cambio en xj {\ displaystyle x_ {j}} no es necesario para cambiar y, porque un cambio en y podría ser causado por algo implícito en el término de error (o por alguna otra variable explicativa causal incluida en el modelo).
El análisis de regresión controla otras variables relevantes incluyéndolas como regresores (variables explicativas). Esto ayuda a evitar una inferencia errónea de causalidad debido a la presencia de una tercera variable subyacente que influye tanto en la variable potencialmente causante como en la variable potencialmente causada: su efecto sobre la variable potencialmente causada se captura incluyéndola directamente en la regresión, por lo que ese efecto no se considerará un efecto espurio de la variable potencialmente causante de interés. Además, el uso de la regresión multivariante ayuda a evitar inferir erróneamente que un efecto indirecto de, digamos x1 (por ejemplo, x1 → x2 → y) es un efecto directo (x1 → y).
Al igual que un El experimentador debe tener cuidado de emplear un diseño experimental que controle todos los factores de confusión, así también el usuario de la regresión múltiple debe tener cuidado de controlar todos los factores de confusión incluyéndolos entre los regresores.Si se omite un factor de confusión de la regresión, su efecto se captura en el término de error de forma predeterminada, y si el término de error resultante se correlaciona con uno (o más) de los regresores incluidos, entonces la regresión estimada puede estar sesgada o ser inconsistente ( ver sesgo de variable omitida).
Además del análisis de regresión, los datos se pueden examinar para determinar si existe la causalidad de Granger. La presencia de causalidad de Granger indica que x precede a y y que x contiene información única sobre y.