O termo “relacionamento espúrio” é comumente usado em estatística e, em particular, em técnicas de pesquisa experimental, ambas as quais tentam compreender e prever relações causais diretas (X → Y). Uma correlação não causal pode ser criada espúriamente por um antecedente que causa ambos (W → X e W → Y). Variáveis mediadoras, (X → W → Y), se não detectadas, estimam um efeito total ao invés de efeito direto sem ajuste para a variável mediadora M. Por causa disso, correlações experimentalmente identificadas não representam relações causais a menos que relações espúrias possam ser descartadas.
ExperimentsEdit
Em experimentos, os relacionamentos espúrios podem frequentemente ser identificados controlando-se outros fatores, incluindo aqueles que foram teoricamente identificados como possíveis fatores de confusão. Por exemplo, considere um pesquisador tentando determinar se um novo medicamento mata bactérias; quando o pesquisador aplica o medicamento em uma cultura bacteriana, a bactéria morre. Mas para ajudar a descartar a presença de uma variável de confusão, outra cultura é submetida a condições que são quase idênticas às que enfrentam a cultura mencionada em primeiro lugar, mas a segunda cultura não está sujeita à droga. Se houver um fator de confusão invisível nessas condições, essa cultura de controle também morrerá, de modo que nenhuma conclusão sobre a eficácia da droga pode ser tirada dos resultados da primeira cultura. Por outro lado, se a cultura de controle não morrer, o pesquisador não pode rejeitar a hipótese de que a droga é eficaz.
Análise estatística não experimental Editar
Disciplinas cujos dados são principalmente não experimentais, como a economia, geralmente empregam dados observacionais para estabelecer relações causais. O corpo de técnicas estatísticas usadas em economia é chamado econometria. O principal método estatístico em econometria é a análise de regressão multivariável. Normalmente, uma relação linear como
y = a 0 + a 1 x 1 + a 2 x 2 + ⋯ + akxk + e {\ displaystyle y = a_ {0} + a_ {1} x_ {1} + a_ {2} x_ {2} + \ cdots + a_ {k} x_ {k} + e}
é a hipótese, em que y {\ displaystyle y} é a variável dependente (a hipótese é ser a variável causada), xj {\ displaystyle x_ {j}} para j = 1, …, k é a j-ésima variável independente (a hipótese é ser uma variável causativa), e e {\ displaystyle e} é o termo de erro (contendo os efeitos combinados de todos outras variáveis causais, que devem ser não correlacionadas com as variáveis independentes incluídas). Se houver razão para acreditar que nenhum dos x j {\ displaystyle x_ {j}} s é causado por y, então as estimativas dos coeficientes a j {\ displaystyle a_ {j}} são obtidas. Se a hipótese nula de que aj = 0 {\ displaystyle a_ {j} = 0} for rejeitada, a hipótese alternativa de que aj ≠ 0 {\ displaystyle a_ {j} \ neq 0} e equivalentemente que xj {\ displaystyle x_ {j }} causa y não pode ser rejeitada. Por outro lado, se a hipótese nula de que aj = 0 {\ displaystyle a_ {j} = 0} não pode ser rejeitada, então, equivalentemente, a hipótese de nenhum efeito causal de xj {\ displaystyle x_ {j}} em y não pode ser rejeitada . Aqui, a noção de causalidade é a de causalidade contributiva: Se o valor verdadeiro aj ≠ 0 {\ displaystyle a_ {j} \ neq 0}, então uma mudança em xj {\ displaystyle x_ {j}} resultará em uma mudança em y a menos que alguma outra variável causal, seja incluída na regressão ou implícita no termo de erro, mude de forma a compensar exatamente seu efeito; portanto, uma mudança em x j {\ displaystyle x_ {j}} não é suficiente para mudar y. Da mesma forma, uma mudança em xj {\ displaystyle x_ {j}} não é necessária para mudar y, porque uma mudança em y pode ser causada por algo implícito no termo de erro (ou por alguma outra variável explicativa causal incluída no modelo).
A análise de regressão controla outras variáveis relevantes, incluindo-as como regressores (variáveis explicativas). Isso ajuda a evitar inferências equivocadas de causalidade devido à presença de uma terceira variável subjacente que influencia tanto a variável potencialmente causadora quanto a variável potencialmente causada: seu efeito na variável potencialmente causada é capturado incluindo-a diretamente na regressão, então esse efeito não será detectado como um efeito espúrio da variável potencialmente causadora de interesse. Além disso, o uso de regressão multivariada ajuda a evitar inferir erroneamente que um efeito indireto de, digamos, x1 (por exemplo, x1 → x2 → y) é um efeito direto (x1 → y).
Assim como um o experimentador deve ter o cuidado de empregar um projeto experimental que controle todos os fatores de confusão, assim também o usuário de regressão múltipla deve ter o cuidado de controlar todos os fatores de confusão incluindo-os entre os regressores.Se um fator de confusão for omitido da regressão, seu efeito será capturado no termo de erro por padrão, e se o termo de erro resultante for correlacionado com um (ou mais) dos regressores incluídos, então a regressão estimada pode ser tendenciosa ou inconsistente ( veja viés de variável omitida).
Além da análise de regressão, os dados podem ser examinados para determinar se existe causalidade de Granger. A presença de causalidade de Granger indica que x precede y e que x contém informações exclusivas sobre y.