Il termine “relazione spuria” è comunemente usato in statistica e in particolare nelle tecniche di ricerca sperimentale, entrambe tentano di comprendere e prevedere relazioni causali dirette (X → Y). Una correlazione non causale può essere falsamente creata da un antecedente che causa entrambi (W → X e W → Y). Le variabili di mediazione, (X → W → Y), se non rilevate, stimano un effetto totale piuttosto che un effetto diretto senza aggiustamento per la variabile di mediazione M. Per questo motivo, le correlazioni identificate sperimentalmente non rappresentano relazioni causali a meno che non si possano escludere relazioni spurie.
ExperimentsEdit
Negli esperimenti, le relazioni spurie possono spesso essere identificate controllando altri fattori, inclusi quelli che sono stati teoricamente identificati come possibili fattori di confusione. Ad esempio, si consideri un ricercatore che cerca di determinare se un nuovo farmaco uccide i batteri; quando il ricercatore applica il farmaco a una coltura batterica, i batteri muoiono. Ma per aiutare a escludere la presenza di una variabile confondente, unaltra cultura è soggetta a condizioni il più possibile identiche a quelle che devono affrontare la prima cultura menzionata, ma la seconda cultura non è sottoposta al farmaco. Se cè un fattore di confusione invisibile in quelle condizioni, anche questa cultura di controllo morirà, in modo che nessuna conclusione sullefficacia del farmaco possa essere tratta dai risultati della prima coltura. Daltra parte, se la cultura di controllo non muore, il ricercatore non può rifiutare lipotesi che il farmaco sia efficace.
Analisi statistiche non sperimentali Modifica
Discipline i cui dati sono principalmente non sperimentali, come leconomia, di solito impiegano dati osservativi per stabilire relazioni causali. Il corpo delle tecniche statistiche utilizzate in economia è chiamato econometria. Il principale metodo statistico in econometria è lanalisi di regressione multivariabile. Tipicamente una relazione lineare come
y = a 0 + a 1 x 1 + a 2 x 2 + ⋯ + akxk + e {\ displaystyle y = a_ {0} + a_ {1} x_ {1} + a_ {2} x_ {2} + \ cdots + a_ {k} x_ {k} + e}
è ipotizzato, in cui y {\ displaystyle y} è la variabile dipendente (ipotizzata come variabile causata), xj {\ displaystyle x_ {j}} per j = 1, …, k è la j-esima variabile indipendente (ipotizzata come variabile causale), ed e {\ displaystyle e} è il termine di errore (contenente gli effetti combinati di tutti altre variabili causali, che devono essere non correlate con le variabili indipendenti incluse). Se cè motivo di ritenere che nessuno degli x j {\ displaystyle x_ {j}} s sia causato da y, si ottengono stime dei coefficienti a j {\ displaystyle a_ {j}}. Se lipotesi nulla che aj = 0 {\ displaystyle a_ {j} = 0} viene rifiutata, allora lipotesi alternativa che aj ≠ 0 {\ displaystyle a_ {j} \ neq 0} ed equivalentemente che xj {\ displaystyle x_ {j }} fa sì che y non possa essere rifiutato. Daltra parte, se lipotesi nulla che aj = 0 {\ displaystyle a_ {j} = 0} non può essere rifiutata, allora lipotesi di nessun effetto causale di xj {\ displaystyle x_ {j}} su y non può essere rifiutata in modo equivalente . Qui la nozione di causalità è quella di causalità contributiva: se il valore vero aj ≠ 0 {\ displaystyle a_ {j} \ neq 0}, allora un cambiamento in xj {\ displaystyle x_ {j}} si tradurrà in un cambiamento in y a meno che qualche altra variabile causale, inclusa nella regressione o implicita nel termine di errore, non cambi in modo tale da compensare esattamente il suo effetto; quindi un cambiamento in x j {\ displaystyle x_ {j}} non è sufficiente per cambiare y. Allo stesso modo, un cambiamento in xj {\ displaystyle x_ {j}} non è necessario per cambiare y, perché un cambiamento in y potrebbe essere causato da qualcosa di implicito nel termine di errore (o da qualche altra variabile esplicativa causale inclusa nel modello).
Lanalisi di regressione controlla altre variabili rilevanti includendole come regressori (variabili esplicative). Ciò aiuta ad evitare inferenze errate di causalità dovute alla presenza di una terza variabile sottostante che influenza sia la variabile potenzialmente causale che la variabile potenzialmente causata: il suo effetto sulla variabile potenzialmente causata viene catturato includendola direttamente nella regressione, quindi quelleffetto non sarà rilevato come un effetto spurio della variabile potenzialmente causale di interesse. Inoltre, luso della regressione multivariata aiuta a evitare di inferire erroneamente che un effetto indiretto di, diciamo x1 (ad esempio, x1 → x2 → y) è un effetto diretto (x1 → y).
Proprio come un lo sperimentatore deve stare attento ad impiegare un disegno sperimentale che controlli per ogni fattore di confusione, così anche lutente di regressione multipla deve stare attento a controllare tutti i fattori di confusione includendoli tra i regressori.Se un fattore di confusione viene omesso dalla regressione, il suo effetto viene catturato nel termine di errore per impostazione predefinita e se il termine di errore risultante è correlato con uno (o più) dei regressori inclusi, la regressione stimata può essere distorta o incoerente ( vedere bias da variabili omesse).
Oltre allanalisi di regressione, i dati possono essere esaminati per determinare se esiste la causalità di Granger. La presenza della causalità di Granger indica sia che x precede y, sia che x contiene informazioni uniche su y.