Termin „fałszywy związek” jest powszechnie używany w statystykach, a zwłaszcza w eksperymentalnych technikach badawczych, z których oba próbują zrozumieć i przewidzieć bezpośrednie związki przyczynowe (X → Y). Nieprzyczynowa korelacja może zostać fałszywie utworzona przez poprzednika, który powoduje oba (W → X i W → Y). Zmienne pośredniczące (X → W → Y), jeśli nie zostaną wykryte, szacują efekt całkowity, a nie efekt bezpośredni, bez korekty dla zmiennej pośredniczącej M. Z tego powodu korelacje zidentyfikowane eksperymentalnie nie reprezentują związków przyczynowych, chyba że można wykluczyć związki pozorne.
ExperimentsEdit
W eksperymentach fałszywe relacje można często zidentyfikować, kontrolując inne czynniki, w tym te, które zostały teoretycznie zidentyfikowane jako możliwe czynniki zakłócające. Na przykład, rozważmy naukowca próbującego ustalić, czy nowy lek zabija bakterie; kiedy badacz zaaplikuje lek do kultury bakterii, bakterie umierają. Aby jednak pomóc w wykluczeniu obecności zmiennej zakłócającej, inna kultura jest poddawana warunkom, które są jak najbardziej identyczne z tymi, które stoją przed pierwszą z wymienionych kultur, ale druga kultura nie jest poddawana działaniu leku. Jeśli w tych warunkach występuje niewidoczny czynnik zakłócający, ta kultura kontrolna również umrze, tak że z wyników pierwszej hodowli nie można wyciągnąć żadnych wniosków dotyczących skuteczności leku. Z drugiej strony, jeśli kultura kontrolna nie umiera, badacz nie może odrzucić hipotezy, że lek jest skuteczny.
Nieeksperymentalne analizy statystyczneEdytuj
Dyscypliny, których dane dotyczą głównie nieeksperymentalne, takie jak ekonomia, zwykle wykorzystują dane obserwacyjne do ustalenia związków przyczynowych. Zbiór technik statystycznych stosowanych w ekonomii nazywa się ekonometrią. Główną metodą statystyczną w ekonometrii jest analiza regresji wielowymiarowej. Zwykle zależność liniowa, taka jak
y = a 0 + a 1 x 1 + a 2 x 2 + ⋯ + akxk + e {\ displaystyle y = a_ {0} + a_ {1} x_ {1} + a_ {2} x_ {2} + \ cdots + a_ {k} x_ {k} + e}
jest hipoteza, w której y {\ displaystyle y} jest zmienną zależną (przypuszczalnie zmienną spowodowaną), xj {\ displaystyle x_ {j}} dla j = 1, …, k jest j-tą zmienną niezależną (przypuszczalnie jest zmienną sprawczą), a e {\ displaystyle e} to składnik błędu (zawierający połączone efekty wszystkich inne zmienne przyczynowe, które muszą być nieskorelowane z włączonymi zmiennymi niezależnymi). Jeśli istnieje powód, by sądzić, że żaden z x j {\ displaystyle x_ {j}} s nie jest spowodowany przez y, to uzyskuje się oszacowania współczynników a j {\ displaystyle a_ {j}}. Jeśli hipoteza zerowa, że aj = 0 {\ displaystyle a_ {j} = 0} jest odrzucona, to hipoteza alternatywna, że aj ≠ 0 {\ displaystyle a_ {j} \ neq 0} i równoważnie, że xj {\ displaystyle x_ {j }} powoduje, że y nie może zostać odrzucone. Z drugiej strony, jeśli hipoteza zerowa, że aj = 0 {\ displaystyle a_ {j} = 0} nie może zostać odrzucona, to równoważnie hipoteza o braku skutku przyczynowego xj {\ displaystyle x_ {j}} na y nie może zostać odrzucona . Tutaj pojęcie przyczynowości jest jednym z przyczynowych: jeśli prawdziwa wartość aj ≠ 0 {\ displaystyle a_ {j} \ neq 0}, to zmiana w xj {\ displaystyle x_ {j}} spowoduje zmianę w y chyba że inna (-e) zmienna (-e) sprawcza (-e), uwzględniona (-e) w regresji lub niejawnie w składniku błędu, zmieni się w taki sposób, aby dokładnie zrównoważyć jej skutek; tak więc zmiana w x j {\ Displaystyle x_ {j}} nie wystarczy do zmiany y. Podobnie zmiana w xj {\ Displaystyle x_ {j}} nie jest konieczna do zmiany y, ponieważ zmiana w y może być spowodowana przez coś niejawnego w składniku błędu (lub przez jakąś inną przyczynową zmienną objaśniającą zawartą w modelu).
Analiza regresji kontroluje inne istotne zmienne, włączając je jako regresory (zmienne objaśniające). Pomaga to uniknąć błędnego wnioskowania o przyczynowości ze względu na obecność trzeciej, podstawowej zmiennej, która wpływa zarówno na zmienną potencjalnie sprawczą, jak i zmienną potencjalnie spowodowaną: jej wpływ na zmienną potencjalnie spowodowaną jest uchwycony poprzez bezpośrednie włączenie jej do regresji, więc efekt ten nie zostanie odebrany jako fałszywy efekt potencjalnie sprawczej zmiennej będącej przedmiotem zainteresowania. Ponadto zastosowanie regresji wieloczynnikowej pomaga uniknąć błędnego wnioskowania, że pośredni efekt, powiedzmy, x1 (np. X1 → x2 → y) jest efektem bezpośrednim (x1 → y).
Podobnie jak Eksperymentator musi uważać, aby zastosować projekt eksperymentu, który kontroluje każdy czynnik zakłócający, tak więc użytkownik regresji wielokrotnej musi również uważnie kontrolować wszystkie czynniki zakłócające, włączając je do regresorów.Jeśli w regresji pominie się czynnik zakłócający, jego wpływ zostanie domyślnie ujęty w składniku błędu, a jeśli wynikowy składnik błędu jest skorelowany z jednym (lub kilkoma) uwzględnionymi regresorami, wówczas oszacowana regresja może być obciążona lub niespójna ( patrz pominięte odchylenie zmiennych).
Oprócz analizy regresji dane można zbadać, aby określić, czy istnieje związek przyczynowy Grangera. Obecność przyczynowości Grangera wskazuje zarówno na to, że x poprzedza y, jak i że x zawiera unikalne informacje o y.