Relation fausse

Le terme « relation fausse » est couramment utilisé dans les statistiques et en particulier dans les techniques de recherche expérimentale, qui tentent toutes deux de comprendre et de prédire les relations causales directes (X → Y). Une corrélation non causale peut être faussement créée par un antécédent qui cause les deux (W → X et W → Y). Les variables médiatrices (X → W → Y), si elles ne sont pas détectées, estiment un effet total plutôt quun effet direct sans ajustement pour la variable médiatrice M. Pour cette raison, les corrélations identifiées expérimentalement ne représentent pas des relations causales à moins que des relations fausses ne puissent être exclues.

ExperimentsEdit

Dans les expériences, les fausses relations peuvent souvent être identifiées en contrôlant dautres facteurs, y compris ceux qui ont été théoriquement identifiés comme des facteurs de confusion possibles. Par exemple, considérons un chercheur essayant de déterminer si un nouveau médicament tue les bactéries; lorsque le chercheur applique le médicament à une culture bactérienne, les bactéries meurent. Mais pour aider à écarter la présence dune variable confondante, une autre culture est soumise à des conditions aussi presque identiques que possible à celles auxquelles est confrontée la première culture, mais la seconde culture nest pas soumise au médicament. Sil y a un facteur de confusion invisible dans ces conditions, cette culture témoin mourra également, de sorte quaucune conclusion defficacité du médicament ne peut être tirée des résultats de la première culture. En revanche, si la culture témoin ne meurt pas, alors le chercheur ne peut pas rejeter lhypothèse que le médicament est efficace.

Analyses statistiques non expérimentalesModifier

Disciplines dont les données sont majoritairement non expérimentales, comme léconomie, utilisent généralement des données dobservation pour établir des relations causales. Lensemble des techniques statistiques utilisées en économie est appelé économétrie. La principale méthode statistique en économétrie est lanalyse de régression multivariée. Typiquement une relation linéaire telle que

y = a 0 + a 1 x 1 + a 2 x 2 + ⋯ + akxk + e {\ displaystyle y = a_ {0} + a_ {1} x_ {1} + a_ {2} x_ {2} + \ cdots + a_ {k} x_ {k} + e}

est émis lhypothèse, dans laquelle y {\ displaystyle y} est la variable dépendante (supposée être la variable causée), xj {\ displaystyle x_ {j}} pour j = 1, …, k est la jième variable indépendante (supposée être une variable causale), et e {\ displaystyle e} est le terme derreur (contenant les effets combinés de tous autres variables causales, qui ne doivent pas être corrélées aux variables indépendantes incluses). Sil y a des raisons de croire quaucun des x j {\ displaystyle x_ {j}} s nest causé par y, alors les estimations des coefficients a j {\ displaystyle a_ {j}} sont obtenues. Si lhypothèse nulle que aj = 0 {\ displaystyle a_ {j} = 0} est rejetée, alors lhypothèse alternative que aj ≠ 0 {\ displaystyle a_ {j} \ neq 0} et de manière équivalente que xj {\ displaystyle x_ {j }} fait que y ne peut pas être rejeté. Par contre, si lhypothèse nulle que aj = 0 {\ displaystyle a_ {j} = 0} ne peut pas être rejetée, alors de manière équivalente lhypothèse dabsence deffet causal de xj {\ displaystyle x_ {j}} sur y ne peut pas être rejetée . Ici, la notion de causalité est celle de causalité contributive: si la vraie valeur aj ≠ 0 {\ displaystyle a_ {j} \ neq 0}, alors un changement de xj {\ displaystyle x_ {j}} entraînera un changement de y à moins quune ou plusieurs autres variables causales, incluses dans la régression ou implicites dans le terme derreur, changent de manière à contrebalancer exactement son effet; donc un changement de x j {\ displaystyle x_ {j}} nest pas suffisant pour changer y. De même, un changement de xj {\ displaystyle x_ {j}} nest pas nécessaire pour changer y, car un changement de y pourrait être causé par quelque chose dimplicite dans le terme derreur (ou par une autre variable explicative causale incluse dans le modèle).

Lanalyse de régression contrôle dautres variables pertinentes en les incluant comme régresseurs (variables explicatives). Cela permet déviter une inférence erronée de causalité due à la présence dune troisième variable sous-jacente qui influence à la fois la variable potentiellement causale et la variable potentiellement causée: son effet sur la variable potentiellement causée est capturé en lincluant directement dans la régression, donc cet effet ne sera pas considéré comme un effet parasite de la variable dintérêt potentiellement causale. De plus, lutilisation de la régression multivariée permet déviter de déduire à tort quun effet indirect de, disons x1 (par exemple, x1 → x2 → y) est un effet direct (x1 → y).

Tout comme un lexpérimentateur doit veiller à utiliser un plan expérimental qui contrôle chaque facteur de confusion, de même que lutilisateur de la régression multiple doit également veiller à contrôler tous les facteurs de confusion en les incluant parmi les régresseurs.Si un facteur de confusion est omis de la régression, son effet est capturé dans le terme derreur par défaut, et si le terme derreur résultant est corrélé avec un (ou plusieurs) des régresseurs inclus, alors la régression estimée peut être biaisée ou incohérente ( voir biais de variable omis).

En plus de lanalyse de régression, les données peuvent être examinées pour déterminer si la causalité de Granger existe. La présence de la causalité de Granger indique à la fois que x précède y et que x contient des informations uniques sur y.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *