Explication du théorème central limite

Le théorème central limite en statistique indique que, étant donné une taille déchantillon suffisamment grande, la distribution déchantillonnage de la moyenne pour une variable se rapprochera dune distribution normale indépendamment de la distribution de cette variable dans la population.

Décompresser le sens de cette définition complexe peut être difficile. C’est le sujet de ce message! Je vais vous expliquer les différents aspects de la définition du théorème central limite (CLT) et vous montrer pourquoi elle est vitale en statistique.

Distribution de la variable dans la population

Une partie de la définition du théorème central limite déclare, «quelle que soit la distribution de la variable dans la population». Cette partie est facile! Dans une population, les valeurs dune variable peuvent suivre différentes distributions de probabilités. Ces distributions peuvent aller de normale, asymétrique à gauche, asymétrique à droite et uniforme, entre autres.

Normal
Incliné à droite
Incliné à gauche
Uniforme

Cette partie de la définition fait référence à la distribution des valeurs de la variable dans la population à partir de laquelle vous tirez un échantillon aléatoire.

Le théorème central limite sapplique à presque tous les types de distributions de probabilité, mais il y a des exceptions. Par exemple, la population doit avoir une variance finie. Cette restriction exclut la distribution de Cauchy car elle a une variance infinie.

De plus, le théorème central de la limite sapplique à des variables. En dautres termes, la valeur dune observation ne dépend pas de la valeur dune autre observation. Et, la distribution de cette variable doit rester constante sur toutes les mesures.

Article connexe: Comprendre les distributions de probabilités et les variables indépendantes et à distribution identique

Distribution déchantillonnage de la moyenne

La définition du théorème central limite fait également référence à «la distribution déchantillonnage de la moyenne». Quest-ce que cest?

En général, vous effectuez une étude une fois, et vous pouvez calculer la moyenne de cet échantillon. Maintenant, imaginez que vous répétez létude plusieurs fois et que vous collectez la même taille déchantillon pour chacun deux. Ensuite , vous calculez la moyenne de chacun de ces échantillons et les représentez graphiquement sur un histogramme. Lhistogramme affiche la distribution des moyennes des échantillons, que les statisticiens appellent la distribution déchantillonnage de la moyenne.

Heureusement, nous ne le faisons pas. Vous devez répéter les études plusieurs fois pour estimer la distribution déchantillonnage de la moyenne. Les procédures statistiques peuvent estimer cela à partir dun seul échantillon aléatoire.

La forme de la distribution déchantillonnage dépend de la taille de léchantillon. Si vous effectuez le étudiez en utilisant la même procédure et ne modifiez que la taille de léchantillon, la forme de la distribution déchantillonnage différera pour chaque taille déchantillon. Et cela nous amène à la partie suivante de la définition CLT!

Théorème central des limites et une taille déchantillon suffisamment grande

Comme lindique la section précédente , la forme de la distribution déchantillonnage change avec la taille de léchantillon. Et, la définition du théorème de limite centrale indique que lorsque vous avez une taille déchantillon suffisamment grande, la distribution déchantillonnage commence à se rapprocher dune distribution normale. Quelle doit être la taille de léchantillon pour que cette approximation se produise?

Cela dépend de la forme de la distribution de la variable dans la population sous-jacente. Plus la répartition de la population diffère de la normale, plus la taille de léchantillon doit être grande. En général, les statisticiens disent quune taille déchantillon de 30 est suffisante pour la plupart des distributions. Cependant, des distributions fortement biaisées peuvent exiger des échantillons de plus grande taille. Nous verrons laspect de la taille de léchantillon en action lors de la démonstration empirique ci-dessous.

Théorème central limite et approximation de la distribution normale

Pour récapituler, le théorème limite central relie les deux distributions suivantes :

  • La distribution de la variable dans la population.
  • La distribution déchantillonnage de la moyenne.

Plus précisément, le CLT indique quelle que soit la distribution de la variable dans la population, la distribution déchantillonnage de la moyenne aura tendance à se rapprocher de la distribution normale.

En dautres termes, la distribution de la population peut ressembler à ce qui suit:

Mais, la distribution déchantillonnage peut apparaître comme ci-dessous:

Il nest pas surprenant quune variable normalement distribuée produise une distribution déchantillonnage qui suit également la distribution normale. Mais, étonnamment, des distributions de population non normales peuvent également créer des distributions déchantillonnage normales.

Article connexe: Distribution normale dans les statistiques

Propriétés du théorème de limite central

Soyons plus précis sur les caractéristiques de normalité du théorème de limite central. Les distributions normales ont deux paramètres, la moyenne et lécart type. Sur quelles valeurs convergent ces paramètres?

À mesure que la taille de léchantillon augmente, la distribution déchantillonnage converge vers une distribution normale où la moyenne est égale à la moyenne de la population et lécart-type est égal à σ / √n. Où:

  • σ = lécart type de la population
  • n = la taille de léchantillon

À mesure que la taille de léchantillon (n) augmente, lécart type de la distribution déchantillonnage devient plus petit parce que la racine carrée de la taille de léchantillon est dans le dénominateur. En d’autres termes, la distribution de l’échantillonnage se regroupe plus étroitement autour de la moyenne à mesure que la taille de l’échantillon augmente.

Mettons tout cela ensemble. À mesure que la taille de léchantillon augmente, la distribution déchantillonnage se rapproche davantage de la distribution normale, et la dispersion de cette distribution se resserre. Ces propriétés ont des implications essentielles dans les statistiques que je discuterai plus tard dans cet article.

Articles connexes: Mesures de la tendance centrale et mesures de la variabilité

Démonstration empirique du théorème central des limites

Maintenant, la partie amusante! Il existe une preuve mathématique du théorème central, mais cela dépasse le cadre de cet article de blog. Cependant, je montrerai comment cela fonctionne empiriquement en utilisant un logiciel de simulation statistique. Je définirai les distributions de population et demanderai au logiciel d’en tirer plusieurs milliers d’échantillons aléatoires. Le logiciel calculera la moyenne de chaque échantillon, puis représentera graphiquement ces moyennes déchantillon sur un histogramme pour afficher la distribution déchantillonnage de la moyenne.

Pour les exemples suivants, je varierai la taille de léchantillon pour montrer comment cela affecte la distribution déchantillonnage. Pour produire la distribution déchantillonnage, je vais tirer 500 000 échantillons aléatoires, car cela crée une distribution assez fluide dans lhistogramme.

Gardez cette différence critique à lesprit. Bien que je recueille 500 000 échantillons cohérents par condition, la taille de ces échantillons variera, et cela affecte la forme de la distribution déchantillonnage.

Testons cette théorie! Pour ce faire, jutiliserai Statistics101, un programme informatique destiné aux cadeaux. Cest un excellent programme de simulation que jai également utilisé pour résoudre le problème de Monty Hall!

Test du théorème central de limite avec trois distributions de probabilités

Je vais vous montrer comment le Le théorème limite fonctionne avec trois distributions différentes: modérément asymétrique, sévèrement asymétrique et une distribution uniforme. Les deux premières distributions sont inclinées vers la droite et suivent la distribution log-normale. Le graphique de distribution de probabilité ci-dessous affiche la distribution des valeurs de la population. Remarquez comment la distribution en pointillés rouges est beaucoup plus faussée. Cela va en fait bien loin du graphique! Nous verrons comment cela fait une différence dans les distributions déchantillonnage.

Voyons comment le théorème de la limite centrale gère ces deux distributions et la distribution uniforme.

Distribution modérément asymétrique et le théorème central des limites

Le graphique ci-dessous montre la distribution log-normale modérément asymétrique. Cette distribution correspond à lensemble de données de pourcentage de graisse corporelle que jutilise dans mon article sur lidentification de la distribution de vos données. Ces données correspondent à la ligne bleue dans le diagramme de distribution de probabilité ci-dessus. Jutilise le logiciel de simulation pour prélever des échantillons aléatoires de cette population 500 000 fois pour chaque taille déchantillon (5, 20, 40).

Dans le graphique ci-dessus, la couleur grise montre la distribution asymétrique des valeurs dans la population. Les autres couleurs représentent les distributions déchantillonnage des moyennes pour différentes tailles déchantillon. La couleur rouge montre la distribution des moyennes lorsque la taille de votre échantillon est 5. Le bleu indique une taille déchantillon de 20. Le vert est 40. La courbe rouge (n = 5) est encore un peu biaisée, mais le bleu et le vert (20 et 40) ) ne sont pas visiblement biaisées.

Au fur et à mesure que la taille de léchantillon augmente, les distributions déchantillonnage se rapprochent plus étroitement de la distribution normale et deviennent plus étroitement regroupées autour de la moyenne de la population – tout comme le théorème central limite lindique!

Distribution très asymétrique et théorème de limite centrale

Maintenant, essayons ceci avec la distribution lognormale très asymétrique. Ces données suivent la ligne pointillée rouge dans le diagramme de distribution de probabilité ci-dessus. Je suis le même processus mais jutilise des échantillons de plus grande taille de 40 (gris), 60 (rouge) et 80 (bleu). Je ninclus pas la répartition de la population dans celui-ci car elle est tellement biaisée quelle gâche léchelle de laxe X!

La répartition de la population est extrêmement biaisée. Il est probablement plus biaisé que les données réelles ont tendance à lêtre.Comme vous pouvez le voir, même avec la plus grande taille déchantillon (bleu, n = 80), la distribution déchantillonnage de la moyenne est toujours biaisée à droite. Cependant, elle est moins biaisée que les distributions déchantillonnage pour les échantillons de plus petite taille. Notez également comment les pics de la distribution déchantillonnage se déplacent vers la droite à mesure que léchantillon augmente. Finalement, avec une taille déchantillon suffisamment grande, les distributions déchantillonnage deviendront symétriques, et le pic cessera de se déplacer et se concentrera sur la moyenne réelle de la population.

Si votre distribution de population est extrêmement biaisée, sachez que vous pourriez ont besoin dune taille déchantillon substantielle pour que le théorème de limite central entre en jeu et produise des distributions déchantillonnage qui se rapprochent dune distribution normale!

Distribution uniforme et théorème de limite centrale

Maintenant, changeons de vitesse et regardez un type de distribution entièrement différent. Imaginez que nous lançons un dé et prenons la valeur moyenne des jets. Les probabilités de lancer les nombres sur un dé suivent une distribution uniforme parce que tous les nombres ont la même chance de se produire. Le théorème de limite central peut-il fonctionner avec des nombres discrets et des probabilités uniformes? Voyons voir!

Dans le graphique ci-dessous, je suis la même procédure que ci-dessus. Dans cet exemple, la taille de léchantillon fait référence au nombre de fois que nous lançons le dé. Le processus calcule la moyenne de chaque échantillon.

Dans le graphique ci-dessus, jutilise des tailles déchantillon de 5, 20 et 40. Nous nous attendons à ce que la moyenne soit (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Les distributions déchantillonnage des moyennes sont centrées sur cette valeur. Tout comme le théorème de la limite centrale le prédit, à mesure que nous augmentons la taille de léchantillon, les distributions déchantillonnage se rapprochent plus étroitement dune distribution normale et ont une répartition plus étroite des valeurs.

Vous pouvez effectuer une expérience similaire en utilisant la distribution binomiale avec les jetons de monnaie et obtiennent les mêmes types de résultats en ce qui concerne, par exemple, la probabilité dobtenir des têtes. Tout cela grâce au théorème central de la limite!

Pourquoi le théorème de la limite centrale est-il important?

Le théorème de la limite centrale est vital en statistique pour deux raisons principales: lhypothèse de normalité et la précision de les estimations.

Théorème central limite et hypothèse de normalité

Le fait que les distributions déchantillonnage puissent se rapprocher dune distribution normale a des implications critiques. En statistique, lhypothèse de normalité est vitale pour les tests dhypothèse paramétrique de la moyenne, comme le test t. Par conséquent, vous pouvez penser que ces tests ne sont pas valides lorsque les données ne sont pas normalement distribuées. Cependant, si la taille de votre échantillon est suffisamment grande, le théorème de limite centrale intervient et produit des distributions déchantillonnage qui se rapprochent dune distribution normale. Ce fait vous permet dutiliser ces tests dhypothèse même lorsque vos données ne sont pas distribuées normalement – tant que la taille de votre échantillon est suffisamment grande.

Vous avez peut-être entendu dire que les tests paramétriques de la moyenne sont robustes aux écarts par rapport à hypothèse de normalité lorsque la taille de votre échantillon est suffisamment grande. Cest grâce au théorème de limite central!

Pour plus dinformations sur cet aspect, lisez mon article qui compare les tests paramétriques et non paramétriques.

Précision des estimations

In tous les graphiques, remarquez comment les distributions déchantillonnage de la grappe moyenne se rapprochent davantage de la moyenne de la population lorsque la taille des échantillons augmente. Cette propriété du théorème de la limite centrale devient pertinente lorsque lon utilise un échantillon pour estimer la moyenne dune population entière. Avec une taille déchantillon plus grande, la moyenne de votre échantillon est plus susceptible dêtre proche de la moyenne réelle de la population. En dautres termes, votre estimation est plus précise.

À linverse, les distributions déchantillonnage de la moyenne pour des échantillons de plus petite taille sont beaucoup plus larges. Pour les échantillons de petite taille, il n’est pas inhabituel que les moyennes des échantillons soient plus éloignées de la moyenne réelle de la population. Vous obtenez des estimations moins précises.

Pour terminer, comprendre le théorème central de la limite est crucial pour se fier à la validité de vos résultats et évaluer la précision de vos estimations. Utilisez des échantillons de grande taille pour satisfaire lhypothèse de normalité même lorsque vos données ne sont pas distribuées normalement et pour obtenir des estimations plus précises!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *