Spiegazione del teorema del limite centrale

Il teorema del limite centrale in statistica afferma che, data una dimensione del campione sufficientemente grande, la distribuzione campionaria della media per una variabile approssimerà una distribuzione normale indipendentemente dalla distribuzione di quella variabile in la popolazione.

Disimballare il significato da quella complessa definizione può essere difficile. Questo è largomento di questo post! Ti guiderò attraverso i vari aspetti della definizione del teorema del limite centrale (CLT) e ti mostrerò perché è vitale nelle statistiche.

Distribuzione della variabile nella popolazione

Parte della definizione per il teorema del limite centrale afferma “indipendentemente dalla distribuzione della variabile nella popolazione”. Questa parte è facile! In una popolazione, i valori di una variabile possono seguire diverse distribuzioni di probabilità. Queste distribuzioni possono variare da normale, inclinata a sinistra, inclinata a destra e uniforme tra le altre.

Normale
Inclinato a destra
Sinistra inclinata
Uniforme

Questa parte della definizione si riferisce alla distribuzione dei valori della variabile nella popolazione da cui si estrae un campione casuale.

Il teorema del limite centrale si applica a quasi tutti i tipi di distribuzioni di probabilità, ma ci sono delle eccezioni. Ad esempio, la popolazione deve avere una varianza finita. Questa restrizione esclude la distribuzione di Cauchy perché ha una varianza infinita.

Inoltre, il teorema del limite centrale si applica a indipendenti, distribuiti in modo identico variabili. In altre parole, il valore di unosservazione non dipende dal valore di unaltra osservazione. Inoltre, la distribuzione di tale variabile deve rimanere costante in tutte le misurazioni.

Post correlato: Comprensione delle distribuzioni di probabilità e delle variabili indipendenti e distribuite in modo identico

Distribuzione campionaria della media

La definizione del teorema del limite centrale si riferisce anche alla “distribuzione campionaria della media”. Che cosè?

In genere, esegui uno studio una volta e potresti calcolare la media di quel campione. Ora, immagina di ripetere lo studio molte volte e raccogliere la stessa dimensione del campione per ciascuno. Quindi , calcoli la media per ciascuno di questi campioni e rappresentali graficamente su un istogramma. Listogramma mostra la distribuzione delle medie campionarie, che gli statistici chiamano distribuzione campionaria della media.

Fortunatamente, non lo facciamo È necessario ripetere gli studi molte volte per stimare la distribuzione campionaria della media. Le procedure statistiche possono stimarla da un singolo campione casuale.

La forma della distribuzione campionaria dipende dalla dimensione del campione. Se si esegue il studiare utilizzando la stessa procedura e modificare solo la dimensione del campione, la forma della distribuzione del campionamento sarà diversa per ciascuna dimensione del campione. E questo ci porta alla parte successiva della definizione di CLT!

Teorema del limite centrale e a Dimensione campione sufficientemente ampia

Come afferma la sezione precedente , la forma della distribuzione del campionamento cambia con la dimensione del campione. Inoltre, la definizione del teorema del limite centrale afferma che quando si dispone di una dimensione del campione sufficientemente grande, la distribuzione campionaria inizia ad approssimarsi a una distribuzione normale. Quanto deve essere grande la dimensione del campione affinché si verifichi tale approssimazione?

Dipende dalla forma della distribuzione della variabile nella popolazione sottostante. Quanto più la distribuzione della popolazione differisce dallessere normale, tanto maggiore deve essere la dimensione del campione. In genere, gli statistici dicono che una dimensione del campione di 30 è sufficiente per la maggior parte delle distribuzioni. Tuttavia, distribuzioni fortemente asimmetriche possono richiedere dimensioni del campione maggiori. Vedremo laspetto della dimensione del campione in azione durante la dimostrazione empirica di seguito.

Teorema del limite centrale e approssimazione della distribuzione normale

Per ricapitolare, il teorema del limite centrale collega le seguenti due distribuzioni :

  • La distribuzione della variabile nella popolazione.
  • La distribuzione campionaria della media.

Nello specifico, il CLT afferma che indipendentemente dalla distribuzione della variabile nella popolazione, la distribuzione campionaria della media tenderà ad approssimare la distribuzione normale.

In altre parole, la distribuzione della popolazione può essere simile alla seguente:

Tuttavia, la distribuzione del campionamento può apparire come di seguito:

Non sorprende che una variabile distribuita normalmente produca una distribuzione di campionamento che segue anche la distribuzione normale. Ma, sorprendentemente, anche distribuzioni di popolazione non normali possono creare distribuzioni di campionamento normali.

Articolo correlato: distribuzione normale in statistica

Proprietà del teorema del limite centrale

Vediamo più nello specifico le caratteristiche di normalità del teorema del limite centrale. Le distribuzioni normali hanno due parametri, la media e la deviazione standard. Su quali valori convergono questi parametri?

Allaumentare della dimensione del campione, la distribuzione del campionamento converge su una distribuzione normale in cui la media è uguale alla media della popolazione e la deviazione standard è uguale a σ / √n. Dove:

  • σ = deviazione standard della popolazione
  • n = dimensione del campione

Allaumentare della dimensione del campione (n), la deviazione standard della distribuzione campionaria diventa più piccola perché la radice quadrata della dimensione del campione è nel denominatore. In altre parole, la distribuzione del campionamento si raggruppa più strettamente attorno alla media allaumentare della dimensione del campione.

Mettiamo insieme tutto questo. Con laumentare della dimensione del campione, la distribuzione del campionamento si avvicina più da vicino alla distribuzione normale e la diffusione di tale distribuzione si restringe. Queste proprietà hanno implicazioni essenziali nelle statistiche di cui parlerò più avanti in questo post.

Articoli correlati: misure di tendenza centrale e misure di variabilità

Dimostrazione empirica del teorema del limite centrale

Ora la parte divertente! Cè una dimostrazione matematica per il teorema centrale, ma questo va oltre lo scopo di questo post del blog. Tuttavia, mostrerò come funziona empiricamente utilizzando un software di simulazione statistica. Definirò le distribuzioni della popolazione e chiederò al software di estrarne molte migliaia di campioni casuali. Il software calcolerà la media di ogni campione e quindi rappresenterà graficamente queste medie campionarie su un istogramma per visualizzare la distribuzione campionaria della media.

Per i seguenti esempi, varierò la dimensione del campione per mostrare come influisce sulla distribuzione del campionamento. Per produrre la distribuzione del campionamento, traccerò 500.000 campioni casuali perché ciò crea una distribuzione abbastanza uniforme nellistogramma.

Tieni presente questa differenza fondamentale. Anche se raccoglierò 500.000 campioni consistenti per condizione, la dimensione di quei campioni varierà e questo influirà sulla forma della distribuzione del campionamento.

Mettiamo alla prova questa teoria! Per farlo, userò Statistics101, che è un programma per computer di articoli da regalo. Questo è un ottimo programma di simulazione che ho usato anche per affrontare il problema di Monty Hall!

Testare il teorema del limite centrale con tre distribuzioni di probabilità

Ti mostrerò come il teorema limite funziona con tre diverse distribuzioni: moderatamente distorta, gravemente distorta e una distribuzione uniforme. Le prime due distribuzioni si inclinano a destra e seguono la distribuzione lognormale. Il grafico della distribuzione di probabilità di seguito mostra la distribuzione dei valori della popolazione. Notare come la distribuzione tratteggiata rossa sia molto più distorta. In realtà si estende abbastanza fuori dal grafico! Vedremo come questo fa la differenza nelle distribuzioni di campionamento.

Vediamo come il teorema del limite centrale gestisce questi due distribuzioni e la distribuzione uniforme.

Distribuzione moderatamente asimmetrica e teorema del limite centrale

Il grafico sotto mostra la distribuzione lognormale moderatamente distorta. Questa distribuzione si adatta al set di dati sulla percentuale di grasso corporeo che utilizzo nel mio post sullidentificazione della distribuzione dei tuoi dati. Questi dati corrispondono alla linea blu nel grafico della distribuzione di probabilità sopra. Uso il software di simulazione per estrarre campioni casuali da questa popolazione 500.000 volte per ciascuna dimensione del campione (5, 20, 40).

Nel grafico sopra, il colore grigio mostra la distribuzione asimmetrica dei valori nella popolazione. Gli altri colori rappresentano le distribuzioni campionarie delle medie per diverse dimensioni del campione. Il colore rosso mostra la distribuzione delle medie quando la dimensione del campione è 5. Il blu indica una dimensione del campione di 20. Il verde è 40. La curva rossa (n = 5) è ancora leggermente inclinata, ma il blu e il verde (20 e 40 ) non sono visibilmente distorte.

Allaumentare della dimensione del campione, le distribuzioni di campionamento si avvicinano maggiormente alla distribuzione normale e diventano più strettamente raggruppate attorno alla media della popolazione, proprio come afferma il teorema del limite centrale!

Distribuzione molto asimmetrica e teorema del limite centrale

Ora, proviamo con la distribuzione lognormale molto distorta. Questi dati seguono la linea rossa tratteggiata nel grafico della distribuzione di probabilità sopra. Seguo lo stesso processo ma uso campioni di dimensioni maggiori di 40 (grigio), 60 (rosso) e 80 (blu). Non includo la distribuzione della popolazione in questo perché è così distorta da incasinare la scala dellasse X!

La distribuzione della popolazione è estremamente distorta. Probabilmente è più distorta di quanto tendono ad essere i dati reali.Come puoi vedere, anche con la dimensione del campione più grande (blu, n = 80), la distribuzione campionaria della media è ancora distorta a destra. Tuttavia, è meno distorto rispetto alle distribuzioni campionarie per le dimensioni del campione più piccole. Inoltre, notare come i picchi della distribuzione del campionamento si spostano a destra allaumentare del campione. Alla fine, con una dimensione del campione abbastanza grande, le distribuzioni del campionamento diventeranno simmetriche e il picco smetterà di spostarsi e si concentrerà sulla media della popolazione effettiva.

Se la distribuzione della popolazione è estremamente distorta, tieni presente che potresti è necessaria una dimensione sostanziale del campione affinché il teorema del limite centrale si attivi e produca distribuzioni di campionamento che approssimano una distribuzione normale!

Distribuzione uniforme e teorema del limite centrale

Ora, cambiamo marcia e guarda un tipo di distribuzione completamente diverso. Immagina di lanciare un dado e di prendere il valore medio dei risultati. Le probabilità di tirare i numeri su un dado seguono una distribuzione uniforme perché tutti i numeri hanno la stessa probabilità di verificarsi. Il teorema del limite centrale può funzionare con numeri discreti e probabilità uniformi? Vediamo!

Nel grafico sotto, seguo la stessa procedura di cui sopra. In questo esempio, la dimensione del campione si riferisce al numero di volte che tiriamo il dado. Il processo calcola la media per ogni campione.

Nel grafico sopra, utilizzo dimensioni del campione di 5, 20 e 40. Ci aspettiamo che la media sia (1 + 2 + 3 + 4 + 5 + 6/6 = 3.5). Le distribuzioni campionarie delle medie sono centrate su questo valore. Proprio come prevede il teorema del limite centrale, quando aumentiamo la dimensione del campione, le distribuzioni di campionamento si avvicinano più strettamente a una distribuzione normale e hanno una distribuzione dei valori più stretta.

È possibile eseguire un esperimento simile utilizzando la distribuzione binomiale con la moneta viene lanciata e ottieni gli stessi tipi di risultati quando si tratta, ad esempio, di probabilità di ottenere testa. Tutto grazie al teorema del limite centrale!

Perché il teorema del limite centrale è importante?

Il teorema del limite centrale è vitale in statistica per due ragioni principali: lassunzione di normalità e la precisione di le stime.

Teorema del limite centrale e assunzione di normalità

Il fatto che le distribuzioni campionarie possano approssimare una distribuzione normale ha implicazioni critiche. In statistica, lipotesi di normalità è vitale per i test di ipotesi parametriche della media, come il t-test. Di conseguenza, potresti pensare che questi test non siano validi quando i dati sono distribuiti in modo non normale. Tuttavia, se la dimensione del campione è abbastanza grande, il teorema del limite centrale entra in gioco e produce distribuzioni di campionamento che si avvicinano a una distribuzione normale. Questo fatto ti consente di utilizzare questi test di ipotesi anche quando i tuoi dati sono distribuiti in modo non normale, a condizione che la dimensione del tuo campione sia abbastanza grande.

Potresti aver sentito che i test parametrici della media sono robusti rispetto alle deviazioni dal ipotesi di normalità quando la dimensione del campione è sufficientemente grande. Questo grazie al teorema del limite centrale!

Per ulteriori informazioni su questo aspetto, leggi il mio post che confronta i test parametrici e non parametrici.

Precisione delle stime

In tutti i grafici, notano come le distribuzioni campionarie del cluster medio più strettamente intorno alla popolazione significano allaumentare delle dimensioni del campione. Questa proprietà del teorema del limite centrale diventa rilevante quando si utilizza un campione per stimare la media di unintera popolazione. Con una dimensione del campione maggiore, è più probabile che la media campionaria sia vicina alla media della popolazione reale. In altre parole, la tua stima è più precisa.

Al contrario, le distribuzioni campionarie della media per campioni di dimensioni inferiori sono molto più ampie. Per campioni di piccole dimensioni, non è insolito che le medie campionarie siano più lontane dalla media della popolazione effettiva. Ottieni stime meno precise.

In conclusione, la comprensione del teorema del limite centrale è cruciale quando si tratta di fidarsi della validità dei propri risultati e valutare la precisione delle proprie stime. Utilizza campioni di grandi dimensioni per soddisfare lipotesi di normalità anche quando i tuoi dati sono distribuiti in modo non normale e per ottenere stime più precise!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *