O teorema do limite central em estatística afirma que, dado um tamanho de amostra suficientemente grande, a distribuição amostral da média para uma variável se aproximará de uma distribuição normal, independentemente da distribuição dessa variável em a população.
Descompactar o significado dessa definição complexa pode ser difícil. Esse é o tópico desta postagem! Apresentarei os vários aspectos da definição do teorema do limite central (CLT) e mostrarei por que ele é vital em estatísticas.
Distribuição da variável na população
Parte da definição dos estados do teorema do limite central, “independentemente da distribuição da variável na população”. Esta parte é fácil! Em uma população, os valores de uma variável podem seguir diferentes distribuições de probabilidade. Essas distribuições podem variar de normal, distorção à esquerda, distorção à direita e uniforme, entre outras.
Esta parte da definição se refere à distribuição dos valores da variável na população da qual você extrai uma amostra aleatória.
O teorema do limite central se aplica a quase todos os tipos de distribuições de probabilidade, mas há exceções. Por exemplo, a população deve ter uma variância finita. Essa restrição exclui a distribuição de Cauchy porque tem variância infinita.
Além disso, o teorema do limite central se aplica a independentes, distribuídas de forma idêntica variáveis. Em outras palavras, o valor de uma observação não depende do valor de outra observação. E, a distribuição dessa variável deve permanecer constante em todas as medições.
Postagem relacionada: Compreendendo distribuições de probabilidade e variáveis independentes e distribuídas de forma idêntica
Distribuição de amostragem da média
A definição do teorema do limite central também se refere à “distribuição amostral da média.” O que é isso?
Normalmente, você realiza um estudo uma vez e pode calcular a média dessa amostra. Agora, imagine que você repita o estudo várias vezes e colete o mesmo tamanho de amostra para cada uma. , você calcula a média para cada uma dessas amostras e as representa graficamente em um histograma. O histograma exibe a distribuição das médias da amostra, a que os estatísticos se referem como a distribuição amostral da média.
Felizmente, nós não t preciso repetir os estudos muitas vezes para estimar a distribuição amostral da média. Os procedimentos estatísticos podem estimar isso a partir de uma única amostra aleatória.
A forma da distribuição amostral depende do tamanho da amostra. Se você executar o estudar usando o mesmo procedimento e alterar apenas o tamanho da amostra, a forma da distribuição da amostra será diferente para cada tamanho de amostra. E, isso nos leva à próxima parte da definição CLT!
Teorema do Limite Central e um tamanho de amostra suficientemente grande
Como afirma a seção anterior , a forma da distribuição da amostra muda com o tamanho da amostra. E, a definição do teorema do limite central afirma que quando você tem um tamanho de amostra suficientemente grande, a distribuição de amostragem começa a se aproximar de uma distribuição normal. Qual deve ser o tamanho da amostra para que essa aproximação ocorra?
Depende da forma da distribuição da variável na população subjacente. Quanto mais difere a distribuição da população de ser normal, maior deve ser o tamanho da amostra. Normalmente, os estatísticos dizem que um tamanho de amostra de 30 é suficiente para a maioria das distribuições. No entanto, distribuições fortemente enviesadas podem exigir tamanhos de amostra maiores. Veremos o aspecto do tamanho da amostra em ação durante a demonstração empírica abaixo.
Teorema do limite central e distribuição normal aproximada
Para recapitular, o teorema do limite central liga as duas distribuições a seguir :
- A distribuição da variável na população.
- A distribuição amostral da média.
Especificamente, o CLT declara que independentemente da distribuição da variável na população, a distribuição amostral da média tenderá a se aproximar da distribuição normal.
Em outras palavras, a distribuição da população pode ser semelhante a:
Mas, a distribuição de amostragem pode aparecer como abaixo:
Não é surpreendente que uma variável normalmente distribuída produza uma distribuição de amostragem que também segue a distribuição normal. Mas, surpreendentemente, as distribuições populacionais não normais também podem criar distribuições amostrais normais.
Postagem relacionada: Distribuição normal em estatísticas
Propriedades do teorema do limite central
Vamos ser mais específicos sobre as características de normalidade do teorema do limite central. As distribuições normais têm dois parâmetros, a média e o desvio padrão. Para quais valores esses parâmetros convergem?
Conforme o tamanho da amostra aumenta, a distribuição da amostra converge para uma distribuição normal onde a média é igual à média da população e o desvio padrão é igual a σ / √n. Onde:
- σ = o desvio padrão da população
- n = o tamanho da amostra
Conforme o tamanho da amostra (n) aumenta, o desvio padrão da distribuição da amostra torna-se menor porque a raiz quadrada do tamanho da amostra está no denominador. Em outras palavras, a distribuição da amostragem se agrupa mais estreitamente em torno da média conforme o tamanho da amostra aumenta.
Vamos colocar tudo isso junto. À medida que o tamanho da amostra aumenta, a distribuição da amostra se aproxima mais da distribuição normal e a propagação dessa distribuição se estreita. Essas propriedades têm implicações essenciais em estatísticas que discutirei posteriormente neste artigo.
Postagens relacionadas: Medidas de tendência central e medidas de variabilidade
Demonstração empírica do teorema do limite central
Agora a parte divertida! Há uma prova matemática para o teorema central, mas isso vai além do escopo desta postagem do blog. No entanto, vou mostrar como funciona empiricamente usando um software de simulação estatística. Vou definir as distribuições da população e fazer com que o software extraia muitos milhares de amostras aleatórias dela. O software calculará a média de cada amostra e, em seguida, representará graficamente essas médias em um histograma para exibir a distribuição de amostragem da média.
Para os exemplos a seguir, variarei o tamanho da amostra para mostrar como isso afeta a distribuição da amostra. Para produzir a distribuição de amostragem, vou desenhar 500.000 amostras aleatórias porque isso cria uma distribuição bastante suave no histograma.
Mantenha essa diferença crítica em mente. Embora eu colete 500.000 amostras consistentes por condição, o tamanho dessas amostras irá variar, e isso afeta a forma da distribuição da amostra.
Vamos testar esta teoria! Para fazer isso, usarei o Statistics101, que é um programa de computador para brindes. Este é um ótimo programa de simulação que também usei para resolver o problema de Monty Hall!
Testando o Teorema do Limite Central com Três Distribuições de Probabilidade
Vou mostrar como o O teorema do limite trabalha com três distribuições diferentes: moderadamente distorcido, severamente distorcido e uma distribuição uniforme. As duas primeiras distribuições inclinam-se para a direita e seguem a distribuição lognormal. O gráfico de distribuição de probabilidade abaixo exibe a distribuição de valores da população. Observe como a distribuição tracejada em vermelho é muito mais distorcida. Na verdade, estende-se bastante do gráfico! Veremos como isso faz a diferença nas distribuições de amostragem.
Vamos ver como o teorema do limite central lida com esses dois distribuições e a distribuição uniforme.
Distribuição moderadamente distorcida e o teorema do limite central
O gráfico abaixo mostra a distribuição lognormal moderadamente distorcida. Esta distribuição se ajusta ao conjunto de dados de porcentagem de gordura corporal que utilizo em minha postagem sobre a identificação da distribuição de seus dados. Esses dados correspondem à linha azul no gráfico de distribuição de probabilidade acima. Eu uso o software de simulação para extrair amostras aleatórias desta população 500.000 vezes para cada tamanho de amostra (5, 20, 40).
No gráfico acima, a cor cinza mostra a distribuição enviesada dos valores na população. As outras cores representam as distribuições de amostragem das médias para diferentes tamanhos de amostra. A cor vermelha mostra a distribuição das médias quando o tamanho de sua amostra é 5. Azul denota um tamanho de amostra de 20. Verde é 40. A curva vermelha (n = 5) ainda está um pouco distorcida, mas o azul e o verde (20 e 40 ) não estão visivelmente distorcidos.
À medida que o tamanho da amostra aumenta, as distribuições de amostragem se aproximam mais da distribuição normal e se tornam mais agrupadas em torno da média da população – exatamente como afirma o teorema do limite central!
Distribuição muito distorcida e o teorema do limite central
Agora, vamos tentar isso com a distribuição lognormal muito distorcida. Esses dados seguem a linha tracejada vermelha no gráfico de distribuição de probabilidade acima. Eu sigo o mesmo processo, mas uso tamanhos de amostra maiores de 40 (cinza), 60 (vermelho) e 80 (azul). Não incluí a distribuição da população neste porque é tão distorcida que bagunça a escala do eixo X!
A distribuição da população é extremamente distorcida. Provavelmente é mais distorcido do que os dados reais tendem a ser.Como você pode ver, mesmo com o maior tamanho de amostra (azul, n = 80), a distribuição de amostragem da média ainda está inclinada para a direita. No entanto, é menos enviesado do que as distribuições de amostragem para os tamanhos de amostra menores. Além disso, observe como os picos da distribuição de amostragem mudam para a direita à medida que a amostra aumenta. Eventualmente, com um tamanho de amostra grande o suficiente, as distribuições de amostragem se tornarão simétricas e o pico parará de se deslocar e se centrará na média populacional real.
Se a distribuição da população for extremamente distorcida, esteja ciente de que você pode precisamos de um tamanho de amostra substancial para o teorema do limite central entrar em ação e produzir distribuições de amostragem que se aproximam de uma distribuição normal!
Distribuição uniforme e o teorema do limite central
Agora, vamos mudar de marcha e observe um tipo de distribuição totalmente diferente. Imagine que jogamos um dado e calculamos o valor médio das jogadas. As probabilidades de rolar os números em um dado seguem uma distribuição uniforme porque todos os números têm a mesma chance de ocorrer. O teorema do limite central pode trabalhar com números discretos e probabilidades uniformes? Vamos ver!
No gráfico abaixo, sigo o mesmo procedimento acima. Neste exemplo, o tamanho da amostra se refere ao número de vezes que lançamos o dado. O processo calcula a média para cada amostra.
No gráfico acima, uso tamanhos de amostra de 5, 20 e 40. Esperamos que a média seja (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). As distribuições de amostragem das médias centram-se neste valor. Assim como o teorema do limite central prediz, conforme aumentamos o tamanho da amostra, as distribuições de amostragem se aproximam mais de uma distribuição normal e têm uma distribuição mais estreita de valores.
Você poderia realizar um experimento semelhante usando a distribuição binomial com moeda ao ar e obter os mesmos tipos de resultados no que diz respeito, digamos, à probabilidade de obter cara. Tudo graças ao teorema do limite central!
Por que o teorema do limite central é importante?
O teorema do limite central é vital em estatística por duas razões principais – a suposição de normalidade e a precisão de as estimativas.
Teorema do limite central e a suposição de normalidade
O fato de que as distribuições de amostragem podem se aproximar de uma distribuição normal tem implicações críticas. Em estatística, a suposição de normalidade é vital para testes de hipótese paramétrica da média, como o teste t. Conseqüentemente, você pode pensar que esses testes não são válidos quando os dados são distribuídos de forma não normal. No entanto, se o tamanho de sua amostra for grande o suficiente, o teorema do limite central entra em ação e produz distribuições de amostragem que se aproximam de uma distribuição normal. Esse fato permite que você use esses testes de hipótese mesmo quando seus dados estão distribuídos de forma não normal, desde que o tamanho da sua amostra seja grande o suficiente.
Você deve ter ouvido que os testes paramétricos da média são robustos para desvios do suposição de normalidade quando o tamanho da amostra é suficientemente grande. Isso graças ao teorema do limite central!
Para obter mais informações sobre este aspecto, leia meu post que compara testes paramétricos e não paramétricos.
Precisão das estimativas
Em Em todos os gráficos, observe como as distribuições de amostragem do cluster médio mais estreitamente em torno da média da população conforme o tamanho da amostra aumenta. Esta propriedade do teorema do limite central torna-se relevante ao usar uma amostra para estimar a média de uma população inteira. Com um tamanho de amostra maior, é mais provável que sua média amostral esteja próxima da média populacional real. Em outras palavras, sua estimativa é mais precisa.
Por outro lado, as distribuições de amostragem da média para tamanhos de amostra menores são muito mais amplas. Para tamanhos de amostra pequenos, não é incomum que as médias da amostra estejam mais longe da média da população real. Você obtém estimativas menos precisas.
Para encerrar, entender o teorema do limite central é crucial quando se trata de confiar na validade de seus resultados e avaliar a precisão de suas estimativas. Use tamanhos de amostra grandes para satisfazer a suposição de normalidade, mesmo quando seus dados são distribuídos de forma não normal e para obter estimativas mais precisas!