El teorema del límite central en estadística establece que, dado un tamaño de muestra suficientemente grande, la distribución muestral de la media para una variable se aproximará a una distribución normal independientemente de la distribución de esa variable en la población.
Desentrañar el significado de esa compleja definición puede ser difícil. ¡Ese es el tema de esta publicación! Lo guiaré a través de los diversos aspectos de la definición del teorema del límite central (CLT) y le mostraré por qué es vital en las estadísticas.
Distribución de la variable en la población
Parte de la definición del teorema del límite central establece «independientemente de la distribución de la variable en la población». ¡Esta parte es fácil! En una población, los valores de una variable pueden seguir diferentes distribuciones de probabilidad. Estas distribuciones pueden variar desde normal, sesgada a la izquierda, sesgada a la derecha y uniforme, entre otras.
Esta parte de la definición se refiere a la distribución de los valores de la variable en la población de la que extrae una muestra aleatoria.
El teorema del límite central se aplica a casi todos los tipos de distribuciones de probabilidad, pero hay excepciones. Por ejemplo, la población debe tener una varianza finita. Esa restricción descarta la distribución de Cauchy porque tiene una varianza infinita.
Además, el teorema del límite central se aplica a independientes distribuidos de manera idéntica variables. En otras palabras, el valor de una observación no depende del valor de otra observación. Y la distribución de esa variable debe permanecer constante en todas las medidas.
Publicación relacionada: Comprensión de las distribuciones de probabilidad y las variables independientes e idénticamente distribuidas
Distribución de muestreo de la media
La definición del teorema del límite central también se refiere a «la distribución muestral de la media». ¿Qué es eso?
Por lo general, realiza un estudio una vez y puede calcular la media de esa muestra. Ahora, imagine que repite el estudio muchas veces y recopila el mismo tamaño de muestra para cada una. Luego , calcula la media de cada una de estas muestras y las representa gráficamente en un histograma. El histograma muestra la distribución de las medias muestrales, que los estadísticos denominan distribución muestral de la media.
Afortunadamente, no Es necesario repetir los estudios muchas veces para estimar la distribución muestral de la media. Los procedimientos estadísticos pueden estimar eso a partir de una sola muestra aleatoria.
La forma de la distribución muestral depende del tamaño de la muestra. Si realiza la estudio utilizando el mismo procedimiento y cambiando solo el tamaño de la muestra, la forma de la distribución muestral será diferente para cada tamaño de muestra. ¡Y eso nos lleva a la siguiente parte de la definición de CLT!
Teorema del límite central y un tamaño de muestra suficientemente grande
Como se indica en la sección anterior , la forma de la distribución muestral cambia con el tamaño de la muestra. Y la definición del teorema del límite central establece que cuando se tiene un tamaño de muestra suficientemente grande, la distribución muestral comienza a aproximarse a una distribución normal. ¿Qué tan grande debe ser el tamaño de la muestra para que se produzca esa aproximación?
Depende de la forma de la distribución de la variable en la población subyacente. Cuanto más difiere la distribución de la población de ser normal, mayor debe ser el tamaño de la muestra. Normalmente, los estadísticos dicen que un tamaño de muestra de 30 es suficiente para la mayoría de las distribuciones. Sin embargo, las distribuciones fuertemente sesgadas pueden requerir tamaños de muestra más grandes. Veremos el aspecto del tamaño de la muestra en acción durante la demostración empírica a continuación.
Teorema del límite central y aproximación de la distribución normal
Para recapitular, el teorema del límite central vincula las siguientes dos distribuciones :
- La distribución de la variable en la población.
- La distribución muestral de la media.
Específicamente, el CLT establece que independientemente de la distribución de la variable en la población, la distribución muestral de la media tenderá a aproximarse a la distribución normal.
En otras palabras, la distribución de la población puede tener el siguiente aspecto:
Pero, la distribución de muestreo puede aparecer a continuación:
No es sorprendente que una variable distribuida normalmente produzca una distribución de muestreo que también sigue la distribución normal. Pero, sorprendentemente, las distribuciones de población no normales también pueden crear distribuciones de muestreo normales.
Publicación relacionada: Distribución normal en estadística
Propiedades del teorema del límite central
Seamos más específicos sobre las características de normalidad del teorema del límite central. Las distribuciones normales tienen dos parámetros, la media y la desviación estándar. ¿En qué valores convergen estos parámetros?
A medida que aumenta el tamaño de la muestra, la distribución muestral converge en una distribución normal donde la media es igual a la media de la población y la desviación estándar es igual a σ / √n. Donde:
- σ = la desviación estándar de la población
- n = el tamaño de la muestra
A medida que aumenta el tamaño de la muestra (n), la desviación estándar de la distribución muestral se reduce porque la raíz cuadrada del tamaño de la muestra está en el denominador. En otras palabras, la distribución muestral se agrupa más estrechamente alrededor de la media a medida que aumenta el tamaño de la muestra.
Pongamos todo esto junto. A medida que aumenta el tamaño de la muestra, la distribución muestral se aproxima más a la distribución normal y la extensión de esa distribución se estrecha. Estas propiedades tienen implicaciones esenciales en las estadísticas que discutiré más adelante en esta publicación.
Publicaciones relacionadas: Medidas de tendencia central y medidas de variabilidad
Demostración empírica del teorema del límite central
¡Ahora la parte divertida! Hay una prueba matemática para el teorema central, pero eso va más allá del alcance de esta publicación de blog. Sin embargo, mostraré cómo funciona empíricamente mediante el uso de software de simulación estadística. Definiré las distribuciones de población y haré que el software extraiga miles de muestras aleatorias. El software calculará la media de cada muestra y luego graficará estas medias muestrales en un histograma para mostrar la distribución muestral de la media.
Para los siguientes ejemplos, variaré el tamaño de la muestra para mostrar cómo eso afecta la distribución muestral. Para producir la distribución de muestreo, extraeré 500 000 muestras aleatorias porque eso crea una distribución bastante uniforme en el histograma.
Tenga en cuenta esta diferencia fundamental. Si bien recolectaré 500,000 muestras consistentes por condición, el tamaño de esas muestras variará y eso afectará la forma de la distribución de la muestra.
¡Probemos esta teoría! Para hacer eso, usaré Statistics101, que es un programa de computadora de regalo. ¡Este es un gran programa de simulación que también he usado para abordar el problema de Monty Hall!
Prueba del teorema del límite central con tres distribuciones de probabilidad
Le mostraré cómo El teorema del límite funciona con tres distribuciones diferentes: moderadamente sesgada, severamente sesgada y una distribución uniforme. Las dos primeras distribuciones se inclinan hacia la derecha y siguen la distribución logarítmica normal. La siguiente gráfica de distribución de probabilidad muestra la distribución de valores de la población. Observe cómo la distribución de trazos rojos está mucho más sesgada. ¡De hecho, se extiende bastante fuera del gráfico! Veremos cómo esto hace una diferencia en las distribuciones de muestreo.
Veamos cómo el teorema del límite central maneja estos dos distribuciones y la distribución uniforme.
Distribución moderadamente sesgada y el teorema del límite central
El siguiente gráfico muestra la distribución lognormal moderadamente sesgada. Esta distribución se ajusta al conjunto de datos de porcentaje de grasa corporal que utilizo en mi publicación sobre la identificación de la distribución de sus datos. Estos datos corresponden a la línea azul en la gráfica de distribución de probabilidad anterior. Utilizo el software de simulación para extraer muestras aleatorias de esta población 500.000 veces para cada tamaño de muestra (5, 20, 40).
En el gráfico anterior, el color gris muestra la distribución sesgada de los valores en la población. Los otros colores representan las distribuciones muestrales de las medias para diferentes tamaños de muestra. El color rojo muestra la distribución de las medias cuando el tamaño de la muestra es 5. El azul indica un tamaño de muestra de 20. El verde es 40. La curva roja (n = 5) todavía está un poco sesgada, pero el azul y el verde (20 y 40 ) no están visiblemente sesgados.
A medida que aumenta el tamaño de la muestra, las distribuciones muestrales se aproximan más a la distribución normal y se agrupan más estrechamente alrededor de la media de la población, ¡tal como lo establece el teorema del límite central!
Distribución muy sesgada y el teorema del límite central
Ahora, intentemos esto con la distribución lognormal muy sesgada. Estos datos siguen la línea punteada roja en la gráfica de distribución de probabilidad anterior. Sigo el mismo proceso pero uso tamaños de muestra más grandes de 40 (gris), 60 (rojo) y 80 (azul). ¡No incluyo la distribución de la población en esta porque está tan sesgada que arruina la escala del eje X!
La distribución de la población está extremadamente sesgada. Probablemente esté más sesgado de lo que tienden a ser los datos reales.Como puede ver, incluso con el tamaño de muestra más grande (azul, n = 80), la distribución muestral de la media todavía está sesgada a la derecha. Sin embargo, está menos sesgado que las distribuciones muestrales para los tamaños de muestra más pequeños. Además, observe cómo los picos de la distribución de muestreo se desplazan hacia la derecha a medida que aumenta la muestra. Con el tiempo, con un tamaño de muestra lo suficientemente grande, las distribuciones de muestreo se volverán simétricas y el pico dejará de cambiar y se centrará en la media de la población real.
Si la distribución de su población es extremadamente sesgada, tenga en cuenta que podría ¡Necesitamos un tamaño de muestra sustancial para que el teorema del límite central se active y produzca distribuciones de muestreo que se aproximen a una distribución normal!
Distribución uniforme y el teorema del límite central
Ahora, cambiemos de marcha y observe un tipo de distribución completamente diferente. Imagina que lanzamos un dado y tomamos el valor promedio de los lanzamientos. Las probabilidades de lanzar los números en un dado siguen una distribución uniforme porque todos los números tienen la misma probabilidad de ocurrir. ¿Puede el teorema del límite central funcionar con números discretos y probabilidades uniformes? ¡Veamos!
En el gráfico siguiente, sigo el mismo procedimiento que el anterior. En este ejemplo, el tamaño de la muestra se refiere al número de veces que lanzamos el dado. El proceso calcula la media de cada muestra.
En el gráfico anterior, utilizo tamaños de muestra de 5, 20 y 40. Esperaríamos que el promedio fuera (1 + 2 + 3 + 4 + 5 + 6/6 = 3.5). Las distribuciones muestrales de las medias se centran en este valor. Tal como predice el teorema del límite central, a medida que aumentamos el tamaño de la muestra, las distribuciones muestrales se aproximan más a una distribución normal y tienen una distribución más estrecha de valores.
Podrías realizar un experimento similar usando la distribución binomial con moneda al aire y obtener el mismo tipo de resultados cuando se trata de, digamos, la probabilidad de sacar cara. ¡Todo gracias al teorema del límite central!
¿Por qué es importante el teorema del límite central?
El teorema del límite central es vital en estadística por dos razones principales: el supuesto de normalidad y la precisión de las estimaciones.
Teorema del límite central y el supuesto de normalidad
El hecho de que las distribuciones muestrales puedan aproximarse a una distribución normal tiene implicaciones críticas. En estadística, el supuesto de normalidad es vital para las pruebas de hipótesis paramétricas de la media, como la prueba t. En consecuencia, podría pensar que estas pruebas no son válidas cuando los datos no se distribuyen normalmente. Sin embargo, si el tamaño de su muestra es lo suficientemente grande, el teorema del límite central entra en acción y produce distribuciones de muestreo que se aproximan a una distribución normal. Este hecho le permite usar estas pruebas de hipótesis incluso cuando sus datos no están distribuidos normalmente, siempre que el tamaño de la muestra sea lo suficientemente grande.
Es posible que haya escuchado que las pruebas paramétricas de la media son robustas a las desviaciones de la supuesto de normalidad cuando el tamaño de la muestra es suficientemente grande. ¡Eso es gracias al teorema del límite central!
Para obtener más información sobre este aspecto, lea mi publicación que compara pruebas paramétricas y no paramétricas.
Precisión de estimaciones
En En todos los gráficos, observe cómo las distribuciones muestrales de la media se agrupan más estrechamente alrededor de la media de la población a medida que aumentan los tamaños de muestra. Esta propiedad del teorema del límite central se vuelve relevante cuando se usa una muestra para estimar la media de una población completa. Con un tamaño de muestra más grande, es más probable que la media de la muestra se acerque a la media de la población real. En otras palabras, su estimación es más precisa.
Por el contrario, las distribuciones muestrales de la media para tamaños de muestra más pequeños son mucho más amplias. Para tamaños de muestra pequeños, no es inusual que las medias de la muestra estén más alejadas de la media de la población real. Obtiene estimaciones menos precisas.
Para terminar, comprender el teorema del límite central es crucial cuando se trata de confiar en la validez de sus resultados y evaluar la precisión de sus estimaciones. Utilice tamaños de muestra grandes para satisfacer el supuesto de normalidad incluso cuando sus datos no se distribuyen normalmente y para obtener estimaciones más precisas.