Der zentrale Grenzwertsatz in der Statistik besagt, dass bei einer ausreichend großen Stichprobengröße die Stichprobenverteilung des Mittelwerts für eine Variable unabhängig von der Verteilung dieser Variablen in eine Normalverteilung annähert die Bevölkerung.
Das Auspacken der Bedeutung aus dieser komplexen Definition kann schwierig sein. Das ist das Thema für diesen Beitrag! Ich werde Sie durch die verschiedenen Aspekte der Definition des zentralen Grenzwertsatzes (CLT) führen und Ihnen zeigen, warum dies in der Statistik von entscheidender Bedeutung ist.
Verteilung der Variablen in der Population
Ein Teil der Definition für den zentralen Grenzwertsatz lautet „unabhängig von der Verteilung der Variablen in der Grundgesamtheit“. Dieser Teil ist einfach! In einer Grundgesamtheit können die Werte einer Variablen unterschiedlichen Wahrscheinlichkeitsverteilungen folgen. Diese Verteilungen können unter anderem normal, links, rechts und einheitlich sein.
Dieser Teil der Definition bezieht sich auf die Verteilung der Variablenwerte in der Grundgesamtheit, aus der Sie eine Zufallsstichprobe ziehen.
Der zentrale Grenzwertsatz gilt für fast alle Arten von Wahrscheinlichkeitsverteilungen, es gibt jedoch Ausnahmen. Beispielsweise muss die Population eine endliche Varianz aufweisen. Diese Einschränkung schließt die Cauchy-Verteilung aus, da sie eine unendliche Varianz aufweist.
Zusätzlich gilt der zentrale Grenzwertsatz für unabhängige, identisch verteilte Variablen. Mit anderen Worten, der Wert einer Beobachtung hängt nicht vom Wert einer anderen Beobachtung ab. Die Verteilung dieser Variablen muss über alle Messungen hinweg konstant bleiben.
Zugehöriger Beitrag: Grundlegendes zu Wahrscheinlichkeitsverteilungen und unabhängigen und identisch verteilten Variablen
Stichprobenverteilung des Mittelwerts
Die Definition für den zentralen Grenzwertsatz bezieht sich auch auf „die Stichprobenverteilung des Mittelwerts“. Was ist das?
In der Regel führen Sie eine Studie einmal durch und berechnen möglicherweise den Mittelwert dieser einen Stichprobe. Stellen Sie sich nun vor, Sie wiederholen die Studie viele Male und sammeln für jede Stichprobe dieselbe Stichprobengröße. Dann Sie berechnen den Mittelwert für jede dieser Stichproben und stellen sie in einem Histogramm grafisch dar. Das Histogramm zeigt die Verteilung der Stichprobenmittelwerte an, die Statistiker als Stichprobenverteilung des Mittelwerts bezeichnen.
Glücklicherweise tun wir das nicht. Sie müssen die Studien nicht viele Male wiederholen, um die Stichprobenverteilung des Mittelwerts abzuschätzen. Statistische Verfahren können dies anhand einer einzelnen Zufallsstichprobe abschätzen.
Die Form der Stichprobenverteilung hängt von der Stichprobengröße ab Wenn Sie mit demselben Verfahren studieren und nur die Stichprobengröße ändern, unterscheidet sich die Form der Stichprobenverteilung für jede Stichprobengröße. Damit gelangen wir zum nächsten Teil der CLT-Definition!
Zentraler Grenzwertsatz und a Ausreichend große Stichprobengröße
Wie im vorherigen Abschnitt angegeben ändert sich die Form der Stichprobenverteilung mit der Stichprobengröße. Und die Definition des zentralen Grenzwertsatzes besagt, dass bei einer ausreichend großen Stichprobengröße die Stichprobenverteilung beginnt, sich einer Normalverteilung anzunähern. Wie groß muss die Stichprobengröße sein, damit diese Annäherung erfolgt?
Dies hängt von der Form der Verteilung der Variablen in der zugrunde liegenden Population ab. Je mehr sich die Bevölkerungsverteilung von der Normalverteilung unterscheidet, desto größer muss die Stichprobengröße sein. In der Regel sagen Statistiker, dass eine Stichprobengröße von 30 für die meisten Verteilungen ausreicht. Stark verzerrte Verteilungen können jedoch größere Stichprobengrößen erfordern. Wir werden den Aspekt der Stichprobengröße während der folgenden empirischen Demonstration in Aktion sehen.
Zentraler Grenzwertsatz und Annäherung an die Normalverteilung
Zusammenfassend lässt sich sagen, dass der zentrale Grenzwertsatz die folgenden beiden Verteilungen verknüpft :
- Die Verteilung der Variablen in der Population.
- Die Stichprobenverteilung des Mittelwerts.
Insbesondere gibt die CLT an Unabhängig von der Verteilung der Variablen in der Grundgesamtheit nähert sich die Stichprobenverteilung des Mittelwerts tendenziell der Normalverteilung an.
Mit anderen Worten, die Bevölkerungsverteilung kann wie folgt aussehen:
Die Stichprobenverteilung kann jedoch wie folgt aussehen:
Es ist nicht überraschend, dass eine normalverteilte Variable eine Stichprobenverteilung erzeugt, die auch der Normalverteilung folgt. Überraschenderweise können nicht normale Bevölkerungsverteilungen auch normale Stichprobenverteilungen erzeugen.
Verwandter Beitrag: Normalverteilung in der Statistik
Eigenschaften des zentralen Grenzwertsatzes
Lassen Sie uns die Normalitätsmerkmale des zentralen Grenzwertsatzes genauer erläutern. Normalverteilungen haben zwei Parameter, den Mittelwert und die Standardabweichung. Auf welchen Werten konvergieren diese Parameter?
Mit zunehmender Stichprobengröße konvergiert die Stichprobenverteilung auf einer Normalverteilung, bei der der Mittelwert dem Populationsmittelwert und die Standardabweichung σ / √n entspricht. Wobei:
- σ = die Populationsstandardabweichung
- n = die Stichprobengröße
Mit zunehmender Stichprobengröße (n) Die Standardabweichung der Stichprobenverteilung wird kleiner, da die Quadratwurzel der Stichprobengröße im Nenner liegt. Mit anderen Worten, die Stichprobenverteilung gruppiert sich mit zunehmender Stichprobengröße enger um den Mittelwert.
Lassen Sie uns all dies zusammenfassen. Mit zunehmender Stichprobengröße nähert sich die Stichprobenverteilung der Normalverteilung an, und die Streuung dieser Verteilung nimmt zu. Diese Eigenschaften haben wesentliche Auswirkungen auf die Statistik, die ich später in diesem Beitrag erörtern werde.
Verwandte Beiträge: Messungen der zentralen Tendenz und Messungen der Variabilität
Empirische Demonstration des zentralen Grenzwertsatzes
Nun der lustige Teil! Es gibt einen mathematischen Beweis für den zentralen Satz, der jedoch den Rahmen dieses Blogposts sprengt. Ich werde jedoch zeigen, wie es empirisch funktioniert, indem ich eine statistische Simulationssoftware verwende. Ich werde Bevölkerungsverteilungen definieren und die Software viele tausend Zufallsstichproben daraus ziehen lassen. Die Software berechnet den Mittelwert jeder Stichprobe und stellt diese Stichprobenmittelwerte dann in einem Histogramm grafisch dar, um die Stichprobenverteilung des Mittelwerts anzuzeigen.
In den folgenden Beispielen werde ich die Stichprobengröße variieren, um zu zeigen, wie dies funktioniert beeinflusst die Stichprobenverteilung. Um die Stichprobenverteilung zu erstellen, ziehe ich 500.000 Zufallsstichproben, da dies zu einer ziemlich gleichmäßigen Verteilung im Histogramm führt.
Beachten Sie diesen kritischen Unterschied. Während ich konsistente 500.000 Proben pro Bedingung sammle, variiert die Größe dieser Proben und dies wirkt sich auf die Form der Probenverteilung aus.
Testen wir diese Theorie! Dazu verwende ich Statistics101, ein Computerprogramm für Geschenkartikel. Dies ist ein großartiges Simulationsprogramm, mit dem ich auch das Monty-Hall-Problem gelöst habe!
Testen des zentralen Grenzwertsatzes mit drei Wahrscheinlichkeitsverteilungen
Ich werde Ihnen zeigen, wie das zentrale Der Grenzwertsatz arbeitet mit drei verschiedenen Verteilungen: mäßig verzerrt, stark verzerrt und gleichmäßig verteilt. Die ersten beiden Verteilungen sind nach rechts geneigt und folgen der logarithmischen Normalverteilung. Das unten stehende Wahrscheinlichkeitsverteilungsdiagramm zeigt die Werteverteilung der Bevölkerung. Beachten Sie, dass die rot gestrichelte Verteilung viel stärker verzerrt ist. Es erstreckt sich tatsächlich ziemlich weit von der Grafik entfernt! Wir werden sehen, wie sich dies auf die Stichprobenverteilungen auswirkt.
Lassen Sie uns sehen, wie der zentrale Grenzwertsatz diese beiden behandelt Verteilungen und die gleichmäßige Verteilung.
Mäßig verzerrte Verteilung und der zentrale Grenzwertsatz
Die folgende Grafik zeigt die mäßig verzerrte logarithmische Normalverteilung. Diese Verteilung entspricht dem Datensatz für den Körperfettanteil, den ich in meinem Beitrag zur Ermittlung der Verteilung Ihrer Daten verwende. Diese Daten entsprechen der blauen Linie im obigen Wahrscheinlichkeitsverteilungsdiagramm. Ich verwende die Simulationssoftware, um 500.000 Mal Zufallsstichproben aus dieser Population für jede Stichprobengröße (5, 20, 40) zu ziehen.
In der obigen Grafik zeigt die graue Farbe die verzerrte Verteilung der Werte in der Grundgesamtheit. Die anderen Farben repräsentieren die Stichprobenverteilungen der Mittelwerte für verschiedene Stichprobengrößen. Die rote Farbe zeigt die Verteilung der Mittelwerte an, wenn Ihre Stichprobengröße 5 beträgt. Blau bedeutet eine Stichprobengröße von 20. Grün ist 40. Die rote Kurve (n = 5) ist immer noch etwas verzerrt, aber die blaue und grüne (20 und 40) ) sind nicht sichtbar verzerrt.
Mit zunehmender Stichprobengröße nähern sich die Stichprobenverteilungen der Normalverteilung an und werden enger um den Populationsmittelwert gruppiert – genau wie im zentralen Grenzwertsatz angegeben!
Sehr verzerrte Verteilung und der zentrale Grenzwertsatz
Versuchen wir dies nun mit der sehr verzerrten logarithmischen Normalverteilung. Diese Daten folgen der roten gestrichelten Linie im obigen Wahrscheinlichkeitsverteilungsdiagramm. Ich folge dem gleichen Verfahren, verwende jedoch größere Stichprobengrößen von 40 (grau), 60 (rot) und 80 (blau). Ich beziehe die Bevölkerungsverteilung nicht in diese ein, weil sie so verzerrt ist, dass sie die X-Achsen-Skala durcheinander bringt!
Die Bevölkerungsverteilung ist extrem verzerrt. Es ist wahrscheinlich verzerrter als echte Daten.Wie Sie sehen, ist die Stichprobenverteilung des Mittelwerts auch bei der größten Stichprobengröße (blau, n = 80) immer noch nach rechts verzerrt. Es ist jedoch weniger schief als die Stichprobenverteilungen für die kleineren Stichprobengrößen. Beachten Sie auch, wie sich die Peaks der Stichprobenverteilung mit zunehmender Stichprobe nach rechts verschieben. Bei einer ausreichend großen Stichprobengröße werden die Stichprobenverteilungen schließlich symmetrisch, und der Peak verschiebt sich nicht mehr und konzentriert sich auf den tatsächlichen Bevölkerungsmittelwert.
Wenn Ihre Bevölkerungsverteilung extrem verzerrt ist, beachten Sie, dass dies möglicherweise der Fall ist benötigen eine beträchtliche Stichprobengröße, damit der zentrale Grenzwertsatz einschaltet und Stichprobenverteilungen erzeugt, die sich einer Normalverteilung annähern!
Gleichmäßige Verteilung und der zentrale Grenzwertsatz
Nun wechseln wir die Gänge und Schauen Sie sich eine ganz andere Art der Verteilung an. Stellen Sie sich vor, wir würfeln und nehmen den Durchschnittswert der Würfe. Die Wahrscheinlichkeiten für das Würfeln der Zahlen auf einem Würfel folgen einer gleichmäßigen Verteilung, da alle Zahlen die gleiche Wahrscheinlichkeit haben, aufzutreten. Kann der zentrale Grenzwertsatz mit diskreten Zahlen und einheitlichen Wahrscheinlichkeiten arbeiten? Mal sehen!
In der folgenden Grafik verfolge ich das gleiche Verfahren wie oben. In diesem Beispiel bezieht sich die Stichprobengröße darauf, wie oft wir den Würfel rollen. Der Prozess berechnet den Mittelwert für jede Stichprobe.
In der obigen Grafik verwende ich Stichprobengrößen von 5, 20 und 40. Wir würden einen Durchschnitt von 1 + 2 + 3 + 4 + 5 + 6/6 = 3,5 erwarten. Die Stichprobenverteilungen der Mittelwerte konzentrieren sich auf diesen Wert. Genau wie der zentrale Grenzwertsatz vorhersagt, nähern sich die Stichprobenverteilungen mit zunehmender Stichprobengröße einer Normalverteilung an und weisen eine engere Streuung der Werte auf.
Sie könnten ein ähnliches Experiment mit der Binomialverteilung mit durchführen Münzwürfe und erhalten die gleichen Ergebnisse, wenn es zum Beispiel um die Wahrscheinlichkeit geht, Köpfe zu bekommen. Alles dank des zentralen Grenzwertsatzes!
Warum ist der zentrale Grenzwertsatz wichtig?
Der zentrale Grenzwertsatz ist in der Statistik aus zwei Hauptgründen von entscheidender Bedeutung – der Normalitätsannahme und der Genauigkeit von die Schätzungen.
Zentraler Grenzwertsatz und die Normalitätsannahme
Die Tatsache, dass Stichprobenverteilungen sich einer Normalverteilung annähern können, hat kritische Auswirkungen. In der Statistik ist die Normalitätsannahme für parametrische Hypothesentests des Mittelwerts wie den t-Test von entscheidender Bedeutung. Folglich könnten Sie denken, dass diese Tests nicht gültig sind, wenn die Daten nicht normal verteilt sind. Wenn Ihre Stichprobengröße jedoch groß genug ist, wird der zentrale Grenzwertsatz aktiviert und erzeugt Stichprobenverteilungen, die sich einer Normalverteilung annähern. Diese Tatsache ermöglicht es Ihnen, diese Hypothesentests auch dann zu verwenden, wenn Ihre Daten nicht normal verteilt sind – solange Ihre Stichprobengröße groß genug ist.
Sie haben möglicherweise gehört, dass parametrische Tests des Mittelwerts robust gegenüber Abweichungen von der sind Normalitätsannahme, wenn Ihre Stichprobengröße ausreichend groß ist. Dies ist dem zentralen Grenzwertsatz zu verdanken!
Weitere Informationen zu diesem Aspekt finden Sie in meinem Beitrag, in dem parametrische und nichtparametrische Tests verglichen werden.
Genauigkeit von Schätzungen
In Beachten Sie in allen Diagrammen, wie sich die Stichprobenverteilungen des mittleren Clusters um die Population herum mit zunehmender Stichprobengröße verschärfen. Diese Eigenschaft des zentralen Grenzwertsatzes wird relevant, wenn eine Stichprobe zur Schätzung des Mittelwerts einer gesamten Population verwendet wird. Bei einer größeren Stichprobe liegt Ihr Stichprobenmittelwert eher nahe am tatsächlichen Populationsmittelwert. Mit anderen Worten, Ihre Schätzung ist genauer.
Umgekehrt sind die Stichprobenverteilungen des Mittelwerts für kleinere Stichprobengrößen viel breiter. Bei kleinen Stichprobengrößen ist es nicht ungewöhnlich, dass die Stichprobenmittelwerte weiter vom tatsächlichen Populationsmittelwert entfernt sind. Sie erhalten weniger genaue Schätzungen.
Abschließend ist das Verständnis des zentralen Grenzwertsatzes von entscheidender Bedeutung, wenn Sie der Gültigkeit Ihrer Ergebnisse vertrauen und die Genauigkeit Ihrer Schätzungen bewerten möchten. Verwenden Sie große Stichproben, um die Normalitätsannahme zu erfüllen, auch wenn Ihre Daten nicht normal verteilt sind, und um genauere Schätzungen zu erhalten!