De centrale limietstelling in de statistieken stelt dat, gegeven een voldoende grote steekproefomvang, de steekproefverdeling van het gemiddelde voor een variabele een normale verdeling zal benaderen, ongeacht de verdeling van die variabele in de bevolking.
Het uitpakken van de betekenis uit die complexe definitie kan moeilijk zijn. Dat is het onderwerp van dit bericht! Ik zal u door de verschillende aspecten van de definitie van de centrale limietstelling (CLT) leiden en u laten zien waarom deze van vitaal belang is in statistieken.
Verdeling van de variabele in de populatie
Een deel van de definitie van de centrale limietstelling luidt: “ongeacht de verdeling van de variabele in de populatie.” Dit deel is eenvoudig! In een populatie kunnen de waarden van een variabele verschillende kansverdelingen volgen. Deze verdelingen kunnen variëren van onder andere normaal, links schuin, rechts schuin en uniform.
Dit deel van de definitie verwijst naar de verdeling van de waarden van de variabele in de populatie waaruit je een willekeurige steekproef trekt.
De centrale limietstelling is van toepassing op bijna alle soorten kansverdelingen, maar er zijn uitzonderingen. De populatie moet bijvoorbeeld een eindige variantie hebben. Die beperking sluit de Cauchy-verdeling uit omdat deze een oneindige variantie heeft.
Bovendien is de centrale limietstelling van toepassing op onafhankelijke, identiek verdeelde variabelen. Met andere woorden, de waarde van de ene waarneming hangt niet af van de waarde van een andere waarneming. En de verdeling van die variabele moet constant blijven over alle metingen.
Related Post: Understanding kansverdelingen en onafhankelijke en identiek verdeelde variabelen
Steekproefverdeling van het gemiddelde
De definitie voor de centrale limietstelling verwijst ook naar de steekproefverdeling van het gemiddelde. Wat is dat?
Normaal gesproken voert u een onderzoek één keer uit en kunt u het gemiddelde van die ene steekproef berekenen. Stel u nu voor dat u de studie vele malen herhaalt en voor elke steekproef dezelfde omvang verzamelt. , bereken je het gemiddelde voor elk van deze steekproeven en zet je ze in een histogram. Het histogram toont de verdeling van steekproefgemiddelden, die statistici de steekproefverdeling van het gemiddelde noemen.
Gelukkig doen we dat niet. Ik hoef onderzoeken niet vaak te herhalen om de steekproefverdeling van het gemiddelde te schatten. Statistische procedures kunnen dat schatten op basis van een enkele willekeurige steekproef.
De vorm van de steekproefverdeling hangt af van de steekproefomvang. Als u de studie met dezelfde procedure en verander alleen de steekproefomvang, de vorm van de steekproefverdeling zal voor elke steekproefomvang verschillen. En dat brengt ons bij het volgende deel van de CLT-definitie!
Centrale limietstelling en een voldoende grote steekproefomvang
Zoals in de vorige sectie wordt vermeld verandert de vorm van de steekproefverdeling met de steekproefomvang. En de definitie van de centrale limietstelling stelt dat wanneer je een voldoende grote steekproefomvang hebt, de steekproefverdeling een normale verdeling begint te benaderen. Hoe groot moet de steekproefomvang zijn om die benadering te laten plaatsvinden?
Het hangt af van de vorm van de verdeling van de variabele in de onderliggende populatie. Hoe meer de populatie-verdeling verschilt van normaal, hoe groter de steekproefomvang moet zijn. Statistici zeggen doorgaans dat een steekproefomvang van 30 voldoende is voor de meeste distributies. Bij sterk scheve distributies kunnen echter grotere steekproeven nodig zijn. We zullen het aspect van de steekproefomvang in actie zien tijdens de empirische demonstratie hieronder.
Centrale limietstelling en benadering van de normale verdeling
Om samen te vatten, de centrale limietstelling verbindt de volgende twee distributies :
- De verdeling van de variabele in de populatie.
- De steekproefverdeling van het gemiddelde.
Specifiek stelt de CLT dat ongeacht de verdeling van de variabele in de populatie, de steekproefverdeling van het gemiddelde de normale verdeling zal benaderen.
Met andere woorden, de populatieverdeling kan er als volgt uitzien:
Maar de steekproefverdeling kan er als volgt uitzien:
Het is niet verwonderlijk dat een normaal verdeelde variabele een steekproefverdeling produceert die ook de normale verdeling volgt. Maar verrassend genoeg kunnen niet-normale populatieverdelingen ook normale steekproefverdelingen creëren.
Related Post: Normal Distribution in Statistics
Eigenschappen van de centrale limietstelling
Laten we wat specifieker worden over de normaliteitskenmerken van de centrale limietstelling. Normale distributies hebben twee parameters, het gemiddelde en de standaarddeviatie. Op welke waarden convergeren deze parameters?
Naarmate de steekproefomvang toeneemt, convergeert de steekproefverdeling naar een normale verdeling waarbij het gemiddelde gelijk is aan het populatiegemiddelde en de standaarddeviatie gelijk is aan σ / √n. Waar:
- σ = de standaarddeviatie van de populatie
- n = de steekproefomvang
Naarmate de steekproefomvang (n) toeneemt, de standaarddeviatie van de steekproefverdeling wordt kleiner omdat de vierkantswortel van de steekproefomvang in de noemer zit. Met andere woorden, de steekproefverdeling clustert zich dichter rond het gemiddelde naarmate de steekproefomvang toeneemt.
Laten we dit allemaal samenvatten. Naarmate de steekproefomvang toeneemt, benadert de steekproefverdeling de normale verdeling beter en wordt de spreiding van die verdeling kleiner. Deze eigenschappen hebben essentiële implicaties voor statistieken die ik later in dit bericht zal bespreken.
Gerelateerde berichten: metingen van centrale neiging en metingen van variabiliteit
Empirische demonstratie van de centrale limietstelling
Nu het leuke gedeelte! Er is een wiskundig bewijs voor de centrale stelling, maar dat valt buiten het bestek van deze blogpost. Ik zal echter laten zien hoe het empirisch werkt door statistische simulatiesoftware te gebruiken. Ik zal populatieverdelingen definiëren en de software er duizenden willekeurige steekproeven uit laten trekken. De software berekent het gemiddelde van elke steekproef en zet deze steekproefgemiddelden vervolgens in een histogram om de steekproefverdeling van het gemiddelde weer te geven.
Voor de volgende voorbeelden zal ik de steekproefomvang variëren om te laten zien hoe dat beïnvloedt de steekproefverdeling. Om de steekproefverdeling te produceren, zal ik 500.000 willekeurige steekproeven trekken, omdat dat een redelijk gelijkmatige verdeling in het histogram oplevert.
Houd dit cruciale verschil in gedachten. Hoewel ik een consistente 500.000 monsters per conditie verzamel, zal de grootte van die monsters variëren, en dat heeft invloed op de vorm van de steekproefverdeling.
Laten we deze theorie eens testen! Om dat te doen, gebruik ik Statistics101, een computerprogramma met cadeaus. Dit is een geweldig simulatieprogramma dat ik ook heb gebruikt om het Monty Hall-probleem aan te pakken!
Het testen van de centrale limietstelling met drie kansverdelingen
Ik zal je laten zien hoe de centrale limietstelling werkt met drie verschillende distributies: matig scheef, ernstig scheef en een uniforme verdeling. De eerste twee verdelingen schuiven naar rechts en volgen de lognormale verdeling. De onderstaande kansverdelingsplot geeft de verdeling van de waarden van de populatie weer. Merk op hoe de rood gestippelde distributie veel ernstiger scheef loopt. Het steekt eigenlijk een heel eind uit de grafiek! We zullen zien hoe dit een verschil maakt in de steekproefverdelingen.
Laten we eens kijken hoe de centrale limietstelling deze twee behandelt verdelingen en de uniforme verdeling.
Matig scheve verdeling en de centrale limietstelling
De onderstaande grafiek toont de matig scheve lognormale verdeling. Deze verdeling past bij de dataset met lichaamsvetpercentages die ik gebruik in mijn bericht over het identificeren van de distributie van uw gegevens. Deze gegevens komen overeen met de blauwe lijn in de kansverdelingsplot hierboven. Ik gebruik de simulatiesoftware om 500.000 keer willekeurige steekproeven uit deze populatie te trekken voor elke steekproefomvang (5, 20, 40).
In de bovenstaande grafiek geeft de grijze kleur de scheve verdeling van de waarden in de populatie weer. De andere kleuren vertegenwoordigen de steekproefverdelingen van de middelen voor verschillende steekproefgroottes. De rode kleur geeft de verdeling van gemiddelden weer als uw steekproefomvang 5 is. Blauw staat voor een steekproefomvang van 20. Groen is 40. De rode curve (n = 5) is nog steeds een beetje scheef, maar de blauwe en groene (20 en 40 ) zijn niet zichtbaar scheef.
Naarmate de steekproefomvang toeneemt, benaderen de steekproefverdelingen de normale verdeling beter en worden ze strakker geclusterd rond het populatiegemiddelde – net zoals de centrale limietstelling stelt!
Zeer scheve verdeling en de centrale limietstelling
Laten we dit nu proberen met de zeer scheve lognormale verdeling. Deze gegevens volgen de rode stippellijn in de kansverdelingsplot hierboven. Ik volg hetzelfde proces, maar gebruik grotere steekproeven van 40 (grijs), 60 (rood) en 80 (blauw). Ik neem de populatieverdeling hier niet op omdat het zo scheef is dat het de X-as-schaal verpest!
De bevolkingsverdeling is extreem scheef. Het is waarschijnlijk meer scheef dan echte gegevens.Zoals je kunt zien, is de steekproefverdeling van het gemiddelde, zelfs met de grootste steekproefomvang (blauw, n = 80), nog steeds scheef. Het is echter minder scheef dan de steekproefverdelingen voor de kleinere steekproefomvang. Merk ook op hoe de pieken van de steekproefverdeling naar rechts verschuiven naarmate de steekproef toeneemt. Uiteindelijk, met een steekproefomvang die groot genoeg is, worden de steekproevenverdelingen symmetrisch en stopt de piek met verschuiven en centreert hij zich op het werkelijke populatiegemiddelde.
Als uw populatiespreiding extreem scheef is, houd er dan rekening mee dat u mogelijk een substantiële steekproefomvang nodig hebben voor de centrale limietstelling om in werking te treden en steekproefverdelingen te produceren die een normale verdeling benaderen!
Uniforme verdeling en de centrale limietstelling
Laten we nu schakelen en kijk naar een heel ander type distributie. Stel je voor dat we een dobbelsteen gooien en de gemiddelde waarde van de worpen nemen. De kansen voor het gooien van de getallen op een dobbelsteen volgen een uniforme verdeling omdat alle getallen dezelfde kans hebben om te voorkomen. Kan de centrale limietstelling werken met discrete getallen en uniforme waarschijnlijkheden? Eens kijken!
In de onderstaande grafiek volg ik dezelfde procedure als hierboven. In dit voorbeeld verwijst de steekproefgrootte naar het aantal keren dat we de dobbelsteen gooien. Het proces berekent het gemiddelde voor elk monster.
In de bovenstaande grafiek gebruik ik steekproeven van 5, 20 en 40. We verwachten dat het gemiddelde (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5) is. De steekproefverdelingen van de middelen zijn gecentreerd op deze waarde. Zoals de centrale limietstelling voorspelt, benaderen we de steekproefomvang naarmate we de steekproef vergroten, de steekproefverdelingen dichter bij een normale verdeling en hebben ze een nauwere spreiding van waarden.
Je zou een soortgelijk experiment kunnen uitvoeren met de binominale verdeling met munt omdraait en verkrijg dezelfde soorten resultaten als het bijvoorbeeld gaat om de kans om kop te krijgen. Allemaal dankzij de centrale limietstelling!
Waarom is de centrale limietstelling belangrijk?
De centrale limietstelling is van vitaal belang in de statistiek om twee belangrijke redenen: de normaliteitsaanname en de precisie van de schattingen.
Centrale limietstelling en de normaliteitsveronderstelling
Het feit dat steekproevenverdelingen een normale verdeling kunnen benaderen, heeft kritische implicaties. In de statistiek is de normaliteitsaanname essentieel voor parametrische hypothesetests van het gemiddelde, zoals de t-toets. Daarom zou u kunnen denken dat deze tests niet geldig zijn wanneer de gegevens niet normaal worden verspreid. Als uw steekproefomvang echter groot genoeg is, treedt de centrale limietstelling in werking en produceert deze steekproefverdelingen die een normale verdeling benaderen. Hierdoor kunt u deze hypothesetests zelfs gebruiken als uw gegevens niet normaal verdeeld zijn, zolang uw steekproefomvang maar groot genoeg is.
U heeft misschien gehoord dat parametrische tests van het gemiddelde robuust zijn voor afwijkingen van de normaliteitsveronderstelling wanneer uw steekproefomvang voldoende groot is. Dat is te danken aan de centrale limietstelling!
Lees voor meer informatie over dit aspect mijn artikel waarin parametrische en niet-parametrische tests worden vergeleken.
Precisie van schattingen
In alle grafieken, merk op hoe de steekproefverdelingen van het gemiddelde cluster strakker rond het populatiegemiddelde liggen naarmate de steekproefomvang toeneemt. Deze eigenschap van de centrale limietstelling wordt relevant wanneer een steekproef wordt gebruikt om het gemiddelde van een hele populatie te schatten. Met een grotere steekproefomvang is het waarschijnlijker dat uw steekproefgemiddelde dicht bij het werkelijke populatiegemiddelde ligt. Met andere woorden, uw schatting is nauwkeuriger.
Omgekeerd zijn de steekproefverdelingen van het gemiddelde voor kleinere steekproefomvang veel breder. Voor kleine steekproeven is het niet ongebruikelijk dat steekproefgemiddelden verder weg zijn van het werkelijke populatiegemiddelde. U krijgt minder nauwkeurige schattingen.
Tot slot, het begrijpen van de centrale limietstelling is cruciaal als het gaat om het vertrouwen op de geldigheid van uw resultaten en het beoordelen van de nauwkeurigheid van uw schattingen. Gebruik grote steekproeven om aan de normaliteitsveronderstelling te voldoen, zelfs wanneer uw gegevens niet normaal verdeeld zijn, en om nauwkeurigere schattingen te krijgen!