Centralgränssats förklarad

Den centrala gränssatsen i statistik anger att, med en tillräckligt stor urvalsstorlek, kommer samplingsfördelningen av medelvärdet för en variabel att approximera en normalfördelning oavsett variabelns fördelning befolkningen.

Att packa upp betydelsen från den komplexa definitionen kan vara svårt. Det är ämnet för det här inlägget! Jag går igenom de olika aspekterna av CLT-definitionen (Central Limit Theorem) och visar varför det är viktigt i statistik.

Fördelning av variabeln i befolkningen

En del av definitionen för den centrala gränssatsen säger, ”oavsett variabelns fördelning i befolkningen.” Den här delen är enkel! I en population kan värdena för en variabel följa olika sannolikhetsfördelningar. Dessa fördelningar kan variera från normal, vänster skev, höger skev och enhetlig bland andra.

Normal

Höger-sned

Vänster-sned

Uniform

Denna del av definitionen hänvisar till fördelningen av variabelns värden i den population som du drar ett slumpmässigt urval från.

Den centrala gränssatsen gäller nästan alla typer av sannolikhetsfördelningar, men det finns undantag. Till exempel måste befolkningen ha en ändlig varians. Den begränsningen utesluter Cauchy-fördelningen eftersom den har oändlig varians.

Dessutom gäller den centrala gränssatsen för oberoende, identiskt distribuerade variabler. Med andra ord beror värdet på en observation inte på värdet på en annan observation. Och fördelningen av variabeln måste förbli konstant över alla mätningar.

Relaterat inlägg: Förstå sannolikhetsfördelningar och oberoende och identiskt fördelade variabler

Provtagningsfördelning av medelvärdet

Definitionen för den centrala gränssatsen avser också ”samplingsfördelningen av medelvärdet.” Vad är det?

Normalt gör du en studie en gång och du kan beräkna medelvärdet av det ena provet. Tänk dig nu att du upprepar studien många gånger och samlar samma provstorlek för var och en. , beräknar du medelvärdet för vart och ett av dessa prover och grafer dem på ett histogram. Histogrammet visar fördelningen av provmedlen, vilka statistiker refererar till som samplingsfördelningen av medelvärdet.

Lyckligtvis gör vi inte t måste upprepa studier många gånger för att uppskatta provtagningsfördelningen för medelvärdet. Statistiska procedurer kan uppskatta det från ett enda slumpmässigt urval. studera med samma procedur och endast ändra provstorleken, kommer formen på provtagningsfördelningen att skilja sig för varje provstorlek. Och det leder oss till nästa del av CLT-definitionen!

Centralgränssats och en tillräckligt stor provstorlek

Som föregående avsnitt säger ändras formen på provfördelningen med provstorleken. Och definitionen av den centrala gränssatsen säger att när du har en tillräckligt stor provstorlek, börjar samplingsfördelningen ungefär en normalfördelning. Hur stor måste urvalsstorleken vara för att den approximationen ska ske?

Det beror på formen på variabelns fördelning i den underliggande populationen. Ju mer befolkningsfördelningen skiljer sig från att vara normal, desto större måste urvalsstorleken vara. Vanligtvis säger statistiker att en provstorlek på 30 är tillräcklig för de flesta distributioner. Dock kan starkt snedställda distributioner kräva större provstorlekar. Vi kommer att se exemplets storleksaspekt i aktion under den empiriska demonstrationen nedan.

Central Limit Theorem and Approximating the Normal Distribution

För att sammanfatta kopplar den centrala gränssatsen följande två fördelningar :

Fördelningen av variabeln i populationen.
Provtagningsfördelningen för medelvärdet.

Specifikt anger CLT att oberoende av variabelns fördelning i populationen kommer samplingsfördelningen av medelvärdet att tendera att approximera normalfördelningen.

Med andra ord kan populationsfördelningen se ut som följande:

Men samplingsfördelningen kan se ut som nedan:

Det är inte förvånande att en normalfördelad variabel ger en samplingsfördelning som också följer normalfördelningen. Men överraskande kan icke-normala befolkningsfördelningar också skapa normala samplingsfördelningar.

Relaterat inlägg: Normal fördelning i statistik

Egenskaper hos Central Limit Theorem

Låt oss bli mer specifika om normalitetsfunktionerna för den centrala gränssatsen. Normalfördelningar har två parametrar, medelvärdet och standardavvikelsen. Vilka värden konvergerar dessa parametrar?

När provstorleken ökar konvergerar samplingsfördelningen en normalfördelning där medelvärdet är lika med populationsmedlet och standardavvikelsen är lika med σ / √n. Var:

σ = populationsstandardavvikelsen
n = provstorleken

När provstorleken (n) ökar, standardavvikelsen för samplingsfördelningen blir mindre eftersom kvadratroten av provstorleken är i nämnaren. Med andra ord klumpar samplingsfördelningen tätare runt medelvärdet när provstorleken ökar.

Låt oss sammanställa allt detta. När provstorleken ökar, approximerar provtagningsfördelningen närmare normalfördelningen och spridningen för den fördelningen skärper. Dessa egenskaper har väsentliga konsekvenser i statistik som jag kommer att diskutera senare i det här inlägget.

Relaterade inlägg: Mått på central tendens och mått på variation

Empirisk demonstration av den centrala gränssatsen

Nu är det roliga! Det finns ett matematiskt bevis för den centrala satsen, men det går utanför detta blogginlägg. Jag kommer dock att visa hur det fungerar empiriskt genom att använda statistisk simuleringsprogramvara. Jag kommer att definiera befolkningsfördelningar och låta programvaran dra tusentals slumpmässiga prover från den. Programvaran kommer att beräkna medelvärdet för varje prov och sedan rita dessa medelvärden i ett histogram för att visa samplingsfördelningen för medelvärdet. påverkar provfördelningen. För att producera provtagningsfördelningen ritar jag 500 000 slumpmässiga prover eftersom det skapar en ganska jämn fördelning i histogrammet.

Tänk på denna kritiska skillnad. Medan jag samlar samman 500 000 prover per tillstånd, varierar storleken på dessa prover och det påverkar formen på provtagningsfördelningen.

Låt oss testa denna teori! För att göra det använder jag Statistics101, som är ett datorprogram för presentvaror. Detta är ett fantastiskt simuleringsprogram som jag också har använt för att ta itu med Monty Hall-problemet!

Testa Central Limit Theorem med tre sannolikhetsfördelningar

Jag ska visa dig hur centrala gränssats fungerar med tre olika distributioner: måttligt skev, kraftigt skev och en enhetlig fördelning. De två första fördelningarna snedställs åt höger och följer den lognormala fördelningen. Sannolikhetsfördelningsdiagrammet nedan visar befolkningens fördelning av värden. Lägg märke till hur den röda streckade fördelningen är mycket snedare. Det sträcker sig faktiskt ganska långt från diagrammet! Vi får se hur detta gör skillnad i samplingsfördelningarna.

Låt oss se hur den centrala gränssatsen hanterar dessa två distributioner och den enhetliga fördelningen.

Måttligt skev fördelning och centralgränssatsen

Diagrammet nedan visar den måttligt sneda lognormala fördelningen. Denna fördelning passar den kroppsfettprocentuppsättning som jag använder i mitt inlägg om att identifiera distributionen av dina data. Dessa data motsvarar den blå linjen i sannolikhetsfördelningsdiagrammet ovan. Jag använder simuleringsmjukvaran för att rita slumpmässiga prover från denna population 500 000 gånger för varje provstorlek (5, 20, 40).

I diagrammet ovan visar den grå färgen den sneda fördelningen av värdena i populationen. De andra färgerna representerar samplingsfördelningarna av medel för olika provstorlekar. Den röda färgen visar fördelningen av medel när din provstorlek är 5. Blå betyder en provstorlek på 20. Grön är 40. Den röda kurvan (n = 5) är fortfarande sned, men den blå och gröna (20 och 40 ) är inte synligt snedställda.

När provstorleken ökar närmar sig samplingsfördelningarna närmare normalfördelningen och blir tätare grupperade runt befolkningens medelvärde – precis som den centrala gränssatsen säger!

Mycket skev fördelning och den centrala gränssatsen

Nu, låt oss prova detta med den mycket sneda lognormala fördelningen. Dessa data följer den röda streckade linjen i ovanstående sannolikhetsfördelning. Jag följer samma process men använder större provstorlekar på 40 (grå), 60 (röd) och 80 (blå). Jag inkluderar inte befolkningsfördelningen i den här eftersom den är så sned att den förstör X-axelskalan!

Befolkningsfördelningen är extremt sned. Det är förmodligen mer snett än vad verkliga data brukar vara.Som du kan se, även med den största urvalsstorleken (blå, n = 80), är samplingsfördelningen av medelvärdet fortfarande sned åt höger. Det är emellertid mindre snett än samplingsfördelningarna för de mindre provstorlekarna. Lägg också märke till hur topparna för samplingsfördelningen skiftar åt höger när provet ökar. Så småningom, med en tillräckligt stor provstorlek, kommer samplingsfördelningarna att bli symmetriska och toppen kommer att sluta förskjutas och centreras på det faktiska populationsmedlet.

Om din befolkningsfördelning är extremt sned, var medveten om att du kanske behöver en betydande provstorlek för att den centrala gränssatsen ska kunna starta och producera samplingsfördelningar som ungefär en normalfördelning!

Uniform Distribution and the Central Limit Theorem

Nu ska vi byta redskap och titta på en helt annan typ av distribution. Tänk dig att vi rullar en form och tar det genomsnittliga värdet på rullarna. Sannolikheterna för att rulla siffrorna på en form följer en enhetlig fördelning eftersom alla siffror har samma chans att inträffa. Kan den centrala gränssatsen arbeta med diskreta tal och enhetliga sannolikheter? Låt oss se!

I diagrammet nedan följer jag samma procedur som ovan. I det här exemplet avser provstorleken antalet gånger vi rullar formen. Processen beräknar medelvärdet för varje prov.

I diagrammet ovan använder jag provstorlekar på 5, 20 och 40. Vi förväntar oss att genomsnittet blir (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Samplingsfördelningarna av medelvärdet är centrerat på detta värde. Precis som den centrala gränssatsen förutspår, när vi ökar provstorleken, kommer samplingsfördelningarna närmare en normalfördelning och har en strammare spridning av värden.

Du kan utföra ett liknande experiment med binomial fördelning med mynt vänder och få samma typer av resultat när det gäller, till exempel, sannolikheten för att få huvuden. Allt tack vare den centrala gränssatsen!

Varför är den centrala gränssatsen viktig?

Den centrala gränssatsen är viktig i statistik av två huvudsakliga skäl – antagandet om normalitet och precisionen i uppskattningarna.

Centralgränssats och normalitetsantagande

Det faktum att samplingsfördelningar kan approximera en normalfördelning har kritiska konsekvenser. I statistiken är normalitetsantagandet avgörande för parametriska hypotesprov av medelvärdet, såsom t-testet. Följaktligen kan du tro att dessa tester inte är giltiga när data distribueras på ett oriktigt sätt. Men om din provstorlek är tillräckligt stor, sätter den centrala gränssatsen in och producerar samplingsfördelningar som ungefär en normalfördelning. Detta faktum gör att du kan använda dessa hypotesprov även när dina data distribueras oriktigt – så länge som din provstorlek är tillräckligt stor.

Du kanske har hört att parametriska tester av medelvärdet är robusta för avvikelser från normalitetsantagande när din provstorlek är tillräckligt stor. Det är tack vare den centrala gränssatsen!

För mer information om denna aspekt, läs mitt inlägg som jämför parametriska och icke-parametriska tester.

Precision av uppskattningar

I alla graferna, lägg märke till hur samplingsfördelningarna för medelklustret tätare runt befolkningen betyder när provstorlekarna ökar. Denna egenskap hos den centrala gränssatsen blir relevant när man använder ett urval för att uppskatta medelvärdet för en hel befolkning. Med en större urvalsstorlek är ditt provmedelvärde mer sannolikt nära det verkliga populationsmedelvärdet. Med andra ord är din uppskattning mer exakt.

Omvänt är samplingsfördelningarna av medelvärdet för mindre provstorlekar mycket bredare. För små provstorlekar är det inte ovanligt att provmedel är längre bort från det faktiska populationsmedlet. Du får mindre exakta uppskattningar.

Avslutningsvis är det avgörande att förstå den centrala gränssatsen när det gäller att lita på giltigheten av dina resultat och att bedöma precisionen i dina uppskattningar. Använd stora provstorlekar för att tillfredsställa normalitetsantagandet även när dina data distribueras oriktigt och för att få mer exakta uppskattningar!