Forklaring af central grænsesætning

Den centrale grænsesætning i statistikker angiver, at givet en tilstrækkelig stor stikprøvestørrelse, vil samplingsfordelingen af gennemsnittet for en variabel tilnærme en normalfordeling uanset variabelens fordeling i befolkningen.

Det kan være svært at pakke betydningen ud af den komplekse definition. Det er emnet for dette indlæg! Jeg leder dig gennem de forskellige aspekter af definitionen af den centrale grænse sætning (CLT) og viser dig, hvorfor det er vigtigt i statistikker.

Fordeling af variablen i befolkningen

En del af definitionen for den centrale grænsesætning siger, “uanset variabelens fordeling i befolkningen.” Denne del er let! I en population kan værdierne for en variabel følge forskellige sandsynlighedsfordelinger. Disse fordelinger kan variere fra normal, venstre-skæv, højre-skæv og ensartet blandt andre.

Normal
Højre-skæv
Venstre skæv
Ensartet

Denne del af definitionen refererer til fordelingen af variabelens værdier i den population, hvorfra du tegner en tilfældig prøve.

Den centrale grænsesætning gælder næsten alle typer sandsynlighedsfordelinger, men der er undtagelser. F.eks. skal populationen have en endelig varians. Denne begrænsning udelukker Cauchy-fordelingen, fordi den har uendelig variation.

Derudover gælder den centrale grænsesætning for uafhængig, identisk fordelt variabler. Med andre ord afhænger værdien af en observation ikke af værdien af en anden observation. Og fordelingen af denne variabel skal forblive konstant på tværs af alle målinger.

Relateret post: Forståelse af sandsynlighedsfordelinger og uafhængige og identisk fordelte variabler

Samplingfordeling af gennemsnittet

Definitionen for den centrale grænsesætning henviser også til “samplingfordelingen af middelværdien.” Hvad er det?

Du udfører typisk en undersøgelse en gang, og du beregner muligvis gennemsnittet af den ene prøve. Forestil dig nu, at du gentager undersøgelsen mange gange og samler den samme stikprøvestørrelse for hver enkelt. beregner du gennemsnittet for hver af disse prøver og tegner dem på et histogram. Histogrammet viser fordelingen af prøveværdier, som statistikere refererer til som prøvefordelingen af middelværdien.

Heldigvis har vi ikke t er nødt til at gentage undersøgelser mange gange for at estimere stikprøvefordelingen af middelværdien. Statistiske procedurer kan estimere det fra en enkelt tilfældig prøve.

Prøvefordelingens form afhænger af stikprøvestørrelsen. Hvis du udfører undersøgelse ved hjælp af den samme procedure og kun ændre prøvestørrelsen, vil formen på samplingsfordelingen være forskellig for hver stikprøvestørrelse. Og det bringer os til den næste del af CLT-definitionen!

Central Limit Theorem og en tilstrækkelig stor prøvestørrelse

Som det fremgår af det foregående afsnit , ændres formen på prøveuddelingen med stikprøvestørrelsen. Og definitionen af den centrale grænsesætning siger, at når du har en tilstrækkelig stor stikprøvestørrelse, begynder samplingsfordelingen at tilnærme en normalfordeling. Hvor stor skal stikprøvestørrelsen være for at denne tilnærmelse skal forekomme?

Det afhænger af formen på variabelens fordeling i den underliggende population. Jo mere populationsfordelingen adskiller sig fra at være normal, desto større skal stikprøvestørrelsen være. Typisk siger statistikere, at en stikprøvestørrelse på 30 er tilstrækkelig til de fleste distributioner. Imidlertid kan stærkt skæve distributioner kræve større stikprøvestørrelser. Vi ser eksemplet på størrelsen på prøven i aktion under den empiriske demonstration nedenfor.

Centralgrænsesætning og tilnærmelse til normalfordeling

For at sammenfatte kobler den centrale grænsesætning følgende to fordelinger :

  • Fordelingen af variablen i populationen.
  • Samplingfordelingen af middelværdien.

Specifikt angiver CLT at uanset variabelens fordeling i populationen vil prøveuddelingen af gennemsnittet have en tendens til at tilnærme normalfordelingen.

Med andre ord kan populationsfordelingen se ud som følger:

Men samplingsfordelingen kan se ud som nedenfor:

Det er ikke overraskende, at en normalfordelt variabel producerer en samplingsfordeling, der også følger normalfordelingen. Men overraskende nok kan ikke-normale befolkningsfordelinger også skabe normale samplingsfordelinger.

Relateret indlæg: Normal fordeling i statistikker

Egenskaber for den centrale grænsesætning

Lad os blive mere specifikke om normalitetsfunktionerne i den centrale grænsesætning. Normale fordelinger har to parametre, middelværdien og standardafvigelsen. Hvilke værdier konvergerer disse parametre på?

Når stikprøvestørrelsen stiger, konvergerer samplingsfordelingen på en normalfordeling, hvor gennemsnittet er lig med populationens gennemsnit, og standardafvigelsen er lig med σ / √n. Hvor:

  • σ = populationsstandardafvigelsen
  • n = stikprøvestørrelsen

Når stikprøvestørrelsen (n) øges, standardafvigelsen for samplingsfordelingen bliver mindre, fordi kvadratroden af stikprøvestørrelsen er i nævneren. Med andre ord klynger samplingsfordelingsfordelingen tættere på gennemsnittet, efterhånden som stikprøvestørrelsen stiger.

Lad os lægge alt dette sammen. Efterhånden som stikprøvestørrelsen øges, tilnærmes prøveuddelingen tættere den normale fordeling, og spredningen af denne fordeling strammes. Disse egenskaber har væsentlige implikationer i statistikker, som jeg vil diskutere senere i dette indlæg.

Relaterede stillinger: Mål for central tendens og målinger af variation

Empirisk demonstration af den centrale grænsesætning

Nu er det sjovt! Der er et matematisk bevis for den centrale sætning, men det går ud over omfanget af dette blogindlæg. Jeg vil dog vise, hvordan det fungerer empirisk ved hjælp af statistisk simuleringssoftware. Jeg definerer populationsfordelinger og får softwaren til at trække tusinder af tilfældige prøver fra den. Softwaren beregner middelværdien af hver prøve og derefter tegner disse eksempler på et histogram for at vise gennemsnitsfordelingen af gennemsnittet.

For de følgende eksempler vil jeg variere prøvestørrelsen for at vise, hvordan påvirker prøveuddelingen. For at producere samplingsfordelingen tegner jeg 500.000 tilfældige prøver, fordi det skaber en ret jævn fordeling i histogrammet.

Husk denne kritiske forskel. Mens jeg samler konsekvent 500.000 prøver pr. Betingelse, vil størrelsen af disse prøver variere, og det påvirker formen på prøveuddelingen.

Lad os teste denne teori! For at gøre det skal jeg bruge Statistics101, som er et computerprogram til gaveware. Dette er et fantastisk simuleringsprogram, som jeg også har brugt til at tackle Monty Hall-problemet!

Test af den centrale grænsesætning med tre sandsynlighedsfordelinger

Jeg viser dig, hvordan den centrale limit sætning fungerer med tre forskellige fordelinger: moderat skævt, alvorligt skævt og en ensartet fordeling. De to første distributioner skæv til højre og følg den lognormale fordeling. Sandsynlighedsfordelingsdiagrammet nedenfor viser befolkningens fordeling af værdier. Bemærk, hvordan den røde stiplede fordeling er meget mere skæv. Det strækker sig faktisk ganske langt væk fra grafen! Vi ser, hvordan dette gør en forskel i samplingsfordelingerne.

Lad os se, hvordan den centrale grænsesætning håndterer disse to fordelinger og den ensartede fordeling.

Moderat skæv fordeling og den centrale grænsesætning

Grafen nedenfor viser den moderat skæve lognormale fordeling. Denne fordeling passer til det kropsfedtprocentdatasæt, som jeg bruger i mit indlæg om identifikation af distributionen af dine data. Disse data svarer til den blå linje i sandsynlighedsfordelingsdiagrammet ovenfor. Jeg bruger simulationssoftwaren til at tegne tilfældige prøver fra denne population 500.000 gange for hver prøvestørrelse (5, 20, 40).

I grafen ovenfor viser den grå farve den skæve fordeling af værdierne i populationen. De andre farver repræsenterer samplingsfordelingen af midlerne til forskellige prøvestørrelser. Den røde farve viser fordelingen af middelværdier, når din stikprøvestørrelse er 5. Blå angiver en stikprøvestørrelse på 20. Grøn er 40. Den røde kurve (n = 5) er stadig skæv en smule, men den blå og grønne (20 og 40 ) er ikke synligt skævt.

Efterhånden som stikprøvestørrelsen stiger, tilnærmes samplingsfordelingen tættere på normalfordelingen og klynges mere tæt omkring befolkningens gennemsnit – ligesom det centrale grænsesætning siger!

Meget skæv fordeling og den centrale grænsesætning

Lad os nu prøve dette med den meget skæve lognormale fordeling. Disse data følger den røde stiplede linje i sandsynlighedsfordelingsdiagrammet ovenfor. Jeg følger den samme proces, men bruger større stikprøvestørrelser på 40 (grå), 60 (rød) og 80 (blå). Jeg inkluderer ikke befolkningsfordelingen i denne, fordi den er så skæv, at den ødelægger X-akseskalaen!

Befolkningsfordelingen er ekstremt skæv. Det er sandsynligvis mere skævt end rigtige data har tendens til at være.Som du kan se, selv med den største stikprøvestørrelse (blå, n = 80), er samplingsfordelingen af middelværdien stadig skævt til højre. Det er imidlertid mindre skævt end prøveuddelingen for de mindre stikprøvestørrelser. Bemærk også, hvordan spidsfordelingens toppe skifter til højre, når prøven øges. Til sidst, med en stor nok stikprøvestørrelse, bliver samplingsfordelingerne symmetriske, og toppen stopper med at skifte og centreres på det faktiske populationsgennemsnit.

Hvis din befolkningsfordeling er ekstremt skæv, skal du være opmærksom på har brug for en betydelig stikprøvestørrelse for, at den centrale grænsesætning kan sparke ind og producere samplingsfordelinger, der tilnærmer en normalfordeling! se på en helt anden type distribution. Forestil dig, at vi ruller en matrice og tager den gennemsnitlige værdi af ruller. Sandsynlighederne for at rulle numrene på en dyse følger en ensartet fordeling, fordi alle numre har samme chance for at forekomme. Kan den centrale grænsesætning arbejde med diskrete tal og ensartede sandsynligheder? Lad os se!

I nedenstående graf følger jeg den samme procedure som ovenfor. I dette eksempel refererer prøvestørrelsen til antallet af gange, vi ruller matricen. Processen beregner gennemsnittet for hver prøve.

I grafen ovenfor bruger jeg prøvestørrelser på 5, 20 og 40. Vi forventer, at gennemsnittet er (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Samplingsfordelingerne af midlerne er centreret om denne værdi. Ligesom den centrale grænsesætning forudsiger, når vi øger stikprøvestørrelsen, tilnærmes samplingsfordelingen nærmere en normalfordeling og har en strammere spredning af værdier.

Du kan udføre et lignende eksperiment ved hjælp af binomialfordelingen med mønt vender og opnår de samme typer resultater, når det kommer til at sige sandsynligheden for at få hoveder. Alt takket være den centrale grænsesætning!

Hvorfor er den centrale grænsesætning vigtig?

Den centrale grænsesætning er vigtig i statistikker af to hovedårsager – normalitetsantagelsen og præcisionen af estimaterne.

Central grænsesætning og antagelse om normalitet

Det faktum, at samplingsfordelinger kan tilnærme en normalfordeling, har kritiske implikationer. I statistikker er antagelsen om normalitet afgørende for parametriske hypotesetest af gennemsnittet, såsom t-testen. Derfor kan du måske tro, at disse tests ikke er gyldige, når dataene ikke distribueres normalt. Men hvis din stikprøvestørrelse er stor nok, sætter den centrale grænsesætning ind og producerer samplingsfordelinger, der tilnærmer en normalfordeling. Denne kendsgerning giver dig mulighed for at bruge disse hypotesetest, selv når dine data distribueres ikke-normalt – så længe din stikprøvestørrelse er stor nok.

Du har måske hørt, at parametriske tests af middelværdien er robuste til afvigelser fra normalitetsantagelse, når din stikprøvestørrelse er tilstrækkelig stor. Det er takket være den centrale grænsesætning!

For mere information om dette aspekt, læs mit indlæg, der sammenligner parametriske og ikke-parametriske tests.

Præcision af estimater

I bemærk alle graferne, hvordan stikprøvefordelingen af middelklyngen mere tæt omkring befolkningen betyder, efterhånden som stikprøvestørrelserne øges. Denne egenskab ved den centrale grænsesætning bliver relevant, når man bruger en prøve til at estimere gennemsnittet af en hel population. Med en større stikprøvestørrelse er dit stikprøvesnit mere sandsynligt tæt på det reelle befolkningsgennemsnit. Med andre ord er dit skøn mere præcist.

Omvendt er samplingsfordelingen af middelværdien for mindre stikprøvestørrelser meget bredere. For små stikprøvestørrelser er det ikke usædvanligt, at prøvemetoder er længere væk fra det faktiske populationsgennemsnit. Du opnår mindre præcise estimater.

Afslutningsvis er forståelse af den centrale grænsesætning afgørende, når det kommer til at stole på gyldigheden af dine resultater og vurdere nøjagtigheden af dine estimater. Brug store stikprøvestørrelser for at tilfredsstille normalitetsantagelsen, selv når dine data ikke distribueres normalt og for at få mere præcise estimater!

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *