Central Limit Theorem Explained

Central limit Theorem i statistikk sier at gitt en tilstrekkelig stor utvalgsstørrelse, vil samplingsfordelingen av gjennomsnittet for en variabel tilnærme en normalfordeling uavhengig av variablens fordeling befolkningen.

Å pakke ut betydningen fra den komplekse definisjonen kan være vanskelig. Det er temaet for dette innlegget! Jeg vil gå gjennom de forskjellige aspektene av CLT-definisjonen (Central Limit Theorem), og vise deg hvorfor det er viktig i statistikken.

Distribusjon av variabelen i befolkningen

En del av definisjonen for sentralgrense-setningen sier «uansett variabelens fordeling i befolkningen.» Denne delen er enkel! I en populasjon kan verdiene til en variabel følge forskjellige sannsynlighetsfordelinger. Disse fordelingene kan variere fra normal, venstre-skjev, høyre-skjev og ensartet blant andre.

Normal
Høyre-skjev
Venstre skjev
Uniform

Denne delen av definisjonen refererer til fordelingen av variabelens verdier i populasjonen du trekker et tilfeldig utvalg fra.

Den sentrale grensesetningen gjelder nesten alle typer sannsynlighetsfordelinger, men det er unntak. For eksempel må populasjonen ha en endelig varians. Den begrensningen utelukker Cauchy-fordelingen fordi den har uendelig varians.

I tillegg gjelder den sentrale grensesetningen for uavhengig, identisk distribuert variabler. Verdien av en observasjon avhenger med andre ord ikke av verdien av en annen observasjon. Og fordelingen av den variabelen må forbli konstant på tvers av alle målinger.

Relatert innlegg: Forstå sannsynlighetsfordelinger og uavhengige og identisk fordelte variabler

Samplingsfordeling av gjennomsnittet

Definisjonen for den sentrale grensesetningen refererer også til «samplingsfordelingen av gjennomsnittet.» Hva er det?

Vanligvis utfører du en undersøkelse en gang, og du kan beregne gjennomsnittet av den ene prøven. Tenk deg at du gjentar studien mange ganger og samler den samme prøvestørrelsen for hver enkelt. , beregner du gjennomsnittet for hver av disse prøvene og tegner dem i et histogram. Histogrammet viser fordelingen av prøvene, som statistikere refererer til som samplingsfordelingen av gjennomsnittet.

Heldigvis har vi ikke t må gjenta studier mange ganger for å estimere samplingsfordelingen av gjennomsnittet. Statistiske prosedyrer kan estimere det fra en enkelt tilfeldig prøve.

Formen på samplingsfordelingen avhenger av størrelsen på prøven. Hvis du utfører studere ved hjelp av samme prosedyre og bare endre prøvestørrelsen, vil formen på samplingsfordelingen variere for hver prøvestørrelse. Og det fører oss til neste del av CLT-definisjonen!

Central Limit Theorem and en tilstrekkelig stor prøvestørrelse

Som forrige avsnitt sier endres formen på prøvetakingsfordelingen med prøvestørrelsen. Og definisjonen av sentralgrenseteoremet sier at når du har tilstrekkelig stor utvalgsstørrelse, begynner samplingsfordelingen å tilnærme en normalfordeling. Hvor stor må utvalgsstørrelsen være for at den tilnærmingen skal forekomme?

Det avhenger av formen på variabelens fordeling i den underliggende populasjonen. Jo mer populasjonsfordelingen er forskjellig fra å være normal, jo større må utvalgsstørrelsen være. Vanligvis sier statistikere at en prøvestørrelse på 30 er tilstrekkelig for de fleste distribusjoner. Imidlertid kan sterkt skjev fordeling kreve større utvalgstørrelser. Vi ser eksemplet på størrelsen på eksemplet i aksjon under den empiriske demonstrasjonen nedenfor. :

  • Fordelingen av variabelen i populasjonen.
  • Samplingsfordelingen av gjennomsnittet.

Spesielt angir CLT at uansett variabelens fordeling i populasjonen, vil samplingsfordelingen av gjennomsnittet ha en tendens til å tilnærme normalfordelingen.

Med andre ord kan populasjonsfordelingen se ut slik:

Men samplingsfordelingen kan se ut som nedenfor:

Det er ikke overraskende at en normalfordelt variabel produserer en samplingsfordeling som også følger normalfordelingen. Men overraskende kan ikke-normale populasjonsfordelinger også skape normale samplingsfordelinger.

Relatert innlegg: Normal distribusjon i statistikk

Egenskaper til sentralgrensetningen

La oss bli mer konkrete om normalitetsegenskapene til sentralgrensetningen. Normalfordelinger har to parametere, gjennomsnittet og standardavviket. Hvilke verdier konvergerer disse parametrene?

Når prøvestørrelsen øker, konvergerer samplingsfordelingen på en normalfordeling der gjennomsnittet er lik populasjonsgjennomsnittet, og standardavviket er lik σ / √n. Hvor:

  • σ = populasjonsstandardavvik
  • n = utvalgsstørrelsen

Når utvalgsstørrelsen (n) øker, standardavviket til samplingsfordelingen blir mindre fordi kvadratroten til prøvestørrelsen er i nevneren. Med andre ord klynger samplingsfordelingen tettere rundt gjennomsnittet når prøvestørrelsen øker.

La oss sette alt dette sammen. Når prøvestørrelsen øker, tilnærmer samplingsfordelingen nærmere normalfordelingen, og spredningen av denne fordelingen strammes. Disse egenskapene har vesentlige implikasjoner i statistikken som jeg vil diskutere senere i dette innlegget.

Relaterte innlegg: Målinger av sentral tendens og målinger av variabilitet

Empirisk demonstrasjon av sentralgrenseteoremet

Nå er den morsomme delen! Det er et matematisk bevis for den sentrale setningen, men det går utover omfanget av dette blogginnlegget. Imidlertid vil jeg vise hvordan det fungerer empirisk ved å bruke statistisk simuleringsprogramvare. Jeg vil definere populasjonsfordelinger og la programvaren trekke mange tusen tilfeldige prøver fra den. Programvaren vil beregne gjennomsnittet av hver prøve og deretter tegne grafen for disse eksemplene på et histogram for å vise prøvetaksfordelingen av gjennomsnittet.

For de følgende eksemplene vil jeg variere prøvestørrelsen for å vise hvordan det påvirker prøvetaksfordelingen. For å produsere samplingsfordelingen, tegner jeg 500 000 tilfeldige prøver fordi det skaper en ganske jevn fordeling i histogrammet.

Husk denne kritiske forskjellen. Selv om jeg vil samle inn 500 000 prøver per tilstand, vil størrelsen på disse prøvene variere, og det påvirker formen på samplingsfordelingen.

La oss teste denne teorien! For å gjøre det, bruker jeg Statistics101, som er et dataprogram for gavevarer. Dette er et flott simuleringsprogram som jeg også har brukt for å takle Monty Hall-problemet!

Testing av sentralgrenseteorem med tre sannsynlighetsfordelinger

Jeg skal vise deg hvordan det sentrale limit theorem fungerer med tre forskjellige distribusjoner: moderat skjev, sterkt skjev og en jevn fordeling. De to første distribusjonene skjev til høyre og følg den lognormale fordelingen. Sannsynlighetsfordelingsdiagrammet nedenfor viser befolkningens verdifordeling. Legg merke til hvordan den røde stiplede fordelingen er mye mer skjev. Det strekker seg faktisk ganske langt utenfor grafen! Vi får se hvordan dette utgjør en forskjell i samplingsfordelingene.

La oss se hvordan sentralgrenseteoremet håndterer disse to distribusjoner og den ensartede fordelingen.

Moderat skjev fordeling og sentralgrenseteorem

Grafen nedenfor viser den moderat skjeve lognormale fordelingen. Denne fordelingen passer til datasettet for kroppsfettprosent som jeg bruker i innlegget mitt om å identifisere distribusjonen av dataene dine. Disse dataene tilsvarer den blå linjen i sannsynlighetsfordelingsdiagrammet ovenfor. Jeg bruker simuleringsprogramvaren til å tegne stikkprøver fra denne populasjonen 500 000 ganger for hver prøvestørrelse (5, 20, 40).

I grafen over viser den grå fargen skjev fordeling av verdiene i populasjonen. De andre fargene representerer samplingsfordelingen av midlene for forskjellige prøvestørrelser. Den røde fargen viser fordelingen av middel når utvalgsstørrelsen din er 5. Blå angir en utvalgsstørrelse på 20. Grønn er 40. Den røde kurven (n = 5) er fortsatt skjev litt, men den blå og grønne (20 og 40 ) er ikke synlig skjev.

Når prøvestørrelsen øker, tilnærmer samplingsfordelingene normalfordelingen og blir tettere gruppert rundt populasjonsgjennomsnittet – akkurat som sentralgrenseteoremet sier!

Veldig skjev fordeling og sentralgrenseteorem

Nå, la oss prøve dette med den veldig skjeve lognormale fordelingen. Disse dataene følger den røde stiplede linjen i sannsynlighetsfordelingsdiagrammet ovenfor. Jeg følger den samme prosessen, men bruker større prøvestørrelser på 40 (grå), 60 (rød) og 80 (blå). Jeg inkluderer ikke befolkningsfordelingen i denne fordi den er så skjev at den ødelegger X-akseskalaen!

Befolkningsfordelingen er ekstremt skjev. Det er sannsynligvis mer skjevt enn ekte data pleier å være.Som du kan se, selv med den største utvalgsstørrelsen (blå, n = 80), er samplingsfordelingen av gjennomsnittet fortsatt skjevt riktig. Det er imidlertid mindre skjevt enn prøvetaksfordelingene for de mindre prøvestørrelsene. Legg også merke til hvordan toppene i samplingsfordelingen skifter til høyre når prøven øker. Til slutt, med en stor nok utvalgsstørrelse, blir samplingsfordelingene symmetriske, og toppen vil slutte å skifte og sentrere seg om den faktiske populasjonsgjennomsnittet.

Hvis populasjonsfordelingen din er ekstremt skjev, vær oppmerksom på at du kanskje trenger en betydelig utvalgsstørrelse for at den sentrale grensesetningen skal sparke inn og produsere samplingsfordelinger som tilnærmer en normalfordeling!

Uniform Distribution and the Central Limit Theorem

Nå, la oss bytte gir og se på en helt annen type distribusjon. Tenk deg at vi ruller en matrise og tar gjennomsnittsverdien av rullene. Sannsynlighetene for å rulle tallene på en dyse følger en jevn fordeling fordi alle tall har samme sjanse for å oppstå. Kan den sentrale grensesetningen fungere med diskrete tall og ensartede sannsynligheter? La oss se!

I grafen nedenfor følger jeg samme prosedyre som ovenfor. I dette eksemplet refererer prøvestørrelsen til antall ganger vi ruller matrisen. Prosessen beregner gjennomsnittet for hver prøve.

I grafen ovenfor bruker jeg prøvestørrelser på 5, 20 og 40. Vi forventer at gjennomsnittet blir (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Samplingsfordelingen av midlene sentrerer seg om denne verdien. Akkurat som sentralgrense-teorien forutsier, når vi øker utvalgsstørrelsen, tilnærmer samplingsfordelingene en normalfordeling nærmere og har en strammere spredning av verdier.

Du kan utføre et lignende eksperiment ved å bruke binomialfordelingen med mynt vender og oppnår de samme resultatene når det gjelder for eksempel sannsynligheten for å få hoder. Alt takket være sentralgrense-setningen!

Hvorfor er sentralgrense-satsen viktig?

Den sentrale grense-setningen er viktig i statistikken av to hovedårsaker – normalitetsantakelsen og presisjonen til estimatene.

Sentralgrenseteorem og normalitetsantakelse

Det faktum at samplingsfordelinger kan tilnærme en normalfordeling har kritiske implikasjoner. I statistikken er normalitetsforutsetningen viktig for parametriske hypotesetester av gjennomsnittet, for eksempel t-testen. Derfor kan du tro at disse testene ikke er gyldige når dataene ikke distribueres. Imidlertid, hvis utvalgsstørrelsen er stor nok, setter den sentrale grensesetningen inn og produserer samplingsfordelinger som tilnærmer en normalfordeling. Dette faktum gjør at du kan bruke disse hypotesetestene selv når dataene dine ikke er normalt distribuert – så lenge prøvestørrelsen din er stor nok.

Du har kanskje hørt at parametriske tester av gjennomsnittet er robuste for avvik fra normalforutsetning når utvalgsstørrelsen er tilstrekkelig stor. Det er takket være sentralgrense-setningen!

For mer informasjon om dette aspektet, les innlegget mitt som sammenligner parametriske og ikke-parametriske tester.

Presisjon av estimater

I alle grafene, legg merke til hvordan samplingsfordelingene til gjennomsnittsklyngen tettere rundt befolkningen betyr når prøvestørrelsene øker. Denne egenskapen til sentralgrense-setningen blir relevant når du bruker et utvalg til å estimere gjennomsnittet av en hel populasjon. Med en større utvalgsstørrelse er det mer sannsynlig at gjennomsnittet ditt er nær det virkelige populasjonsgjennomsnittet. Estimatet ditt er med andre ord mer presist.

Omvendt er samplingsfordelingen av gjennomsnittet for mindre utvalgstørrelser mye bredere. For små utvalgsstørrelser er det ikke uvanlig at utvalgsmetoder er lenger unna det faktiske populasjonsgjennomsnittet. Du får mindre presise estimater.

Avslutningsvis er det viktig å forstå sentralgrense-setningen når det gjelder å stole på gyldigheten av resultatene og å vurdere nøyaktigheten av estimatene. Bruk store utvalgstørrelser for å tilfredsstille normalitetsforutsetningen, selv når dataene dine distribueres ikke normalt, og for å oppnå mer presise estimater!

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *