Keskitetty rajalauseke selitetty

Tilastojen keskirajalauseessa todetaan, että riittävän suuren otoskokon vuoksi muuttujan keskiarvon otosjakauma arvioi normaalijakauman riippumatta muuttujan jakaumasta

Merkityksen purkaminen tästä monimutkaisesta määritelmästä voi olla vaikeaa. Tämä on tämän viestin aihe! Opastan sinua keskirajalausekkeen (CLT) määritelmän eri näkökohdissa ja näytän, miksi se on elintärkeää tilastoissa.

Muuttujan jakauma populaatiossa

Osa keskeisen rajalausekkeen määritelmästä sanoo ”riippumatta muuttujan jakautumisesta populaatiossa”. Tämä osa on helppoa! Populaatiossa muuttujan arvot voivat seurata erilaisia todennäköisyysjakaumia. Nämä jakaumat voivat vaihdella normaalista, vasemmalle vinoon, oikealle vinoon ja yhtenäiseen.

Normaali
Oikea vinossa
Vasen vinossa
Yhtenäinen

Tämä määritelmän osa viittaa muuttujan arvojen jakautumiseen populaatiossa, josta otat satunnaisotoksen.

Keskirajalauseketta sovelletaan melkein kaiken tyyppisiin todennäköisyysjakaumiin, mutta on myös poikkeuksia. Esimerkiksi populaatiossa on oltava äärellinen varianssi. Rajoitus sulkee pois Cauchyn jakauman, koska sillä on ääretön varianssi.

Lisäksi keskirajalause koskee riippumatonta, identtisesti jakautunutta muuttujat. Toisin sanoen yhden havainnon arvo ei riipu toisen havainnon arvosta. Ja muuttujan jakautumisen on pysyttävä vakiona kaikissa mittauksissa.

Liittyvä viesti: Todennäköisyysjakaumien sekä itsenäisten ja identtisesti jakautuneiden muuttujien ymmärtäminen

Keskiarvon näytteenottojakauma

Keskirajalausekkeen määritelmä viittaa myös ”keskiarvon otosjakaumaan”. Mikä se on?

Tyypillisesti suoritat tutkimuksen kerran ja saatat laskea yhden näytteen keskiarvon. Kuvittele nyt, että toistat tutkimuksen monta kertaa ja keräät saman näytekoon jokaiselle. Sitten , lasket jokaisen näytteen keskiarvon ja piirrät ne histogrammiin. Histogrammi näyttää näytekeskiarvojen jakauman, jota tilastotieteilijät kutsuvat keskiarvon näytteenottojakaumaksi.

Onneksi emme t on toistettava tutkimuksia monta kertaa keskiarvon otosjakauman arvioimiseksi. Tilastollisilla menettelyillä voidaan arvioida se yhdestä satunnaisesta otoksesta.

Näytteenottojakauman muoto riippuu otoksen koosta. Jos suoritat opiskele samalla menettelyllä ja muuta vain otoksen kokoa, otosjakauman muoto vaihtelee kullekin otoskokolle. Ja tämä johtaa meidät CLT-määritelmän seuraavaan osaan!

Central Limit Theorem ja riittävän suuri näytekoko

Kuten edellisessä osassa todetaan , näytteen jakauman muoto muuttuu näytteen koon mukaan. Ja keskirajalausekkeen määritelmässä todetaan, että kun sinulla on riittävän suuri otoskoko, näytteenottojakauma alkaa likimääräistä normaalijakaumaa. Kuinka suuren otoskokon on oltava, jotta likiarviointi tapahtuu?

Se riippuu muuttujan jakauman muodosta taustalla olevassa populaatiossa. Mitä enemmän populaatiojakauma eroaa normaalista, sitä suurempi on otoskoko. Tyypillisesti tilastotieteilijät sanovat, että 30 otoksen koko riittää useimmille jakaumille. Voimakkaasti vinot jakaumat voivat kuitenkin vaatia suurempia näytekokoja. Näemme otoskoon aspektin toiminnassa alla olevan empiirisen esittelyn aikana.

Keskirajalause ja normaalijakauman lähentäminen

Yhteenvetona voidaan todeta, että keskirajalauseke yhdistää seuraavat kaksi jakaumaa :

  • Muuttujan jakauma populaatiossa.
  • Keskiarvon otosjakauma.

Erityisesti CLT ilmoittaa että riippumatta muuttujan jakautumisesta populaatiossa, keskiarvon otosjakauma pyrkii likiarvomaan normaalijakauman.

Toisin sanoen populaatiojakauma voi näyttää tältä:

Mutta näytteenottojakauma voi näyttää seuraavalta:

Ei ole yllättävää, että normaalijakautunut muuttuja tuottaa otosjakauman, joka seuraa myös normaalijakaumaa. Mutta yllättäen ei-normaalit populaatiojakaumat voivat myös luoda normaalia näytteenottojakaumaa.

Liittyvä viesti: Normaali jakauma tilastoissa

Keskirajalauseen ominaisuudet

Kerrotaan tarkemmin keskirajalauseen normaaliominaisuuksista. Normaalijakaumilla on kaksi parametria, keskiarvo ja keskihajonta. Mihin arvoihin nämä parametrit yhtyvät?

Otoksen koon kasvaessa otosjakauma lähentyy normaalijakaumaan, jossa keskiarvo on yhtä suuri kuin populaation keskiarvo ja keskihajonta on σ / √n. Missä:

  • σ = populaation keskihajonta
  • n = otoksen koko

Otoksen koon (n) kasvaessa otosjakauman keskihajonta pienenee, koska näytekoon neliöjuuri on nimittäjässä. Toisin sanoen otosjakaumaryhmät keskittyvät tiukemmin keskiarvon ympärille otoksen koon kasvaessa.

Yhdistetään tämä kaikki. Kun näytteen koko kasvaa, näytteenottojakauma lähentää normaalijakaumaa ja kyseisen jakauman leviäminen kiristyy. Näillä ominaisuuksilla on oleellisia vaikutuksia tilastoihin, joista keskustelen myöhemmin tässä viestissä.

Liittyvät viestit: Keskitaipumuksen mittaukset ja vaihtelumittarit

Keskirajalauseen empiirinen esittely

Nyt hauska osa! Keskuslauseelle on matemaattinen todiste, mutta se ylittää tämän blogikirjoituksen soveltamisalan. Näytän kuitenkin kuinka se toimii empiirisesti käyttämällä tilastollista simulaatio-ohjelmistoa. Määritän populaatiojakaumat ja pyydän ohjelmistoa ottamaan siitä tuhansia satunnaisia otoksia. Ohjelmisto laskee jokaisen näytteen keskiarvon ja piirtää sitten nämä näytekeskiarvot histogrammiin näyttämään keskiarvon näytteenottojakauman.

Seuraavissa esimerkeissä muutan otoksen kokoa osoittamaan, kuinka vaikuttaa näytteenottojakaumaan. Näytteenottojakauman tuottamiseksi piirrän 500 000 satunnaisnäytettä, koska se luo melko tasaisen jakauman histogrammiin.

Pidä tämä kriittinen ero mielessä. Vaikka kerään jatkuvasti 500 000 näytettä ehtoa kohden, näiden näytteiden koko vaihtelee, mikä vaikuttaa näytteenottojakauman muotoon.

Testataan tätä teoriaa! Tätä varten käytän Statistics101-ohjelmistoa, joka on lahjatavaroiden tietokoneohjelma. Tämä on hieno simulointiohjelma, jota olen käyttänyt myös Monty Hallin ongelman ratkaisemiseen!

Keskirajalauseen testaaminen kolmella todennäköisyysjakaumalla

Näytän sinulle, kuinka keskeinen raja-lause toimii kolmella eri jakaumalla: kohtalaisen vinossa, voimakkaasti vinossa ja tasaisessa jakaumassa. Kaksi ensimmäistä jakaumaa vinoutuvat oikealle ja seuraavat lognormaalijakaumaa. Alla oleva todennäköisyysjakauma näyttää populaation arvojakauman. Huomaa, kuinka punainen katkoviiva jakauma on paljon vinosti. Se todella ulottuu melko kaukana kaaviosta! Näemme, miten tämä vaikuttaa näytteenottojakaumiin.

Katsotaanpa, kuinka keskirajalause käsittelee näitä kahta jakaumat ja tasainen jakauma.

Kohtuullisesti vinossa jakauma ja keskirajalause

Alla olevassa kaaviossa näkyy kohtalaisen vinossa oleva lognormaali jakauma. Tämä jakauma sopii kehon rasvaprosentti-aineistoon, jota käytän viestissäni tietojesi jakauman tunnistamiseksi. Nämä tiedot vastaavat sinistä viivaa yllä olevassa todennäköisyysjakauman kuvaajassa. Käytän simulaatio-ohjelmistoa satunnaisotosten ottamiseen tästä populaatiosta 500 000 kertaa kullekin otoskokolle (5, 20, 40).

Yllä olevassa kaaviossa harmaa väri näyttää arvojen vinon jakauman populaatiossa. Muut värit edustavat keskiarvojen näytteenottojakaumia eri näytekokoille. Punainen väri osoittaa keskiarvojen jakauman, kun otoskokosi on 5. Sininen tarkoittaa otoskokoa 20. Vihreä on 40. Punainen käyrä (n = 5) on edelleen hieman vinossa, mutta sininen ja vihreä (20 ja 40) ) eivät ole näkyvästi vinoja.

Otoksen koon kasvaessa otosjakaumat likimääräisesti lähentävät normaalijakaumaa ja ryhmittyvät tiukemmin populaation ympärille – aivan kuten keskirajalause toteaa!

Hyvin vino jakelu ja keskirajalause

Kokeillaan nyt hyvin vinolla lognormaalijakaumalla. Nämä tiedot seuraavat punaista katkoviivaa yllä olevassa todennäköisyysjakauman käyrässä. Seuraan samaa prosessia, mutta käytän suurempia näytekokoja 40 (harmaa), 60 (punainen) ja 80 (sininen). En sisällytä populaatiojakaumaa tähän, koska se on niin vinossa, että se sekoittaa X-akselin asteikon!

Väestöjakauma on erittäin vinossa. Se on todennäköisesti enemmän vinoja kuin todelliset tiedot yleensä ovat.Kuten näette, jopa suurimmalla otoskoolla (sininen, n = 80) keskiarvon näytteenottojakauma on edelleen vinossa. Se on kuitenkin vähemmän vinossa kuin pienempien otoskokojen näytteenottojakaumat. Huomaa myös, kuinka näytteenoton jakauman piikit siirtyvät oikealle näytteen kasvaessa. Lopulta riittävän suurella otoskokolla otosjakaumat muuttuvat symmetrisiksi, ja huippu lakkaa siirtymästä ja keskittyy todelliseen väestökeskiarvoon.

Jos populaatiojakauma on erittäin vinossa, muista, että saatat ehkä tarvitsevat huomattavan otoskoon, jotta keskirajalause käynnistyy ja tuottaa normaalijakaumaa lähentävän näytteenottojakauman!

Yhtenäinen jakauma ja keskirajalause

Vaihdetaan nyt vaihdetta ja tarkastella täysin erilaista jakelua. Kuvittele, että rullamme muotin ja otamme rullien keskimääräisen arvon. Numeroiden vierittämisen todennäköisyydet muotissa seuraavat tasaista jakaumaa, koska kaikilla numeroilla on sama mahdollisuus esiintyä. Voiko keskirajalause toimia erillisten lukujen ja yhdenmukaisten todennäköisyyksien kanssa? Katsotaanpa!

Seuraavassa kaaviossa noudatan samaa menettelyä kuin yllä. Tässä esimerkissä otoskoko viittaa siihen, kuinka monta kertaa rullamme muotin. Prosessi laskee kunkin näytteen keskiarvon.

Yllä olevassa kaaviossa käytän näytekokoja 5, 20 ja 40. Odotamme keskiarvon olevan (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Keskiarvojen näytteenottojakaumat keskittyvät tähän arvoon. Aivan kuten keskirajalause ennustaa, otoksen kokoa suurennettaessa näytteenottojakaumat lähentävät normaalijakaumaa ja niiden arvot ovat tiukemmin leviävät.

Voit suorittaa samanlaisen kokeen käyttämällä binomijakaumaa kolikko kääntyy ja saa saman tyyppisiä tuloksia, kun on kyse esimerkiksi pään saamisen todennäköisyydestä. Kaikki kiitos keskirajalauseen!

Miksi keskirajalause on tärkeä?

Keskirajalause on elintärkeää tilastoissa kahdesta syystä – normaalioletus ja tarkkuuden tarkkuus arviot.

Keskirajalause ja normaalioletus

Sillä, että otosjakaumat voivat arvioida normaalijakaumaa, on kriittisiä vaikutuksia. Tilastossa normaalioletus on elintärkeää keskiarvon parametrihypoteesitesteille, kuten t-testi. Tästä syystä saatat ajatella, että nämä testit eivät ole kelvollisia, kun tietoja ei tavallisesti jaeta. Jos otoskoko on kuitenkin riittävän suuri, keskeinen rajalauseke käynnistyy ja tuottaa normaalijakauman likimääräisen näytteenottojakauman. Tämän tosiasian avulla voit käyttää näitä hypoteesitestejä myös silloin, kun tietosi eivät ole normaalisti jaettuja – niin kauan kuin otoskokosi on riittävän suuri.

Olet ehkä kuullut, että keskiarvon parametriset testit ovat vahvoja poikkeamille normaalioletus, kun otoksen koko on riittävän suuri. Tämä johtuu keskeisestä rajalausekkeesta!

Lisätietoja tästä näkökohdasta lue viesti, joka vertaa parametri- ja ei-parametreja testejä.

Arvioiden tarkkuus

Kaikissa kaavioissa huomaa, kuinka keskimääräisen klusterin otosjakaumat tiukemmin populaation ympärillä tarkoittavat otoskokojen kasvaessa. Tämä keskirajalausekkeen ominaisuus tulee merkitykselliseksi, kun käytetään otosta koko populaation keskiarvon arvioimiseksi. Suuremman otoskoon ollessa otos keskiarvo on todennäköisemmin lähellä todellista populaatiokeskiarvoa. Toisin sanoen arviosi on tarkempi.

Päinvastoin, pienempien otoskokojen keskiarvon otosjakaumat ovat paljon laajemmat. Pienissä otoskokoissa ei ole epätavallista, että otos tarkoittaa kauempana todellisesta populaatiokeskiarvosta. Saat vähemmän tarkkoja arvioita.

Lopputuloksena keskeisen rajalausekkeen ymmärtäminen on ensiarvoisen tärkeää, kun luotat tulostesi pätevyyteen ja arvioit arvioidesi tarkkuutta. Käytä suuria otoskokoja normaaliarvon täyttämiseksi, vaikka tietosi eivät olisikaan normaalisti jakautuneet, ja tarkempien arvioiden saamiseksi!

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *