Megmagyarázott központi határtétel

A statisztikák központi határtétele kimondja, hogy kellően nagy mintaméret esetén a változó átlagának mintavételi eloszlása megközelítőleg normális eloszlást jelent, függetlenül a változó eloszlásától a populáció.

A jelentés kibontása ebből az összetett meghatározásból nehéz lehet. Ez a témája ennek a bejegyzésnek! Végigvezetem a központi határtétel (CLT) meghatározásának különböző aspektusain, és megmutatom, miért fontos ez a statisztikákban.

A változó megoszlása a populációban

A központi határtétel definíciójának egy része kimondja: “függetlenül a változó populációbeli megoszlásától”. Ez a rész egyszerű! Egy populációban egy változó értékei különböző valószínűség-eloszlásokat követhetnek. Ezek az eloszlások a normál, a balra ferde, a jobbra ferde és egyebek között változhatnak.

Normál
Jobbra ferde
Balra ferde
Egységes

A meghatározásnak ez a része a változó értékeinek megoszlására utal annak a sokaságnak, amelyből véletlenszerű mintát készít.

A központi határtétel szinte minden valószínűségeloszlásra vonatkozik, de vannak kivételek. Például a populációnak véges szórással kell rendelkeznie. Ez a korlátozás kizárja a Cauchy-eloszlást, mert végtelen szórással rendelkezik.

Ezenkívül a központi határtétel független, azonos eloszlásúakra is vonatkozik változók. Más szavakkal, az egyik megfigyelés értéke nem függ egy másik megfigyelés értékétől. És ennek a változónak az összes mérésnek állandónak kell maradnia.

Kapcsolódó bejegyzés: A valószínűségi eloszlások, valamint a független és azonos eloszlású változók megértése

Az átlag mintavételi eloszlása

A központi határtétel definíciója “az átlag mintavételi eloszlására” is utal. Mi ez?

Általában egyszer végez egy vizsgálatot, és kiszámíthatja az egy minta átlagát. Most képzelje el, hogy sokszor megismétli a vizsgálatot, és mindegyikhez ugyanazt a mintaméretet gyűjti. , kiszámítja ezeknek a mintáknak az átlagát, és egy hisztogramon ábrázolja őket. A hisztogram a minta átlagának eloszlását jeleníti meg, amelyet a statisztikusok az átlag mintavételi eloszlásának neveznek.

Szerencsére nem teszünk Az átlag mintavételi eloszlásának becsléséhez sokszor meg kell ismételnünk a vizsgálatokat. A statisztikai eljárások ezt egyetlen véletlenszerű mintából becsülhetik meg.

A mintavételi eloszlás alakja a minta nagyságától függ. tanulmányozzon ugyanazon eljárással, és csak a minta méretét változtassa meg, a mintavétel-eloszlás alakja minden egyes mintaméretnél eltérő lesz. Ez pedig a CLT-definíció következő részéhez vezet!

Központi határ tétel és kellően nagy mintaméret

Ahogy az előző szakasz kimondja , a mintavételi eloszlás alakja változik a minta méretével. És a központi határtétel definíciója kimondja, hogy ha kellően nagy mintamérettel rendelkezik, a mintavételi eloszlás megközelíti a normális eloszlást. Mekkorának kell lennie a minta méretének ahhoz, hogy ez a közelítés bekövetkezhessen?

Ez a változó eloszlásának alakjától függ az alapul szolgáló populációban. Minél inkább eltér a populációeloszlás a normálistól, annál nagyobbnak kell lennie a minta nagyságának. A statisztikusok általában azt mondják, hogy a legtöbb eloszláshoz 30 mintaméret elegendő. Az erősen ferde eloszlásokhoz azonban nagyobb mintaméretre lehet szükség. Az alábbiakban látható empirikus bemutatás során a mintaméret aspektusát láthatjuk működés közben.

Központi korlát tétel és a normál eloszlás közelítése

Összefoglalásképpen a központi határ tétel összekapcsolja a következő két elosztást :

  • A változó megoszlása a populációban.
  • Az átlag mintavételi eloszlása.

Konkrétan a CLT állítja hogy a változó populációbeli megoszlásától függetlenül az átlag mintavételi eloszlása általában megközelíti a normális eloszlást.

Más szavakkal, a populáció eloszlása a következőképpen nézhet ki:

De a mintavételi eloszlás az alábbiak szerint jelenhet meg:

Nem meglepő, hogy egy normálisan elosztott változó olyan mintavételi eloszlást eredményez, amely a normális eloszlást is követi. De meglepő, hogy a nem normális populációeloszlások normál mintavételi eloszlásokat is létrehozhatnak.

Kapcsolódó hozzászólás: Normál eloszlás a statisztikákban

A központi határtétel tulajdonságai

Térjünk ki részletesebben a központi határtétel normalitási jellemzőire. A normális eloszlásnak két paramétere van, az átlag és a szórás. Milyen értékekre konvergálnak ezek a paraméterek?

A minta méretének növekedésével a mintavételi eloszlás konvergál egy normális eloszlásra, ahol az átlag megegyezik a populáció átlagával, a szórás pedig σ / √n. Hol:

  • σ = a populáció szórása
  • n = a minta mérete

A minta méretének növekedésével (n) a mintavételi eloszlás szórása kisebb lesz, mert a minta méretének négyzetgyöke a nevezőben van. Más szavakkal, a mintavételi eloszlás a mintaméret növekedésével szorosabban az átlag körül csoportosul.

Tegyük össze mindezt. A mintaméret növekedésével a mintavételi eloszlás jobban közelíti a normális eloszlást, és ennek az eloszlásnak a terjedése szigorodik. Ezeknek a tulajdonságoknak alapvető jelentősége van a statisztikákban, amelyeket később ebben a bejegyzésben tárgyalok.

Kapcsolódó hozzászólások: A központi tendencia mérései és a variabilitás mérései

A központi határtétel empirikus bemutatása

Most a szórakoztató rész! Matematikai bizonyíték van a központi tételre, de ez túlmutat e blogbejegyzés keretein. Statisztikai szimulációs szoftverek segítségével azonban megmutatom, hogyan működik empirikusan. Meghatározom a népességeloszlást, és a szoftver sok ezer véletlenszerű mintát fog levonni belőle. A szoftver kiszámítja az egyes minták átlagát, majd ezeket a mintaeszközöket hisztogramon ábrázolja, hogy megjelenítse az átlag mintavételi eloszlását.

A következő példákhoz a minta méretét változtatom, hogy megmutassam, hogy ez befolyásolja a mintavételi eloszlást. A mintavételi eloszlás előállításához 500 000 véletlenszerű mintát veszek, mert ez meglehetősen sima eloszlást hoz létre a hisztogramban.

Tartsa szem előtt ezt a kritikus különbséget. Bár feltételenként következetesen 500 000 mintát fogok gyűjteni, a minták mérete változó lesz, és ez befolyásolja a mintavétel eloszlásának alakját.

Teszteljük ezt az elméletet! Ehhez a Statistics101-et fogom használni, amely egy ajándék szoftveres számítógépes program. Ez egy nagyszerű szimulációs program, amelyet a Monty Hall-probléma megoldására is alkalmaztam!

A központi határtétel tesztelése három valószínűségeloszlással

Megmutatom, hogy a központi a határ tétel három különböző eloszlással működik: közepesen ferde, erősen ferde és egyenletes eloszlású. Az első két eloszlás jobbra ferdül, és követi a lognormális eloszlást. Az alábbi valószínűségeloszlási diagram a populáció értékeloszlását mutatja. Figyelje meg, hogy a vörös szaggatott eloszlás mennyivel sokkal torzabb. Valójában elég messze húzódik a gráftól! Meglátjuk, hogy ez hogyan változtatja meg a mintavételi eloszlásokat.

Lássuk, hogyan kezeli ezt a kettőt a központi határtétel eloszlások és az egyenletes eloszlás.

Mérsékelten ferde eloszlás és a központi határ tétel

Az alábbi grafikon a közepesen ferde lognormális eloszlást mutatja. Ez az eloszlás illeszkedik a testzsír százalékos adatkészlethez, amelyet az adatai eloszlásának azonosításával kapcsolatos bejegyzésemben használok. Ezek az adatok megegyeznek a fenti valószínűségi eloszlási diagram kék vonalával. A szimulációs szoftver segítségével véletlenszerű mintákat készítek ebből a populációból 500 000-szer minden mintanagyságra (5, 20, 40).

A fenti grafikonon a szürke szín az értékek torz eloszlását mutatja a populációban. A többi szín az átlag mintavételi eloszlásait mutatja a különböző mintaméretekhez. A piros szín az átlagok eloszlását mutatja, amikor a mintanagysága 5. A kék a 20-as mintaméretet jelöli. A zöld 40-es. A piros görbe (n = 5) még mindig kissé ferde, de a kék és a zöld (20 és 40) ) nem láthatóan torzulnak.

A mintanagyság növekedésével a mintavételi eloszlások jobban közelítik a normális eloszlást, és szorosabban csoportosulnak a populáció körül – ahogy a központi határtétel is kimondja!

Nagyon ferde eloszlás és a központi határ tétel

Most próbáljuk meg ezt a nagyon ferde lognormális eloszlással. Ezek az adatok a fenti szaggatott vonalat követik a fenti valószínűségeloszlási diagramban. Ugyanezt a folyamatot követem, de nagyobb mintanagyságokat használok: 40 (szürke), 60 (piros) és 80 (kék). A populációeloszlást ebbe nem foglalom bele, mert annyira ferde, hogy elrontja az X-tengely skáláját!

A népesség megoszlása rendkívül torz. Valószínűleg torzabb, mint a valós adatok.Mint látható, még a legnagyobb mintanagyság mellett is (kék, n = 80) az átlag mintavételi eloszlása még mindig ferde. Ez azonban kevésbé torz, mint a kisebb mintanagyságok mintavételi eloszlása. Figyelje meg azt is, hogy a minta eloszlásának csúcsai jobbra tolódnak-e a minta növekedésével. Végül, elég nagy mintaméret mellett, a mintavételi eloszlások szimmetrikusakká válnak, és a csúcs megáll, és a tényleges népességi átlag középpontjába kerül.

Ha a népességeloszlásod rendkívül ferde, vedd figyelembe, hogy lehetséges a központi határtételhez jelentős mintaméretre van szükség, hogy beinduljon és normál eloszlást megközelítő mintavételi eloszlásokat hozzon létre!

Egységes eloszlás és a Központi határ tétel

Most váltsunk sebességet és nézz meg egy egészen más típusú terjesztést. Képzelje el, hogy dobunk egy kockát, és vesszük a tekercsek átlagértékét. A számok kockán való gurulásának valószínűsége egyenletes eloszlást követ, mert minden számnak ugyanaz az esélye. Működhet-e a központi határtétel diszkrét számokkal és egységes valószínűségekkel? Lássuk!

Az alábbi grafikonon a fenti eljárást követem. Ebben a példában a mintaméret arra utal, hogy hányszor dobtuk le a szerszámot. A folyamat kiszámítja az egyes minták átlagát.

A fenti grafikonon 5, 20 és 40. Azt várnánk, hogy az átlag (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5) lesz. Az átlagok mintavételi eloszlása erre az értékre koncentrál. Ahogy a központi határ tétel megjósolja, a minta méretének növelésével a mintavételi eloszlások közelebb vannak a normális eloszláshoz, és szorosabb az eloszlásuk.

Hasonló kísérletet hajthat végre a binomiális eloszlással a érme megfordul, és azonos típusú eredményeket ér el, amikor mondjuk a fejek megszerzésének valószínűségéről van szó. Mindez a központi határtételnek köszönhető!

Miért fontos a központi határtétel?

A központi határtétel két fő okból – a normalitás feltételezése és a pontosság pontossága miatt – létfontosságú a statisztikákban. a becslések.

Központi határtétel és a normalitás feltételezése

Az a tény, hogy a mintavételi eloszlások megközelíthetik a normális eloszlást, kritikus következményekkel jár. A statisztikában a normalitás feltételezése létfontosságú az átlag paraméteres hipotézis tesztjeihez, például a t-próbához. Következésképpen azt gondolhatja, hogy ezek a tesztek nem érvényesek, ha az adatokat nem szokásosan terjesztik. Ha azonban a minta mérete elég nagy, a központi határtétel beindul és normál eloszlást megközelítő mintavételi eloszlásokat eredményez. Ez a tény lehetővé teszi ezeknek a hipotézisteszteknek a használatát akkor is, ha az adatok nem normálisan vannak elosztva – mindaddig, amíg a mintamérete elég nagy.

Lehet, hogy hallotta, hogy az átlag paraméteres tesztjei robusztusak az eltérésekhez a normális feltételezés, amikor a mintamérete kellően nagy. Ez köszönhető a központi határtételnek!

Ha további információt szeretne erről a szempontról, olvassa el a paraméteres és a nem paraméteres teszteket összehasonlító bejegyzésemet.

A becslések pontossága

az összes grafikonon vegye észre, hogy az átlagos klaszter mintavétel-eloszlása szorosabban mit jelent a populáció körül a minta méretének növekedésével. A központi határtétel ezen tulajdonsága akkor válik relevánssá, ha egy minta segítségével becsüljük meg az egész populáció átlagát. Nagyobb mintanagyság esetén a minta átlaga nagyobb valószínűséggel közelít a valós népesség átlagához. Más szavakkal, a becslés pontosabb.

Ezzel szemben a kisebb mintanagyságok átlagának mintavételi eloszlása sokkal szélesebb. Kis mintanagyságok esetében nem szokatlan, hogy a minta azt jelenti, hogy távolabb kerülnek a tényleges populációs átlagtól. Kevésbé pontos becsléseket kap.

Zárásként a központi határtétel megértése kulcsfontosságú, ha megbízunk az eredmények érvényességében és értékeljük a becslések pontosságát. Használjon nagy mintaméreteket a normális feltételezés kielégítéséhez, még akkor is, ha az adatait nem szokás elosztani, és pontosabb becsléseket kap!

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük