Centrální limitní věta ve statistikách uvádí, že vzhledem k dostatečně velké velikosti vzorku bude distribuční vzorek střední hodnoty pro proměnnou přibližně normální distribuci bez ohledu na distribuci této proměnné v populace.
Rozbalení významu z této komplexní definice může být obtížné. To je téma tohoto příspěvku! Provedu vás různými aspekty definice centrální limitní věty (CLT) a ukážu vám, proč je to ve statistice zásadní.
Distribuce proměnné v populaci
Část definice centrální limitní věty uvádí: „bez ohledu na distribuci proměnné v populaci.“ Tato část je snadná! V populaci mohou hodnoty proměnné sledovat různá rozdělení pravděpodobnosti. Tato rozdělení se mohou pohybovat mimo jiné od normálního, levého, pravého a rovnoměrného.
Tato část definice se týká rozdělení hodnot proměnné v populaci, ze které čerpáte náhodný vzorek.
Centrální limitní věta platí pro téměř všechny typy rozdělení pravděpodobnosti, ale existují výjimky. Například populace musí mít konečnou odchylku. Toto omezení vylučuje Cauchyovo rozdělení, protože má nekonečnou odchylku.
Centrální limitní věta navíc platí pro nezávislé, identicky distribuované proměnné. Jinými slovy, hodnota jednoho pozorování nezávisí na hodnotě jiného pozorování. A distribuce této proměnné musí zůstat konstantní napříč všemi měřeními.
Související příspěvek: Porozumění distribuci pravděpodobnosti a nezávislých a identicky distribuovaných proměnných
Vzorkování distribuce průměru
Definice centrální limitní věty také odkazuje na „vzorkovací rozdělení střední hodnoty.“ Co to je?
Obvykle provedete studii jednou a můžete vypočítat průměr tohoto vzorku. Nyní si představte, že studii opakujete mnohokrát a pro každý z nich shromáždíte stejnou velikost vzorku. Pak , vypočítáte průměr pro každý z těchto vzorků a nakreslíte je na histogramu. Histogram zobrazuje rozdělení průměrů vzorků, které statistici označují jako rozdělení vzorků průměru.
Naštěstí to neuděláme Aby bylo možné odhadnout rozdělení vzorku na střední hodnotu, je nutné opakovat studie mnohokrát. Statistické postupy to mohou odhadnout z jednoho náhodného vzorku.
Tvar rozdělení vzorku závisí na velikosti vzorku. Pokud provedete studujte pomocí stejného postupu a změňte pouze velikost vzorku, tvar distribuce vzorkování se bude u každé velikosti vzorku lišit. A tím se dostáváme k další části definice CLT!
Central Limit Theorem a a Dostatečně velká velikost vzorku
Jak uvádí předchozí část , tvar distribuce vzorkování se mění s velikostí vzorku. Definice centrální limitní věty uvádí, že když máte dostatečně velkou velikost vzorku, začne se distribuce vzorkování přibližovat normálnímu rozdělení. Jak velká musí být velikost vzorku, aby došlo k této aproximaci?
Závisí to na tvaru distribuce proměnné v základní populaci. Čím více se rozdělení populace liší od normálu, tím větší musí být velikost vzorku. Statistici obvykle tvrdí, že pro většinu distribucí stačí velikost vzorku 30. Silně zkosené distribuce však mohou vyžadovat větší velikosti vzorků. Během níže uvedené empirické demonstrace uvidíme aspekt velikosti vzorku v akci.
Věta o středním limitu a přibližování normálního rozdělení
Rekapitulace, věta o středním limitu spojuje následující dvě rozdělení :
- Distribuce proměnné v populaci.
- Distribuce střední hodnoty vzorkování.
Konkrétně uvádí CLT že bez ohledu na distribuci proměnné v populaci bude mít výběrové rozdělení průměru tendenci se přibližovat normálnímu rozdělení.
Jinými slovy, distribuce populace může vypadat takto:
Distribuce vzorků však může vypadat takto:
Není divu, že normálně distribuovaná proměnná vytváří distribuci vzorkování, která také sleduje normální distribuci. Překvapivě však mohou nenormální distribuce populace také vytvořit normální distribuce vzorkování.
Související příspěvek: Normální rozdělení ve statistikách
Vlastnosti centrální limitní věty
Pojďme si konkrétněji představit normálové rysy centrální limitní věty. Normální rozdělení má dva parametry, střední a standardní odchylku. Na jaké hodnoty tyto parametry konvergují?
Jak se velikost vzorku zvětšuje, distribuce vzorkování konverguje na normální rozdělení, kde se průměr rovná populačnímu průměru a standardní odchylka se rovná σ / √n. Kde:
- σ = standardní odchylka populace
- n = velikost vzorku
Jak se velikost vzorku (n) zvyšuje, směrodatná odchylka distribuce vzorkování se zmenšuje, protože druhá odmocnina velikosti vzorku je ve jmenovateli. Jinými slovy, distribuční klastry vzorkování těsněji kolem průměru, jak se zvětšuje velikost vzorku.
Pojďme si toto všechno dát dohromady. Jak se velikost vzorku zvětšuje, distribuce vzorkování se více blíží normálnímu rozdělení a šíření této distribuce se zužuje. Tyto vlastnosti mají zásadní důsledky ve statistikách, o kterých pojednám později v tomto příspěvku.
Související příspěvky: Míra centrální tendence a míra variability
Empirická ukázka centrální věty o mezích / h2>
Nyní ta zábavná část! Pro centrální teorém existuje matematický důkaz, ale jde nad rámec tohoto příspěvku na blogu. Ukážu však, jak to funguje empiricky, pomocí statistického simulačního softwaru. Definuji distribuce populace a nechám software z ní odebrat tisíce náhodných vzorků. Software vypočítá průměr každého vzorku a poté tyto vzorové prostředky vykreslí do grafu na histogramu, aby se zobrazilo rozdělení vzorkování průměru.
U následujících příkladů změním velikost vzorku, abych ukázal, jak to ovlivňuje distribuci vzorkování. Abychom vytvořili distribuci vzorkování, nakreslím 500 000 náhodných vzorků, protože to v histogramu vytvoří poměrně plynulé rozdělení.
Mějte na paměti tento kritický rozdíl. I když shromáždím konzistentních 500 000 vzorků na podmínku, velikost těchto vzorků se bude lišit, což ovlivní tvar distribuce vzorků.
Pojďme si tuto teorii otestovat! K tomu použiji Statistics101, což je počítačový program na dárky. Jedná se o skvělý simulační program, který jsem také použil k řešení problému Montyho Halla!
Testování věty o centrálním limitu pomocí tří rozdělení pravděpodobnosti
Ukážu vám, jak je ústřední limitní věta funguje se třemi různými distribucemi: mírně zkosená, silně zkosená a rovnoměrná distribuce. První dvě distribuce se zkosí doprava a sledují lognormální distribuci. Graf rozdělení pravděpodobnosti níže zobrazuje rozdělení hodnot populace. Všimněte si, jak je červená přerušovaná distribuce mnohem silněji vychýlená. Ve skutečnosti jde docela daleko od grafu! Uvidíme, jak to ovlivní distribuce vzorkování.
Podívejme se, jak centrální limitní věta zachází s těmito dvěma distribuce a rovnoměrné rozdělení.
Středně zkosené rozdělení a centrální limitní věta
Níže uvedený graf ukazuje mírně zkosené lognormální rozdělení. Tato distribuce odpovídá souboru údajů o procentu tělesného tuku, který používám ve svém příspěvku o identifikaci distribuce vašich údajů. Tyto údaje odpovídají modré čáře v grafu rozdělení pravděpodobnosti výše. Simulační software používám k náhodnému odebrání vzorků z této populace 500 000krát pro každou velikost vzorku (5, 20, 40).
Ve výše uvedeném grafu šedá barva ukazuje nerovnoměrné rozložení hodnot v populaci. Ostatní barvy představují rozdělení vzorkování průměrů pro různé velikosti vzorků. Červená barva ukazuje rozdělení průměrů, když je velikost vašeho vzorku 5. Modrá označuje velikost vzorku 20. Zelená je 40. Červená křivka (n = 5) je stále trochu zkosená, ale modrá a zelená (20 a 40 ) nejsou viditelně zkresleny.
Jak se velikost vzorku zvětšuje, distribuce vzorkování se více přibližují normálnímu rozdělení a stávají se těsněji shluknuté kolem průměrné populace – přesně tak, jak uvádí centrální limitní věta!
Velmi zkosená distribuce a centrální limitní věta
Zkusme to nyní s velmi zkosenou lognormální distribucí. Tato data sledují červenou přerušovanou čáru v grafu rozdělení pravděpodobnosti výše. Sleduji stejný proces, ale používám větší velikosti vzorků 40 (šedá), 60 (červená) a 80 (modrá). Nezahrnuji distribuci populace v tomto, protože je tak zkreslená, že pokazí měřítko osy X!
Distribuce populace je extrémně vychýlená. Je to pravděpodobně více vychýlené, než jsou skutečná data.Jak můžete vidět, i při největší velikosti vzorku (modrá, n = 80) je distribuce vzorků střední hodnoty stále vychýlená. Je však méně vychýlený než distribuce vzorkování pro menší velikosti vzorků. Všimněte si také, jak se vrcholy distribuce vzorkování posouvají doprava, jak se vzorek zvyšuje. Nakonec s dostatečně velkou velikostí vzorku se distribuce vzorkování stanou symetrickými a vrchol se přestane posouvat a bude se soustředit na skutečnou střední hodnotu populace.
Pokud je vaše distribuce populace extrémně vychýlená, mějte na paměti, že můžete potřebujeme značnou velikost vzorku pro teorém mezní meze, abychom nastartovali a vytvořili distribuce vzorkování, které se přibližují normálnímu rozdělení! podívejte se na úplně jiný typ distribuce. Představte si, že hodíme kostkou a vezmeme průměrnou hodnotu rolí. Pravděpodobnosti válcování čísel na matrici sledují rovnoměrné rozdělení, protože všechna čísla mají stejnou šanci na výskyt. Může centrální limitní věta pracovat s diskrétními čísly a jednotnými pravděpodobnostmi? Uvidíme!
V níže uvedeném grafu postupuji stejně jako výše. V tomto příkladu se velikost vzorku vztahuje k tomu, kolikrát hodíme matricí. Proces vypočítá průměr pro každý vzorek.
Ve výše uvedeném grafu používám velikosti vzorků 5, 20 a 40. Očekávali bychom, že průměr bude (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Distribuce vzorkování průměrů se soustředí na tuto hodnotu. Stejně jako centrální věta o limitu předpovídá, jak zvětšujeme velikost vzorku, distribuce vzorkování se více přibližují normálnímu rozdělení a mají těsnější rozložení hodnot.
Podobný experiment můžete provést pomocí binomického rozdělení s coil flips a získat stejné typy výsledků, pokud jde o, řekněme, pravděpodobnost získání hlavy. Vše díky centrální limitní větě!
Proč je centrální limitní věta důležitá?
Centrální limitní věta je ve statistice zásadní ze dvou hlavních důvodů – předpokladu normality a přesnosti odhady.
Centrální limitní věta a předpoklad normality
Skutečnost, že vzorkování distribucí může aproximovat normální distribuci, má zásadní důsledky. Ve statistikách je předpoklad normality zásadní pro parametrické hypotetické testy průměru, jako je t-test. V důsledku toho si můžete myslet, že tyto testy nejsou platné, když jsou data neobvykle distribuována. Pokud je však vaše velikost vzorku dostatečně velká, centrální limitní věta nastartuje a vytvoří distribuce vzorkování, které se blíží normálnímu rozdělení. Tato skutečnost vám umožňuje používat tyto testy hypotéz, i když jsou vaše data neobvykle distribuovaná – pokud je velikost vašeho vzorku dostatečně velká.
Možná jste slyšeli, že parametrické testy průměru jsou robustní pro odchylky od předpoklad normality, když je velikost vašeho vzorku dostatečně velká. To je díky teorému o mezním limitu!
Další informace o tomto aspektu najdete v mém příspěvku, který porovnává parametrické a neparametrické testy.
Přesnost odhadů
V všechny grafy, všimněte si, jak rozdělení vzorků středního klastru těsněji kolem populace znamená, jak se velikost vzorků zvyšuje. Tato vlastnost centrální limitní věty se stává relevantní při použití vzorku k odhadu průměru celé populace. S větší velikostí vzorku je pravděpodobnost, že se průměr vašeho vzorku blíží skutečnému průměru populace. Jinými slovy, váš odhad je přesnější.
Naopak distribuční odběry průměru pro menší velikosti vzorků jsou mnohem širší. U malých velikostí vzorků není neobvyklé, že výběrové prostředky jsou dále od skutečného průměru populace. Získáte méně přesné odhady.
Na závěr je pochopení centrální limitní věty zásadní, pokud jde o důvěryhodnost platnosti vašich výsledků a posouzení přesnosti vašich odhadů. Využijte velké velikosti vzorků k uspokojení předpokladu normality, i když jsou vaše data neobvykle distribuována, a k získání přesnějších odhadů!