Teorema limitei centrale din statistici afirmă că, având în vedere o dimensiune suficient de mare a eșantionului, distribuția de eșantionare a mediei pentru o variabilă va aproxima o distribuție normală indiferent de distribuția variabilei respective în populația.
Despachetarea semnificației din acea definiție complexă poate fi dificilă. Acesta este subiectul acestei postări! Vă voi prezenta prin diferitele aspecte ale definiției teoremei limitei centrale (CLT) și vă voi arăta de ce este vital în statistici.
Distribuția variabilei în populație
O parte din definiția teoremei limitei centrale afirmă „indiferent de distribuția variabilei în populație”. Această parte este ușoară! Într-o populație, valorile unei variabile pot urma diferite distribuții de probabilitate. Aceste distribuții pot varia de la normal, înclinat la stânga, înclinat la dreapta și uniform, printre altele.
Această parte a definiției se referă la distribuirea valorilor variabilei în populația din care extrageți un eșantion aleatoriu.
Teorema limitei centrale se aplică aproape tuturor tipurilor de distribuții de probabilitate, dar există excepții. De exemplu, populația trebuie să aibă o varianță finită. Această restricție exclude distribuția Cauchy deoarece are o varianță infinită.
În plus, teorema limitei centrale se aplică independentă, distribuită identic variabile. Cu alte cuvinte, valoarea unei observații nu depinde de valoarea unei alte observații. Și distribuția acelei variabile trebuie să rămână constantă între toate măsurătorile.
Postare legată: Înțelegerea distribuțiilor de probabilitate și a variabilelor independente și distribuite identic
Distribuirea eșantionării mediei
Definiția teoremei limitei centrale se referă, de asemenea, la „distribuția prin eșantionare a mediei”. Ce este asta?
De obicei, efectuați un studiu o singură dată și s-ar putea să calculați media acelui eșantion. Acum, imaginați-vă că repetați studiul de mai multe ori și colectați aceeași dimensiune a eșantionului pentru fiecare. Apoi , calculați media pentru fiecare dintre aceste eșantioane și le graficați pe o histogramă. Istograma afișează distribuția mediilor eșantionului, la care statisticienii se referă la distribuția eșantionării mediei.
Din fericire, nu Trebuie să repetați studiile de multe ori pentru a estima distribuția eșantionării mediei. Procedurile statistice pot estima acest lucru dintr-un singur eșantion aleatoriu.
Forma distribuției eșantionării depinde de dimensiunea eșantionului. Dacă efectuați studiați utilizând aceeași procedură și modificați doar dimensiunea eșantionului, forma distribuției eșantionării va diferi pentru fiecare dimensiune a eșantionului. Și asta ne duce la următoarea parte a definiției CLT!
Teorema limitei centrale și a Dimensiunea eșantionului suficient de mare
După cum se arată în secțiunea anterioară , forma distribuției eșantionării se modifică odată cu dimensiunea eșantionului. Și, definiția teoremei limitei centrale afirmă că atunci când aveți o dimensiune suficient de mare a eșantionului, distribuția eșantionării începe să se apropie de o distribuție normală. Cât de mare trebuie să fie dimensiunea eșantionului pentru ca această aproximare să apară?
Depinde de forma distribuției variabilei în populația subiacentă. Cu cât distribuția populației diferă de cea normală, cu atât dimensiunea eșantionului trebuie să fie mai mare. De obicei, statisticienii spun că un eșantion de 30 este suficient pentru majoritatea distribuțiilor. Cu toate acestea, distribuțiile puternic distorsionate pot necesita dimensiuni mai mari ale eșantionului. Vom vedea aspectul dimensiunii eșantionului în acțiune în timpul demonstrației empirice de mai jos.
Teorema limitei centrale și aproximarea distribuției normale
Pentru a recapitula, teorema limitei centrale leagă următoarele două distribuții. :
- Distribuția variabilei în populație.
- Distribuția eșantionării mediei.
În mod specific, CLT afirmă că, indiferent de distribuția variabilei în populație, distribuția eșantionării mediei va tinde să aproximeze distribuția normală.
Cu alte cuvinte, distribuția populației poate arăta după cum urmează:
Dar distribuția eșantionării poate apărea ca mai jos:
Nu este surprinzător faptul că o variabilă distribuită în mod normal produce o distribuție de eșantionare care urmează și distribuția normală. Dar, în mod surprinzător, distribuțiile non-normale ale populației pot crea și distribuții normale de eșantionare.
Postare asociată: Distribuție normală în statistici
Proprietățile teoremei limitei centrale
Haideți să obținem mai multe detalii despre caracteristicile de normalitate ale teoremei limitei centrale. Distribuțiile normale au doi parametri, media și abaterea standard. Pe ce valori converg acești parametri?
Pe măsură ce mărimea eșantionului crește, distribuția eșantionării converge pe o distribuție normală în care media este egală cu media populației și abaterea standard este egală cu σ / √n. Unde:
- σ = deviația standard a populației
- n = dimensiunea eșantionului
Pe măsură ce dimensiunea eșantionului (n) crește, deviația standard a distribuției de eșantionare devine mai mică deoarece rădăcina pătrată a mărimii eșantionului este în numitor. Cu alte cuvinte, distribuția eșantionării se grupează mai strâns în jurul valorii medii pe măsură ce mărimea eșantionului crește.
Să punem toate acestea împreună. Pe măsură ce mărimea eșantionului crește, distribuția eșantionării se apropie mai mult de distribuția normală, iar răspândirea acestei distribuții se strânge. Aceste proprietăți au implicații esențiale în statistici pe care le voi discuta mai târziu în acest post.
Postări corelate: Măsuri de tendință centrală și măsuri de variabilitate
Demonstrație empirică a teoremei limitei centrale
Acum partea distractivă! Există o dovadă matematică pentru teorema centrală, dar aceasta depășește sfera acestei postări de blog. Cu toate acestea, voi arăta cum funcționează empiric utilizând software-ul de simulare statistică. Voi defini distribuțiile populației și voi solicita software-ului să extragă din el multe mii de eșantioane. Software-ul va calcula media fiecărui eșantion și apoi va grafica aceste eșantioane pe o histogramă pentru a afișa distribuția eșantionării mediei.
Pentru următoarele exemple, voi varia dimensiunea eșantionului pentru a arăta cum afectează distribuția eșantionării. Pentru a produce distribuția eșantionării, voi extrage 500.000 de eșantioane aleatorii, deoarece creează o distribuție destul de lină în histogramă.
Rețineți această diferență critică. În timp ce voi colecta 500.000 de eșantioane consistente pe condiție, dimensiunea probelor respective va varia și acest lucru afectează forma distribuției eșantionării.
Să testăm această teorie! Pentru a face acest lucru, voi folosi Statistics101, care este un program de computer pentru cadouri. Acesta este un program de simulare excelent pe care l-am folosit și pentru a aborda problema Monty Hall!
Testarea teoremei limitei centrale cu trei distribuții de probabilitate
Vă voi arăta cum se teorema limitei funcționează cu trei distribuții diferite: moderat înclinat, sever înclinat și o distribuție uniformă. Primele două distribuții înclină spre dreapta și urmează distribuția lognormală. Graficul de distribuție a probabilităților de mai jos afișează distribuția valorilor populației. Observați cum distribuția punctată roșie este mult mai severă. De fapt, se extinde destul de departe de grafic! Vom vedea cum acest lucru face diferența în distribuțiile de eșantionare.
Să vedem cum tratează teorema limitei centrale pe aceste două distribuții și distribuția uniformă.
Distribuția moderat înclinată și teorema limitei centrale
Graficul de mai jos prezintă distribuția lognormală moderat înclinată. Această distribuție se potrivește cu setul de date procentual de grăsime corporală pe care îl folosesc în postarea mea despre identificarea distribuției datelor dvs. Aceste date corespund liniei albastre din graficul de distribuție a probabilităților de mai sus. Folosesc software-ul de simulare pentru a extrage probe aleatorii din această populație de 500.000 de ori pentru fiecare dimensiune a probei (5, 20, 40).
În graficul de mai sus, culoarea gri arată distribuția înclinată a valorilor în populație. Celelalte culori reprezintă distribuțiile de eșantionare ale mijloacelor pentru diferite dimensiuni ale eșantionului. Culoarea roșie arată distribuția mijloacelor atunci când dimensiunea eșantionului dvs. este 5. Albastru indică o dimensiune a eșantionului de 20. Verde este 40. Curba roșie (n = 5) este încă înclinată puțin, dar albastru și verde (20 și 40 ) nu sunt vizibil distorsionate.
Pe măsură ce mărimea eșantionului crește, distribuțiile de eșantionare se apropie mai mult de distribuția normală și devin mai strâns grupate în jurul populației – așa cum afirmă teorema limitei centrale!
Distribuție foarte înclinată și teorema limitei centrale
Acum, să încercăm acest lucru cu distribuția lognormală foarte înclinată. Aceste date urmează linia punctată roșie în graficul de distribuție a probabilității de mai sus. Urmează același proces, dar folosesc eșantioane mai mari de 40 (gri), 60 (roșu) și 80 (albastru). Nu includ distribuția populației în aceasta, deoarece este atât de înclinată încât încurcă scara axei X!
Distribuția populației este extrem de înclinată. Probabil că este mai înclinat decât tind să fie datele reale.După cum puteți vedea, chiar și cu cea mai mare dimensiune a eșantionului (albastru, n = 80), distribuția eșantionării mediei este încă înclinată corect. Cu toate acestea, este mai puțin înclinat decât distribuțiile de eșantionare pentru dimensiunile mai mici ale eșantionului. De asemenea, observați cum vârfurile distribuției de eșantionare se deplasează spre dreapta pe măsură ce eșantionul crește. În cele din urmă, cu o dimensiune suficient de mare a eșantionului, distribuțiile de eșantionare vor deveni simetrice, iar vârful se va opri din deplasare și se va concentra pe media reală a populației. avem nevoie de o dimensiune substanțială a eșantionului pentru ca teorema limitei centrale să înceapă și să producă distribuții de eșantionare care aproximează o distribuție normală!
Distribuția uniformă și teorema limitei centrale
Acum, să schimbăm vitezele și priviți un tip de distribuție complet diferit. Imaginați-vă că aruncăm o matriță și luăm valoarea medie a aruncărilor. Probabilitățile de rulare a numerelor pe o matriță urmează o distribuție uniformă, deoarece toate numerele au aceeași șansă de apariție. Poate teorema limitei centrale să funcționeze cu numere discrete și probabilități uniforme? Să vedem!
În graficul de mai jos, urmez aceeași procedură ca mai sus. În acest exemplu, dimensiunea eșantionului se referă la numărul de ori când rulăm matrița. Procesul calculează media pentru fiecare eșantion.
În graficul de mai sus, folosesc dimensiunile eșantionului de 5, 20 și 40. Ne-am aștepta ca media să fie (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Distribuțiile de eșantionare ale mijloacelor se concentrează pe această valoare. Așa cum prezice teorema limitei centrale, pe măsură ce mărim dimensiunea eșantionului, distribuțiile de eșantionare aproximează mai aproape o distribuție normală și au o răspândire mai strânsă a valorilor.
Ați putea efectua un experiment similar folosind distribuția binomială cu aruncă monede și obține aceleași tipuri de rezultate atunci când vine vorba, să zicem, de probabilitatea de a obține capete. Toate datorită teoremei limitei centrale!
De ce este importantă teorema limitei centrale?
Teorema limitei centrale este vitală în statistici din două motive principale – presupunerea normalității și precizia estimările.
Teorema limitei centrale și presupunerea normalității
Faptul că distribuțiile de eșantionare pot aproxima o distribuție normală are implicații critice. În statistici, presupunerea normalității este vitală pentru testele parametrice ale ipotezei mediei, cum ar fi testul t. În consecință, ați putea crede că aceste teste nu sunt valabile atunci când datele sunt distribuite în mod normal. Cu toate acestea, dacă dimensiunea eșantionului dvs. este suficient de mare, teorema limitei centrale începe și produce distribuții de eșantionare care aproximează o distribuție normală. Acest fapt vă permite să utilizați aceste teste de ipoteză chiar și atunci când datele dvs. sunt distribuite în mod normal – atâta timp cât dimensiunea eșantionului dvs. este suficient de mare. presupunerea normalității atunci când dimensiunea eșantionului este suficient de mare. Asta datorită teoremei limitei centrale!
Pentru mai multe informații despre acest aspect, citiți postarea mea care compară testele parametrice și nonparametrice.
Precizia estimărilor
În toate graficele, observați cum distribuțiile de eșantionare ale grupului mediu sunt mai strânse în jurul populației, pe măsură ce mărimile eșantionului cresc. Această proprietate a teoremei limitei centrale devine relevantă atunci când se utilizează un eșantion pentru a estima media unei populații întregi. Cu o dimensiune a eșantionului mai mare, media eșantionului dvs. este mai probabil să fie aproape de media populației reale. Cu alte cuvinte, estimarea dvs. este mai precisă.
În schimb, distribuțiile de eșantionare ale mediei pentru dimensiuni mai mici ale eșantionului sunt mult mai largi. În cazul eșantioanelor mici, nu este neobișnuit ca mijloacele de eșantionare să fie mai departe de media efectivă a populației. Obțineți estimări mai puțin precise.
În încheiere, înțelegerea teoremei limitei centrale este crucială atunci când vine vorba de încrederea în validitatea rezultatelor dvs. și de evaluarea preciziei estimărilor dvs. Utilizați dimensiuni mari ale eșantionului pentru a satisface presupunerea de normalitate chiar și atunci când datele dvs. sunt distribuite în mod normal și pentru a obține estimări mai precise!