Wyjaśnienie centralnego twierdzenia granicznego

Centralne twierdzenie graniczne w statystyce stwierdza, że przy dostatecznie dużej wielkości próby rozkład próbkowania średniej dla zmiennej będzie przybliżał rozkład normalny niezależnie od rozkładu tej zmiennej w populacji.

Rozpakowanie znaczenia tej złożonej definicji może być trudne. To jest temat na ten post! Przeprowadzę Cię przez różne aspekty definicji centralnego twierdzenia granicznego (CLT) i pokażę, dlaczego jest to istotne w statystykach.

Rozkład zmiennej w populacji

Część definicji dla centralnego twierdzenia granicznego, „niezależnie od dystrybucji zmiennej w populacji”. Ta część jest prosta! W populacji wartości zmiennej mogą mieć różne rozkłady prawdopodobieństwa. Rozkłady te mogą obejmować między innymi normalne, lewostronne, prawoskośne i jednolite.

Normalny
Przekrzywiony w prawo
Lewo-przekrzywiony
Jednolity

Ta część definicji odnosi się do rozkładu wartości zmiennej w populacji, z której pobierasz próbkę losową.

Centralne twierdzenie graniczne ma zastosowanie do prawie wszystkich typów rozkładów prawdopodobieństwa, ale są wyjątki. Na przykład populacja musi mieć skończoną wariancję. To ograniczenie wyklucza rozkład Cauchyego, ponieważ ma nieskończoną wariancję.

Dodatkowo, centralne twierdzenie graniczne dotyczy niezależnych, identycznie rozłożonych zmienne. Innymi słowy, wartość jednej obserwacji nie zależy od wartości innej obserwacji. I rozkład tej zmiennej musi pozostać stały we wszystkich pomiarach.

Powiązany post: Zrozumienie rozkładów prawdopodobieństwa oraz zmiennych niezależnych i identycznie rozłożonych

Rozkład próbkowania średniej

Definicja centralnego twierdzenia granicznego odnosi się również do „rozkładu próbkowania średniej”. Co to jest?

Zwykle przeprowadzasz badanie raz i możesz obliczyć średnią z tej jednej próbki. Teraz wyobraź sobie, że powtarzasz badanie wiele razy i zbierasz tę samą wielkość próbki dla każdej z nich. , obliczysz średnią dla każdej z tych próbek i wykreślisz ją na histogramie. Histogram przedstawia rozkład średnich z próby, które statystycy nazywają rozkładem średniej z próbkowania.

Na szczęście nie ” Trzeba wielokrotnie powtarzać badania, aby oszacować rozkład próbkowania średniej. Procedury statystyczne mogą oszacować to na podstawie pojedynczej losowej próby.

Kształt rozkładu próbkowania zależy od wielkości próby. Jeśli wykonasz badania przy użyciu tej samej procedury i zmień tylko wielkość próby, kształt rozkładu próbkowania będzie różny dla każdej wielkości próby. I to prowadzi nas do następnej części definicji CLT!

Centralne twierdzenie graniczne i a Wystarczająco duży rozmiar próby

Jak stwierdzono w poprzedniej sekcji , kształt rozkładu próby zmienia się wraz z wielkością próby. A definicja centralnego twierdzenia granicznego stwierdza, że gdy masz wystarczająco dużą próbę, rozkład próbkowania zaczyna przybliżać rozkład normalny. Jak duża musi być wielkość próby, aby nastąpiło to przybliżenie?

Zależy to od kształtu rozkładu zmiennej w populacji bazowej. Im bardziej rozkład populacji różni się od normalnego, tym większa musi być wielkość próby. Zazwyczaj statystycy twierdzą, że wielkość próby 30 jest wystarczająca dla większości rozkładów. Jednak mocno wypaczone rozkłady mogą wymagać większych rozmiarów próbek. Zobaczymy aspekt wielkości próbki w akcji podczas demonstracji empirycznej poniżej.

Centralne twierdzenie graniczne i przybliżanie rozkładu normalnego

Podsumowując, centralne twierdzenie graniczne łączy następujące dwa rozkłady :

  • Rozkład zmiennej w populacji.
  • Rozkład próbkowania średniej.

W szczególności CLT stwierdza że niezależnie od rozkładu zmiennej w populacji, rozkład próby średniej będzie zbliżał się do rozkładu normalnego.

Innymi słowy, rozkład populacji może wyglądać następująco:

Jednak rozkład próbkowania może wyglądać jak poniżej:

Nic dziwnego, że zmienna o rozkładzie normalnym daje rozkład próbkowania, który również jest zgodny z rozkładem normalnym. Ale, co zaskakujące, nienormalne rozkłady populacji mogą również tworzyć normalne rozkłady próbkowania.

Powiązany post: Rozkład normalny w statystyce

Właściwości centralnego twierdzenia granicznego

Przejdźmy bardziej szczegółowo do cech normalności centralnego twierdzenia granicznego. Rozkłady normalne mają dwa parametry, średnią i odchylenie standardowe. Z jakimi wartościami te parametry są zbieżne?

Wraz ze wzrostem wielkości próby rozkład próbkowania zbiega się na rozkładzie normalnym, gdzie średnia jest równa średniej populacji, a odchylenie standardowe wynosi σ / √n. Gdzie:

  • σ = odchylenie standardowe populacji
  • n = wielkość próby

Wraz ze wzrostem liczebności próby (n), odchylenie standardowe rozkładu próbkowania zmniejsza się, ponieważ w mianowniku znajduje się pierwiastek kwadratowy z wielkości próby. Innymi słowy, rozkład próbkowania skupia się ściślej wokół średniej wraz ze wzrostem wielkości próby.

Połączmy to wszystko razem. Wraz ze wzrostem wielkości próby rozkład próbkowania bardziej zbliża się do rozkładu normalnego, a jego rozrzut się zawęża. Właściwości te mają istotne implikacje w statystykach, które omówię w dalszej części tego postu.

Powiązane posty: Miary tendencji centralnej i miary zmienności

Demonstracja empiryczna centralnego twierdzenia granicznego

Teraz najfajniejsza część! Istnieje dowód matematyczny na centralne twierdzenie, ale wykracza to poza zakres tego wpisu na blogu. Jednak pokażę empirycznie, jak to działa, używając oprogramowania do symulacji statystycznych. Zdefiniuję rozkłady populacji i poproszę oprogramowanie o pobranie z niego wielu tysięcy losowych próbek. Oprogramowanie obliczy średnią z każdej próbki, a następnie wykreśli te średnie z próbek na histogramie, aby wyświetlić rozkład próbkowania średniej.

W poniższych przykładach zmienię wielkość próbki, aby pokazać, jak to wpływa na rozkład próbkowania. Aby uzyskać rozkład próbkowania, narysuję 500 000 losowych próbek, ponieważ tworzy to dość płynny rozkład na histogramie.

Pamiętaj o tej krytycznej różnicy. Chociaż będę zbierać spójne 500 000 próbek dla każdego warunku, rozmiar tych próbek będzie różny, co wpływa na kształt rozkładu próbkowania.

Przetestujmy tę teorię! Aby to zrobić, użyję programu Statistics101, który jest programem komputerowym jako upominek. To świetny program symulacyjny, którego użyłem również do rozwiązania problemu Montyego Halla!

Testowanie centralnego twierdzenia granicznego z trzema rozkładami prawdopodobieństwa

Pokażę ci, jak Twierdzenie graniczne działa z trzema różnymi dystrybucjami: umiarkowanie skośnym, mocno skośnym i równomiernym. Pierwsze dwie dystrybucje pochylają się w prawo i są zgodne z rozkładem log-normalnym. Poniższy wykres rozkładu prawdopodobieństwa przedstawia rozkład wartości populacji. Zwróć uwagę, że rozkład z czerwonymi kreskami jest znacznie bardziej wypaczony. W rzeczywistości znacznie wykracza to poza wykres! Zobaczymy, jak to wpływa na rozkład próbkowania.

Zobaczmy, jak centralne twierdzenie graniczne obsługuje te dwa dystrybucje i rozkład jednorodny.

Umiarkowanie skośny rozkład i centralne twierdzenie graniczne

Poniższy wykres przedstawia umiarkowanie skośny rozkład logarytmiczno-normalny. Ta dystrybucja jest zgodna ze zbiorem danych dotyczących procentowej zawartości tkanki tłuszczowej, którego używam w moim poście o określaniu dystrybucji Twoich danych. Dane te odpowiadają niebieskiej linii na powyższym wykresie rozkładu prawdopodobieństwa. Używam oprogramowania symulacyjnego do losowania próbek z tej populacji 500 000 razy dla każdej wielkości próby (5, 20, 40).

Na powyższym wykresie szary kolor przedstawia skośny rozkład wartości w populacji. Pozostałe kolory przedstawiają rozkłady prób średnich dla różnych wielkości próbek. Kolor czerwony pokazuje rozkład średnich, gdy wielkość twojej próbki wynosi 5. Niebieski oznacza wielkość próbki 20. Zielony to 40. Czerwona krzywa (n = 5) jest nadal nieco przekrzywiona, ale niebieski i zielony (20 i 40 ) nie są w widoczny sposób wypaczone.

Wraz ze wzrostem wielkości próby rozkłady próbkowania bliżej przybliżają rozkład normalny i stają się ściślej skupione wokół średniej populacji – tak jak stwierdza centralne twierdzenie graniczne!

Bardzo wypaczony rozkład i centralne twierdzenie graniczne

Spróbujmy teraz z bardzo wypaczonym rozkładem log-normalnym. Dane te są zaznaczone czerwoną przerywaną linią na powyższym wykresie rozkładu prawdopodobieństwa. Postępuję według tego samego procesu, ale używam większych próbek o wielkości 40 (szary), 60 (czerwony) i 80 (niebieski). Nie uwzględniam rozkładu populacji w tym, ponieważ jest on tak wypaczony, że zakłóca skalę osi X!

Rozkład populacji jest bardzo wypaczony. Prawdopodobnie jest bardziej wypaczony niż rzeczywiste dane.Jak widać, nawet przy największej wielkości próby (niebieska, n = 80), rozkład próby średniej jest nadal skośny w prawo. Jest jednak mniej wypaczony niż rozkłady próbkowania dla mniejszych próbek. Zwróć także uwagę, jak piki rozkładu próbkowania przesuwają się w prawo wraz ze wzrostem próbki. W końcu, przy wystarczająco dużej wielkości próby, rozkłady próbkowania staną się symetryczne, a pik przestanie się przesuwać i wyśrodkuje na rzeczywistej średniej populacji.

Jeśli rozkład populacji jest bardzo wypaczony, pamiętaj, że możesz potrzebujemy znacznej wielkości próby, aby centralne twierdzenie graniczne zadziałało i wygenerowało rozkłady próbkowania, które przybliżają rozkład normalny!

Rozkład jednorodny i centralne twierdzenie graniczne

Teraz zmieńmy biegi i spójrz na zupełnie inny rodzaj dystrybucji. Wyobraź sobie, że rzucamy kostką i bierzemy średnią wartość rzutów. Prawdopodobieństwa wyrzucenia liczb na kostce są rozkładane równomiernie, ponieważ wszystkie liczby mają taką samą szansę na wystąpienie. Czy centralne twierdzenie graniczne może działać z liczbami dyskretnymi i jednolitymi prawdopodobieństwami? Zobaczmy!

Na poniższym wykresie postępuję zgodnie z tą samą procedurą, co powyżej. W tym przykładzie rozmiar próbki odnosi się do liczby rzutów kostką. Proces oblicza średnią dla każdej próbki.

Na powyższym wykresie używam próbek o wielkości 5, 20 i 40. Spodziewalibyśmy się, że średnia wyniesie (1 + 2 + 3 + 4 + 5 + 6/6 = 3,5). Rozkłady próbkowania średnich koncentrują się na tej wartości. Tak jak przewiduje centralne twierdzenie graniczne, gdy zwiększamy wielkość próby, rozkłady próbkowania są bardziej zbliżone do rozkładu normalnego i mają węższy rozkład wartości.

Możesz przeprowadzić podobny eksperyment, używając rozkładu dwumianowego z rzuca monetą i uzyskuje takie same wyniki, jeśli chodzi, powiedzmy, o prawdopodobieństwo uzyskania orła. Wszystko dzięki centralnemu twierdzeniu granicznemu!

Dlaczego centralne twierdzenie graniczne jest ważne?

Centralne twierdzenie graniczne jest istotne w statystyce z dwóch głównych powodów – założenie o normalności i precyzja oszacowania.

Centralne twierdzenie graniczne i założenie o normalności

Fakt, że rozkłady próbkowania mogą przybliżać rozkład normalny, ma krytyczne konsekwencje. W statystyce założenie o normalności jest istotne dla testów hipotez parametrycznych średniej, takich jak test t. W związku z tym możesz pomyśleć, że te testy nie są prawidłowe, gdy dane są rozprowadzane w sposób nienormalny. Jeśli jednak rozmiar twojej próby jest wystarczająco duży, centralne twierdzenie graniczne włącza się i tworzy rozkłady próbkowania, które przybliżają rozkład normalny. Fakt ten pozwala na użycie tych testów hipotez nawet wtedy, gdy dane są rozłożone nienormalnie – o ile wielkość próby jest wystarczająco duża.

Być może słyszałeś, że testy parametryczne średniej są odporne na odstępstwa od założenie normalności, gdy wielkość próby jest wystarczająco duża. To zasługa centralnego twierdzenia granicznego!

Aby uzyskać więcej informacji na temat tego aspektu, przeczytaj mój post, w którym porównuje się testy parametryczne i nieparametryczne.

Dokładność szacunków

W Na wszystkich wykresach zwróć uwagę na to, że rozkłady próbkowania w skupieniu średnich są ściślejsze wokół średniej populacji wraz ze wzrostem wielkości próby. Ta właściwość centralnego twierdzenia granicznego staje się istotna, gdy używa się próbki do oszacowania średniej całej populacji. Przy większej próbie średnia z próby jest bardziej zbliżona do średniej rzeczywistej populacji. Innymi słowy, twoje oszacowanie jest dokładniejsze.

I odwrotnie, rozkłady próbkowania średniej dla mniejszych rozmiarów próbek są znacznie szersze. W przypadku małych rozmiarów próby nie jest niczym niezwykłym, że średnia z próby jest bardziej oddalona od rzeczywistej średniej populacji. Uzyskujesz mniej precyzyjne szacunki.

Podsumowując, zrozumienie centralnego twierdzenia granicznego jest kluczowe, jeśli chodzi o zaufanie do poprawności wyników i ocenę dokładności oszacowań. Używaj dużych próbek, aby spełnić założenie o normalności, nawet jeśli dane są rozłożone nienormalnie i uzyskać dokładniejsze szacunki!

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *