중앙 한계 정리 설명

통계의 중앙 한계 정리는 충분히 큰 표본 크기가 주어지면 변수에 대한 평균의 표본 분포가 해당 변수의 분포에 관계없이 정규 분포에 가깝다는 것을 말합니다. 인구.

복잡한 정의에서 의미를 푸는 것은 어려울 수 있습니다. 이것이이 게시물의 주제입니다! CLT (중심 한계 정리) 정의의 다양한 측면을 살펴보고 이것이 통계에서 중요한 이유를 보여 드리겠습니다.

인구 내 변수 분포

중심 극한 정리에 대한 정의의 일부는 “모집단의 변수 분포에 관계없이”라고 말합니다. 이 부분은 간단합니다! 모집단에서 변수 값은 다양한 확률 분포를 따를 수 있습니다. 이러한 분포는 다른 분포 중에서도 정상, 왼쪽으로 치우치고, 오른쪽으로 치우치고, 균일 할 수 있습니다.

보통
오른쪽으로 치우침
왼쪽으로 치우침
유니폼

이 부분은 무작위 표본을 추출하는 모집단에서 변수 값의 분포를 나타냅니다. p>

중심 극한 정리는 거의 모든 유형의 확률 분포에 적용되지만 예외가 있습니다. 예를 들어 모집단에는 유한 분산이 있어야합니다.이 제한은 분산이 무한하기 때문에 코시 분포를 배제합니다.

또한 중앙 극한 정리는 독립적이고 동일하게 분포 된 경우에 적용됩니다. 변수. 즉, 한 관측치의 값이 다른 관측치의 값에 의존하지 않습니다. 그리고 해당 변수의 분포는 모든 측정에서 일정하게 유지되어야합니다.

관련 게시물 : 확률 분포 및 독립적이고 동일하게 분포 된 변수 이해

평균의 표본 분포

중심 극한 정리에 대한 정의는 “평균의 표본 분포”를 의미하기도합니다. 그게 무엇인가요?

일반적으로 연구를 한 번 수행하면 한 표본의 평균을 계산할 수 있습니다. 이제 연구를 여러 번 반복하고 각 표본에 대해 동일한 표본 크기를 수집한다고 가정합니다. 그런 다음 , 이러한 각 샘플의 평균을 계산하고 히스토그램에 그래프로 표시합니다. 히스토그램은 통계학자가 평균의 샘플링 분포라고 부르는 샘플 평균의 분포를 표시합니다.

다행히 우리는 그렇지 않습니다. 평균의 표본 분포를 추정하기 위해 여러 번 연구를 반복해야합니다. 통계 절차를 통해 단일 무작위 표본에서이를 추정 할 수 있습니다.

표본 분포의 모양은 표본 크기에 따라 달라집니다. 동일한 절차를 사용하여 연구하고 표본 크기 만 변경하면 표본 크기에 따라 표본 분포의 모양이 달라집니다. 그러면 CLT 정의의 다음 부분으로 이동합니다!

Central Limit Theorem 및 충분히 큰 샘플 크기

이전 섹션에서 언급했듯이 , 표본 크기에 따라 표본 분포의 모양이 변경됩니다. 그리고 중심 극한 정리의 정의에 따르면 표본 크기가 충분히 크면 표본 분포가 정규 분포에 근접하기 시작합니다. 근사치가 발생하려면 표본 크기가 얼마나 커야합니까?

기본 모집단에서 변수 분포의 모양에 따라 다릅니다. 모집단 분포가 정규 분포와 다를수록 표본 크기가 커야합니다. 일반적으로 통계 학자들은 표본 크기가 30이면 대부분의 분포에 충분하다고 말합니다. 그러나 강하게 치우친 분포에는 더 큰 표본 크기가 필요할 수 있습니다. 아래의 실증적 시연에서 샘플 크기 측면이 작동하는 것을 볼 수 있습니다.

중심 한계 정리 및 정규 분포 근사

요약하자면 중앙 한계 정리는 다음 두 분포를 연결합니다. :

  • 모집단의 변수 분포
  • 평균의 표본 분포

구체적으로 CLT는 모집단의 변수 분포에 관계없이 평균의 표본 분포는 정규 분포에 근접하는 경향이 있습니다.

즉, 모집단 분포는 다음과 같을 수 있습니다.

그러나 샘플링 분포는 다음과 같이 나타날 수 있습니다.

정규 분포 변수가 정규 분포를 따르는 표본 분포를 생성한다는 것은 놀라운 일이 아닙니다. 그러나 놀랍게도 비정규 모집단 분포도 정규 표본 분포를 생성 할 수 있습니다.

관련 게시물 : 통계의 정규 분포

중앙 극한 정리의 속성

중심 극한 정리의 정규성 특성에 대해 좀 더 구체적으로 살펴 보겠습니다. 정규 분포에는 평균과 표준 편차라는 두 개의 모수가 있습니다. 이러한 매개 변수가 수렴하는 값은 무엇입니까?

표본 크기가 증가하면 표본 분포는 평균이 모집단 평균과 같고 표준 편차가 σ / √n과 같은 정규 분포로 수렴됩니다. 여기서 :

  • σ = 모집단 표준 편차
  • n = 표본 크기

표본 크기 (n)가 증가함에 따라 표본 크기의 제곱근이 분모에 있기 때문에 표본 분포의 표준 편차가 작아집니다. 즉, 표본 크기가 증가함에 따라 표본 분포는 평균 주위에 더 밀집되어 있습니다.

이 모든 것을 종합 해 보겠습니다. 표본 크기가 증가함에 따라 표본 분포는 정규 분포에 더 근접하고 해당 분포의 산포가 좁아집니다. 이러한 속성은이 게시물의 뒷부분에서 논의 할 통계에 필수적인 의미를 갖습니다.

관련 게시물 : 중심 경향 측정 및 가변성 측정

중앙 한계 정리의 실증적 증명

이제 재미있는 부분입니다! 중앙 정리에 대한 수학적 증거가 있지만이 블로그 게시물의 범위를 벗어납니다. 그러나 통계 시뮬레이션 소프트웨어를 사용하여 실증적으로 어떻게 작동하는지 보여 드리겠습니다. 모집단 분포를 정의하고 소프트웨어에서 수천 개의 무작위 표본을 추출하도록 할 것입니다. 소프트웨어는 각 샘플의 평균을 계산 한 다음이 샘플 평균을 히스토그램에 그래프로 표시하여 평균의 샘플링 분포를 표시합니다.

다음 예에서는 샘플 크기를 변경하여 그 방법을 보여줍니다. 샘플링 분포에 영향을줍니다. 샘플링 분포를 생성하기 위해 히스토그램에서 상당히 부드러운 분포를 생성하기 때문에 500,000 개의 무작위 샘플을 그릴 것입니다.

이 중요한 차이를 염두에 두십시오. 조건 당 일관된 500,000 개의 샘플을 수집하지만 이러한 샘플의 크기는 다양하며 이는 샘플링 분포의 모양에 영향을줍니다.

이 이론을 테스트 해 보겠습니다! 이를 위해 선물용 컴퓨터 프로그램 인 Statistics101을 사용하겠습니다. 이것은 Monty Hall 문제를 해결하는데도 사용했던 훌륭한 시뮬레이션 프로그램입니다!

3 개의 확률 분포로 중앙 극한 정리 테스트

극한 정리는 세 가지 다른 분포로 작동합니다 : 적당히 치우친, 심하게 치우친, 균일 한 분포. 처음 두 분포는 오른쪽으로 치우쳐 로그 정규 분포를 따릅니다. 아래 확률 분포도는 모집단의 값 분포를 보여줍니다. 빨간색 점선 분포가 훨씬 더 심하게 치우쳐 있는지 확인하십시오. 실제로 그래프에서 꽤 멀리 확장됩니다! 이것이 샘플링 분포에서 어떻게 차이가 나는지 살펴 보겠습니다.

중앙 극한 정리가이 두 가지를 어떻게 처리하는지 살펴 보겠습니다. 분포 및 균등 분포.

보통 치우친 분포 및 중앙 한계 정리

아래 그래프는 적당히 치우친 로그 정규 분포를 보여줍니다. 이 분포는 데이터 분포 식별에 대한 게시물에서 사용한 체지방률 데이터 세트에 적합합니다. 이 데이터는 위의 확률 분포도에서 파란색 선에 해당합니다. 저는 시뮬레이션 소프트웨어를 사용하여 각 표본 크기 (5, 20, 40)에 대해이 모집단에서 무작위 표본을 50 만 번 추출합니다.

위 그래프에서 회색은 모집단 값의 치우친 분포를 보여줍니다. 다른 색상은 다양한 표본 크기에 대한 평균의 표본 분포를 나타냅니다. 빨간색은 표본 크기가 5 일 때 평균 분포를 나타냅니다. 파란색은 표본 크기 20을 나타냅니다. 녹색은 40입니다. 빨간색 곡선 (n = 5)은 여전히 약간 기울어 져 있지만 파란색과 녹색 (20 및 40 )이 눈에 띄게 치우 치지 않습니다.

표본 크기가 증가함에 따라 표본 분포는 정규 분포에 더 가깝게 가까워지고 중앙 극한 정리가 말하는 것처럼 모집단 평균 주위에 더 밀집되어 있습니다!

매우 치우친 분포와 중앙 극한 정리

이제 매우 치우친 로그 정규 분포를 사용해 보겠습니다. 이러한 데이터는 위의 확률 분포도에서 빨간색 파선을 따릅니다. 동일한 프로세스를 따르지만 40 (회색), 60 (빨간색) 및 80 (파란색)의 더 큰 샘플 크기를 사용합니다. 너무 치우쳐서 X 축 척도를 엉망으로 만들기 때문에 여기에 인구 분포를 포함하지 않았습니다!

인구 분포가 극도로 왜곡되어 있습니다. 실제 데이터보다 더 치우칠 수 있습니다.보시다시피 가장 큰 표본 크기 (파란색, n = 80)를 사용하더라도 평균의 표본 분포는 여전히 오른쪽으로 치우쳐 있습니다. 그러나 더 작은 표본 크기에 대한 표본 분포보다 덜 치우칩니다. 또한 표본이 증가함에 따라 표본 분포의 피크가 어떻게 오른쪽으로 이동하는지 확인하십시오. 결국 충분히 큰 표본 크기를 사용하면 표본 분포가 대칭이되고 피크가 이동을 멈추고 실제 모집단 평균의 중심이됩니다.

모집 분포가 극도로 치우친 경우 다음이 발생할 수 있습니다. 중심 극한 정리가 시작되어 정규 분포에 가까운 표본 분포를 생성하려면 상당한 표본 크기가 필요합니다!

균등 분포와 중심 극한 정리

이제 기어를 바꾸고 완전히 다른 유형의 배포를 살펴보십시오. 우리가 주사위를 굴리고 굴림의 평균값을 취한다고 상상해보십시오. 모든 숫자가 같은 확률로 주사위를 굴릴 확률은 균일 한 분포를 따릅니다. 중심 극한 정리가 이산 수와 균일 확률로 작동 할 수 있습니까? 봅시다!

아래 그래프에서 위와 동일한 절차를 따릅니다. 이 예에서 샘플 크기는 주사위를 굴리는 횟수를 나타냅니다. 이 프로세스는 각 샘플의 평균을 계산합니다.

위 그래프에서 저는 5, 20 및 40. 평균은 (1 + 2 + 3 + 4 + 5 + 6/6 = 3.5)가 될 것으로 예상합니다. 평균의 표본 분포는이 값을 중심으로합니다. 중심 극한 정리가 예측 한 것처럼 표본 크기를 늘리면 표본 분포는 정규 분포에 더 가깝고 값의 산포가 더 빡빡합니다.

다음과 같은 이항 분포를 사용하여 유사한 실험을 수행 할 수 있습니다. 동전 던지기를하면 앞면이 나올 확률과 같은 결과를 얻을 수 있습니다. 모두 중심 극한 정리 덕분입니다!

중심 극한 정리가 중요한 이유는 무엇입니까?

중심 극한 정리는 정규성 가정과 정밀도라는 두 가지 주요 이유로 통계에서 중요합니다. 추정.

중심 한계 정리 및 정규성 가정

표본 분포가 정규 분포에 근접 할 수 있다는 사실은 중요한 의미를 갖습니다. 통계에서 정규성 가정은 t- 검정과 같은 평균의 모수 가설 검정에 매우 중요합니다. 따라서 데이터가 비정규 분포를 따르는 경우 이러한 검정이 유효하지 않다고 생각할 수 있습니다. 그러나 표본 크기가 충분히 크면 중앙 한계 정리가 시작되어 정규 분포에 가까운 표본 분포를 생성합니다. 따라서 표본 크기가 충분히 크면 데이터가 비정규 분포를 따르는 경우에도 이러한 가설 검정을 사용할 수 있습니다.

평균의 모수 검정이 표본 크기가 충분히 클 때 정규성 가정. 중앙 극한 정리 덕분입니다!

이 측면에 대한 자세한 내용은 모수 및 비모수 테스트를 비교하는 내 게시물을 참조하십시오.

추정의 정밀도

In 모든 그래프에서 표본 크기가 증가함에 따라 모집단 주변의 평균 군집의 표본 분포가 어떻게 평균하는지 확인합니다. 중앙 극한 정리의이 속성은 표본을 사용하여 전체 모집단의 평균을 추정 할 때 관련이 있습니다. 표본 크기가 클수록 표본 평균이 실제 모집단 평균에 가까울 가능성이 높습니다. 즉, 추정치가 더 정확합니다.

반대로 더 작은 표본 크기에 대한 평균의 표본 분포는 훨씬 더 넓습니다. 표본 크기가 작은 경우 표본 평균이 실제 모집단 평균에서 멀어지는 것은 드문 일이 아닙니다. 덜 정확한 추정치를 얻습니다.

마지막으로 결과의 타당성을 신뢰하고 추정치의 정확성을 평가할 때 중심 한계 정리를 이해하는 것이 중요합니다. 데이터가 비정규 분포를 따르는 경우에도 정규성 가정을 충족하고 더 정확한 추정치를 얻으려면 큰 표본 크기를 사용하십시오!

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다