中心極限定理の説明

統計の中心極限定理は、サンプルサイズが十分に大きい場合、変数の平均のサンプリング分布は、その変数の分布に関係なく、正規分布に近似すると述べています。人口。

その複雑な定義から意味を解き明かすことは難しい場合があります。それがこの投稿のトピックです。中心極限定理(CLT)の定義のさまざまな側面を説明し、それが統計に不可欠である理由を示します。

母集団における変数の分布

中心極限定理の定義の一部は、「母集団における変数の分布に関係なく」と述べています。この部分は簡単です。母集団では、変数の値はさまざまな確率分布に従うことができます。これらの分布は、通常、左スキュー、右スキュー、均一などの範囲になります。

通常
右スキュー
左スキュー
均一

定義のこの部分は、ランダムなサンプルを抽出する母集団における変数の値の分布を指します。

中央限界の定理は、ほとんどすべてのタイプの確率分布に適用されますが、例外があります。たとえば、母集団は有限の分散を持っている必要があります。この制限は、無限の分散を持っているため、コーシー分布を除外します。

さらに、中央限界定理は、独立した、同じように分布したものに適用されます変数。言い換えると、ある観測値は別の観測値に依存しません。また、その変数の分布は、すべての測定で一定である必要があります。

関連記事:確率分布と独立および同一分布変数の理解

平均のサンプリング分布

中心極限定理の定義は、「平均のサンプリング分布」も参照します。

通常、調査を1回実行し、その1つのサンプルの平均を計算する場合があります。ここで、調査を何度も繰り返し、それぞれについて同じサンプルサイズを収集するとします。 、これらの各サンプルの平均を計算し、ヒストグラムにグラフ化します。ヒストグラムには、統計学者が平均のサンプリング分布と呼ぶサンプル平均の分布が表示されます。

幸い、私たちは平均のサンプリング分布を推定するには、調査を何度も繰り返す必要があります。統計的手順では、単一のランダムサンプルから推定できます。

サンプリング分布の形状は、サンプルサイズによって異なります。同じ手順を使用して調査し、サンプルサイズのみを変更すると、サンプリング分布の形状はサンプルサイズごとに異なります。これにより、CLT定義の次の部分に進みます!

中央限界定理と十分に大きいサンプルサイズ

前のセクションで述べたように、サンプリング分布の形状はサンプルサイズによって変化します。また、中心極限定理の定義では、サンプルサイズが十分に大きい場合、サンプリング分布は正規分布に近似し始めるとされています。その近似が発生するためには、サンプルサイズはどのくらいの大きさである必要がありますか?

これは、基礎となる母集団における変数の分布の形状によって異なります。人口分布が通常と異なるほど、サンプルサイズを大きくする必要があります。通常、統計学者は、ほとんどの分布には30のサンプルサイズで十分であると言います。ただし、分布が大きく歪んでいると、より大きなサンプルサイズが必要になる場合があります。以下の実験的なデモンストレーションで、サンプルサイズの側面が実際に動作することを確認します。

中心極限定理と正規分布の近似

要約すると、中心極限定理は次の2つの分布をリンクします。 :

  • 母集団における変数の分布。
  • 平均のサンプリング分布。

具体的には、CLTは次のように述べています。つまり、母集団内の変数の分布に関係なく、平均のサンプリング分布は正規分布に近似する傾向があります。

つまり、母集団分布は次のようになります。

ただし、サンプリング分布は次のようになります。

正規分布変数が、正規分布にも従うサンプリング分布を生成することは驚くべきことではありません。しかし、驚くべきことに、非正規母集団分布も正規サンプリング分布を作成する可能性があります。

関連記事:統計における正規分布

中心極限定理の特性

中心極限定理の正規性の特徴について詳しく見ていきましょう。正規分布には、平均と標準偏差の2つのパラメーターがあります。これらのパラメーターはどの値に収束しますか?

サンプルサイズが大きくなると、サンプリング分布は、平均が母平均に等しく、標準偏差がσ/√nに等しい正規分布に収束します。ここで、

  • σ=母標準偏差
  • n =サンプルサイズ

サンプルサイズ(n)が大きくなると、サンプルサイズの平方根が分母にあるため、サンプリング分布の標準偏差は小さくなります。言い換えると、サンプルサイズが大きくなるにつれて、サンプリング分布は平均の周りでより緊密にクラスター化されます。

これらすべてをまとめましょう。サンプルサイズが大きくなると、サンプリング分布は正規分布により近くなり、その分布の広がりは狭くなります。これらのプロパティは、この投稿の後半で説明する統計に本質的な影響を及ぼします。

関連記事:中心傾向の測定と変動性の測定

中心極限定理の実証的デモンストレーション

これで楽しい部分になりました!中心極限定理には数学的な証明がありますが、それはこのブログ投稿の範囲を超えています。ただし、統計シミュレーションソフトウェアを使用して、それがどのように機能するかを経験的に示します。母集団の分布を定義し、ソフトウェアにそれから何千ものランダムサンプルを抽出させます。ソフトウェアは各サンプルの平均を計算し、これらのサンプル平均をヒストグラムにグラフ化して、平均のサンプリング分布を表示します。

次の例では、サンプルサイズを変更して、その方法を示します。サンプリング分布に影響します。サンプリング分布を生成するために、ヒストグラムにかなり滑らかな分布を作成するため、500,000のランダムサンプルを描画します。

この重要な違いに留意してください。条件ごとに一貫して500,000のサンプルを収集しますが、それらのサンプルのサイズはさまざまであり、それがサンプリング分布の形状に影響します。

この理論をテストしてみましょう!そのために、ギフトウェアのコンピュータプログラムであるStatistics101を使用します。これは、モンティホール問題に取り組むためにも使用した優れたシミュレーションプログラムです。

3つの確率分布を使用した中心極限定理のテスト

中心極限定理がどのように行われるかを示します。極限定理は、中程度に歪んだ、ひどく歪んだ、一様分布の3つの異なる分布で機能します。最初の2つの分布は右に偏っており、対数正規分布に従います。以下の確率分布プロットは、母集団の値の分布を示しています。赤い破線の分布がはるかに大きく歪んでいることに注目してください。それは実際にはグラフからかなり離れています!これがサンプリング分布にどのように影響するかを見ていきます。

中心極限定理がこれら2つをどのように処理するかを見てみましょう。分布と一様分布。

中程度に歪んだ分布と中心極限定理

下のグラフは、中程度に歪んだ対数正規分布を示しています。この分布は、データの分布を特定することについての私の投稿で使用する体脂肪率データセットに適合します。これらのデータは、上記の確率分布プロットの青い線に対応しています。シミュレーションソフトウェアを使用して、この母集団からサンプルサイズ(5、20、40)ごとに500,000回ランダムサンプルを抽出します。

上のグラフでは、灰色は母集団の値の偏った分布を示しています。他の色は、さまざまなサンプルサイズの平均のサンプリング分布を表します。赤い色は、サンプルサイズが5の場合の平均の分布を示します。青いはサンプルサイズが20であることを示します。緑は40です。赤い曲線(n = 5)はまだ少し歪んでいますが、青と緑(20と40) )は目に見えて歪んでいません。

サンプルサイズが大きくなると、中央限界定理が示すように、サンプリング分布は正規分布により近くなり、母平均の周りにより密集します!

非常に歪んだ分布と中央限界の定理

次に、非常に歪んだ対数正規分布でこれを試してみましょう。これらのデータは、上記の確率分布プロットの赤い破線に従います。私は同じプロセスに従いますが、40(灰色)、60(赤)、および80(青)のより大きなサンプルサイズを使用します。 X軸のスケールを台無しにするほど歪んでいるため、これには人口分布を含めません!

人口分布は極端に偏っています。おそらく、実際のデータよりも歪んでいる可能性があります。ご覧のとおり、最大のサンプルサイズ(青、n = 80)でも、平均のサンプリング分布は右に歪んでいます。ただし、サンプルサイズが小さい場合は、サンプリング分布よりも偏りが少なくなります。また、サンプルが増えると、サンプリング分布のピークが右にシフトすることに注意してください。最終的に、サンプルサイズが十分に大きい場合、サンプリング分布は対称になり、ピークはシフトを停止し、実際の母平均を中心とします。

母集団分布が極端に歪んでいる場合は、次のことに注意してください。中心極限定理を開始して正規分布に近いサンプリング分布を生成するには、かなりのサンプルサイズが必要です!

均一分布と中心極限定理

では、ギアを変更してまったく異なるタイプの分布を見てください。サイコロを振って、その平均値をとると想像してみてください。すべての数字が同じ確率で発生するため、サイコロで数字を振る確率は一様分布に従います。中心極限定理は、離散数と均一な確率で機能しますか?見てみましょう!

下のグラフでは、上記と同じ手順に従います。この例では、サンプルサイズは、サイコロを振る回数を指します。このプロセスでは、各サンプルの平均が計算されます。

上のグラフでは、5、20、およびのサンプルサイズを使用しています。 40.平均は(1 + 2 + 3 + 4 + 5 + 6/6 = 3.5)になると予想されます。平均のサンプリング分布は、この値を中心としています。中心極限定理が予測するように、サンプルサイズを大きくすると、サンプリング分布は正規分布により近くなり、値の広がりが狭くなります。

次の二項分布を使用して、同様の実験を実行できます。コイントスは、たとえば、頭を獲得する確率に関しては、同じタイプの結果を取得します。中心極限定理のおかげです!

中心極限定理が重要なのはなぜですか?

中心極限定理は、正規性の仮定との精度という2つの主な理由から統計に不可欠です。推定値。

中心極限定理と正規性の仮定

サンプリング分布が正規分布に近似できるという事実は、重大な意味を持ちます。統計では、正規性の仮定は、t検定などの平均のパラメトリック仮説検定に不可欠です。したがって、データが非正規分布である場合、これらのテストは無効であると考えるかもしれません。ただし、サンプルサイズが十分に大きい場合は、中心極限定理が適用され、正規分布に近いサンプリング分布が生成されます。この事実により、データが非正規分布である場合でも、サンプルサイズが十分に大きい限り、これらの仮説検定を使用できます。

平均のパラメトリック検定は、からの逸脱に対してロバストであると聞いたことがあるかもしれません。サンプルサイズが十分に大きい場合の正規性の仮定。これは中心極限定理のおかげです!

この側面の詳細については、パラメトリック検定とノンパラメトリック検定を比較する私の投稿を読んでください。

推定の精度

Inすべてのグラフで、サンプルサイズが大きくなるにつれて、平均クラスターのサンプリング分布が母集団の周りでどのように密になっているのかに注目してください。中心極限定理のこの特性は、サンプルを使用して母集団全体の平均を推定するときに関連します。サンプルサイズが大きいほど、サンプル平均は実際の母集団平均に近くなる可能性が高くなります。言い換えると、推定はより正確です。

逆に、小さいサンプルサイズの平均のサンプリング分布ははるかに広くなります。サンプルサイズが小さい場合、サンプル平均が実際の母平均からさらに離れていることは珍しくありません。精度の低い推定値が得られます。

最後に、結果の妥当性を信頼し、推定値の精度を評価する場合、中心極限定理を理解することが重要です。データが非正規分布である場合でも正規性の仮定を満たし、より正確な推定値を取得するには、大きなサンプルサイズを使用してください!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です