バイモーダル分布は、2つのモードを持つ確率分布です。
記述統計では、データセットで最も一般的に発生する値を指すために「モード」という用語をよく使用します。 、ただし、この場合、「モード」という用語は、チャートの極大値を指します。
バイモーダル分布を視覚化すると、これら2つのモードを表す2つの異なる「ピーク」に気付くでしょう。
これは、ピークが1つしかない単峰性分布とは異なります。
次のことを覚えておくことで、2つの違いを思い出すことができます。
- “bi” = two
- “uni” = one
ほとんどの統計コースでは、通常の分布のような単峰性の分布を使用してさまざまなトピックを説明していますが、実際には二峰性の分布がかなり頻繁に現れるため、それらを認識して解釈する方法を知っておくと便利です。
バイモーダル分布の例
バイモーダルdiの例をいくつか示します。 stributions:
例1:レストランのピーク時間
特定のレストランの顧客の分布を時間ごとに視覚化するグラフを作成した場合、次のようになる可能性があります。昼食時にピークがあり、夕食時に別のピークがある二峰性分布:
例2:2つの植物の平均高さ種
畑を回って、さまざまな植物の高さを測定したとします。気付かないうちに、2つの異なる種の高さを測定します。1つは非常に背が高く、もう1つは非常に背が低いです。高さの分布を視覚化するグラフを作成した場合、それは二峰性の分布に従います。
例3:試験スコア
教師がクラスの生徒に試験を行うとします。試験のために勉強した学生もいれば、勉強しなかった学生もいました。教師が試験のスコアのグラフを作成すると、それは二峰性の分布に従います。1つのピークは、勉強しなかった生徒の低スコアの周りにあり、もう1つのピークは、勉強した生徒の高スコアの周りにあります。
バイモーダル分布の原因は何ですか?
通常、バイモーダル分布の原因は2つあります。
1。いくつかの根本的な現象。
いくつかの根本的な現象が原因で、多くの場合、二峰性の分布が発生します。
たとえば、人々は食べる傾向があるため、1時間にレストランを訪れる顧客の数は二峰性の分布に従います。昼食と夕食の2つの異なる時間に出かけます。この根底にある人間の行動が、二峰性の分布を引き起こす原因です。
2。 2つの異なるグループがひとまとめになっています。
2つの異なるグループを気付かずに分析している場合にも、バイモーダル分布が発生する可能性があります。
たとえば、 2つの異なる種が同じフィールドで成長していることに気付かずに、特定のフィールドの植物は、グラフを作成するときにバイモーダル分布が表示されます。
バイモーダル分布を分析する方法
分布の「中心」がどこにあるかがわかるため、平均または中央値を使用して分布を説明することがよくあります。
残念ながら、平均と中央値は、バイモーダル分布について知るのに役立ちません。 。たとえば、上記の例の学生の平均試験スコアは81です。
ただし、実際にスコアを付けた学生はほとんどいません。 81に近い。この場合、平均は誤解を招く可能性があります。ほとんどの学生は実際に約74または約88を獲得しました。
バイモーダル分布を分析および解釈するためのより良い方法は、データを2つの別々のグループに分割し、各グループの中心とスプレッドを分析するだけです。
たとえば、試験のスコアを「低スコア」と「高スコア」に分割して、各グループの平均と標準偏差。
分析の結果を共有していて、データが二峰性の分布に従っている場合は、上記のようなヒストグラムを作成して、視聴者に役立つようにします。分布には2つの異なる「ピーク」があり、1つの大きなデータセットとしてではなく、各ピークを個別に分析することが理にかなっていることがはっきりとわかります。