Wat is een bimodale distributie?

Een bimodale verdeling is een kansverdeling met twee modi.

We gebruiken de term “modus” vaak in beschrijvende statistieken om te verwijzen naar de meest voorkomende waarde in een dataset , maar in dit geval verwijst de term “modus” naar een lokaal maximum in een grafiek.

Wanneer je een bimodale verdeling visualiseert, zul je twee verschillende “pieken” opmerken die deze twee modi vertegenwoordigen.

Dit is anders dan een unimodale distributie die slechts één piek heeft:

U kunt het verschil tussen de twee onthouden door te onthouden:

  • “bi” = twee
  • “uni” = één

Hoewel de meeste statistiekcursussen unimodale distributies gebruiken, zoals de normale distributie, om verschillende onderwerpen uit te leggen, komen bimodale distributies in de praktijk vrij vaak voor, dus het is handig om te weten hoe je ze kunt herkennen en interpreteren.

Voorbeelden van bimodale distributies

Hier zijn enkele voorbeelden van bimodale di bijdragen:

Voorbeeld 1: piekuren in restaurants

Als u een grafiek heeft gemaakt om de verdeling van klanten in een bepaald restaurant per uur te visualiseren, zou u waarschijnlijk merken dat deze een bimodale distributie met een piek tijdens de lunchuren en een andere piek tijdens de avonduren:

Voorbeeld 2: gemiddelde hoogte van twee planten soort

Stel dat je door een veld gaat en de hoogte van verschillende planten meet. Zonder het te beseffen meet je de hoogte van twee verschillende soorten – een die vrij lang is en een andere die vrij kort is. Als u een grafiek zou maken om de verdeling van hoogten te visualiseren, zou deze een bimodale verdeling volgen:

Voorbeeld # 3: examen scores

Stel dat een leraar een examen aflegt aan zijn klas leerlingen. Sommige studenten studeerden voor het examen, anderen niet. Wanneer de docent een grafiek maakt van de examenscores, volgt deze een bimodale verdeling met een piek rond lage scores voor studenten die niet hebben gestudeerd en een andere piek rond hoge scores voor studenten die wel hebben gestudeerd:

Wat zijn de oorzaken van bimodale distributies?

Er zijn typisch twee dingen die bimodale distributies veroorzaken:

1. Enkele onderliggende verschijnselen.

Vaak treden bimodale verdelingen op vanwege een aantal onderliggende verschijnselen.

Het aantal klanten dat elk uur een restaurant bezoekt volgt bijvoorbeeld een bimodale verdeling, aangezien mensen de neiging hebben om te eten uit tijdens twee verschillende tijden: lunch en diner. Dit onderliggende menselijke gedrag veroorzaakt de bimodale verdeling.

2. Twee verschillende groepen worden op één hoop gegooid.

Bimodale verdelingen kunnen ook voorkomen wanneer u eenvoudigweg twee verschillende groepen dingen analyseert zonder het te beseffen.

Als u bijvoorbeeld de hoogte van planten in een bepaald veld zonder te beseffen dat er twee verschillende soorten in hetzelfde veld groeien, zie je een bimodale verdeling wanneer je een kaart maakt.

Hoe bimodale verdelingen te analyseren

We beschrijven distributies vaak met behulp van het gemiddelde of de mediaan, omdat dit ons een idee geeft van waar het “centrum” van de distributie zich bevindt.

Helaas zijn het gemiddelde en de mediaan niet nuttig om te weten voor een bimodale distributie . De gemiddelde examenscore voor studenten in het bovenstaande voorbeeld is bijvoorbeeld 81:

Er zijn echter maar heel weinig studenten die daadwerkelijk scoren dicht bij 81. In dit geval is het gemiddelde misleidend. De meeste studenten scoorden feitelijk rond de 74 of rond de 88.

Een betere manier om bimodale verdelingen te analyseren en te interpreteren, is door verdeel de gegevens eenvoudig in twee afzonderlijke groepen en analyseer vervolgens het centrum en de spreiding voor elke groep.

We kunnen bijvoorbeeld de examenscores opsplitsen in lage scores en hoge scores en vervolgens zoeken de gemiddelde en standaarddeviatie voor elke groep.

Als u de resultaten van een analyse deelt en uw gegevens volgen een bimodale verdeling, is het handig om een histogram te maken zoals hierboven weergegeven, zodat uw publiek kan duidelijk zien dat de distributie twee verschillende “pieken” heeft en dat het alleen zin heeft om elke piek afzonderlijk te analyseren in plaats van als één grote dataset.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *