Bayes teorem: Whats the Big Deal?

Jeg er ikke sikker på når jeg første gang hørte om Bayes teorem. Men jeg begynte egentlig bare å være oppmerksom på det i løpet av det siste tiåret, etter at noen få av mine dyktigere studenter spionerte det som en nesten magisk guide for å navigere gjennom livet. av teoremet på Wikipedia og andre steder, som jeg enten fant for dum ned eller for komplisert. Jeg bestemte meg beleilig for at Bayes var en forbigående kjepphest, ikke verdt en dypere etterforskning. Men nå har Bayes-feber blitt for gjennomgripende å ignorere.

Bayesiansk statistikk «kryper gjennom alt fra fysikk til kreftforskning, økologi til psykologi,» rapporterer The New York Times. Fysikere har foreslått Bayesianske tolkninger av kvantemekanikk. og Bayesiansk forsvar av streng- og multiverse teorier. Filosofer hevder at vitenskap som helhet kan sees på som en Bayesisk prosess, og at Bayes kan skille vitenskap fra pseudovitenskap mer presist enn forfalskning, metoden som ble populært av Karl Popper.

Forskere av kunstig intelligens, inkludert designere av Googles selvkjørende biler, bruker Bayesian-programvare for å hjelpe maskiner med å gjenkjenne mønstre og ta beslutninger. Bayesian-programmer, ifølge Sharon Bertsch McGrayne, forfatter av en populær historie om Bayes teorem, «sorter spam fra e-post, vurdere medisinsk og hjemlandssikkerhetsrisiko og dekode DNA, blant annet. ” På nettstedet Edge.org bekymrer fysikeren John Mather seg om at Bayesian-maskiner kan være så intelligente at de gjør mennesker «foreldede.»

Kognitive forskere antar at hjernen vår inneholder Bayesiske algoritmer slik de oppfatter, bevisst, bestemmer. I november undersøkte forskere og filosofer denne muligheten på en konferanse ved New York University kalt «Is the Brain Bayesian?» (Jeg diskuterer møtet på Bloggingheads.tv og i dette oppfølgingsinnlegget, «Are Brains Bayesian?»)

Zealots insisterer på at hvis flere av oss vedtok bevisst Bayesian resonnement (i motsetning til den ubevisste Bayesian-behandlingen) våre hjerner tilsynelatende benytter), ville verden vært et bedre sted. I «En intuitiv forklaring på Bayes teorem,» erkjenner AI-teoretikeren Eliezer Yudkowsky (som jeg en gang diskuterte Singularity med på Bloggingheads.tv) Bayesianernes kulturelle glød:

«Hvorfor genererer et matematisk konsept denne rare entusiasmen hos studentene? Hva er den såkalte Bayesian Revolution som nå feier gjennom vitenskapene, som hevder å legge til og med selve den eksperimentelle metoden som et spesielt tilfelle? Hva er hemmelighet at tilhengerne av Bayes vet? Hva er lyset de har sett? Snart vil du vite. Snart vil du være en av oss. » Yudkowsky tuller. Eller er han?

Gitt all denne hoopla, har jeg prøvd å komme til bunns i Bayes, en gang for alle. Av de utallige forklaringene på nettet, de jeg har funnet spesielt nyttig inkluderer Yudkowskys essay, Wikipedia-innlegg og kortere stykker av filosofen Curtis Brown og dataforskerne Oscar Bonilla og Kalid Azad. I dette innlegget vil jeg prøve å forklare – først og fremst for min egen fordel – hva Bayes handler om. Jeg stoler på snill lesere vil som vanlig påpeke eventuelle feil. *

Oppkalt etter oppfinneren, den 18. århundre presbyterianske ministeren Thomas Bayes, er Bayes setning en metode for å beregne gyldigheten av tro (hypoteser, påstander, proposisjoner) basert på best tilgjengelige bevis (observasjoner, data, informasjon). Her er den mest nedfalte beskrivelsen: Innledende tro pluss nye bevis = ny og forbedret tro.

Her er en fullstendig versjon: Sannsynligheten for at en tro er sann gitt nye bevis er lik sannsynligheten for at troen er sanne hensikter s av dette beviset ganger sannsynligheten for at beviset er sant gitt at troen er sann delt på sannsynligheten for at bevisene er sanne uansett om troen er sann. Har du det?

Medisinsk testing tjener ofte til å demonstrere formelen. La oss si at du blir testet for kreft som anslås å forekomme hos en prosent av menneskene på din alder. Hvis testen er 100 prosent pålitelig, trenger du ikke Bayes-setningen for å vite hva en positiv test betyr, men la oss bruke setningen uansett, bare for å se hvordan den fungerer.

For å løse for P ( B | E), kobler du dataene til høyre side av Bayes ligning. P (B), sannsynligheten for at du har kreft før du blir testet, er en prosent, eller 0,01. Så er P (E), sannsynligheten for at du vil teste positivt. Fordi de er i henholdsvis teller og nevner, avbryter de hverandre, og du sitter igjen med P (B | E) = P (E | B) = 1. Hvis du tester positivt, har du definitivt kreft, og vice omvendt.

I den virkelige verden er tester sjelden eller aldri helt pålitelige. La oss si at testen din er 99 prosent pålitelig.Det vil si at 99 av 100 mennesker som har kreft vil teste positive, og 99 av 100 som er sunne vil teste negative. Det er fortsatt en fantastisk test. Hvis testen din er positiv, hvor sannsynlig er det at du har kreft?

Nå viser Bayes teorem sin kraft. De fleste antar at svaret er 99 prosent, eller nær det. Det er hvor pålitelig testen er, ikke sant? Men det riktige svaret, gitt av Bayes ’teorem, er bare 50 prosent.

Hva med nevneren, P (E)? Her blir ting vanskelig. P (E) er sannsynligheten for å teste positivt om du har kreft eller ikke. Med andre ord inkluderer den falske positive så vel som sanne positive.

For å beregne sannsynligheten for en falsk positiv, multipliserer du frekvensen av falske positive, som er en prosent, eller .01, ganger prosent av mennesker som ikke har kreft, .99. Totalt blir 0,0099. Ja, den fantastiske, 99 prosent nøyaktige testen din gir like mange falske positive som sanne positive.

La oss fullføre beregningen. For å få P (E), legg til sanne og falske positive for totalt .0198, som når de er delt inn i .0099 kommer til .5. Så nok en gang er P (B | E), sannsynligheten for at du har kreft hvis du tester positivt, 50 prosent.

Hvis du blir testet igjen, kan du redusere usikkerheten enormt, fordi sannsynligheten din for å ha kreft, P (B), er nå 50 prosent i stedet for en prosent. Hvis den andre testen din også kommer positivt, forteller Bayes teorem at sannsynligheten for å ha kreft nå er 99 prosent, eller 0,99. Som dette eksemplet viser, kan iterering av Bayes-setningen gi ekstremt presis informasjon.

Men hvis påliteligheten til testen din er 90 prosent, noe som fortsatt er ganske bra, er sjansene dine for å få kreft, selv om du tester positivt to ganger er fortsatt under 50 prosent. (Sjekk matematikken min med den praktiske kalkulatoren i dette blogginnlegget.)

De fleste, inkludert leger, har vanskelig for å forstå disse oddsene, noe som hjelper til med å forklare hvorfor vi er overdiagnostisert og overbehandlet for kreft og andre lidelser. Dette eksemplet antyder at Bayesianerne har rett: Verden ville virkelig vært et bedre sted hvis flere mennesker – eller i det minste flere helsevesenforbrukere og leverandører – adopterte Bayesiansk resonnement.

På den annen side, Bayes teorem er bare en kodifisering av sunn fornuft. Som Yudkowsky skriver mot slutten av opplæringen: «På dette punktet kan Bayes» -satsen virke åpenbart åpenbar eller til og med tautologisk, snarere enn spennende og ny. I så fall har denne introduksjonen fullstendig lykkes med formålet. ”

Tenk på kreftprøvesaken: Bayes teorem sier at sannsynligheten din for å få kreft hvis du tester positivt er sannsynligheten for en virkelig positiv test delt på sannsynligheten for alle positive tester, falske og sanne. Kort sagt, pass opp for falske positive.

Her er min mer generelle uttalelse om dette prinsippet: Sannsynligheten for din tro avhenger av i hvilken grad din tro – og bare din tro – forklarer beviset for den. Jo flere alternative forklaringer det er på bevisene, jo mindre sannsynlig er din tro. Det er for meg essensen av Bayes teorem. Bevisene dine kan være sunne, men forklarbare av mange andre forestillinger eller hypoteser enn din.

Med andre ord, det er ikke noe magisk ved Bayes setning. Det koker ned til sannheten om at din tro bare er like gyldig. som bevis. Hvis du har gode bevis, kan Bayes-setningen gi gode resultater. Hvis bevisene dine er spinkel, vil ikke Bayes-setningen være til stor nytte. Søppel inn, søppel ute.

Potensialet for misbruk av Bayes begynner med P (B), ditt første estimat av sannsynligheten for din tro, ofte kalt «prior.» I kreftprøveeksemplet ovenfor fikk vi en fin, presis prioritet på én prosent, eller .01, for forekomsten av kreft. I den virkelige verden er eksperter uenige om hvordan man skal diagnostisere og telle kreft. Din prior vil ofte bestå av en rekke sannsynligheter i stedet for et enkelt tall.

I mange tilfeller er estimering av prior bare gjetning, slik at subjektive faktorer kan krype inn i beregningene dine. Du gjetter kanskje sannsynligheten for noe som – i motsetning til kreft – ikke en gang eksisterer, for eksempel strenger, multiverser, inflasjon eller Gud. Du kan da sitere tvilsomme bevis for å støtte din tvilsomme tro. På denne måten kan Bayes teorem fremme pseudovitenskap og overtro så vel som fornuft. vil bare bekrefte det du allerede tror. Forskere klarer ofte ikke å følge dette ordet, noe som hjelper til med å forklare hvorfor så mange vitenskapelige påstander viser seg å være feilaktige. Bayesians hevder at metodene deres kan hjelpe forskere med å overvinne bekreftelsesforstyrrelser og gi mer pålitelige resultater, men jeg er i tvil.

Og som jeg nevnte ovenfor, omfavner noen streng- og multiversentusiaster Bayesian analyse. Hvorfor? Fordi entusiastene er lei av å høre at streng- og multiversitetsteorier er ufalsifiserbare og dermed uvitenskapelige, og Bayes ’teorem tillater dem å presentere teoriene i et gunstigere lys. I dette tilfellet muliggjør Bayes teorem det langt fra å motvirke bekreftelsesforstyrrelse.

Som vitenskapsforfatter Faye Flam nylig uttrykte det i The New York Times, kan ikke Bayesiansk statistikk redde oss fra dårlig vitenskap. ” Bayes teorem er et allsidig verktøy som kan tjene enhver sak. Den fremtredende Bayesiske statistikeren Donald Rubin fra Harvard har tjent som konsulent for tobakksselskaper som står overfor søksmål om røykeskader.

Jeg er likevel fascinert av Bayes teorem. Det minner meg om evolusjonsteorien, en annen idé som virker tautologisk enkel eller skremmende dyp, avhengig av hvordan du ser på den, og som har inspirert rikelig tull og dyp innsikt.

Kanskje det er fordi hjernen min er Bayesian, men jeg har begynt å oppdage hentydninger til Bayes overalt. Mens jeg pløyet gjennom Edgar Allen Poes komplette verk på Kindle nylig, kom jeg over denne setningen i The Narrative of Arthur Gordon Pym of Nantucket: «In no saker med bare fordommer, pro eller ulemper, trekker vi slutninger med full sikkerhet, selv fra de mest enkle dataene. ”

Husk Poes advarsel før du hopper på Bayes-vognen.

* Mine venner Greg, Gary og Chris skannet dette innlegget før jeg s opplyste det, så de burde klandres for eventuelle feil.

Innskrift: Andrew Gelman, en Bayesian statistiker i Columbia, til bloggen jeg lenker til ovenfor (i kommentaren til Donald Rubin), sendte meg denne anmodede kommentaren. : «Jeg jobber med samfunns- og miljøvitenskap og politikk, ikke med teoretisk fysikk, så jeg kan egentlig ikke kommentere en eller annen måte bruken av Bayes til å argumentere for streng- og multiversteorier! Jeg liker faktisk ikke innrammingen der utfallet er sannsynligheten for at en hypotese er sann. Dette fungerer i noen enkle innstillinger der ‘hypotesene’ eller mulighetene er godt definert, for eksempel stavekontroll (se her: http://andrewgelman.com/2014/01/22/spell-checking-example/). Men jeg tror ikke det er fornuftig å tenke på sannsynligheten for at noen vitenskapelig hypoteser er sanne eller falske; se dette papiret: http://andrewgelman.com/2014/01/22/spell-checking-example/. Kort sagt, jeg tror Bayesianske metoder er en fin måte å gjøre slutning innenfor en modell, men generelt ikke en god måte å vurdere sannsynligheten for at en modell eller hypotese er sann (jeg tror faktisk «sannsynligheten for at en modell eller en hypotese er sant er vanligvis en meningsløs uttalelse bortsett fra som nevnt i visse smale, men viktige eksempler). Jeg la også merke til dette avsnittet ditt: ‘I mange tilfeller er det bare å gjette å estimere det foregående, slik at subjektive faktorer kan krype inn i beregningene dine. Du gjetter kanskje sannsynligheten for noe som – i motsetning til kreft – ikke en gang eksisterer, for eksempel strenger, multiverser, inflasjon eller Gud. Du kan da sitere tvilsomme bevis for å støtte din tvilsomme tro. På denne måten kan Bayes teorem fremme pseudovitenskap og overtro så vel som fornuft. ’Jeg synes dette sitatet er noe misvisende ved at alle deler av en modell er subjektivt gjetning. Eller for å si det på en annen måte, hele en statistisk modell må forstås og evalueres. Jeg motsetter meg holdningen om at datamodellen antas å være riktig mens den tidligere distribusjonen er mistenkt. Her er noe jeg skrev om emnet: http://andrewgelman.com/2015/01/27/perhaps-merely-accident-history-skeptics-subjectivists-alike-strain-gnat-prior-distribution-swallowing-camel-likelihood/. ”

Videre lesing:

Er Brains Bayesian?

Var jeg galt med vitenskapens slutt?

En graving gjennom gamle filer minner meg om hvorfor jeg er så kritisk for vitenskap.

Studien avslører en fantastisk bølge i vitenskapelig spreng.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *