Jag är inte säker när jag först hörde talas om Bayes sats. Men jag började verkligen uppmärksamma det under det senaste decenniet, efter att några av mina vanliga studenter utsåg det som en nästan magisk guide för att navigera genom livet. av satsen på Wikipedia och på andra håll, som jag tyckte var antingen för dum eller för komplicerad. Jag bestämde mig bekvämt att Bayes var en passande modefluga, inte värt en djupare undersökning. Men nu har Bayes-feber blivit alltför omfattande att ignorera.
Bayesiansk statistik ”krusar genom allt från fysik till cancerforskning, ekologi till psykologi”, rapporterar New York Times. Fysiker har föreslagit Bayesianska tolkningar av kvantmekanik. och Bayesiansk försvar av sträng- och multiversitetsteorier. Filosofer hävdar att vetenskapen som helhet kan ses som en Bayesisk process, och att Bayes kan skilja vetenskap från pseudovetenskap mer exakt än förfalskning, den metod som Karl Popper populariserat.
Forskare med artificiell intelligens, inklusive designarna av Googles självkörande bilar, använder Bayesian-programvara för att hjälpa maskiner att känna igen mönster och fatta beslut. Bayesian-program, enligt Sharon Bertsch McGrayne, författare till en populär historia om Bayes teorem, ”sortera skräppost från e-post, bedöma medicinska och hemliga säkerhetsrisker och avkoda bland annat DNA. ” På webbplatsen Edge.org oroar fysikern John Mather att Bayesianska maskiner kan vara så intelligenta att de gör människor ”föråldrade.”
Kognitiva forskare antar att våra hjärnor innehåller Bayesiska algoritmer som de uppfattar, avsiktligt, bestämmer. I november undersökte forskare och filosofer denna möjlighet vid en konferens vid New York University som heter ”Is the Brain Bayesian?” (Jag diskuterar mötet på Bloggingheads.tv och i detta uppföljningsinlägg, ”Är hjärnor Bayesian?”)
Zealots insisterar på att om fler av oss antar medvetet Bayesian-resonemang (i motsats till den omedvetna Bayesian-behandlingen) våra hjärnor förmodligen använder), skulle världen vara en bättre plats. I ”En intuitiv förklaring av Bayes teorem”, erkänner AI-teoretikern Eliezer Yudkowsky (med vilken jag en gång diskuterade singulariteten på Bloggingheads.tv) Bayesians kulturella glöd:
”Varför genererar ett matematiskt begrepp denna konstiga entusiasm hos sina elever? Vad är den så kallade Bayesianska revolutionen som nu sveper igenom vetenskapen, som hävdar att den till och med själva den experimentella metoden som ett speciellt fall? hemlighet som Bayes anhängare vet? Vad är det ljus de har sett? Snart kommer du att veta. Snart kommer du att bli en av oss. ” Yudkowsky skojar. Eller är han?
Med tanke på all denna hoopla har jag försökt komma till botten av Bayes, en gång för alla. Av de oräkneliga förklaringarna på webben har jag hittat särskilt hjälpsamma inkluderar Yudkowskys uppsats, Wikipedia inträde och kortare bitar av filosofen Curtis Brown och datavetare Oscar Bonilla och Kalid Azad. I det här inlägget ska jag försöka förklara – främst för min egen fördel – vad Bayes handlar om. Jag litar snäll läsare kommer, som vanligt, att påpeka eventuella fel. *
Uppkallad efter uppfinnaren, 1700-talets presbyterianska minister Thomas Bayes, är Bayes sats en metod för att beräkna giltigheten av övertygelser (hypoteser, påståenden, propositioner) baserat på bästa tillgängliga bevis (observationer, data, information). Här är den mest dumma beskrivningen: Initial tro plus nya bevis = ny och förbättrad tro.
Här är en fullständigare version: Sannolikheten att en tro är sann med tanke på att nya bevis är lika med sannolikheten för att tron är sant s av detta bevis gånger sannolikheten att bevisen är sanna med tanke på att tron är sant dividerat med sannolikheten för att bevisen är sanna oavsett om tron är sant. Har du det?
Medicinsk testning visar ofta formeln. Låt oss säga att du testas för cancer som uppskattas förekomma hos en procent av människorna i din ålder. Om testet är 100 procent pålitligt behöver du inte Bayes sats för att veta vad ett positivt test betyder, men låt oss använda satsen ändå, bara för att se hur det fungerar.
För att lösa för P ( B | E), du kopplar in data till höger om Bayes ekvation. P (B), sannolikheten att du har cancer innan du testas, är en procent, eller 0,01. Så är P (E), sannolikheten att du kommer att testa positivt. Eftersom de är i täljaren respektive nämnaren, avbryter de varandra, och du sitter kvar med P (B | E) = P (E | B) = 1. Om du testar positivt har du definitivt cancer och vice tvärtom.
I den verkliga världen är tester sällan om någonsin helt tillförlitliga. Så låt oss säga att ditt test är 99 procent pålitligt.Det vill säga 99 av 100 personer som har cancer kommer att testa positivt och 99 av 100 som är friska kommer att testa negativa. Det är fortfarande ett fantastiskt test. Om ditt test är positivt, hur troligt är det att du har cancer?
Nu visar Bayes sats sin kraft. De flesta antar att svaret är 99 procent, eller nära det. Så pålitligt är testet, eller hur? Men det rätta svaret, som Bayes sats ger, är bara 50 procent.
Vad sägs om nämnaren, P (E)? Här blir det svårt. P (E) är sannolikheten för att testa positivt om du har cancer eller inte. Med andra ord inkluderar det falska positiva såväl som sanna positiva.
För att beräkna sannolikheten för falskt positivt multiplicerar du frekvensen av falska positiva, vilket är en procent, eller .01, gånger procentsatsen av människor som inte har cancer, .99. Totalt blir 0,0099. Ja, ditt fantastiska, 99 procent exakta test ger lika många falska positiva som sanna positiva.
Låt oss avsluta beräkningen. För att få P (E), lägg till sanna och falska positiva för totalt .0198, som när de är uppdelade i .0099 kommer till .5. Så återigen är P (B | E), sannolikheten att du har cancer om du testar positivt, 50 procent.
Om du testas igen kan du minska din osäkerhet enormt, eftersom din sannolikhet för att ha cancer, P (B), är nu 50 procent snarare än en procent. Om ditt andra test också blir positivt, säger Bayes sats att din sannolikhet för cancer nu är 99 procent, eller 0,99. Som det här exemplet visar kan iterering av Bayes sats ge extremt exakt information.
Men om testets tillförlitlighet är 90 procent, vilket fortfarande är ganska bra, är dina chanser att faktiskt få cancer även om du testar positivt två gånger är fortfarande mindre än 50 procent. (Kontrollera min matematik med den praktiska räknaren i det här blogginlägget.)
De flesta människor, inklusive läkare, har svårt att förstå dessa odds, vilket hjälper till att förklara varför vi är överdiagnostiserade och överbehandlade för cancer och andra störningar. Detta exempel antyder att Bayesians har rätt: världen skulle verkligen vara en bättre plats om fler människor – eller åtminstone fler hälsovårdskonsumenter och leverantörer – antar Bayesian resonemang.
Å andra sidan Bayes sats är bara en kodifiering av sunt förnuft. Som Yudkowsky skriver mot slutet av sin handledning: ”Vid detta tillfälle kan Bayes” -sats verka uppenbart uppenbar eller till och med tautologisk, snarare än spännande och ny. Om så är fallet har denna introduktion helt lyckats i sitt syfte. ”
Tänk på cancerprovningsfallet: Bayes sats säger att din sannolikhet för att få cancer om du testar positivt är sannolikheten för ett verkligt positivt test dividerat med sannolikheten för alla positiva tester, falska och sanna. Kort sagt, se upp för falska positiva effekter.
Här är mitt mer allmänna uttalande av den principen: Troligheten för din tro beror på i vilken grad din tro – och bara din tro – förklarar bevisen för den. Ju mer alternativa förklaringar det finns för bevisen, desto mindre trovärdig är din tro. Det är för mig kärnan i Bayes sats.
”Alternativa förklaringar” kan omfatta många saker. Dina bevis kan vara felaktiga, snedställda av ett felaktigt instrument, felaktig analys, bekräftelseförskjutning, till och med bedrägeri. Dina bevis kan vara sunda men förklarliga av många övertygelser eller hypoteser än din.
Med andra ord, det finns inget magiskt med Bayes sats. Det handlar om sanningen att din tro bara är lika giltig som bevis. Om du har goda bevis kan Bayes-satsen ge bra resultat. Om dina bevis är spinkiga kommer Bayes-satsen inte att vara till stor nytta. Avfall in, skräp ut.
Potentialen för Bayes missbruk börjar med P (B), din ursprungliga uppskattning av sannolikheten för din tro, ofta kallad ”prior.” I exemplet med cancertestet ovan fick vi en fin, exakt förebild på en procent, eller 0,01, för förekomsten av cancer. I den verkliga världen är experter oense om hur man diagnostiserar och räknar cancer. Din prior kommer ofta att bestå av ett antal sannolikheter snarare än ett enda nummer.
I många fall är det bara gissningar att uppskatta det tidigare, så att subjektiva faktorer kan krypa in i dina beräkningar. Du kanske gissar sannolikheten för något som – till skillnad från cancer – inte ens existerar, såsom strängar, multiverser, inflation eller Gud. Du kan då citera tvivelaktiga bevis som stöder din tvivelaktiga tro. På detta sätt kan Bayes sats främja pseudovetenskap och vidskepelse såväl som förnuft.
Inbäddad i Bayes sats är ett moraliskt budskap: Om du inte är noggrann med att söka alternativa förklaringar för dina bevis, bevisen kommer bara att bekräfta vad du redan tror. Forskare misslyckas ofta med att lyssna på detta diktum, vilket hjälper till att förklara varför så många vetenskapliga påståenden visar sig vara felaktiga. Bayesians hävdar att deras metoder kan hjälpa forskare att övervinna bekräftelseförskjutningar och ge mer tillförlitliga resultat, men jag tvivlar.
Och som jag nämnde ovan omfamnar vissa sträng- och multiversentusiaster Bayesian-analys. Varför? Eftersom entusiasterna är trötta på att höra att sträng- och multiversitetsteorier är ofalificerbara och därmed okunskapliga, och Bayes sats låter dem presentera teorierna i ett mer gynnsamt ljus. I det här fallet möjliggör Bayes sats, långt ifrån att motverka bekräftelseförskjutning, det.
Som vetenskapsförfattaren Faye Flam uttryckte det nyligen i The New York Times, kan Bayesiansk statistik ”inte rädda oss från dålig vetenskap. ” Bayes sats är ett mångsidigt verktyg som kan tjäna alla orsaker. Den framstående Bayesianska statistikern Donald Rubin från Harvard har fungerat som konsult för tobaksföretag som står inför rättegångar för skador på grund av rökning.
Jag är ändå fascinerad av Bayes teorem. Det påminner mig om evolutionsteorin, en annan idé som verkar tautologiskt enkel eller skrämmande djup, beroende på hur du ser på den, och som har inspirerat rikligt nonsens samt djupgående insikter.
Kanske beror det på att min hjärna är Bayesian, men jag har börjat upptäcka anspelningar på Bayes överallt. Medan jag plogade igenom Edgar Allen Poes kompletta verk på min Kindle nyligen, kom jag över den här meningen i The Narrative of Arthur Gordon Pym of Nantucket: ”In no angelägenheter med enbart fördomar, pro eller nackdel, drar vi slutsatser med fullständig säkerhet, även från de mest enkla uppgifterna. ”
Tänk på Poes varning innan du hoppar på Bayes-vagnen.
* Mina vänner Greg, Gary och Chris skannade det här inlägget innan jag s misslyckades med det, så de borde klandras för eventuella fel.
Efterskrift: Andrew Gelman, en Bayesian statistiker i Columbia, till vars blogg jag länkar ovan (i anmärkningen om Donald Rubin), skickade mig denna begärda kommentar : ”Jag arbetar med samhälls- och miljövetenskap och politik, inte med teoretisk fysik, så jag kan inte riktigt kommentera på ett eller annat sätt om användningen av Bayes för att argumentera för sträng- och multiversitetsteorier! Jag gillar faktiskt inte inramningen där resultatet är sannolikheten för att en hypotes är sant. Detta fungerar i några enkla inställningar där ”hypoteserna” eller möjligheterna är väl definierade, till exempel stavningskontroll (se här: http://andrewgelman.com/2014/01/22/spell-checking-example/). Men jag tror inte att det är vettigt att tänka på sannolikheten att någon vetenskaplig hypotes är sann eller falsk; se det här dokumentet: http://andrewgelman.com/2014/01/22/spell-checking-example/. Kort sagt, jag tycker att Bayesianska metoder är ett utmärkt sätt att göra slutsatser inom en modell, men inte i allmänhet ett bra sätt att bedöma sannolikheten för att en modell eller hypotes är sant (jag tror faktiskt ”sannolikheten för att en modell eller en hypotes är sant är i allmänhet ett meningslöst uttalande förutom som noterats i vissa smala om än viktiga exempel). Jag märkte också det här stycket: ”I många fall är det bara gissningar att uppskatta det tidigare, så att subjektiva faktorer kan krypa in i dina beräkningar. Du kanske gissar sannolikheten för något som – till skillnad från cancer – inte ens existerar, såsom strängar, multiverser, inflation eller Gud. Du kan då citera tvivelaktiga bevis för att stödja din tvivelaktiga tro. På detta sätt kan Bayes sats främja pseudovetenskap och vidskepelse såväl som förnuft. ”Jag tycker att detta citat är något missvisande genom att alla delar av en modell är subjektiva gissningar. Eller, för att uttrycka det på ett annat sätt, hela en statistisk modell behöver förstås och utvärderas. Jag motsätter mig inställningen att datamodellen antas vara korrekt medan den tidigare distributionen är misstänkt. Här är något jag skrev om ämnet: http://andrewgelman.com/2015/01/27/perhaps-merely-accident-history-skeptics-subjectivists-alike-strain-gnat-prior-distribution-swallowing-camel-likelihood/. ”
Ytterligare läsning:
Är Brains Bayesian?
Var det fel om vetenskapens slut?
En grävning genom gamla filer påminner mig om varför jag är så kritisk för vetenskapen.
Studien avslöjar en fantastisk stigning i vetenskaplig hype. >