個人機率簡介
L·J·薩維奇和布魯諾·德費奈蒂在20世紀60年代和70年代,推導出了個人機率背後的許多數學模式。在20世紀60年代末期在北卡羅來納大學舉辦了一場統計學會議,會 上薩維奇在演講中曾闡述他的一部分想法。薩維奇認為,世界上並沒有“已被證明的科學事實”這樣的事情。有的只是一些陳述,而那些自認為是科學家的人對這些陳述持有很高的贊成機率。他舉例說,在場聽他演講的人對“地球是圓的”這項陳述一定持有很高的認同機率,但若我們有機會對全世界的人做一次普查,則我們很可能發現在中國中部的許多農民對上述陳述持有很低的機率。講到這裡的時候,薩維奇不得不被迫停下來,因為校園裡一群學生正在會堂外遊行通過。他們還高喊著口號“停止上課!罷課!罷課!停止上課!”這些學生在要求全校的學生罷課,以抗議越南戰爭。等到他們走,四周又恢復平靜,薩維奇才看看窗外,然後說:“看來,我們可能是認為地球是圓的人中的最後一代。”
個人機率有許多不同的版本。其中一個極端是薩維奇-德費奈蒂的方法,該方法認為每個人都有其自己獨特的一套機率。而另一個極端則是凱恩斯的觀點,他認為機率是一種信仰程度(the degree of belief),這種信仰是一個在特定的文化環境中一個有教養的人可能期望持有的信念。按照凱恩斯的觀點,一個特定文化環境中的所有人(薩維奇所說的科學家或中國中部的農民)對某一特定的陳述,會持有一個一般的機率水平。由於這個機率水平取決於文化和時間,因此從某種絕對的意義上為說,很有可能這個適當的機率水平是錯的。
薩維奇和德費奈蒂則主張每個人都有自己特定的一套個人機率,他們還描述怎樣運用一種叫做“標準賭博”(standard gamble)的技巧把這種個人機率求出來。為了讓整個文化中的人能共享既定的一套機率,凱恩斯不得不弱化相關的數學定義,機率不再是一個精確的數字(例如67%),而是一種將想法排序的方法(例如,明天可能下雨的機率大於 可能下雪的機率)。
貝葉斯定理與個人機率
不管個人機率的概念是如何被準確定義的,貝葉斯定理在個人機率中的套用方式,看上去與大多數的想法相吻合。貝葉斯方法一開始是假設在一個人的頭腦中有一組先驗機率(a prior set of probabilities),接下來這個人經過觀測或實驗產生了數據,然後再拿這組數據來修正先驗機率(prior probability),生成一組後驗機率(a posterior set of probabilities):
先驗機率 → 數據 → 後驗機率
假設這個人想確定是否所有的大烏鴉都是黑的。她首先存有一些關於“這個陳述是真的”機率的先驗知識。例如,起初她可能對大烏鴉一無所知,對“所有大烏鴉都是黑的”這句話半信半疑,相信比例是50:50。數據則包括她對大烏鴉的觀測。假如她看到了一隻大烏鴉,而且這隻大烏鴉是黑色的,她的後驗機率就會增加。因此下一次她再觀測大烏鴉時,她的新的先驗機率(也就是上一次的後驗機率)就會大於50%,如果她繼續觀測大烏鴉而且都是黑的,這個機率還會繼續上升。
另一方面,一個人也有可能在進行觀測之前就已經帶著非常強的事前主見,其程度非常強,需要有很大量的數據才能改變這個事前主見。在20世紀80年代,美國賓夕法尼亞州的三里島核電廠發生了近乎是災難性的事故。反應爐的操作員面對一個很大的操作盤,通過上面的各種儀表和指示燈來了解反應爐的運轉情況。這些指示燈當中有一些是警告燈,其中有的出過問題,以前曾經發出過假的警告。當時操作員有個事先的成見,當他們看見任何一個新的警告燈亮時,總是認為它是假的信號。結果,即使當警告燈的型態及相關的指示器都一致顯示反應爐的水位過低時,他們仍然置之不理。他們的先驗機率太強了,以至於新的數據也無法使後驗機率產生多大的改變。
假定只有兩種可能性,就像前面署名有爭議的聯邦主義論文的例子:它不是麥迪遜寫的就是漢密爾頓寫的。於是,在套用了貝葉斯定理之後,就會得到了一個先驗勝率(prior odds)與後驗勝率(posterior odds)之間的簡單關係,這裡的數據可以歸納成一種稱為“貝葉斯因子”(Bayes factor)的東西。這是一種根本不用參考先驗勝率來刻畫數據的一種數學計算。有了這個計算工具,分析家就可以告訴讀者,插入任何他想要的先驗勝率,乘以計算出來的貝葉斯因子,再計算後驗勝率。莫斯特勒與華萊士對12篇署名有爭議的文章,每篇都是這樣處理的。
此外,他們對文章里的那些無特定含義的字出現的頻率,還進行了兩種非貝葉斯分析。
這樣他們有了四種方法來判斷有爭議文章的作者:層次貝葉斯模型,計算的貝葉斯因子,以及兩個非貝葉斯分析方法。結果如何呢?所有12篇文章都壓倒性地指向麥迪遜。
實際上,如果使用計算的貝葉斯因子,那么對某幾篇文章來說,讀者認為是漢密爾頓寫的先驗勝率可能要大於100000:1才有辦法讓後驗勝率為50:50。