個人資料
維立 (熱門博主)
  • 博客訪問:
正文

【讀書筆記】總統選舉和“錯得越來越少”

(2018-03-13 12:51:11) 下一個

最近終於讀完了Nate Silver的The Signal and the Noise。Nate Silver聲名鵲起,是因為他創辦的538網站(http://www.fivethirtyeight.com/)在2012年總統大選中正確預測了49個州的選舉結果。但在2016年的總統大選中,538網站預測希拉裏大獲全勝,誤導了包括我在內的很多選民,聲譽頓時一落千丈。因為這個原因,這本書被我置之高閣,幾乎要永遠打入冷宮,直到最近才生出悲天憫人之心,給了它第二次機會。

The Signal and the Noise是一本關於預測的書。生活中的種種事情,包括選舉結果、體育比賽的輸贏、天氣的晴雨,都有人預測;很多活動,像打撲克、下象棋、投資股票,也都需要在采取行動時估計可能出現的各種結果的概率,說起來也是一種預測。Nate Silver選擇了一些最有名的預測案例或領域,分析了它們或成功或失敗的原因,對預測這門無處不在、無孔不入的學問提出了很多有趣的看法。以前隻知道Silver是預測選舉結果的名家,讀了這本書才知道,他從來就是一個喜歡賭博這類投機活動的怪才。他是個頗有建樹的撲克玩家,對研究棒球統計數據也很有心得,還開發過一套預測棒球運動員表現的軟件係統。年輕的時候,坐在大公司的辦公室中,做著朝九晚五的工作,他也困惑過自己在這個世界上的使命到底是什麽。二十年後,回過頭來,至少在讀The Signal and the Noise這本書的我看來,他對什麽最感興趣是一目了然的。他能掃去落葉浮塵,找到那條原本就屬於他的職業軌跡,雖然不算僥幸,也是一種幸運。

因為是關於概率論和統計學在日常生活中的應用的通俗讀物,The Signal and the Noise讓人想起前幾年洛陽紙貴的關於生活中的經濟學的超級暢銷書Freakonomics。但The Signal and the Noise雖然也登上紐約時報和亞馬遜的暢銷榜,在知名度和影響力上卻比Freakonomics略遜一籌。Freakonomics的文筆更花哨,The Signal and the Noise則比較平實。但該書每一章都內容翔實又簡潔流暢、脈絡分明,讓人學到很多東西,回想起來反而比Freakonomics更有味道。

其中有一章,Less and Less and Less Wrong(“錯得越來越少”),我覺得尤其有意思。說起來慚愧,我也是讀過統計學博士課程的人,這麽多年不碰那些高深的知識,現在居然連通俗讀物中提到的最粗淺的入門概率知識都讓我感到了小小的按捺不住的激動。我這裏指的當然是這一章的中心話題,貝葉斯定理。如果你已經忘了的話,貝葉斯定理是關於條件概率的一個重要定理。假設A事件的發生有一定的概率。然後與A事件相關的B事件發生了。根據這個新信息,我們可以對A事件發生的概率做出修正,即B事件發生的條件下A事件發生的概率,貝葉斯定理則提供了計算這個修正的概率的公式。

但我的激動也不全是溫故知新,記起了芳華歲月的陳年舊事,而是因為在這一章裏,我第一次聽人談起了貝葉斯定理的哲學意義。我不記得以前的概率老師談過哲學,即使他們談過,可能我也聽不懂或者不感興趣吧,但今天的我偏偏對哲學比對數學感興趣。這可能是中年危機的一個標誌,不過這是題外話。如果暫時把數學公式放在一邊,想象自己已經上升到哲學家的高度,貝葉斯定理背後一個不言而喻的假設,是我們對一個事件發生的概率是有看法的。要運用貝葉斯定理,不但要知道A事件發生的概率,還要知道B事件發生的概率,還要知道A事件發生的條件下B事件發生的概率。也就是說,貝葉斯定理假設觀察者一開始是有知識的。這些知識不一定準確,甚至不一定正確,而貝葉斯定理的使命,就是讓觀察者在獲取更多信息後,根據新近獲取的信息修正已有的知識,讓知識更準確完善。

有些統計學家不同意貝葉斯定理的這個基本假設。他們認為,人為的知識是主觀的,以這種知識為基礎建立起來的模型是岌岌可危的樓房,其客觀性是不可信任的。他們主張從完全自然、客觀的角度出發,直接為事件本身建立模型來獲取知識。比方說,隻有在觀察到事件A在大量獨立重複試驗中發生的頻率趨近於p之後,我們才能下結論說p是A事件發生的概率。因此如果想知道拋硬幣時正麵朝上的概率,我們就得不斷地拋硬幣。當拋擲次數趨向無窮時,正麵朝上的頻率即正麵朝上的概率。這一派統計學家被稱為頻率學派。

在頻率學派和貝葉斯學派的交鋒中,頻率學派占了上風。如今的主流統計學教材大都以頻率學派的理論框架為主,貝葉斯理論則一筆帶過。可能這也是為什麽,我不記得以前聽到過“頻率學派”這個名詞。統計學課本不必提這個名詞,因為統計學就是頻率學派。倒是貝葉斯定理,因為是旁枝末節,課本的作者反而會拎出來吆喝一聲,販賣一下。

但Nate Silver是貝葉斯學派的追隨者。頻率學派清雅高潔,不想受任何人為偏見汙染,以做到絕對地客觀公正,這個出發點雖然令人肅然起敬,卻不一定能減少錯誤,導致更令人滿意的結果。拒絕讓數據之外的其他知識在預測中扮演任何角色,不過是想逃離現實世界的混亂,躲進象牙塔和世外桃源。可惜不管怎麽躲,現實世界還是在象牙塔的窗外施施然地兀自佇立著,還是雜亂無章,充滿了錯誤和偏見。

貝葉斯學派代表了一種更務實的態度。它從先驗概率開始,一上來就承認人都是有觀點的,即使這些觀點可能是偏見,不一定正確。然後它用新的信息,來漸漸修正之前的觀點,不求完美,但求“錯得越來越少”。簡單地說,頻率學派是完美主義者,貝葉斯學派卻是現實主義者。但世界上的事情很奇怪,“完美”的人未必比“不完美”的人高明,追求完美也不一定導致完美。完美主義者走偏鋒和鑽牛角尖的時候是很可怕的,比較起來現實主義者反而比較穩重可靠。

在大數據的時代,對頻率學派和貝葉斯學派這兩種不同的統計哲學的比較似乎又有了新的生命。前所未有的海量數據當然令人心潮澎湃,浮想聯翩,但也不一定是好事情,因為它們完全有可能導致前所未有的海量的錯誤結論。脫離了上下文的數據本身是沒什麽用的,對大數據的使用不可能脫離對數據所在領域的深厚知識的引導,不然很可能鬧出癩蛤蟆預測地震、超級杯預測股市的笑話。

但即使是貝葉斯定理最忠實的信徒,要想獲得貝葉斯定理預料的修正效果,也有一個前提,就是對一個事件的先驗概率的估計要有一定的彈性,拿現在時髦的話來講,就是要be open minded。如果對A事件發生的概率的先驗估計是100%,那麽不管有多少新信息浮出水麵,也不管這些新信息在一般情況下可以多麽有效地降低人們對A事件發生的概率的估計,根據貝葉斯定理的公式(此處將數學公式省略,大家可以放心我絕對沒有算錯),對A事件發生的概率的估計都永遠是100%。反之,如果最初不是那麽信心爆滿,板上釘釘,哪怕留有一絲餘地,比如說對A事件發生的概率的先驗估計是99%,那麽在新的不利於A事件的信息一次又一次出現之後,這個概率也有希望得到訂正。

而這正是對很多熱門社會問題的討論中可以觀察到的現象。不管是對總統的評價也好,對槍支管製的看法也好,對全民健保的立場也好,如果對自己的觀點有100%的把握,門關得緊緊的,一條細縫也不肯打開,那麽不管有多少新證據冒出來,觀點也是永遠不會改變的。也就是說,當一個人確信自己掌握了絕對真理,他便已經完全封閉了頭腦,徹底喪失了學習的能力。

就像羅素說的,“這個世界的問題就是愚人和狂熱分子總是對自我如此肯定,而智者內心卻充滿疑慮。”

 


維立,畢業於清華大學,斯坦福大學博士。現居矽穀從事高科技工作。業餘時間翻譯寫作,出版過六本作品/譯作。


[ 打印 ]
閱讀 ()評論 (6)
評論
維立 回複 悄悄話 同意。文章中對總統選舉寫得很簡單,隻是一筆帶過,沒有展開來講。預測就是給出各種可能結果出現的概率,即使最後40%概率的結果出現了,60%概率的結果沒有出現,也不能說預測是錯的,這是預測的本質所在。一個人,一個網站,一個模型,是不是有高質量的預測,要看track record,不能僅憑一次表現。其實讀過這本書之後,我對Silver更有信心,我覺得他是真懂預測的人。

回複 'silverbug' 的評論 :
維立 回複 悄悄話 謝謝推薦。

回複 '零不是數' 的評論 :
silverbug 回複 悄悄話 Silver的模型還是比較準的,他最後並沒有預測希拉裏一定會勝出。
大選臨近時希拉裏的優勢逐日遞減,兩個候選人在兩個搖擺州的情況不相上下。選舉史上“得佛羅裏達者得天下”這一條的準確度是很高的。 大選前的三四天內,Silver的數據顯示川普拿下佛羅裏達的概率超過希拉裏。 再以後的事就沒有懸念了。


零不是數 回複 悄悄話 建議讀一下Darrell Huff 寫的書:How to lie with statistics
維立 回複 悄悄話 哈哈,你的分析有道理:-)。

但必須承認,我也發表過連續生過兩個男孩的媽媽的第三個孩子或許更可能是男孩的說法,被人鄙夷地說是不懂獨立事件。但同一個媽媽的子宮,有沒有可能不是獨立事件呢?

回複 'cng' 的評論 :
cng 回複 悄悄話 很高興有人談貝葉斯。想到下麵一段對話:

博文:“...她有告訴我她已經有了兩個兒子,這次懷孕純屬意外。其實她的婆婆和丈夫是舍不得讓她打掉這個孩子的。說著說著她猶豫了起來。一會護士來了,我想護士轉達了病人的猶豫之情。護士說要報告醫生。

醫生聽說病人有猶豫,就很耐心地和病人將她可以有的選擇。那時那位婦女懷孕8周左右。醫生告訴她如果她改變主意她下次還能再來做手術,但是胎兒是健康的,如果她願意,可以把孩子生下來,而且有50%的可能她會生個女孩。病人聽到可能生女孩,很高興,更加堅定地決定將孩子生下來。並且病人對醫生也很滿意,對醫生說她打算請這位醫生幫她做產前檢查...”

評論:
“而且有50%的可能她會生個女孩。病人聽到可能生女孩,很高興,更加堅定地決定將孩子生下來。”?
---病人的智商有50%的可能性超過50

我的評論:

2017-11-28 15:59:24cng

回複 '周8皮' 的評論 : 事情未必這麽簡單。這個孕婦,也許有樸素的貝葉斯理論基礎,通過過去連生倆男孩的經驗,也許認為自己就是生男孩命,第三個還是男孩的先驗概率已經大大超過了50%,才準備放棄。而醫生撥亂反正,告訴她生女孩概率一點也沒降低,讓她回心轉意

你看我這個貝葉斯學得怎麽樣?


登錄後才可評論.