海天之間

放鬆心情,讓思想飛翔!
個人資料
  • 博客訪問:
正文

混濁的水晶球

(2016-11-16 10:08:55) 下一個

美國總統大選,全美大部刮起一陣農村包圍城市的紅色旋風,將此前不被看好的川普送進白宮。這個結局完全出乎之前大多數人的預料,因此格外震撼。大選落幕幾天了,爭論仍然鋪天蓋地,越來越激烈。對大選結果,人們給出各式各樣的解讀,有的認為“沉默的大多數”終於發聲,這是一場新的人民運動;有的認為根本是民粹當道,大開曆史倒車。

 

每個人的解讀,都帶著自己的認知模式,好比透過一個獨特的棱鏡看世界。

 

000.png

 

眾說紛紜中,有一種說法各方似乎都同意,即民調預測大失準星,完全沒能準確反映選情民意。更有人指責主流媒體偏袒克林頓一方,帶著偏見操縱民調數據,故意誤導民意。一時間,民調機構和預測專家們灰頭土臉,前幾天他們好像還捧著能看透未來的水晶球,現在仿佛變成了一群數據傻瓜,蹲在角落裏反省。普林斯頓大學的華裔學者Sam Wang,選前通過數學模型,預計希拉裏獲勝機率高達99%,因為把話說得太滿,不得不兌現諾言,在CNN當眾吃了"蟲子"--雖然是富於營養的罐頭蟋蟀,但是那鏡頭,還是令吾心生戚戚。

 

010.png

 

選舉結果是億萬人一票票投出來的,看走眼的人多了,即使是川普的鐵杆支持者,事先也沒有多大把握,Dr.Wang不就是自信過度一點嘛?因此就被單拎出來當替罪羊取笑,實在不夠厚道。評論看得多了,發現很多人似懂非懂,其實並不真明白民調到底是怎麽一回事,也沒有搞清楚民調機構(pollsters)、預測模型(forecasters)、媒體(media)與政治評論家(pundits)的角色與概念。

 

打個比方說吧,民調機構好比是采礦的,對民意采樣收集並做進行必要的數據處理;模型預測機構好比是做深加工的,把民調數據放入統計模型中進行分析,推算出讓人一目了然的大選獲勝機率;媒體和政治觀察家們則好比包裝與分銷商,把民調支持率和獲勝機率預測等拿去報道評論,為自己的判斷提供佐證;媒體受眾則是這些信息的消費者。這次大選中,美國的主流媒體確實表現出一邊倒的傾向性,民眾憑直覺就可以感受到偏頗,我覺得問題主要出在大眾傳播層麵,並不意味著民調被有意操縱,預測是故意誤導

 

美國有上百個大大小小的民調機構參與了從個別州到全國的民意調查,這些機構有些隸屬於各大媒體,有些由兩黨資助,也有很多是獨立研究機構,比如隸屬於大學的,或者從事市場調研的專業公司。做統計預測模型的機構專業性更強,數量也要少很多,有跟媒體掛鉤的,如紐約時報的UPSHOT,赫廷頓郵報的模型,也有獨立機構,如著名的538和前麵提到的普林斯頓模型。認為他們都背棄了專業精神,故意誤導民眾,於情理於邏輯都難以說通。

 

與其陷入過於簡化的準陰謀論思維,倒不如詳細認真地分析一下,民調預測與實際選舉結果之間到底有多大的偏離?為什麽會出現這樣的係統偏差?知其然與所以然,方能對這次大選的真實性質形成更準確的理解,這也是係統糾偏的一部分。

 

幾天下來,看到不少這方麵的業內反思,尚有很多模糊不清的猜測,也形成了一些明確的共識,比如民調沒有能充分找到/推算/反映出那些“隱藏的川普支持者”。在許許多多的檢討中,我最關注的還是538網站(http://fivethirtyeight.com/)的解釋,這是因為這次大選期間,我一直跟蹤538的數據分析,對他們的預測模型更加熟悉一些。

 

012.png

 

有些讀者也許不了解538,這是一家從事數據分析與預測的專業網站,涉獵廣泛,從體育、經濟到政治等等流域,不一而足。538的創始人兼總編Nate Silver運用概率學中的貝葉斯決策理論(Bayesian Theorem),用數學方法對未知事件進行概率分析。和絕大部分政治、新聞專業出身的預測者不同,Silver預測選舉結果的基礎並不是傳統意義的“經驗與直覺”,而是通過搜集整理大範圍的數據和各種層麵的民意調查,通過數學算法得出直觀的大選勝率。在2008年大選中,Silver正確預測了49個州的結果;在2012年,他對全部50個州的預測又全部正確,因此聲譽鵲起,成為預測模型界首屈一指的大咖兼網紅。

 

009.png


007.png

 

這次大選,538在選舉日早晨給出的最後勝率預測是克林頓71.4%(vs.川普28.6%)。這個預測遠低於普林斯頓的99%,赫廷頓郵報的98%,羅斯柴爾德的89%,紐時的85%,或可稍微為538和Nate Silver挽回一點顏麵,但他們畢竟還是站在了錯誤的一邊,隻能算一份不及格的答卷。

 

對此,Silver本人如何解釋呢?他洋洋灑灑寫了一大篇。具體內容敘述起來太繁瑣,有興趣的讀者可以自己去看,簡單地說,包括如下幾條:

 

1. 全國來看,民調與實際結果的偏差僅有2%,並談不上太大。關鍵問題在於出現一邊倒的係統性偏差,匯總之後也無法在模型中得到及時糾正。

 

(筆者解讀:538大選前的估計,是克林頓支持率大概領先3%。實際投票結果,克林頓確實贏了popular votes,但是幅度僅為+1.2%。這些數據,好像確實不能算太離譜。我記得Silver在選前有一篇文章中講到,如果克林頓在全部popular votes能勝出+5%,則勝券在握;如果隻贏+2%,在選舉人製度下,川普就有相當的贏麵。這個看法也被證實了)

 

1479158640400290.png

 

2. 最嚴重的希拉裏支持率民調偏差發生在中西部與鐵鏽地帶,尤其是在密西根(-4%),賓夕法尼亞(-5%)和威斯康辛(-6%)。

 

(筆者解讀:雖然克林頓在這幾個州分別隻輸給川普0.3%,1.3%,和1%,但足以使該州顏色改變,最終在選舉人版圖上崩盤。為什麽在這些州的民調發生了最嚴重的係統偏差?這是下一步要深究的問題。)

 

3. 有高達13%的選民到最後時段才拿定主意,他們大多數偏向了川普。

1479158804933352.png

 

(筆者解讀:上麵這張圖我覺得很有信息量,因為對於遲遲沒打定主意的一群,民調實在是沒什麽好辦法的。這13%的人有多少是傳說中那些隱藏的“害羞的”川普支持者?他們為何猶豫,最後的決定是否受到FBI科米效應的影響?這些都是很有意思的問題。)

 

4. 與其說是民調預測的失誤,不如說是依賴傳統智慧的失誤。

 

(筆者解讀:數據提供者的從眾心理,媒體的偏見,人們的選擇性聆聽,人群中的確認偏誤(confirmation bias)傾向,統統難辭其咎。)

 

坦率地說,我對Silver這位大咖迄今為止給出的分析並不十分滿意。他提出了很多精當的見解,但更多在強調民調的問題和客觀不確定性,尚沒有深入反思自己的預測模型有什麽大的漏洞,似乎還在努力維護自己的麵子。

 

我認為至少有一點是值得挖掘的,即傳統的隨機抽樣民意調查方式在今天已經越來越困難(回答率低,隨機性差,代表性存疑),難以反映出人們未定的/變化的/隱藏的想法,建立在民調數據基礎上的預測模型也難免garbage in, garbage out.相反,很多真實的情緒想法卻彌漫在Twitter,Facebook,微信這樣的社交媒體中,那是真正的數據金礦,實在不能視而不見,棄而不用。對紛雜的社交媒體數據進行分析,如何識別信號與噪聲是更大的挑戰,還期待Silver和Dr.Wang這樣的數據科學家能在這方麵更有作為。

1479159110943422.jpg

 

說到這裏,有一點似乎已經清楚了,就是人們把民調數據或預測模型當成窺探未來的水晶球,實在是個不小的誤會。可有什麽辦法呢?人們總希望能提前預知未來,消除身在未知中的迷茫和困頓。

 

要真說起來呢,“預測帝”也不是沒有。先說遠的--早在1987年,普利策獎得主Garry Trudeau就在他的漫畫係列Doonesbury中,描繪川普要競選總統,可能那時候連川普本人都還沒生出過這個念頭吧。

Bpoll 006.jpeg

 

再說近的--美國大選前的11月3日,中國湖南長沙石燕湖,紅布鋪起一個總統預測台,川普和希拉裏的硬紙板畫像分列左右兩邊,前麵還放著香蕉。一隻名叫“哥大”的5歲猴子身穿印有預測帝字樣的黃馬褂,走上前來,經過深思熟慮,不但吃掉了川普身邊的香蕉,而且給了他一個熱烈的吻。哥大猴的決策模型,大概隻有它的主人明白,但是不消說,結果已經足夠棒了。有圖有真相--

poll005.jpg

 

嗬嗬,玩笑歸玩笑,我給大家介紹一位真正的預測帝吧 -- 

 

Scott Adams,著名漫畫係列《Dilbert》的作者(奇怪,怎麽又是個漫畫家??)。我跟蹤Adams關於大選的博客近一年,他在去年8月起,就預言川普將拿下共和黨內提名,並將一路贏得最後總統大選,而那時候剛剛宣布參選的川普還是很多人眼中的笑料。今年3月,Adams又預言川普將會在總統選舉中大勝(landslide),而那時候他還沒有拿到共和黨候選人提名。怎麽樣,夠厲害吧?

 

1479222617450681.jpg

 

更有意思的是,Adams聲稱自己對政治、經濟、移民等等方針政策與影響之類的東東並不在行。他這樣說過:“如果川普贏了,會冒出很多政治觀察家來著文解釋人們為什麽投他的票,譬如他驚人的直白,他的商業才能,人們對現狀的憤怒,或者他的對手實在糟糕。也會有人提到他的政壇局外人身份。這些當然都不錯,因為選民投票不撒謊。但是不會有很多人花時間去弄明白人們如何產生了這些感受。

 

Adams對川普的預測乃是基於一條非常獨特的判斷,即川普是一個天才的說服大師,其異常出眾的說服力對其目標聽眾具有催眠般的控製和影響力。這其中包含以下6個基本方麵:

    1. 明白大多數的人都是非理性的

    2. 致力於喚起人們的情感訴求

    3. 在喚起情感訴求的時候,事實如何並不重要

    4. 當事實變得不重要的時候,你也就不會錯

    5. 扭曲現實,直到達成你的目標

    6. 掌控身份認知政治

 

聽上去有點像個川普高級黑,是嗎?其實不然,Adams正式為川普背書的,後期為他鼓吹不遺餘力。在他的博客中,Adams一路跟蹤川普在選戰中的言行,套用“說服力濾鏡”這一框架進行解析,川普的語言風格,辯論技巧,戰略戰術,攻擊角度等等,如何在目標受眾的腦海裏下錨,使人欲罷不能,從而成為他的支持者。

 

Adams的說服力預測模型,好比他看待事物的獨特棱鏡。對這個棱鏡,我一直將信將疑,但他有幾個重要觀點還是令我印象深刻:

 

- 聰明而充分了解各種信息的人們,幾乎在所有重大問題上都意見相左。可見,你再聰明,擁有的信息再多,都不能讓你如希望的那樣準確把握現實。

 

- 在真實的世界中,唯有情感才是重要的,因為情感驅動人們的行為。

 

- 事實如何,並不影響人們的決策。人們首先形成決定,然後再挑選數據,為他們的非理性選擇尋找理由。如果你發現人們總是對你睿智的觀點不以為然,記住,那是因為他們也在你身上看到了同樣的非理性。

這些觀點,也許很值得Nate Silver和Sam Wang等數據英雄們體會,借鑒。

 

對川普總統的未來表現,Adams也做了這樣一番預期:“有人問我怎麽能支持一個法西斯分子,我的回答是他並不是……一旦川普確立了自己的頭號莽漢(bad-ass)形象,他也就可以放手領導了,我們會看到他軟化遣返非法移民的立場,限製警察搜身的適用區域,翻轉對墮胎進行罰款的主張,等等。你如果沒有受過說服力方麵的訓練,川普看起來很可怕。如果你明白說服中的節奏(pacing)與引導(leading)技巧,你可能會認為他其實是一個最安全的總統候選人。

 

好吧,且讓我們祈禱,Scott Adams的這一預測也是正確的吧!

 

4 balls.jpg

[ 打印 ]
閱讀 ()評論 (6)
評論
清漪園 回複 悄悄話 Scott Adams的漫畫極為聰明,沒想到他還是個預測帝,聰明到令人發指的程度!
Justness 回複 悄悄話 數據說明低收入低素質人群支持希拉裏,尤其是大量吃福利人群,包括亞裔及很多中國人

人群 人口(萬人)(1) 吃福利(萬人)(2) 吃福利(%) 2016選舉(共和黨/民主黨,%)(3)
白人(white / caucasian), 19681 1140.5 5.80 58/37
黑人(black), 3768 2688.4 71.35 8/88
拉美裔人(Hispanic), 5047 1439.2 28.52 29/65
亞裔人(Asian or Pacific Islander), 1446 1222.0 84.51 29/65
其它(Other / Mixed), 298.7

說明:
人口是2010年統計;
吃福利百分比指吃福利人口占該人群人口的百分比,如白人:19681/1140.5=5.80%;
2016選舉,指該人群投共和黨或民主黨人數的百分比,如白人:58%投共和黨,37%民主黨;
2016選舉最後統計還未公布。

1,http://www.infoplease.com/ipa/A0762156.html
(Population of the United States by Race and Hispanic/Latino Origin, Census 2000 and 2010)

2,http://www.statisticbrain.com/welfare-statistics/

3,http://www.aboluowang.com/2016/1117/836509.html
(數據證明希拉莉輸少數族裔 特朗普贏百日維新(組圖),2016-11-17)
url168 回複 悄悄話 horse625: LA Times 是做民調的,不是做預測的。他們確實是少有的幾家發現川普支持率領先的。他們的秘招是固定跟蹤同一組3000個選民的樣本,反複對他們的態度進行調查。這個的確值得研究。
覓音 回複 悄悄話 好文!
horse625 回複 悄悄話 我覺得還應該看看唯一一家預測正確的媒體:LA Times(我所知是唯一一家)。他是如何做到的。
美國貪總 回複 悄悄話 Scott Adams: 川哥 won bigly!
登錄後才可評論.