個人資料
  • 博客訪問:
正文

用科學的方法看待2020大選舞弊之爭

(2024-10-08 12:01:45) 下一個

我沒有真相,也肯定這裏誰都沒有真相,不管你是相信有係統舞弊也好,不相信也好。作為一個外國人,本人也沒興趣去搞清這個真相,但看著城裏兩派(各有自己好友)越撕越裂,作為一個老城民於心不忍,想幫大家找到一個可以言說的common ground, 無論政治立場和價值觀,大家都相信科學吧,那好,就幫大家用科學方法理一理思路。這個方法叫貝葉辛原理Bayesian Theorem, 是個以極簡呈現智慧的統計學原理

說到對概率意義的解釋,有兩大學派,一派是古典的frequentist 頻率假說,其認為一個事件發生的概率是事件固有的特性,可以通過足夠量的重複采樣來獲得;另一派來自18世紀中葉的數學家貝葉斯,貝葉辛假說認為概率是一種對可能性的主觀判斷,這個主觀判斷不是一成不變的,而是會隨著認識的更新而修正。這其實不難想象,一件事,即使不熟悉,你對它發生的可能性會有一個‘’憑空‘’或先入為主的臆斷,譬如去國外某地旅遊,去之前,你對當地在該季節遭遇暴雨的可能性或許有個估摸 (譬如來自社媒印象)- 不太可能有暴雨,然後你去了那裏,不幸地一星期裏下了三天暴雨,無疑你會根據此體驗對你的原先估摸作出修正,以後朋友這時候去那裏玩你會忠告:備好雨具,很可能下暴雨。貝葉辛概率裏,前麵那主觀而來的估摸叫先驗概率,而後麵經過實際體驗修正的不妨叫後驗概率,顯然,後驗概率要比先驗概率更接近事實

好了,回到大選舞弊的爭論上來,我們的貝葉辛問題可以這樣構建設定兩個概率事件,事件C為大選舞弊,事件S 為選民相信大選有舞弊,大選舞弊的先驗概率記為P(C),根據美國曆年的民主選舉經驗,應該很低,假定為1%。我們現在要計算- 當2020大選後出現選民相信大選有舞弊(S)這個條件下,大選果真舞弊的後驗概率,記為P(C/S)並與P(C)相比,如果超出很多,應該真的有所警惕,如果兩者非常接近,多半不必過慮。這聽起來或許有些玄乎,道理是這樣的,對於有否舞弊,每個選民個人,幾乎可以肯定難有確鑿全麵的證據,但每個人會根據自己投票的經曆,觀察到或聽聞來的現象,作出一定邏輯推斷,上億理性選民的觀察和判斷集成起來,當可形成一個較強的依據。問題是上億選民你不可能一個個問過來,這就用到了統計和抽樣調查。有沒有這樣的抽樣調查呢,我記得是有的,好像2020大選後共和黨選民裏有60-70%相信舞弊存在,民主黨裏自然絕大部分不相信,有興趣者可以幫我核對。相信舞弊這件事,即S),包括兩種可能,確實舞弊了你相信得沒錯,沒有舞弊你誤信了,前者概率記為P(S/C),後者為P(S/!C)(注:! 代表否定,/代表在什麽條件下。)

不妨讓我們根據抽樣調查結果,在合理範圍內估摸一下兩者的概率,P(S/C)在共和黨選民裏應該很高,姑且算90%吧,鑒於兩黨選民嚴重分裂,民主黨選民應該較難采信,算20%;P(S/!C) ,同樣鑒於目前兩黨選民極度分裂的現狀,在共和黨選民裏姑且算30%,在民主黨選民裏應該接近沒有,算1%。對於選民總體,概率值應該是兩者按選民比率的加權平均(就算對半開好了)。

由此根據貝葉辛公式

? P(C/S) = P(S/C) × P(C) ÷ [ P(S/C) × P(C) + P(S/!C) × [ 1 - P(C) ] ]

代入以上經過兩黨加權平均的各值,可以算得2020大選後根據選民對舞弊的懷疑而修正的舞弊發生的概率 P(C/S) 為 3.46% 。

顯然上麵取值有很多估摸,你盡可以按自己認定更接近現實的值來代入計算,當然結果也會和上麵不同。那如何來合理理解計算的結果?前麵說了要和先驗概率(1%)比較,拿上麵算值為例,3.46%本值也是一個很小的概率,要加以忽視也是說得過去的,但是,它是先驗概率1% 的近3.5倍,對於一個性質當為小概率的事件,概率增加3.5倍當足以引起人們警惕

再次強調,以上計算隻是個示範例子,你按自己的認知對? P(C), P(S/C)和P(S/!C) 取不同的值代入計算,結果會相當不同。本帖開首就說了,貝葉斯不會給出真相,他不是上帝,但貝葉辛原理讓我們可以在信息極度有限和混亂的情況下,對自己的思路作出盡量理性的梳理,不盲從,不誇大其詞,不掉以輕心

最後提一下,覺得與其用兩黨鐵杆選民當主體來算,不如用中間派當主體來算更有效,如果有數據的話。雖然他們人數不一定多,但他們的態度變化來的更加說明問題。

 

[ 打印 ]
閱讀 ()評論 (16)
評論
老鍵 回複 悄悄話 忽然想到要在回武勝網友裏要加一句:老鍵作為一個相當中立的個體,可以看作是被有理有據有節的論述較大程度轉化信念的一個個案,我這全是在貝葉辛框架裏的敘事,不牽扯政治。
老鍵 回複 悄悄話 回複 '武勝' 的評論 : 同意,所以我包括並區分了兩黨選民,試圖稍加平衡。也謝你支持用中間選民來分析的想法,你如有數據,不妨一試。
老鍵 回複 悄悄話 回複 'kflin' 的評論 : 謝謝轉這個分析,如我答前麵新林院網友,我不在這裏介入具體分析,但我要說像這樣有理有據有節的陳述方式,是會讓其內容被傳播和被人吸收的,我相信事實上這已經發生了,你的轉載就是一個例子。而這,會影響貝葉辛的後驗概率。
老鍵 回複 悄悄話 回複 '新林院' 的評論 : 謝謝你提供的理論和分析。我先不過度介入,但要提一下的是,這和貝葉辛分析間接有關,說間接是因為貝葉辛並不關心某特定內容,理論也好數據也好,但是,其有理性和說服度影響觀察者(選民)的信念轉化,這卻是和貝葉辛有關的。在回答其他網友評論時我多次強調,(1)貝葉辛是基於事件觀察者或經曆者而不是事件本身,(2)觀察者的有限理性是貝葉辛之所以有用的大前提。就事論事,兩黨選民間有相互攻擊對方沒理性,但平心而論大家都不是瘋子,雖然他們的信念不一定客觀(偏向於所選黨的價值觀),在大選舞弊爭論中,有驚人的指責,也有理性的陳述和分析,它們對大眾的說服度是不同的,因而對他們的後驗轉化也不同。
kflin 回複 悄悄話 OBAMA +++ TRUMP +++ BIDEN
69,000,000 +++ 74,000,000 +++ 81,000,000

873 Counties +++ 2497 Counties +++ 477 Counties

18/19 Bellwethers +++ 18/19 Bellwethers +++ 1/19 Bellwethers

Win FL, OH, IOWA +++ Win FL, OH, IOWA +++ Lose FL, OH, IOWA

Win House Seats +++ Win House Seats +++ Lose House Seats
武勝 回複 悄悄話 貝葉斯定理基於條件概率,即事件的關聯性。選民認知與選票舞弊真實性的關聯取決於輿論傳播。在對立嚴重的環境下,輿論的公正性大打折扣。選民能聽到的幾乎都是極化的信息,以之為統計基礎來試圖接近真實,恐怕事與願違。同意中間選民當主體來統計更有效,他們比較兼聽則明。
kflin 回複 悄悄話
網上轉來的, 想聽聽有何解釋:

今天滿懷著信心準備看完參眾兩院的辯論期待結果,誰知才進行到AZ的辯論一半,意外就發生了,很失望。。。


我這人最不喜歡的就是聽的就是“人家都怎麽怎麽了。。。。你還不信?” “法院都怎麽怎麽了。。。你比法院還厲害?” “這麽多人都說什麽什麽了。。。你別固執了”。我這人就是這麽固執和執著,因為我腦袋上長了一個角(不是說著玩兒的,曾經害怕做了一個CT檢查,腦門上多長一塊骨頭醫生說沒事兒,所以一直要有劉海當著)。昨天看文昭的推特,他問我們個人對這次大選的看法,下麵是我的答複。

我堅信老川這次大選是贏的,為什麽?因為我相信統計學。一個贏了3個風向標的州和18/19(95%)風向標的縣的候選人,卻輸了大選,統計學上解釋不通。大選的根基就是data. 為了證明老川團隊的宣傳沒作假,也驗證一些數學家統計學家的分析,為此,今天在看新聞的同時我把“風向標”縣的問題自己做了一番研究。

我使用的數據是來源於今天的維基百科. 如果分析得不對,請大家指出討論。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。

我使用的數據是來源於今天的維基百科. 如果分析得不對,請大家指出討論。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。

首先,我們要在同一個起跑線上上,讓我們看看定義。什麽叫風向標縣?

打個比喻,一個大的學校,你的高三年級有3000名學生參加高考,這3000個學生中,有80名成績非常好,其中18個是超級棒的學生,每次考試他們都是先後名列前茅總是top 1%之內,他們的答案幾乎可以當作標準答案。還有62名學生成績非常優異,他們的答案也可以當作標準答案參考。


我把1988年以來維基百科提到的所有風向標縣以及它們所在的州列表出來。還有自1980年來(包含2020年),所有有2次縣選舉結果最終不同於Electoral College (EC) vote的縣也列在表裏。總共105個縣involved (out of 3141 counties (3.34%)涉及到27個州. 提及到2020年大選的共有80個縣(19個州)。在這80個縣中,18個縣是在過去44-72年來第一次支持了一個“失敗”的候選人(backing a losing candidate, as of today, referrs to Trump)。 在其餘的62個縣中,這62個縣自1980年來(40年曆史)共有2次選舉不同於它們州的EC vote (Deviation)(其中有一次包括2020年)。也就是說它們州確認了JB, 但是這些縣支持的是DT。這62個縣中,41個縣所在的州認證JB(該縣實際投給了DT), 21個縣所在的州認證DT(該縣投給了JB)。所以說整個80個縣中,59個縣(74%)犯下了幾十年來第一次或第二次錯誤? 這說明了什麽? Made a sense to you? Not at all to me.


回到剛才高考的比喻,這等於說是最終考試結果出來了,這18個優等學生考試全部砸鍋,另外62個上等生也考了很低的分數,結果這80個學生全部不能錄取,這樣的概率,可能嗎?我的答案:不可能!隨便你怎麽辯解很難說服我,除非你告訴我考卷被調包了,偷梁換柱了這能解釋得通。至於如何調包的,恕我無能力去偵破,但是我知道老川這次大選贏是個大概率事件。我相信數據產生信息,信息帶給我們知識這個過程 (Data --> Information --> Knowledge),這是個顛簸不破的真理。


OBAMA TRUMP BIDEN
69,000,000 74,000,000 81,000,000

873 Counties 2497 Counties 477 Counties

18/19 Bellwethers 18/19 Bellwethers 1/19 Bellwethers

Win FL, OH, IOWA Win FL, OH, IOWA Lose FL,OH, IOWA

Win House Seats Win House Seats Lose House Seats


新林院 回複 悄悄話 東方明月【至少要上百萬選票作弊才能改變選舉結果。】
實際上,並不需要上百萬選票作弊才能改變選舉結果。
隻需要在四個搖擺州裏不到八萬張選票作弊就能改變選舉結果。
2020年選舉,選舉人團票數:拜登 306,川普 232。
亞利桑那州,拜登得 1,672,143 票,川普得 1,661,686 票。拜登的票裏隻要有 10,458 張假票就足以改變選舉結果,得 11 張選舉人團票。
佐治亞州,拜登得 2,473,633 票,川普得 2,461,854 票。拜登的票裏隻要有 11,780 張假票就足以改變選舉結果,得 16 張選舉人團票。
內華達州,拜登得 703,486 票,川普得 669,890 票。拜登的票裏隻要有 33,597 張假票就足以改變選舉結果,得 6 張選舉人團票。
威斯康辛州,拜登得 1,630,866 票,川普得 1,610,184 票。拜登的票裏隻要有 20,683 張假票就足以改變選舉結果,得 10 張選舉人團票。
加起來,在四個搖擺州裏,拜登的票裏隻要有 76,518 張假票,就足以改變這四州選舉結果,得到 43 張選舉人團票。
也就是說,在四個搖擺州裏,拜登的票裏隻要有 76,518 張假票,就足以在選舉人團把拜登 (263 : 275) 輸的結果,變成拜登 (306 : 232) 贏的結果。

老鍵 回複 悄悄話 回複 '鏡子裏的猴兒' 的評論 : 你有正解也有誤解,根本糾結其實和這裏的其他評論者相同,還沒有跳出古典概率的框縛。我不是說古典概率有什麽錯,而是它不適應於探討這個問題。古典概率是基於事件-大選舞弊,作為一個隨機變量它在特點環境下服從特定的分布,通過不斷采樣你可以獲得對其分布各參數的估值,這是沒錯的,問題是你做不了,除非你有FBI的權力。另外也偏離了我們討論的話題,選民對大選舞弊的爭論。貝葉辛概率是基於事件的觀察者- 選民,而不是事件本身,貝葉辛對事件本身是相當粗疏和不重視的,就是估算個先驗概率,也不講求它背後的分布函數。貝葉辛著重於觀察者信仰念belief在事件發生前後的變化,並且根據這些belief的變化,來推斷事件發生的可能性。可以這樣做的前提是,觀察者-選民是有限理性的,他們個體可以有各種偏差,被價值觀影響,受黨派調製,但對各自的經曆都有一定理性的認知反應。所以,說你有正解,是因為我在貝葉辛框架裏確實隻著重觀察者的“期待”,更準確說“信念”的變化,說你誤解,是因為觀察者的信念和信念的變化並非空穴來風,而是他們對事件經曆的理性反應,我無法深入事件,但我至少可以接觸人們對事件的反應,從而估算事件發生的可能性
老鍵 回複 悄悄話 回複 'chenmo520' 的評論 : 你當然可以這麽去想,但你隻是一個人,即使把所有民主黨支持者合起來也就一半人。還有起碼一半人與你的想法很不同。你認為他們是瘋子是希特勒顯然是一種情緒,其實大家都是有限理性人,也就是說大家都有理性思維的能力但又受黨派價值觀的調製。作為一個中立觀察者我對所有的人都一視同仁,我無意,不該,也不必去搞清誰,或誰比誰更多,掌握真理或真相,或誰比誰更理性,在貝葉辛框架了這個糾結根本不存在,這是和古典概率最不同的地方,我不苦惱於去發現舞弊有無或舞弊本身的幾率幾何,而是觀察選民的反應,把他們當作取樣分析器,他們個體也許理性有限存在各種各樣偏差,但合起來肯定是不錯的。我貼裏對貝葉斯的運用是一種極簡,因為稍微複雜一些就無法用紙筆來計算了,但我將兩黨選民分開估值就是一種額外的平衡企圖,而不是隻看一黨的反應。
鏡子裏的猴兒 回複 悄悄話 您對於貝葉斯的分布推斷理解有誤,. 因為您給與的假設前提不對, 貝葉斯的分布推斷條件是觀察數據的概率模式, 觀察數據應該是隨機變量, 而不是期待值. 一個人出門撿到錢包的貝葉斯分布推斷前提是過去10年行人在此地丟失錢包的概率, 而不是男女行人對於在此撿到錢包的期待值. 同樣, 你把共和黨和民主黨員對於投票舞弊的相信程度作為貝葉斯的分布推斷和行人對於撿到錢包的期待值的謬誤同樣荒謬, 因為共和民主兩黨黨員對於舞弊的期待值不是舞弊發生的必要條件.

所以, 您文中的公式隻有一種情況下才能成立, 美國大選舞弊的隨機變量是多少? 比方說, 郵寄投票的欺騙數據是多少, 或者各地選票統計誤差是多少, 假設, 統計證明在過去 50 年裏, 美國大選的郵寄選票誤差超過 10%, 那麽, 你可以把這個變量作為貝葉斯推斷的前提來計算舞弊可能性.

你弄錯了變量.
chenmo520 回複 悄悄話 共和黨的後驗概率並未得到驗證。事實上,在過去的四年裏,官司一個也沒有打贏。因此丟了一些粉絲,包括我。所以他們采用了希特勒的助手的做法:謊言重複一萬遍就成了真理。 因此,貝葉斯概率中的後驗一定是得到驗證的:雨真的下了。此處不成立。
老鍵 回複 悄悄話 回複 '東方明月-' 的評論 : 沒錯,你這是古典概率的範疇。貝葉辛是說,即使隻有一個始作俑者真作弊了,但既然人群裏已有懷疑傳開,他的罪行可能已經這樣那樣有所暴露,貝葉辛不是去追求真相 - 這人是誰,有多嚴重,而隻是根據人們的反應重新估算作弊的可能性。古典概率如你所說對此一籌莫展
老鍵 回複 悄悄話 回複 '新林院' 的評論 : 貝葉幸原理是基於理性人的,如果理性人說街上有虎,一定有些原因,即使沒虎也有個超大的貓或豹子什麽
東方明月- 回複 悄悄話 概率論最簡單的方法就是:
至少要上百萬選票作弊才能改變選舉結果。即使每個作弊被發現的可能性隻有萬分之一,100萬作弊選票不被發現的可能性是1億億億億億分之37,一共44個零。
事實是2020年選舉,共和黨百萬懸賞,隻發現兩張作弊選票,還都是trump支持者作弊投票trump,所以trump作弊的可能性要比biden作弊的可能性要大整整一億倍。
新林院 回複 悄悄話 能不能用貝葉辛原理分析一下“三人成虎”(Evidence by Citation)?
如果嚴格套用貝葉辛原理,如果三個人說街上有老虎,那麽,根據貝葉辛公式,街上有老虎的概率是不是會從0%增加到3%?
(不是抬杠,隻是好奇。)

登錄後才可評論.