2018 (427)
2020 (127)
2022 (141)
我沒有真相,也肯定這裏誰都沒有真相,不管你是相信有係統舞弊也好,不相信也好。作為一個外國人,本人也沒興趣去搞清這個真相,但看著城裏兩派(各有自己好友)越撕越裂,作為一個老城民於心不忍,想幫大家找到一個可以言說的common ground, 無論政治立場和價值觀,大家都相信科學吧,那好,就幫大家用科學方法理一理思路。這個方法叫貝葉辛原理Bayesian Theorem, 是個以極簡呈現智慧的統計學原理。
說到對概率意義的解釋,有兩大學派,一派是古典的frequentist 頻率假說,其認為一個事件發生的概率是事件固有的特性,可以通過足夠量的重複采樣來獲得;另一派來自18世紀中葉的數學家貝葉斯,貝葉辛假說認為概率是一種對可能性的主觀判斷,這個主觀判斷不是一成不變的,而是會隨著認識的更新而修正。這其實不難想象,一件事,即使不熟悉,你對它發生的可能性會有一個‘’憑空‘’或先入為主的臆斷,譬如去國外某地旅遊,去之前,你對當地在該季節遭遇暴雨的可能性或許有個估摸 (譬如來自社媒印象)- 不太可能有暴雨,然後你去了那裏,不幸地一星期裏下了三天暴雨,無疑你會根據此體驗對你的原先估摸作出修正,以後朋友這時候去那裏玩你會忠告:備好雨具,很可能下暴雨。貝葉辛概率裏,前麵那主觀而來的估摸叫先驗概率,而後麵經過實際體驗修正的不妨叫後驗概率,顯然,後驗概率要比先驗概率更接近事實。
好了,回到大選舞弊的爭論上來,我們的貝葉辛問題可以這樣構建,設定兩個概率事件,事件C為大選舞弊,事件S 為選民相信大選有舞弊,大選舞弊的先驗概率記為P(C),根據美國曆年的民主選舉經驗,應該很低,假定為1%。我們現在要計算- 當2020大選後出現選民相信大選有舞弊(S)這個條件下,大選果真舞弊的後驗概率,記為P(C/S),並與P(C)相比,如果超出很多,應該真的有所警惕,如果兩者非常接近,多半不必過慮。這聽起來或許有些玄乎,道理是這樣的,對於有否舞弊,每個選民個人,幾乎可以肯定難有確鑿全麵的證據,但每個人會根據自己投票的經曆,觀察到或聽聞來的現象,作出一定邏輯推斷,上億理性選民的觀察和判斷集成起來,當可形成一個較強的依據。問題是上億選民你不可能一個個問過來,這就用到了統計和抽樣調查。有沒有這樣的抽樣調查呢,我記得是有的,好像2020大選後共和黨選民裏有60-70%相信舞弊存在,民主黨裏自然絕大部分不相信,有興趣者可以幫我核對。相信舞弊這件事,即S),包括兩種可能,確實舞弊了你相信得沒錯,沒有舞弊你誤信了,前者概率記為P(S/C),後者為P(S/!C)(注:! 代表否定,/代表在什麽條件下。)
不妨讓我們根據抽樣調查結果,在合理範圍內估摸一下兩者的概率,P(S/C)在共和黨選民裏應該很高,姑且算90%吧,鑒於兩黨選民嚴重分裂,民主黨選民應該較難采信,算20%;P(S/!C) ,同樣鑒於目前兩黨選民極度分裂的現狀,在共和黨選民裏姑且算30%,在民主黨選民裏應該接近沒有,算1%。對於選民總體,概率值應該是兩者按選民比率的加權平均(就算對半開好了)。
由此根據貝葉辛公式
? P(C/S) = P(S/C) × P(C) ÷ [ P(S/C) × P(C) + P(S/!C) × [ 1 - P(C) ] ]
代入以上經過兩黨加權平均的各值,可以算得2020大選後根據選民對舞弊的懷疑而修正的舞弊發生的概率 P(C/S) 為 3.46% 。
顯然上麵取值有很多估摸,你盡可以按自己認定更接近現實的值來代入計算,當然結果也會和上麵不同。那如何來合理理解計算的結果?前麵說了要和先驗概率(1%)比較,拿上麵算值為例,3.46%本值也是一個很小的概率,要加以忽視也是說得過去的,但是,它是先驗概率1% 的近3.5倍,對於一個性質當為小概率的事件,概率增加3.5倍當足以引起人們警惕。
再次強調,以上計算隻是個示範例子,你按自己的認知對? P(C), P(S/C)和P(S/!C) 取不同的值代入計算,結果會相當不同。本帖開首就說了,貝葉斯不會給出真相,他不是上帝,但貝葉辛原理讓我們可以在信息極度有限和混亂的情況下,對自己的思路作出盡量理性的梳理,不盲從,不誇大其詞,不掉以輕心。
最後提一下,覺得與其用兩黨鐵杆選民當主體來算,不如用中間派當主體來算更有效,如果有數據的話。雖然他們人數不一定多,但他們的態度變化來的更加說明問題。
69,000,000 +++ 74,000,000 +++ 81,000,000
873 Counties +++ 2497 Counties +++ 477 Counties
18/19 Bellwethers +++ 18/19 Bellwethers +++ 1/19 Bellwethers
Win FL, OH, IOWA +++ Win FL, OH, IOWA +++ Lose FL, OH, IOWA
Win House Seats +++ Win House Seats +++ Lose House Seats
網上轉來的, 想聽聽有何解釋:
今天滿懷著信心準備看完參眾兩院的辯論期待結果,誰知才進行到AZ的辯論一半,意外就發生了,很失望。。。
我這人最不喜歡的就是聽的就是“人家都怎麽怎麽了。。。。你還不信?” “法院都怎麽怎麽了。。。你比法院還厲害?” “這麽多人都說什麽什麽了。。。你別固執了”。我這人就是這麽固執和執著,因為我腦袋上長了一個角(不是說著玩兒的,曾經害怕做了一個CT檢查,腦門上多長一塊骨頭醫生說沒事兒,所以一直要有劉海當著)。昨天看文昭的推特,他問我們個人對這次大選的看法,下麵是我的答複。
我堅信老川這次大選是贏的,為什麽?因為我相信統計學。一個贏了3個風向標的州和18/19(95%)風向標的縣的候選人,卻輸了大選,統計學上解釋不通。大選的根基就是data. 為了證明老川團隊的宣傳沒作假,也驗證一些數學家統計學家的分析,為此,今天在看新聞的同時我把“風向標”縣的問題自己做了一番研究。
我使用的數據是來源於今天的維基百科. 如果分析得不對,請大家指出討論。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。
我使用的數據是來源於今天的維基百科. 如果分析得不對,請大家指出討論。(https://en.wikipedia.org/wiki/List_of_election_bellwether_counties_in_the_United_States 。
首先,我們要在同一個起跑線上上,讓我們看看定義。什麽叫風向標縣?
打個比喻,一個大的學校,你的高三年級有3000名學生參加高考,這3000個學生中,有80名成績非常好,其中18個是超級棒的學生,每次考試他們都是先後名列前茅總是top 1%之內,他們的答案幾乎可以當作標準答案。還有62名學生成績非常優異,他們的答案也可以當作標準答案參考。
我把1988年以來維基百科提到的所有風向標縣以及它們所在的州列表出來。還有自1980年來(包含2020年),所有有2次縣選舉結果最終不同於Electoral College (EC) vote的縣也列在表裏。總共105個縣involved (out of 3141 counties (3.34%)涉及到27個州. 提及到2020年大選的共有80個縣(19個州)。在這80個縣中,18個縣是在過去44-72年來第一次支持了一個“失敗”的候選人(backing a losing candidate, as of today, referrs to Trump)。 在其餘的62個縣中,這62個縣自1980年來(40年曆史)共有2次選舉不同於它們州的EC vote (Deviation)(其中有一次包括2020年)。也就是說它們州確認了JB, 但是這些縣支持的是DT。這62個縣中,41個縣所在的州認證JB(該縣實際投給了DT), 21個縣所在的州認證DT(該縣投給了JB)。所以說整個80個縣中,59個縣(74%)犯下了幾十年來第一次或第二次錯誤? 這說明了什麽? Made a sense to you? Not at all to me.
回到剛才高考的比喻,這等於說是最終考試結果出來了,這18個優等學生考試全部砸鍋,另外62個上等生也考了很低的分數,結果這80個學生全部不能錄取,這樣的概率,可能嗎?我的答案:不可能!隨便你怎麽辯解很難說服我,除非你告訴我考卷被調包了,偷梁換柱了這能解釋得通。至於如何調包的,恕我無能力去偵破,但是我知道老川這次大選贏是個大概率事件。我相信數據產生信息,信息帶給我們知識這個過程 (Data --> Information --> Knowledge),這是個顛簸不破的真理。
OBAMA TRUMP BIDEN
69,000,000 74,000,000 81,000,000
873 Counties 2497 Counties 477 Counties
18/19 Bellwethers 18/19 Bellwethers 1/19 Bellwethers
Win FL, OH, IOWA Win FL, OH, IOWA Lose FL,OH, IOWA
Win House Seats Win House Seats Lose House Seats
實際上,並不需要上百萬選票作弊才能改變選舉結果。
隻需要在四個搖擺州裏不到八萬張選票作弊就能改變選舉結果。
2020年選舉,選舉人團票數:拜登 306,川普 232。
亞利桑那州,拜登得 1,672,143 票,川普得 1,661,686 票。拜登的票裏隻要有 10,458 張假票就足以改變選舉結果,得 11 張選舉人團票。
佐治亞州,拜登得 2,473,633 票,川普得 2,461,854 票。拜登的票裏隻要有 11,780 張假票就足以改變選舉結果,得 16 張選舉人團票。
內華達州,拜登得 703,486 票,川普得 669,890 票。拜登的票裏隻要有 33,597 張假票就足以改變選舉結果,得 6 張選舉人團票。
威斯康辛州,拜登得 1,630,866 票,川普得 1,610,184 票。拜登的票裏隻要有 20,683 張假票就足以改變選舉結果,得 10 張選舉人團票。
加起來,在四個搖擺州裏,拜登的票裏隻要有 76,518 張假票,就足以改變這四州選舉結果,得到 43 張選舉人團票。
也就是說,在四個搖擺州裏,拜登的票裏隻要有 76,518 張假票,就足以在選舉人團把拜登 (263 : 275) 輸的結果,變成拜登 (306 : 232) 贏的結果。
所以, 您文中的公式隻有一種情況下才能成立, 美國大選舞弊的隨機變量是多少? 比方說, 郵寄投票的欺騙數據是多少, 或者各地選票統計誤差是多少, 假設, 統計證明在過去 50 年裏, 美國大選的郵寄選票誤差超過 10%, 那麽, 你可以把這個變量作為貝葉斯推斷的前提來計算舞弊可能性.
你弄錯了變量.
至少要上百萬選票作弊才能改變選舉結果。即使每個作弊被發現的可能性隻有萬分之一,100萬作弊選票不被發現的可能性是1億億億億億分之37,一共44個零。
事實是2020年選舉,共和黨百萬懸賞,隻發現兩張作弊選票,還都是trump支持者作弊投票trump,所以trump作弊的可能性要比biden作弊的可能性要大整整一億倍。
如果嚴格套用貝葉辛原理,如果三個人說街上有老虎,那麽,根據貝葉辛公式,街上有老虎的概率是不是會從0%增加到3%?
(不是抬杠,隻是好奇。)