眾多2020年大選舞弊的所謂證據裏, 我覺得老地雷說的風向標縣的這個統計“證據”還真的值得研究一下, 故花點時間研究了她的文章及引用的維基百科網頁, 專注於民意調查分析的網站538, 和一篇美國國家科學院刊的論文, 把這件事徹底搞清楚。
一, 老地雷關於風向標縣的Claim.
【注,請注意Claim與有效結論的區別】
老地雷說, 根據維基百科, 有19個風向標縣--每次大選從1980到2016年都選對的了大選的贏家。 在2020年18個第一次選了失敗者川普, 隻有1個選了拜登。 這在統計上幾乎是不可能的事, 所以大概率民主黨竊取了2020年大選。
二,對老地雷一文的漏洞的表麵分析。
我這裏說老地雷的漏洞而不是說她造謠, 是因為我認為老地雷是認真經過了分析的,誠心誠意地認定2020年大選被偷, 不是故意撒謊。
根據老地雷所引的同一個維基百科網頁,你會發現2016年的失敗者克林頓贏了14個風向標縣。 2020年失敗者贏了18個風向標縣, 這麽一比較,至少從表麵上看,2020年就沒有那麽離譜。 而且, 如果光靠風向標縣說話,那如果克林頓說2016年大選被共和黨舞弊偷了也會是很有道理的。 也就是說老地雷因confirmation bias, 因為沒看見,忽略了對她不利的證據。
三,對老地雷一文的漏洞的深入分析。
如果你再仔細看老地雷引用的維基百科網頁, 你會發現, 2012年及以前,風向標縣投給失敗者的大多隻有一兩個, 1992 的5個就有點例外了。 “反常”是從2016年開始。
專注於民意調查分析的網站538也了給出了類似的數據。 538的數據是在2016年前,一共有35個風向標縣, 其中19個投給了勝利者川普,16個投給了失敗者克林頓。這麽看, 自2016年起,風向標縣已經不是風向標縣, 而是大至50-50的分化現象了(這裏沒有說是隨機現象是有道理的, 原因見第五節)。 克林頓贏的這14個風向標縣, 在2020年都投給了拜登。(這裏538與維基有2個縣的出入, 我沒有花時間去追究)。
538網站不但給出了統計數據,而且還給出了合理解釋: 投給克林頓和拜登的風向標縣比起投給川普的風險標縣更種族多樣化, 而且受教育程度更高。 由於美國在政治上的兩極分化, 過去的搖擺縣(也就是風向標縣)從2016年就開始站隊了。 川普特別受無大學學曆的白人的支持,也符合者19個風向標縣profile (這裏隻指出事實,不做價值判斷).
四, 美國國家科學院刊的分析.
這個解釋也符合美國國家科學院刊給出的數據與分析。
用人口構成的預測: 美國國家科學院刊,用人口構成做了統計模型, 預測的結果就是拜登平均應該贏1.65個風向標縣。 用其他模型預測的結果是他應該贏1.2 到1.8個風向標縣。
對證兩極分化: 從整體來看,不管是不是風向標, 2016年投給克林頓的縣,基本上在2020會投給拜登; 而2016年投給川普的縣,2020基本都會投給川普。在全麵三千多個縣裏隻有63個從川普改投了拜登。 所以說在2016年都投給川普的“風向標縣“在2020再次基本上都投給川普並不奇怪(因為”大家都這樣“)。
美國國家科學院刊還給出了對其他“統計舞弊談”的研究, 有興趣的讀者可以自己去學習。
五, 風向標縣的本質。
其實風向標縣沒有什麽特別的原理, 就是個統計常識。 在沒有兩極分化的條件下, 對於一個普通的縣, 每屆都猜對是一個小概率事件, 但是當樣本足夠大的時候, 小概率事件就成了必然,並不是說這個縣有什麽特殊的地方, 有水晶球能預測大選結果。 就像你玩德州撲克,出現同花大順的概率是很低的。 但是你一直玩,天天玩,這一輩子碰上一個或幾個同花大順是必然的。
在兩極分化的條件下,這個縣的大選結果,基本上是可以由這個縣的人口種族, 年齡, 教育程度等變量預測, 選舉結果就不再是隨機事件, 所以風向標縣也就隨之消失了。
六, 總結。
統計是一個可以幫我們發掘真相的有用的工具, 但是統計數據本身是事實,不是真相。要得出正確結論, 我們一是要看的全麵, 不要忽略對結論不利的數據,二是要不停留在統計數據本身上麵,而是要給出合理解釋。 概率模型是個模型, 是在“理想狀態”下的規律。 我們麵對現實問題, 要明白現實裏的假設哪點符合概率模型, 哪點不符合, 那個條件變了, 使得適用於以前的概率模型不再適用了, 能對現實問題給出合理解釋,並能接受各方麵事實的考驗才能得出和確認自己的結論代表著真相。