已公布的美國大選計票結果引起發了一些爭議。這為數據分析工作者提供了一個學習的機會。以上轉發的三張圖片講述了一個相關的分析案例,很有意思。
上圖1: Dr. Shiva是MIT的Scientist。他與兩位數據工程師合作對密西根州四個縣的投票結果進行了深入分析,發現在Oakland, Macomb, 和Kent 這三個縣裏,越是共和黨注冊選民多的地區,川普的得票率與共和黨參眾兩院候選人的得票率差距越大,顯示出一種非正常的不以黨派投票的數據離散分布。這種現象隻有在使用“權重計票”算法的條件下才有可能發生。鑒於美國的選舉均由計算機計票(人工計票隻有在雙方選票極其接近或有法律糾紛時才有可能)。所以,可以認為上述三縣的計票結果已被計算機做了手腳,不是實際投票的反映。
上圖2 有4種不同形態的數據分布示意圖。圖中黑點代表選票的地區分布;中間的紅線代表按黨派投票的基線(投川普與投共和黨參眾兩院候選人一致,投拜登與投民主黨參眾兩院候選人一致);紅線以上的點代表不按黨派投票而投川普的票,紅線以下的點代表不按黨派投票而投拜登的票;底部的黑線為X軸,標注共和黨選民的注冊人數,按地區排序從左到右呈遞增趨勢。1)右下圖是正常投票的分布假設:在不按黨派投票的選民中,有一部分人投川普,有一部分人投拜登。這兩部分人的選票分布相對均衡;2) 左下圖是偏向川普的投票分布假設:在不按黨派投票的選民中,所有人都投川普,不投拜登;3)右上圖是偏向拜登的投票分布假設,與左下圖情形相反;4) 左上圖是三個縣實際計票結果的分布示意圖:從左往右看,越是共和黨注冊選民多的地方,不投川普投拜登的跨黨派投票越多。
上圖3是4個縣的實際計票分布圖。後三個縣的數據分布形態非常相近。簡單地說,以共和黨注冊選民超過25%的地區為分界點,川普的得票率由高到低呈線性下降趨勢。在共和黨注冊選民人數最多的地區,川普的得票率最低。與此形成對照,左上角的Wayne縣的計票分布沒有這種特征。該縣是民主黨選民占主體。很顯然,其計票係統采用了不同於其餘三縣的算法。