昨天發表了對美國實際感染人數的一個推斷。主要目的是提供一個信息。我認為知情是戰勝疫情與心理安穩的一個重要因素,如同知己知彼與鞋子落地一樣的效應。
發表之後,有網名“刁小山”與“山水一程歌”對此有些不適,不管用意如何,我想做一正麵回答,更重要的是與眾多網友做一溝通和探討。同時介紹一下有關統計與概率知識。
推斷統計學(INFERENCE STATISTICS)是統計學的一個重要分支。主要目的是依據可得的數據或統計實驗結果來對整體特性做出某種概率判斷。類似於我們日常生活中根據某些絲蛛馬跡來推斷事實真相的一種思維方法。但方法是基於嚴格的科學推斷來進行的。
推斷統計學發展於二戰時期。當時,盟軍召集了一批優秀的概率與統計大師,根據常常是不完全或模糊的情報來推斷德軍的軍情或用於其它軍事目的。例如前幾年中國有個作文考試題提到的著名統計學家WALD提出在哪裏加強飛機而使其不易被擊落的例子就是其中一個例子。可能另一個更加著名的例子是所謂的“德國坦克車”的問題。當時,德國坦克非常厲害,聯軍非常想知道德國每月能生產多少坦克車。在一個戰役裏,繳獲了若幹輛坦克車,這樣就可以知道這些坦克車的生產序列號(SERIAL NUMBERS)。根據這些不完全的數據,利用概率理論,成功地估計了德國當時坦克車的月產量,和後來解密數據有很好的吻合:
月份 當時的統計推斷 後來解密的數據
1940年6月 169輛/月 122輛/月
1941年6月 244輛/月 271輛/月
1942年8月 327輛/月 342輛/月
除軍事方麵,目前推斷統計學已經用於科學研究,生產實踐,與日常生活中的方方麵麵。比如藥物的雙盲實驗,生產中產品的合格率與質量驗收和監控,民意調查等等方麵。
我所作的統計估計就是依據這樣的思路所做的。我們知道美國總人口的數目,知道做了多少檢測,知道其中確診人數是多少,問題是在總人口中感染人數是多少 (注意,這不是一個簡單的比例問題)。利用統計概率的思路而做出的從已知到未知的統計推斷。
下圖中是對結果的一個總結。橫坐標表示的是可能的感染人數,縱坐標是每個可能感染人數的可能性。在9.4M處可能性最大。也就是說,對美國的數據來說,當感染人數是9.4M才最可能有我們看到的確診人數。作為一個例子,而當感染人數是6M或13M時候,他們的可信性是50%。我們取最可信的9.4M作為我們最佳判斷。這一結果與其它方法得出的結果和我們基於常識的直覺判斷基本吻合。
很可能某些機構有些複雜的模型,有個大程序來計算。我相信簡明才是事務的本原與本質。一個複雜的大MODEL,連計算的人都不知道裏麵運行的是什麽,太複雜了,不容易抓住事物的本質。一個簡明的抓住問題本質的分析,會更加可靠。