朱頭山

無意邀眾賞,一心追殘陽
個人資料
朱頭山 (熱門博主)
  • 博客訪問:
正文

外行人對統計學作用的理解

(2019-07-07 14:35:48) 下一個

除了部分學理工科的,大多數人在大學以後就不再接觸數學了,數學知識也僅限於加減乘除。如果還有人能記得三角函數,已經很牛了,如果還能計算概率,那簡直是大神了。相反,對迷信,或類似於迷信的東西,隨著年齡的增長,信的人倒反而多起來了。為什麽呢?因為隨著經曆的豐富,對世界的複雜性有了更深的感受,而人許多時候需要預測。但直覺常常不可靠,而知識在很多方麵不夠深入不夠準確,因此隻能求助於神靈!

但其實數學的一個分枝,統計學,是可以在很大程度上幫助人們作預測的,至少比萬事依賴迷信占卜要強。

現代的統計學已經是一門很完整的科學了,也是應用數學最重要的部分。比如氣象學,就是通過分析大量氣象數據,通過統計預測,已經可以達到相當準確的結果了。如果三天內的天氣預報說90%有雨,那你帶上雨傘基本上沒有錯。

世上的事件,按發生可能性,可分為確定事件和概率事件。比如有人拿把槍,頂住你頭開槍,槍響人亡幾乎是100%肯定的,是確定性事件。如果他在100米外朝你開槍,是不可能保證命中的,神槍手概率大點,接近100%,菜鳥可能接近0%,但這隻是概率,這樣的情況叫概率性事件。影響事件發生的原因,也分兩種,即係統性和隨機性因素。有人從遠處向你開槍時,有偏風,使得子彈固定朝一個方向偏,這就是係統性因素,是可以調整的;如果沒有偏風,彈著點散落在不同的地方,這是隨機性因素,是事件固有的,無法調整無法改變的。

確定性事件用不著預測了。但世界上大多數事件是概率性的,而概率是可以計算的,因此是可以預測的。最常用的統計方法, 就是通過計算以往類似事件的數據,從而為未來提供預測。比如計算某種飛機的失事率,你就能大致了解該飛機的安全性。通過抽樣信息了解總體,也是常用的方法。比如一個批號的產品有幾百萬個,一個個檢測不可行,就可以拿出少量的樣品進行檢測,通過檢測結果推測總體狀況。

在抽樣時,有個必須遵循的原則是隨機化。科學的隨機不是閉上眼睛抓一把,這樣不是真正的隨機,而必須遵循科學的方法。比如,抓老鼠,就得把所有老鼠編上號,用電腦隨機產生程序打出一串號,根據這些號選取相應的老鼠。否則,那些活躍的老鼠不容易抓到,而抓到的都是遲鈍老實的,統計結果就會出現偏差。檢測的數據也有講究,如在民意測驗中,問“你認為川普會當選嗎?”,和“你會選他嗎?”, 得到的結果是不一樣的。因為選擇問題不當,2016年美國大選預測完全失靈。

概率也是比較某些概率性事件是否有差別的判斷參數。大多數藥物都不是對所有人有效,A藥有效率70%, B藥20%, 但據此並不能決定A好於B。隻有通過統計學計算,確定這種有效率差別是隨機性的概率小於5%(P value), 才能說A藥可能好於B藥,但還有很小的概率,這個結論不成立。所以對於概率性事物,包括幾乎所有的政治,軍事,商業事務,和科學裏的生物學,高等物理學,如果誰和你保證100%的成功率,別信他!

預測統計學也在進步。比如那種俄羅斯左輪槍賭博,如果轉輪有6個儲彈位,隻有一顆已裝彈,開始時中彈概率為1/6,以後每打一槍,概率就隨之增加。應對這種概率不斷變化的情況的計算法, 叫Bayesian方程,在實踐中很有用。如尋找失蹤人員,優化方法等。

前麵提到的應用,通常有某種計算公式,和用於計算的參數。但世界上還有很多事物,無法計算,或計算過於複雜,超出了計算機的能力。最近人工智能的進展,使得對這一類情況的處理,有了突破性的進展。

Google的Alpha-Go項目組,開發出一種新的算法:學習。我的理解,學習算法就是不管要做的事有沒有規律,隻要跟著人做幾遍,照樣畫葫蘆,總結出人的步驟,形成程序,依樣行事。這聽上去不錯,也和人類的行事方法相似。人類大多數事都是學會的,就是像性交這樣的本能,一蹴而就的人不多,好男兒都是百煉成鋼的,這就是為什麽很多少女愛大叔的原因。

而且Google開發的算法是通用的,並不僅限於圍棋,還發表在公開的科學雜誌上,當然具體怎麽運用就是各家自己的本事了,那屬於專利了。就Alpha-Go的學習算法而言,是通過大量的練習,對每一步都優選了7-10種走法,練習得越多,優選的對策越好。雖然總計算量依然很大,但比國際象棋那種算法要好多了,現有電腦能力可以應付。Alpha-Go的成績也很好,先是打敗了歐洲冠軍,然後挑戰稱霸世界圍棋棋壇十餘年的李世石,4:1, 李還贏了一盤,過了一年又挑戰現霸主柯潔,5:0,柯潔根本沒有機會。以後又出了第二代,在圍棋網上擺擂台,人類選手根本不可望其項背。

這種學習算法在AI曆史上是劃時代的,從此AI的發展出現井噴現象,在很多沒有規律,高度依賴經驗的領域出現突破。其中中國的進展神速,原因之一是這種算法高度依賴於練習量,中國人多,又沒很多限製私人信息使用的法律,因此就構成了優勢。

AI可以用來下圍棋,開汽車,發現罪犯,當然可以用來預測啦。比如談戀愛,真的沒規律沒算法,但世上有情場高手。開發一種基於鄧文迪個人直覺的二奶程序,那天下女人有福了。一掃就知道那個富豪有戲,以鄧大師的應對手段,大多數富豪都能手到擒來,拿到一筆巨款,再找下一個,有錢了還能玩玩猛男小鮮肉,哇塞!

Knowledge is power, 絕對沒錯!如果有時間,把統計學放在你的學習priority吧!

 

 

 

 

 

[ 打印 ]
閱讀 ()評論 (1)
評論
shidong1983 回複 悄悄話 今天白天還在跟兒子聊起統計學話題,你的大作已發給他學習。下次讓我兒子當麵向大才子叔叔請教
登錄後才可評論.