TNEGI//ETNI

TNEGI//ETNI 名博

數學家們在統計學領域犯下了幾個嚴重的錯誤

TNEGI//ETNI (2012-08-27 18:04:59) 評論 (152)

數學家們在統計學領域犯下了幾個嚴重的錯誤 
陳立功,一個醫學背景的生物統計碩士

 

穩健回歸的開創者、美國著名的統計學家、前美國總統科技顧問Peter John Huber199711月在北京中國科學院數理統計研究所演講時說道:“很多數學背景的統計學家習慣於用數學的確定性思維模式來思考和解決統計學領域的非確定性問題,由此犯下了一些嚴重的錯誤,導致了很多思想和方法上的混亂。”他並期待著一股來自數學以外的力量能夠推動統計學和數學的變革。
  
聽到這個演講內容和觀點後,我的第一感覺是,如果這個力量存在的話,那麽,它隻能是哲學,因為哲學是人類一切知識的認識論和方法論根源,因而也是一切知識的終極裁決者。
  其實,哲學並非什麽艱深玄妙的東西,它是一種智慧,引導人們分辨萬事萬物的性質是怎樣的,有何區別和相似之處,進而認識它們是什麽,相互間有何關係。因此,
一個學統計的,如果不懂哲學或缺乏基本的哲學素養,便如一個在黑暗中摸索的瞎子。對於在黑暗中感到困頓的人,哲學將會開啟他的智慧,並賦予他一盞明亮的燈,照亮他前進的道路。
  
最近試圖與幾位著名的數學背景的統計學家交流自己的思想,但無一願意給出有價值的東西,他們基本采取了沉默不語或不屑理睬的態度。為此,我把這個試圖與他們交流的東西發表在自己的博客裏,作為十四年多來自己對整個係統的持續挑戰的組成部分之一。這個挑戰將一直存在於這裏,以便人們可以觀瞻這一科學史上的悲劇。 

Dear Dr. XXX

您能夠解答我的以下兩個困惑嗎?
  
我在長達近14年多的時間裏做的是關於臨界回歸分析或分段回歸分析(segmented regression or piecewise regression)的邏輯與算法的重建。我之所以堅持不懈地這樣做,是因為我相信沒有一套數學公理係統可以演繹出這個方法論,而當前的方法論存在嚴重的理論錯誤。這個領域裏最困擾我的問題有以下兩個:
  
第一,在基於樣本測量的基礎上在樣本可測空間上搜索未知臨界點時,目前的經典方法論是以隨機分段模型組中最小合並預測殘差(min(combined residuals))作出一組“最優”的模型決策,也就是所謂的最優化決策。我想請問,這個決策的數學根據是什麽?誰已經或能夠從概率論上證明那個最小合並預測殘差與所謂的“最優臨界模型組”的隨機參數集合之間的對應是一個“可期望的”或“可靠的”對應,或者說,上述兩個隨機測度的收斂在各自的可測空間上具有概率上最大且充分的一致性。
  
我從直覺上看這個對應是不可期望的,因為無論是最小合並預測殘差,還是對應於它的隨機臨界模型組的各個統計量都是隨機的“點”測量,它們之間的對應關係就好比我們在一定的樣本量條件下得到的一組同質人群的身高與體重之間的隨機的點對應一樣。如果我們的研究目的是試圖用“身高”這個隨機變量來對“體重”這個隨機變量的某個屬性做出統計決策,我們顯然是不可能使用min(身高)max(身高)來做出一個關於“體重”的那個屬性的穩定而可靠的決策的。這樣的“最優化”在統計學上是絕對不可接受的,因為If we could use min(X) or max(X) to make a statistical decision for Y, where both X (maybe an optimizer) and Y (maybe a set of parameters of a set of threshold models) are randomly variable, then all the fundamentals of Statistics would be collapsed. 其實,早在1962年,John Tukey就在其著名的長篇文章《The Future of Data Analysis》裏警告過人們“最優化”在統計學中的危險性。
  第二,關於spline技術在臨界回歸分析中的應用。這裏有一個前提假設,即所謂的enforced continuity,這個假設是以數學函數理論求解臨界點的關鍵條件。沒有這個假設的給定,就無法使用解聯立方程組的方法求解未知臨界點。但是,從統計學的角度,如果一個總體中存在一個臨界點,那麽,在隨機抽樣的條件下,在樣本臨界點(如果它可以被以另外的方法估計出來的話)附近的兩個臨界模型間將必然存在一個抽樣的連接變異(這是一個確定性的存在),至於這個連接變異有多大多小,nobody knows(也即這是一個非確定性的存在),從而,我們不可以強製性地預設那個連續性來建立一套方法論。反之,如果堅持采用那個強製連續性的假設,就等於是用一個確定性的假設來否決了一個確定性的存在,並以假定的方式肯定了一個“非確定性的存在”的不存在(非確定性的連接變異 = 0,即肯定了“非確定性的連接變異”的不存在)!這是一個令人驚歎的低級錯誤。
  
If the continuity between two adjacent threshold models is not inferred in a probability, it is not a statistical method but a mathematical game with an arbitrary assumption in a certainty for an uncertainty.
  所以,我認為以上兩個問題可能是統計學方法論發展史上的兩個悲劇性錯誤。我在2007年和2009年的JSM會議上曾兩次談到了這兩個錯誤,也曾試圖投稿發表自己的見解,卻被所有雜誌社拒絕了,但卻從來沒有人對這類拒絕的理由給出任何專業方麵的解釋。這些期刊包括(按投稿時間順序):
     Biometrics (2次修稿。唯一評論:目前的方法比這個好)
     Statistics in Medicine (1次投稿。唯一評語:沒有創新)
     JASA (3次修稿。第一個評語:本文的思想確實有趣(definitely interesting),但數學表達不規範,會使審稿者感到burden。最終評語:該文不適合發表)
     Biometrika (1次投稿。唯一評語:本刊空間有限)
     Annals of Statistics (7次修稿。第一個有意義的評語:本文試圖挑戰the large body of Statistics and Mathematics,但以本文目前的英語寫作水平,不足以令讀者信服。最終評語:建議投稍微低一點的刊物)
     Computational Statistics and Data Analysis (2次修稿。唯一評語:作者有點妄言)
     The American Statistician (1次投稿,唯一評語:無法判斷本文的觀點和方法是否正確)  
  
上述兩個問題我曾請教過哈佛統計係的主任孟曉犁(Xiao-Li Meng)以及當前的Annals of Statistics的副主編蔡天文(Tong Cai),然而,這兩位傑出的數學背景的統計學家無一願意回應。所以,那兩個困惑對於我依然待解,我相信沒有哪個數學背景的數理統計學家可以給出關於它們的肯定的論證,因為它們本是統計學領域的兩個謬論,是由於概念缺失導致的分析邏輯和數學算法上的錯誤。
  
人們可以繼續無視我所做出的東西,因為作為國內醫學院畢業的master-level的我在統計學領域的credit可以被忽略不計,但問題將依然存在。正如Dr. Huber在討論導致他所說的那些錯誤的原因時所指出的那樣,“一些數學家習慣於以他們的確定性思維模式來解決非確定性領域的問題”,這是統計學領域中一切錯誤和問題的根源所在。