數學家們在統計學領域犯下了幾個嚴重的錯誤
陳立功,一個醫學背景的生物統計碩士
穩健回歸的開創者、美國著名的統計學家、前美國總統科技顧問Peter John Huber於1997年11月在北京中國科學院數理統計研究所演講時說道:“很多數學背景的統計學家習慣於用數學的確定性思維模式來思考和解決統計學領域的非確定性問題,由此犯下了一些嚴重的錯誤,導致了很多思想和方法上的混亂。”他並期待著一股來自數學以外的力量能夠推動統計學和數學的變革。
聽到這個演講內容和觀點後,我的第一感覺是,如果這個力量存在的話,那麽,它隻能是哲學,因為哲學是人類一切知識的認識論和方法論根源,因而也是一切知識的終極裁決者。
其實,哲學並非什麽艱深玄妙的東西,它是一種智慧,引導人們分辨萬事萬物的性質是怎樣的,有何區別和相似之處,進而認識它們是什麽,相互間有何關係。因此,一個學統計的,如果不懂哲學或缺乏基本的哲學素養,便如一個在黑暗中摸索的瞎子。對於在黑暗中感到困頓的人,哲學將會開啟他的智慧,並賦予他一盞明亮的燈,照亮他前進的道路。
最近試圖與幾位著名的數學背景的統計學家交流自己的思想,但無一願意給出有價值的東西,他們基本采取了沉默不語或不屑理睬的態度。為此,我把這個試圖與他們交流的東西發表在自己的博客裏,作為十四年多來自己對整個係統的持續挑戰的組成部分之一。這個挑戰將一直存在於這裏,以便人們可以觀瞻這一科學史上的悲劇。
Dear Dr. XXX,
您能夠解答我的以下兩個困惑嗎?
我在長達近14年多的時間裏做的是關於臨界回歸分析或分段回歸分析(segmented regression or piecewise regression)的邏輯與算法的重建。我之所以堅持不懈地這樣做,是因為我相信沒有一套數學公理係統可以演繹出這個方法論,而當前的方法論存在嚴重的理論錯誤。這個領域裏最困擾我的問題有以下兩個:
第一,在基於樣本測量的基礎上在樣本可測空間上搜索未知臨界點時,目前的經典方法論是以隨機分段模型組中最小合並預測殘差(min(combined residuals))作出一組“最優”的模型決策,也就是所謂的最優化決策。我想請問,這個決策的數學根據是什麽?誰已經或能夠從概率論上證明那個最小合並預測殘差與所謂的“最優臨界模型組”的隨機參數集合之間的對應是一個“可期望的”或“可靠的”對應,或者說,上述兩個隨機測度的收斂在各自的可測空間上具有概率上最大且充分的一致性。
我從直覺上看這個對應是不可期望的,因為無論是最小合並預測殘差,還是對應於它的隨機臨界模型組的各個統計量都是隨機的“點”測量,它們之間的對應關係就好比我們在一定的樣本量條件下得到的一組同質人群的身高與體重之間的隨機的點對應一樣。如果我們的研究目的是試圖用“身高”這個隨機變量來對“體重”這個隨機變量的某個屬性做出統計決策,我們顯然是不可能使用min(身高)或max(身高)來做出一個關於“體重”的那個屬性的穩定而可靠的決策的。這樣的“最優化”在統計學上是絕對不可接受的,因為,If we could use min(X) or max(X) to make a statistical decision for Y, where both X (maybe an optimizer) and Y (maybe a set of parameters of a set of threshold models) are randomly variable, then all the fundamentals of Statistics would be collapsed. 其實,早在1962年,John Tukey就在其著名的長篇文章《The Future of Data Analysis》裏警告過人們“最優化”在統計學中的危險性。
第二,關於spline技術在臨界回歸分析中的應用。這裏有一個前提假設,即所謂的enforced continuity,這個假設是以數學函數理論求解臨界點的關鍵條件。沒有這個假設的給定,就無法使用解聯立方程組的方法求解未知臨界點。但是,從統計學的角度,如果一個總體中存在一個臨界點,那麽,在隨機抽樣的條件下,在樣本臨界點(如果它可以被以另外的方法估計出來的話)附近的兩個臨界模型間將必然存在一個抽樣的連接變異(這是一個確定性的存在),至於這個連接變異有多大多小,nobody knows(也即這是一個非確定性的存在),從而,我們不可以強製性地預設那個“連續性”來建立一套方法論。反之,如果堅持采用那個強製連續性的假設,就等於是用一個確定性的假設來否決了一個確定性的存在,並以假定的方式肯定了一個“非確定性的存在”的不存在(非確定性的連接變異 = 0,即肯定了“非確定性的連接變異”的不存在)!這是一個令人驚歎的低級錯誤。
If the continuity between two adjacent threshold models is not inferred in a probability, it is not a statistical method but a mathematical game with an arbitrary assumption in a certainty for an uncertainty.
所以,我認為以上兩個問題可能是統計學方法論發展史上的兩個悲劇性錯誤。我在2007年和2009年的JSM會議上曾兩次談到了這兩個錯誤,也曾試圖投稿發表自己的見解,卻被所有雜誌社拒絕了,但卻從來沒有人對這類拒絕的理由給出任何專業方麵的解釋。這些期刊包括(按投稿時間順序):
Biometrics (2次修稿。唯一評論:目前的方法比這個好)
Statistics in Medicine (1次投稿。唯一評語:沒有創新)
JASA (3次修稿。第一個評語:本文的思想確實有趣(definitely interesting),但數學表達不規範,會使審稿者感到burden。最終評語:該文不適合發表)
Biometrika (1次投稿。唯一評語:本刊空間有限)
Annals of Statistics (7次修稿。第一個有意義的評語:本文試圖挑戰the large body of Statistics and Mathematics,但以本文目前的英語寫作水平,不足以令讀者信服。最終評語:建議投稍微低一點的刊物)
Computational Statistics and Data Analysis (2次修稿。唯一評語:作者有點妄言)
The American Statistician (1次投稿,唯一評語:無法判斷本文的觀點和方法是否正確)
上述兩個問題我曾請教過哈佛統計係的主任孟曉犁(Xiao-Li Meng)以及當前的Annals of Statistics的副主編蔡天文(Tong Cai),然而,這兩位傑出的數學背景的統計學家無一願意回應。所以,那兩個困惑對於我依然待解,我相信沒有哪個數學背景的數理統計學家可以給出關於它們的肯定的論證,因為它們本是統計學領域的兩個謬論,是由於概念缺失導致的分析邏輯和數學算法上的錯誤。
人們可以繼續無視我所做出的東西,因為作為國內醫學院畢業的master-level的我在統計學領域的credit可以被忽略不計,但問題將依然存在。正如Dr. Huber在討論導致他所說的那些錯誤的原因時所指出的那樣,“一些數學家習慣於以他們的確定性思維模式來解決非確定性領域的問題”,這是統計學領域中一切錯誤和問題的根源所在。
很遺憾,你連我的第一個問題及其所涉及的領域都沒搞懂。你的觀點與本人的話題沒有多少關係。
統計學裏許多東西未必可以證明,即便可以證明,實踐中樣本有限也未必沒有誤差。就像結構力學的計算,要保險的話加裕量是唯一辦法。
回複YY101的評論:
>在你的眼光裏麵,均值為零的是隨機誤差,均值不為零的是係統誤差,……<
這是你對我的話語的誤解。我從來沒有這樣說過隨機誤差和係統誤差的含義是這樣的。誤差在測量行為中,不在數學定理中。
我們之間對統計學的理解確實存在很大的差異。我無法相信一個數學背景的統計PhD會如此理解和操作統計學。
>你說利用兩組采樣樣本來分離係統誤差與隨機誤差,而兩組數據中都包含兩種誤差,這種分離是不可能的.<
你再次令我瞠目結舌。我不知道你學的是何方統計學,也不知道你的學曆背景究竟是否與統計學有關,更不知道你是否在統計學這個領域從事過多長時間的工作。你連t-test最基本的思想都沒弄清楚。
我所說的是,在兩個樣本的“均數之差”這個測度中,存在著係統誤差和隨機誤差,因為這兩個樣本畢竟來自可以區別定義的兩個總體,或兩個“係統”,但我們不知道這兩個“係統”的隨機抽樣分布是否具有一致性,因為無論我們怎樣抽樣,也無論抽多少次樣,每次一抽樣結果中的兩個樣本的均數間一定存在一個差異,這個差異本身也是一個隨機測度。如果兩個總體的分布一致,則多次抽樣的兩個樣本均數之差的分布應該服從均數為μ=0,標準差為θ的正態分布;反之,如果這個差偏離μ=0,則表明兩個“係統”間存在有顯著意義的差異。此時,我們將可以看到兩個均數之差除了隨機誤差(它在這個差的一次性隨機測量中發生的概率很小)之外,其係統誤差便有了顯著性的意義。
在兩個樣本的某一同名連續型隨機變量的分布比較中,在各自樣本內部應該沒有係統誤差,而該隨機變量的測量方法和工具對於兩個總體也必須是一致的。因此,在比較中的兩個樣本均數之差中的“係統誤差”便隻來源於那些用來有區別地定義兩個總體的不變屬性,例如,一組“高血壓病”患者的血壓,和“健康”人的血壓。這裏,“高血壓病”和“健康”分別是用來定義兩類人群的不變屬性,亦即兩個類別群體中的每個個體都分別擁有各自的同一屬性,即對各自總體來說不變的屬性。
>也許你應當把你那兩個樣本是如何得到的描述一下,我們來看一看其平均數隻差是什麽.<
我在前麵以t-test為例和你展開了一點討論。這個例子是一個抽象的t-test例子,具有一般兩樣本t-test的全部特征。建議你去重讀一本統計學教材中關於t-test的內容,並重溫一下最基本的統計學概念。
>也許我需要你用完整準確的數學語言將你的假設寫出來,……<
>你的H0與H1是互補的嗎?<
關於一個假設檢驗中的兩個假設的哲學式的或數學化的陳述可以參考任何一本統計學教材。一般而言,兩個陳述是互為對立的,因而也是互補的,因為要檢驗的那個差別(例如兩個樣本的平均數之差)由且僅由兩個部分構成。
>如果隨機誤差在全部差中發生也在兩個總體間的係統性差別在樣本所體現的信息中發生,算哪邊的呢?<
這個問題不成立,因為隨機誤差與係統誤差屬於兩類不同性質的誤差,因而不可能發生在對方的範疇內。
由於總體中的個體變異和抽樣的隨機性,在一個假設檢驗中,我們不能通過一次抽樣直接計算出兩類誤差分別有多大,於是采用一個概率來衡量各自發生的可能性大小。
>難道你是說兩個樣本均值中間一個有係統誤差,一個沒有係統誤差?……<
No,兩個樣本的均值之差在結構上由兩類誤差組成。所以,檢驗的假設是兩個,即H0和H1。檢驗概率p判斷的就是隨機誤差在全部差中發生的可能性,而其對立麵1-p就是用來判斷兩個總體間的係統性差別在樣本所體現的信息中發生的可能性。
>你用T-TEST就隱涵了你把係統誤差作為隨機誤差的一部份.<
這句話讓我感到震驚了。假設檢驗的兩個選項就是根據係統誤差和隨機誤差來分別設定的。
>這樣定義個體變異對統計學來說是沒有意義的.一捆一尺長的尺子,長度有微小差別,均值應當接近於一尺.每抽出一支,你都可以稱其為一尺,而不是說一尺加一個變異.如果這樣,賣布的就開不了張了.<
這樣看來,你似乎沒弄懂總體中的個體變異與樣本中的隨機誤差之間的關係。
t-test的邏輯就是在全部誤差中以概率判斷隨機誤差發生的可能性。我們確實不知道兩類誤差各自的實際大小,否則就不需要這個檢驗概率了 。
>我有些懷疑甚至你對隨機誤差的理解也是不對的.我們說的是對每一個個體進行測量.隨機誤差的產生主要是由於被測總體中的個體變異造成。測一次,有隨機誤差;難道你說的是前後測幾次,其間個體變異?即便這樣,每次都有隨機誤差.我不能說隨機誤差一定比係統誤差小,都有可能.<
關於連續型隨機變量的隨機誤差,可以把它們看成是總體中的個體對總體分布期望的隨機變異。
測量中的工具使用中造成的誤差也是樣本中全部隨機誤差的一個組成部分,還有精度的選擇帶來的誤差,則是另一類隨機誤差;你還可以根據具體情形定義其它類別的隨機誤差。但一個樣本中的隨機誤差的主要來源是由於個體對總體分布期望的隨機變異造成的。沒有個體變異,便沒有統計學。
我在前麵回答你時說過,“係統誤差可以量化,也可能無法量化;隨機誤差也是如此。”
>如果隨機誤差可以量化,測量本身就失去意義了.<
讓我們看一個兩樣本t-test的例子。在這個例子中,t值的構造是,分子是兩個樣本的均數之差。這個差就包含著兩類誤差:係統誤差和隨機誤差。檢驗的目的是要用概率來衡量隨機誤差發生的概率大小。我們可以把整個差異看成是1(即全部),那麽,隨機誤差發生的概率大小可以部分地反映出兩類誤差在全部誤差的結構上的相對差異,從而得到兩者的部分程度的量化。
由測量精度引起的誤差是很小的,而且由於對精度的偏離呈現出正態分布的對稱性特征而在計算中可以被相互抵消;隨機誤差的產生主要是由於被測總體中的個體變異造成的,而非測量精度的定義引起的。
係統誤差可以量化,也可能無法量化;隨機誤差也是如此。
對不起,我忘了給定一個條件:如果兩種工具間沒有一個已知的轉換手段。單純從測量結果的數字表現來看,它們之間的差異存在係統誤差,如果直接對這樣的數據進行統計分析,會造成錯誤。所以,如果已知某種轉換手段,便可以消除這個係統誤差了。
回複YY101的評論:
>比方說你擬合一條Y相對於X的回歸曲線,如果是限定於線性模型,肯定有一跳最佳曲線,使殘差平方和最小.……<
我在本文裏討論的最優化不是這個情形下的最優化,而是指的類似於在分段回歸中使用合並殘差最小化來決定分段模型的“最有化”,因為那些方法論構建者認為,最小的合並殘差對應的分段模型就是他要的或期望的。這是不可能的。從你的那段話來看,你沒搞清楚我所說的存在錯誤的最優化是怎麽回事。
當使用全部樣本建立單一模型時,如果需要在不同的模型類型間作出選擇,可能會麵臨何者“最優”的問題,但不論哪一個類型的模型被選定,被選定的模型的參數集合都隻有唯一的解。這裏沒有最優化問題。各種不同類型的模型的參數間的差異不是隨機誤差,而是係統誤差。(此話不嚴謹,應該是:各種不同類型的模型的參數間的差異不僅有隨機誤差,還包含著一部分係統誤差。)
我不知道你是否有過測量中的係統誤差和隨機誤差的理論訓練和測量實踐。如果你不曾有過這類訓練和實踐,我會感到很遺憾。
>采用不具備一致性的方法得到的數據就不是隨機數據了嗎?一致性需要證明嗎?能夠用更加初級的概念及定理證明嗎?<
你前麵說過你受過測量中的係統誤差和隨機誤差的訓練。我很懷疑。
一致性需要證明嗎?這是對一個測量中所使用的測量工具的性質進行判斷的問題。怎麽會需要證明?舉例來說,測量一組人群的身高時,一部分人使用的是厘米製工具,另一部分人使用的是英尺製工具;或者測量血壓時,一部分人使用的水銀血壓計,另一部分人使用的是氣壓計。這類測量中便會包含係統誤差。我判斷出來了,難道你還要我證明給你看嗎?
當然,不論使用的工具是否一致,測量結果中都會包含著隨機誤差。這難道也需要證明?
其實,統計學是一門認知方法論,直觀地說,它近乎於一門測量技術的匯總。它有兩個基本形態或層麵:1)方法論的構建;2)方法論的應用、檢驗和改建或重建。
統計學有自身的公理係統,這個公理係統並不總是與數學的公理係統一致,例如測量的一致性,係統誤差的發現與排除,隨機誤差的最小化等,這些與數學的公理係統風馬牛不相及。
我很讚成您所言,將來會有真相大白的時候!
我覺得統計的模型沒有最好,隻有更好。統計學還是在發展階段,有太多理論需要補充。尤其是計算機的發展促進了統計的深入,但是和每天出現大量的數據相比還是遠遠不夠的。
統計往往先假設一個現有的模型然後對照數據檢驗,這樣是做不到百分之一百的準確性的,一個模型能做到百分之七十吻合就是很不錯的了,但是這樣依然是很難的。
基於這個原因,我是不大相信任何股票價格的,說白了,統計到現在想做到像數學那麽精準是不可能的。它對一切的解釋隻能是個大概而已,這就不是科學,我想。
金融危機前,往往先假設數據是正態分布,然後再去做研究,現在發生了金融危機知道了很多數據不是正態分布的,那以前的模型還可信麽,帶來的損失該是多麽巨大。
拙見,歡迎拍磚。
>從我的觀點看,統計是數學的真子集.<
隻要從統計學的全部概念中找出一個不屬於數學範疇,那麽,統計學就不完全是數學的分支。
搞數學的人是最講究嚴謹的,你應該可以找出至少一個不是純數學可以討論的統計學概念,例如,總體和樣本及其相互關係,還有統計認知的哲學基礎,等等。更重要的是,任何一個統計分析的方法都不是從數學公理係統演繹出來的,而是一種簡單的分析邏輯。這種分析邏輯通常屬於哲學性的分析和思考,然後在此基礎上才能引入數學計算技能來構建統計算法和公式。
關於統計學的學科性質,我想請你回答一個簡單的數學集合論的問題:
{統計學的全部概念}是否屬於{數學的全部概念}的一個真子集?如果是,你可以說統計學是一個純粹的數學分之學科;反之,就不是。你是搞數學出生的,應該可以回答這個問題。
其實,Mathematical Statistics應該被稱為The Mathematics in Statistics. 前者說的是“統計學是數學的”,而後者是在說“統計學裏的數學”。
>但不論哪一個類型的模型被選定,被選定的模型的參數集合都隻有唯一的解。不一定,如果你有100個數據點,擬合一個101階多項式,參數估計就不可能唯一.<
很遺憾,你把一個給定的樣本數據看成是一推抽象的數字,可以任意玩弄了。你完全忽視了針對該樣本的統計認知的理性基礎,以為隻要數學計算上可行,就可以任意而為。
>分段回歸中段點必須要在擬合曲線以前確定,這屬於確定集合時討論的問題.當然你也可以將其作為一個變量一同估計.<
顯然,在對未知總體進行隨機抽樣的條件下,臨界點一定是且隻能是一個隨機變量,因而需要找到它的可測空間並進行測量,從而以期望和可信區間估計來決定它的位置,而不是以“最優化”搜索和解聯立方程組的方法來求解。後一種方法連隨機臨界點的可測空間在哪裏都沒有搞清楚。我不知道那些人的概率論是怎麽學的。
顯然,如果樣本空間(X,Y)裏隻有一個臨界點被假設在X上,則臨界點的可測空間與X是完全一致的。但X的期望和可信區間並非就是其上的那個臨界點的期望和可信區間,因為這裏存在著每一樣本點作為臨界點時的重要性的差異的隨機變異,我們需要測量這個重要性,然後以此為權重來估計X的加權期望和加權基礎上的可信區間。這個加權期望和加權基礎上的可信區間才是對臨界點的正確估計。除此以外沒有它途。
>在合並殘差最小化準則下得到的最優曲線對每一段來說不一定是最優的,但這取決於你的模型結構,例如相鄰段結點是否要求平滑.<
在臨界點通過上述加權估計得到後,事情便簡單了,可以建立連續性檢驗來取代平滑化,因為是否平滑地連接兩個分段模型已經不是一個數學美化的問題,而是一個概率檢驗的問題。這才是真正的統計學思維。一個看起來斷開的兩段模型並非就不是連續的,這取決於連接變異在其最大可測空間上發生的程度。
>比方說你擬合一條Y相對於X的回歸曲線,如果是限定於線性模型,肯定有一跳最佳曲線,使殘差平方和最小.……<
我在本文裏討論的最優化不是這個情形下的最優化,而是指的類似於在分段回歸中使用合並殘差最小化來決定分段模型的“最有化”,因為那些方法論構建者認為,最小的合並殘差對應的分段模型就是他要的或期望的。這是不可能的。從你的那段話來看,你沒搞清楚我所說的存在錯誤的最優化是怎麽回事。
當使用全部樣本建立單一模型時,如果需要在不同的模型類型間作出選擇,可能會麵臨何者“最優”的問題,但不論哪一個類型的模型被選定,被選定的模型的參數集合都隻有唯一的解。這裏沒有最優化問題。各種不同類型的模型的參數間的差異不是隨機誤差,而是係統誤差。
我不知道你是否有過測量中的係統誤差和隨機誤差的理論訓練和測量實踐。如果你不曾有過這類訓練和實踐,我會感到很遺憾。
Thank you so much for the information.
In a mathematician's eyes, a sample is a given set; and nothing is variable, so they treat the set as a certainty. However, a sample is a random set and variable to population. Nothing is certainty.
The optimization takes the idea of "one-to-one correspondence" to make the model selection. This is a shame for a mathematician doing in this way since nothinig is a one-to-one correspondence in a random sample. Every correspodence in a random sample is random.
--- Statistician George E P Box, in "Science and statistics", Journal of the
American Statistical Association 71:791-799, quoted in Holling, C S, Stephen R Carpenter, William A Brock, and Lance H Gunderson, “Discoveries for Sustainable Futures”, Ch. 15 in Gunderson, Lance H and C S Holling, Panarchy: Understanding transformations in human and natural systems, Island Press (2002), p. 409
Please refer to my response below inline between the dotted lines as such:
--------------
my response
---------------
回複nightrider的評論:
Thank you very much for your time and attention. I would like to take this opportunity to clarify something that I might not expressed clearly in this blog article, though they have been clearly stated in my papers in two JSM's proceedings.
> The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? <
Exactly I would like to say, the concept of the "segmented regression or piecewise regression (I prefer the latter one as the formal term in the field)" are not referred from that website, but from several formal top journals in Statistics, like JASA, Annals of Statistics, etc.
The classical method in this field was developed from 1959 to 1979, then turned to spline as the modern form with the enforced continuity assumption and smoothing techniques. Although the methodology for piecewise regression has been continuously developed since then, the basic assumption and the computation techniques are almost the same or similar. What are improved are just the computation technqiues for estimating each threshold or change-point or node and for smoothing the connections in spline in different situations. No one had ever doubted the theoretical issues behind the assumptions and the computation techniques untill I began to doubt them in 2007.
-----------------
Good that you provide a little background information. But you still not have not stated clearly what your objection is.
------------------
> Of course the line can be replaced with nonlinear parametric curves.<
No, sometimes we don't need a smoothy non-linear curve to describe the entire process, but need a threshold to change something, i.e. a policy for investment, etc. A smoothy curve may not help to find the critical point to make a decision.
---------------------
You misunderstood my statement. I meant the curves between the break points or discontinuity be smooth parametric curves, linear or not. After all, the discontinuity is what you are after, isn't it? You do need only a finite number of discontinuity, don't you? So the rest of the curve has to be continuous or smooth, doesn't it?
-------------------------
> Does your first question concern with the legitimacy of the least square method for deducing the parameters? <
No, the LSM is correct for estimating model parameters covering a specific whole sample. What I criticized is the computation techniques ba23sed on an optimizational approach to make a decision for the piecewise models, and the assumption of enforced continuity for estimating the thresholds and smoothing the connection between any two adjacent piecewise models in a whole sample space.
In the current methodology, usually we don't know where a threshold or node is, so we have to search it in a sample space based on a real sample. This means that we have to assume each real sample point may be the threshold or node, thus, if the sample size is n; and there is only one threshold, we will have n pairs of piecewise models and n combined sums of squared residuals because of n pairs of piecewise models. Then, which is the pair that we can expect? The current method took the smallest combined sum of squared residuals (this is an optimizational approach) in the n combined sums of squared residuals to make the model selection, then to estimate a theoretical threshold by taking Model_1 = Model_2 (this is the so-called enforced continuity) in the selected pair of the piecewise models.
It sounds extremely solid in a mathemtical point of view, right? However, if the connection variablity at an unknown sampling threshold cannot be assumed to be zero, we cannont take the equation Model_1 = Model_2 to estimate the unknown threshold or node. This will be an ultimate obstacle to a mathematician in Statistics. This means that the curent methodology is a dead end or went onto a dead path! We have to find another way.
--------------------------
You need to be more specific to in explaining the present methodology of "estimating theoretical threshold by taking Model_1 = Model_2 and your objection concerning "connection variability". Could you give a reference for a thorough mathematically rigorous treatment of the present methodology and a link to your "papers in two JSM's proceedings"? The discussion would be much more efficient and concrete looking at the mathematics.
-------------------
> Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous? <
Yes!
-------------------
Now you are confusing me. If the curve is piecewise, then discontinuities are allowed and continuity is not enforced. Judging from your comments above, your answer here should be "No".
---------------------
>所有的模型都是錯的,但是有的模型是有用的 (All models are incorrect, but some models are useful)。<
In my opinion, 這可能是一個無知者的謬論。他不去努力找到一個盡可能充分直至終極正確的途徑,卻以一種詭辯式的語氣為自己開脫責任。
Thank you very much for your time and attention. I would like to take this opportunity to clarify something that I might not expressed clearly in this blog article, though they have been clearly stated in my papers in two JSM's proceedings.
> The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? <
Exactly I would like to say, the concept of the "segmented regression or piecewise regression (I prefer the latter one as the formal term in the field)" are not referred from that website, but from several formal top journals in Statistics, like JASA, Annals of Statistics, etc.
The classical method in this field was developed from 1959 to 1979, then turned to spline as the modern form with the enforced continuity assumption and smoothing techniques. Although the methodology for piecewise regression has been continuously developed since then, the basic assumption and the computation techniques are almost the same or similar. What are improved are just the computation technqiues for estimating each threshold or change-point or node and for smoothing the connections in spline in different situations. No one had ever doubted the theoretical issues behind the assumptions and the computation techniques untill I began to doubt them in 2007.
> Of course the line can be replaced with nonlinear parametric curves.<
No, sometimes we don't need a smoothy non-linear curve to describe the entire process, but need a threshold to change something, i.e. a policy for investment, etc. A smoothy curve may not help to find the critical point to make a decision.
> Does your first question concern with the legitimacy of the least square method for deducing the parameters? <
No, the LSM is correct for estimating model parameters covering a specific whole sample. What I criticized is the computation techniques based on an optimizational approach to make a decision for the piecewise models, and the assumption of enforced continuity for estimating the thresholds and smoothing the connection between any two adjacent piecewise models in a whole sample space.
In the current methodology, usually we don't know where a threshold or node is, so we have to search it in a sample space based on a real sample. This means that we have to assume each real sample point may be the threshold or node, thus, if the sample size is n; and there is only one threshold, we will have n pairs of piecewise models and n combined sums of squared residuals because of n pairs of piecewise models. Then, which is the pair that we can expect? The current method took the smallest combined sum of squared residuals (this is an optimizational approach) in the n combined sums of squared residuals to make the model selection, then to estimate a theoretical threshold by taking Model_1 = Model_2 (this is the so-called enforced continuity) in the selected pair of the piecewise models.
It sounds extremely solid in a mathemtical point of view, right? However, if the connection variablity at an unknown sampling threshold cannot be assumed to be zero, we cannont take the equation Model_1 = Model_2 to estimate the unknown threshold or node. This will be an ultimate obstacle to a mathematician in Statistics. This means that the curent methodology is a dead end or went onto a dead path! We have to find another way.
> Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous? <
Yes!
I am trying to understand your two questions. As it appears that you have expended so much time effort trying to understand and challenge what you call mistakes in statistics, would it not be helpful for you and for your audience to state clearly and rigorously the problems first? What you have written written here does not appear that you have not done that. If what appears here is what you wrote to the journals and the experts, at least it is not exactly clear to me what you are trying to say. I will have say that some of the review comments you quoted are not that off mark, regarding the clarity of your presentation.
As an attempt at clarification, allow me to ask you a few questions. The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? Of course the line can be replaced with nonlinear parametric curves. Does your first question concern with the legitimacy of the least square method for deducing the parameters? Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous?
你讓我感到有點可笑或自嘲。我本是想通過這篇拙文喚醒哪怕是一個統計學家,沒想到卻招來了你來試圖喚醒我!看來,我得閉門反思了。多謝你的警醒。
在我看來,統計學根本不應被認為是一門純粹的數學分支學科,它其實是一門數學化的認知方法論,而認知方法論原本屬於哲學範疇內的認識論(epistemology)而非數學範疇的某個門類。隻不過,統計學由於大量應用了數學技能構建算法而體現出了一定程度的“數學”屬性,但其本質依然屬於認知方法論,其目的絕非為了提出、論證和演繹數學命題,而是如何實現認識外部客觀世界的某種更加可靠的途徑。所以,一個數學背景的人如果不懂基本哲學,尤其是認識論的基本原理,它是沒有資格在統計學領域從事方法學構建的。
我的上述論斷可能會傷害某些數學背景的統計學專家。但願人們能夠理解我所說的道理。
多謝你的激情參與,也感謝你的警醒和勸告。
我想我不是一個隻會在嘴巴上說說的人。你認為“哲學和神學隻有說教,沒有基於事實的討論。極端的固執,不顧事實。”我想,我在這篇拙文裏陳述的很多東西應該屬於“事實”而非臆造。如果統計學家們不能認真對待我所指出的事實和錯誤,那麽,他們將沒有能力開創新的局麵。
至於你提到的統計學可能需要一次大的變革,我想我已經為此做出了自己的貢獻。遺憾的是,它們尚未被學術界認真對待,或許他們根本就沒有讀懂我的思想和方法。我的醫學和公共衛生的master背景在統計學這個被認為是數學分支學科的領域將不會被人認真對待。
除了這篇質疑和批判性的書信稿,我將在以後的博客文章裏逐漸披露自己這些年來所做的工作。我想,如果你是一位卓有成效且功底很深的統計學家,你將會為此感到震撼不已——為什麽一個如此背景的人能夠完成這樣的工作?
當一個方法論不能自圓其說或自相矛盾時,就一定不是一個正確的方法論。你可以試各種方法,但隻有那種能夠自圓其說且不違背其fundamentals的方法才能夠被認可;一旦某個方法被發現邏輯悖論或缺陷,它就必須被修正。
Who is your 校友 旭光? Is there any way I can get in touch with him?
Thanks and best regards,
alsoRun
有很多東西,是互相部分相連的,但又有本質上的不同。如果一定要用統計學去完全解釋生物學,或者用哲學去解釋統計學,或者統計學是否合乎哲學的解釋,本身就是有點荒誕的。之所以他們以它們各自的獨立身份存在,就是由於他們有本質上的不同。如果您硬是要找到他們的統一,就應當到更高的層次上去找,而不是到他們互相之間去找。您以為呢?好了,我就此 Shutup了。
Yes, you are right. Thanks very much.
The American Statistics 是不是 The American Statistician 之筆誤?
http://blog.wenxuecity.com/myblog/29080/200910/31855.html
也許對理解這類問題有幫助。
本人看過大量的論文,參與過不少實際運算的研究項目,將各式各樣的統計方法用於生物學的研究當中。到目前為止,在現有的數據和生物學知識的基礎上,沒有一種方向能為藥物研製作出重大貢獻,而公司和學校投入的資金至少是以億(美)元計算了。
我非常悲哀地承認,統計學可能有重大的缺陷。就像牛頓物理學不能解釋光線的波粒二項性一樣,在商業和人工智能方麵大顯身手的統計學,可能需要一次大的發展才能對生物研究和藥物開發有貢獻。
但是,那麽多的統計方法都失敗了,現在任何一個人提出一個新的統計方法,在沒有應用到藥物研究中的基本的數據和證據之前,我都不會去多看一眼。讓數據說話,讓成果說話,不單單用舌頭說話,是科學和哲學最基本的區別。
哲學和神學隻有說教,沒有基於事實的討論。極端的固執,不顧事實,其實來源於個人多次的失敗和內心的怯弱,以致於以強硬充門麵。誠心希望博主的才華和努力,不要成為博主怯弱和固執的犧牲品。
不敢期望博主改變,如果能有一個來訪者能受我一勸,不走進與博主類似的死胡同,我就滿足了。
唉。老兄別爭論了吧。
正是因為有用,至少在我所知的實際領域如此, 你一定要證明理論不成立,就很難說服人了。 也許在你所知的例子,真的無效。
理論這樣的東西,隻要在特定情況下有效,就有人要用啊。
更別說,能用於賺錢實用方麵了。 實實在在的賺錢,你說它是怪論,無效,怎麽能說服人?
第一個用在股票的抄底摸頂。
第二個用在趨勢跟隨交易。
實實在在的每天應用著,你倒是爭論著成立不成立呢。 你看看雜誌給你的投稿評論,也就是這個意思吧。
風涼話少說,有本事請切入主題來點真格的;otherwise, 去雜誌社投稿支持或反駁本文作者,或者,please shut up.
轉貼原文以記錄發布和最終修改日期和時間:
標題:數學家們在統計學領域犯下了幾個嚴重的錯誤
穩健回歸的開創者、美國著名的統計學家、前美國總統科技顧問Peter John Huber於1997年11月在北京中國科學院數理統計研究所演講時說道:“很多數學背景的統計學家們在統計學領域犯下了嚴重的錯誤,導致了很多思想和方法上的混亂。”他並期待著一股來自數學以外的力量能夠推動統計學和數學的變革。
聽到這個演講內容和觀點後,我的第一感覺是,如果這個力量存在的話,那麽,它隻能是哲學,因為哲學是人類一切知識的認識論和方法論根源,因而也是一切知識的終極裁決者。
一個學統計的,如果不懂哲學,便如一個在黑暗中摸索的瞎子。對於在黑暗中感到困頓的人,哲學將會開啟他的智慧,並賦予他一盞明亮的燈,照亮他前進的道路。
最近試圖與幾位著名的數學背景的統計學家交流自己的思想,但無一願意給出有價值的東西,他們基本采取了沉默不語或不屑理睬的態度。為此,我把試圖與他們交流的東西發表在自己的博客裏,作為對整個係統的挑戰之一。這個挑戰將一直存在於這裏,以便人們可以觀瞻這一科學史上的悲劇。
Dear Dr. XXX,
您能夠解答我的以下兩個困惑嗎?
我在長達近14年多的時間裏做的是關於臨界回歸分析或分段回歸分析(segmented regression or piecewise regression)的邏輯與算法的重建。我之所以堅持不懈地這樣做,是因為我相信沒有一套數學公理係統可以演繹出這個方法論,而當前的方法論存在嚴重的理論錯誤。這個領域裏最困擾我的問題有以下兩個:
第一,在基於樣本測量的基礎上在樣本可測空間上搜索未知臨界點時,目前的經典方法論是以隨機分段模型組中最小合並預測殘差(min(combined residuals))作出一組“最優”的模型決策,也就是所謂的最優化決策。我想請問,這個決策的數學根據是什麽?誰已經或能夠從概率論上證明那個最小合並預測殘差與所謂的“最優臨界模型組”的隨機參數集合之間的對應是一個“可期望的”或“可靠的”對應,或者說,上述兩個隨機測度的收斂在各自的可測空間上具有概率上最大且充分的一致性。
我從直覺上看這個對應是不可期望的,因為無論是最小合並預測殘差,還是對應於它的隨機臨界模型組的各個統計量都是隨機的“點”測量,它們之間的對應關係就好比我們在一定的樣本量條件下得到的一組同質人群的身高與體重之間的隨機的點對應一樣。如果我們的研究目的是試圖用“身高”這個隨機變量來對“體重”這個隨機變量的某個屬性做出統計決策,我們顯然是不可能使用min(身高)或max(身高)來做出一個關於“體重”的那個屬性的穩定而可靠的決策的。這樣的“最優化”在統計學上是絕對不可接受的,因為,If we could use min(X) or max(X) to make a statistical decision for Y, where both X (maybe an optimizer) and Y (maybe a set of parameters of a set of threshold models) are randomly variable, then all the fundamentals of Statistics would be collapsed.
第二,關於spline技術在臨界回歸分析中的應用。這裏有一個前提假設,即所謂的enforced continuity,這個假設是以數學函數理論求解臨界點的關鍵條件。沒有這個假設的給定,就無法使用解聯立方程組的方法求解未知臨界點。但是,從統計學的角度,如果一個總體中存在一個臨界點,那麽,在隨機抽樣的條件下,在樣本臨界點(如果它可以被以另外的方法估計出來的話)附近的兩個臨界模型間將必然存在一個抽樣的連接變異(這是一個確定性的存在),至於這個連接變異有多大多小,nobody knows(也即這是一個非確定性的存在),從而,我們不可以強製性地預設那個“連續性”來建立一套方法論。反之,如果堅持采用那個強製連續性的假設,就等於是用一個確定性的假設來否決了一個確定性的存在,並以假定的方式肯定了一個非確定性的不存在(非確定性的連接變異 = 0,即肯定了“非確定性的連接變異”的不存在)!這是一個令人驚歎的低級錯誤。
If the continuity between two adjacent threshold models is not inferred in a probability, it is not a statistical method but a mathematical game with an arbitrary assumption in a certainty for an uncertainty.
所以,我認為以上兩個問題可能是統計學方法論發展史上的兩個悲劇性錯誤。我在2007年和2009年的JSM會議上曾兩次談到了這兩個錯誤,也曾試圖投稿發表自己的見解,卻被所有雜誌社拒絕了,但卻從來沒有人對這類拒絕的理由給出任何專業方麵的解釋。這些期刊包括(按投稿時間順序):
Biometric (2次修稿。唯一評論:目前的方法比這個好)
Statistics in Medicine (1次投稿。唯一評語:沒有創新)
JASA (3次修稿。第一個評語:本文的思想確實有趣(definitely interesting),但數學表達不規範,會使審稿者感到burden。最終評語:該文不適合發表)
Biometrika (1次投稿。唯一評語:本刊空間有限)
Annals of Statistics (7次修稿。第一個有意義的評語:本文試圖挑戰the large body of Statistics and Mathematics,但以本文目前的英語寫作水平,不足以令讀者信服。最終評語:建議投稍微低一點的刊物)
Computational Statistics and Data Analysis (2次修稿。唯一評語:作者有點妄言)
The American Statistics (1次投稿,唯一評語:無法判斷本文的觀點和方法是否正確)
上述兩個問題我曾請教過哈佛統計係的主任孟曉犁(Xiao-Li Meng)以及當前的Annals of Statistics的副主編蔡天文(Tong Cai),然而,這兩位傑出的數學背景的統計學家無一願意回應。所以,那兩個困惑對於我依然待解,我相信沒有哪個數學背景的數理統計學家可以給出關於它們的肯定的論證,因為它們本是統計學領域的兩個謬論,是由於概念缺失導致的分析邏輯和數學算法上的錯誤。
人們可以繼續無視我所做出的東西,因為作為國內醫學院畢業的master-level的我在統計學領域的credit可以被忽略不計,但問題將依然存在。正如Dr. Huber所指出的那樣,“一些數學家習慣於以他們的確定性思維模式來解決非確定性領域的問題”,這是統計學領域中一切錯誤和問題的根源所在。
上次看你辯論醫學院教育的事,我才發現原來是你自己管自己叫統計學家。
我也是看了二姐的題目進來的,從上次以後,很怕點進你這裏,文學城頭的導讀有時候挺坑人的。
You are a great hero in the sports you just mentioned below. Hope you can win them. However, if you are a great statistician, please leave your answers for those questions since I have said that this blog is a challenge for anyone in the field of Statistics; otherwise, dream yourself as you wish you were whatever you want to be.
The mathematics in Statistics should not be contraditory to itself!(統計學中的數學不應該與其自身相矛盾!)
你所說的話讓我懷疑你是否有過現場調查和數據管理的經驗。你很可能是一個學院式的統計學家,隻會用幾個數學概念在自己的腦袋裏演繹外部客觀世界,並堅信自己的演繹是正確的,因為它們在你看來可能符合你的假設條件和基於此上的數學原理。
真的能一樣嗎?
統計學,不就是對存在的現象進行規範化後的描述。 能用於實際上的有限預測,指導生產等。 給出的是,一定的可能性。這些在數學上,如何純理論性證明? 你的第2個問題很符合股票價格的走勢預測理論,原本也許就來自實際現象,鑽什麽牛角尖啊。
是一個很有用的交易手法。
如果你是一個數學背景的統計學家,如果你想接受那個挑戰並在這裏發言,就請說出幾句有價值的話,否則,就讓我的那個在你看來似“精神病患者般”的傻笑陪你進入夢鄉好了。
如果你是某個統計雜誌的編輯或同行評議者,如果你曾犯下了類似的錯誤,你會允許我的思想發表嗎?
要不是“二姐”, 我根本不會回這文學城了。
http://blog.wenxuecity.com/myblog/40482/201208/17777.html