數學家們在統計學領域犯下了幾個嚴重的錯誤

回複chinomango的評論:

很遺憾，你連我的第一個問題及其所涉及的領域都沒搞懂。你的觀點與本人的話題沒有多少關係。

我不是專家甚至讀不懂你“第二”裏那些拗口的段落。不過“第一”的問題，好比你要估計班上同學的身高，用的是隨機分組後身高最接近的一組的身高來建立模型。沒人可以證明那是最優的，但由直覺可以認為它是局部最優的。除非你能提出更好的建模方法，你也不必從理論上證明最優，隻要實際中有幾個重要的例子就值得發表了。
統計學裏許多東西未必可以證明，即便可以證明，實踐中樣本有限也未必沒有誤差。就像結構力學的計算，要保險的話加裕量是唯一辦法。

回複TNEGI//ETNI的評論:我說的不是數學定理,而是誤差在你模型構造中的表達.不在模型構造中的誤差,就沒有什麽統計可言.

回複YY101的評論:

>在你的眼光裏麵，均值為零的是隨機誤差，均值不為零的是係統誤差，……<

這是你對我的話語的誤解。我從來沒有這樣說過隨機誤差和係統誤差的含義是這樣的。誤差在測量行為中，不在數學定理中。

我們之間對統計學的理解確實存在很大的差異。我無法相信一個數學背景的統計PhD會如此理解和操作統計學。

同時,即便按照你的說法,θ也是由係統誤差與隨機誤差兩部分組成,二者仍然分不開.

回複TNEGI//ETNI的評論:好了,我不在繼續參加這樣的討論了.我前麵提到過,你必須給出你的觀點的準確數學定義與描述。從你這個貼裏麵，我可以看到你對所謂係統誤差與統計測度等概念的認識,與我所知道的完全是兩碼事情。在你的眼光裏麵，均值為零的是隨機誤差，均值不為零的是係統誤差，這與我的認知不同.我也不想繼續爭論下去，這樣沒有共同基礎的討論不具備實際意義。

回複YY101的評論:

>你說利用兩組采樣樣本來分離係統誤差與隨機誤差,而兩組數據中都包含兩種誤差,這種分離是不可能的.<

你再次令我瞠目結舌。我不知道你學的是何方統計學，也不知道你的學曆背景究竟是否與統計學有關，更不知道你是否在統計學這個領域從事過多長時間的工作。你連t-test最基本的思想都沒弄清楚。

我所說的是，在兩個樣本的“均數之差”這個測度中，存在著係統誤差和隨機誤差，因為這兩個樣本畢竟來自可以區別定義的兩個總體，或兩個“係統”，但我們不知道這兩個“係統”的隨機抽樣分布是否具有一致性，因為無論我們怎樣抽樣，也無論抽多少次樣，每次一抽樣結果中的兩個樣本的均數間一定存在一個差異，這個差異本身也是一個隨機測度。如果兩個總體的分布一致，則多次抽樣的兩個樣本均數之差的分布應該服從均數為μ=0，標準差為θ的正態分布；反之，如果這個差偏離μ=0，則表明兩個“係統”間存在有顯著意義的差異。此時，我們將可以看到兩個均數之差除了隨機誤差（它在這個差的一次性隨機測量中發生的概率很小）之外，其係統誤差便有了顯著性的意義。

在兩個樣本的某一同名連續型隨機變量的分布比較中，在各自樣本內部應該沒有係統誤差，而該隨機變量的測量方法和工具對於兩個總體也必須是一致的。因此，在比較中的兩個樣本均數之差中的“係統誤差”便隻來源於那些用來有區別地定義兩個總體的不變屬性，例如，一組“高血壓病”患者的血壓，和“健康”人的血壓。這裏，“高血壓病”和“健康”分別是用來定義兩類人群的不變屬性，亦即兩個類別群體中的每個個體都分別擁有各自的同一屬性，即對各自總體來說不變的屬性。

回複TNEGI//ETNI的評論:無論是抽象的還是具體的,我沒有必要去重溫T TEST.你說利用兩組采樣樣本來分離係統誤差與隨機誤差,而兩組數據中都包含兩種誤差,這種分離是不可能的.許多人熱衷於抽象思維,但最容易犯的錯誤是在開始階段就忽略了細節,從而所有討論實際上沒有意義.換句話說,在1+1=3的前提下,四則運算的規則都可以重新討論了.

回複YY101的評論:

>也許你應當把你那兩個樣本是如何得到的描述一下,我們來看一看其平均數隻差是什麽.<

我在前麵以t-test為例和你展開了一點討論。這個例子是一個抽象的t-test例子，具有一般兩樣本t-test的全部特征。建議你去重讀一本統計學教材中關於t-test的內容，並重溫一下最基本的統計學概念。

回複TNEGI//ETNI的評論:也許你應當把你那兩個樣本是如何得到的描述一下,我們來看一看其平均數隻差是什麽.

回複YY101的評論:

>也許我需要你用完整準確的數學語言將你的假設寫出來,……<
>你的H0與H1是互補的嗎?<

關於一個假設檢驗中的兩個假設的哲學式的或數學化的陳述可以參考任何一本統計學教材。一般而言，兩個陳述是互為對立的，因而也是互補的，因為要檢驗的那個差別（例如兩個樣本的平均數之差）由且僅由兩個部分構成。

>如果隨機誤差在全部差中發生也在兩個總體間的係統性差別在樣本所體現的信息中發生,算哪邊的呢?<

這個問題不成立，因為隨機誤差與係統誤差屬於兩類不同性質的誤差，因而不可能發生在對方的範疇內。

由於總體中的個體變異和抽樣的隨機性，在一個假設檢驗中，我們不能通過一次抽樣直接計算出兩類誤差分別有多大，於是采用一個概率來衡量各自發生的可能性大小。

回複TNEGI//ETNI的評論:首先,你的H0與H1是互補的嗎?如果不是互補的,假設檢驗的設立就有問題.如果隨機誤差在全部差中發生也在兩個總體間的係統性差別在樣本所體現的信息中發生,算哪邊的呢?

回複TNEGI//ETNI的評論:也許我需要你用完整準確的數學語言將你的假設寫出來,不過我相信這裏肯定有你忽略的東西在裏麵,而且這種忽略是有問題的.

回複YY101的評論:

>難道你是說兩個樣本均值中間一個有係統誤差,一個沒有係統誤差?……<

No,兩個樣本的均值之差在結構上由兩類誤差組成。所以，檢驗的假設是兩個，即H0和H1。檢驗概率p判斷的就是隨機誤差在全部差中發生的可能性，而其對立麵1-p就是用來判斷兩個總體間的係統性差別在樣本所體現的信息中發生的可能性。

回複TNEGI//ETNI的評論:難道你是說兩個樣本均值中間一個有係統誤差,一個沒有係統誤差?如果你能夠得到沒有係統誤差的均值,有係統誤差的測量還有意義嗎?同時,你如何保證兩組數據中的隨機誤差是一樣的呢?這是做不到的.量一組人身高,然後讓他們站在凳子上再量一次.測量誤差會不同的.

回複YY101的評論:

>你用T-TEST就隱涵了你把係統誤差作為隨機誤差的一部份.<

這句話讓我感到震驚了。假設檢驗的兩個選項就是根據係統誤差和隨機誤差來分別設定的。

回複YY101的評論:

>這樣定義個體變異對統計學來說是沒有意義的.一捆一尺長的尺子,長度有微小差別,均值應當接近於一尺.每抽出一支,你都可以稱其為一尺,而不是說一尺加一個變異.如果這樣,賣布的就開不了張了.<

這樣看來，你似乎沒弄懂總體中的個體變異與樣本中的隨機誤差之間的關係。

回複TNEGI//ETNI的評論:你用T-TEST就隱涵了你把係統誤差作為隨機誤差的一部份.

回複TNEGI//ETNI的評論:這樣定義個體變異對統計學來說是沒有意義的.一捆一尺長的尺子,長度有微小差別,均值應當接近於一尺.每抽出一支,你都可以稱其為一尺,而不是說一尺加一個變異.如果這樣,賣布的就開不了張了.

回複YY101的評論:

t-test的邏輯就是在全部誤差中以概率判斷隨機誤差發生的可能性。我們確實不知道兩類誤差各自的實際大小，否則就不需要這個檢驗概率了。

回複TNEGI//ETNI的評論:如果數據中同時包括隨機誤差與係統誤差,你可能就無法分離二者.不可能對隨機誤差下單獨的結論.當然,有可能有例外,但需要的是大量的數據.譬如,在確定一個上鞅的時候,一個上鞅可以分解為一個升寒數與一個鞅的疊加.注意,這裏講的是升函數,與係統誤差還是有區別的.兩個誤差量的疊加是不容易分離的.唯一可以做的是加假設,也就是我說的模型集合.

回複YY101的評論:

>我有些懷疑甚至你對隨機誤差的理解也是不對的.我們說的是對每一個個體進行測量.隨機誤差的產生主要是由於被測總體中的個體變異造成。測一次,有隨機誤差;難道你說的是前後測幾次,其間個體變異?即便這樣,每次都有隨機誤差.我不能說隨機誤差一定比係統誤差小,都有可能.<

關於連續型隨機變量的隨機誤差，可以把它們看成是總體中的個體對總體分布期望的隨機變異。

測量中的工具使用中造成的誤差也是樣本中全部隨機誤差的一個組成部分，還有精度的選擇帶來的誤差，則是另一類隨機誤差；你還可以根據具體情形定義其它類別的隨機誤差。但一個樣本中的隨機誤差的主要來源是由於個體對總體分布期望的隨機變異造成的。沒有個體變異，便沒有統計學。

回複TNEGI//ETNI的評論:我有些懷疑甚至你對隨機誤差的理解也是不對的.我們說的是對每一個個體進行測量.隨機誤差的產生主要是由於被測總體中的個體變異造成。測一次,有隨機誤差;難道你說的是前後測幾次,其間個體變異?即便這樣,每次都有隨機誤差.我不能說隨機誤差一定比係統誤差小,都有可能.

回複YY101的評論:

我在前麵回答你時說過，“係統誤差可以量化，也可能無法量化；隨機誤差也是如此。”

>如果隨機誤差可以量化,測量本身就失去意義了.<

讓我們看一個兩樣本t-test的例子。在這個例子中，t值的構造是，分子是兩個樣本的均數之差。這個差就包含著兩類誤差：係統誤差和隨機誤差。檢驗的目的是要用概率來衡量隨機誤差發生的概率大小。我們可以把整個差異看成是1（即全部），那麽，隨機誤差發生的概率大小可以部分地反映出兩類誤差在全部誤差的結構上的相對差異，從而得到兩者的部分程度的量化。

回複TNEGI//ETNI的評論:如果隨機誤差可以量化,測量本身就失去意義了.就如同你上街可以喊所有賣肉的都是奸商,因為他們的稱沒有一個是準的.多給你肉的是不小心的,少給肉的是明知故犯的.

回複YY101的評論:

由測量精度引起的誤差是很小的，而且由於對精度的偏離呈現出正態分布的對稱性特征而在計算中可以被相互抵消；隨機誤差的產生主要是由於被測總體中的個體變異造成的，而非測量精度的定義引起的。

回複YY101的評論:

係統誤差可以量化，也可能無法量化；隨機誤差也是如此。

人在地球上的體重與月球上的體重差是係統誤差,當然測量精度決定了這裏仍然有隨機誤差的因素.

回複YY101的評論:

對不起，我忘了給定一個條件：如果兩種工具間沒有一個已知的轉換手段。單純從測量結果的數字表現來看，它們之間的差異存在係統誤差，如果直接對這樣的數據進行統計分析，會造成錯誤。所以，如果已知某種轉換手段，便可以消除這個係統誤差了。

無法量化的差不能稱為係統誤差,隻能算為隨機誤差.

回複TNEGI//ETNI的評論:使用公製還是英製,這是定義測度的問題,與誤差無關.你沒有規定讀數的精確度,也就談不上誤差.看來你對係統誤差概念的模糊.如果讀出來的數經過換算有偏差,那個偏差就是隨機誤差.如果你上街買兩斤排骨,人家給你稱了一公斤,說係統誤差是什麽呢?

前麵和你的討論中有句話不嚴謹，糾正如下：

回複YY101的評論:

>比方說你擬合一條Y相對於X的回歸曲線,如果是限定於線性模型,肯定有一跳最佳曲線,使殘差平方和最小.……<

我在本文裏討論的最優化不是這個情形下的最優化，而是指的類似於在分段回歸中使用合並殘差最小化來決定分段模型的“最有化”，因為那些方法論構建者認為，最小的合並殘差對應的分段模型就是他要的或期望的。這是不可能的。從你的那段話來看，你沒搞清楚我所說的存在錯誤的最優化是怎麽回事。

當使用全部樣本建立單一模型時，如果需要在不同的模型類型間作出選擇，可能會麵臨何者“最優”的問題，但不論哪一個類型的模型被選定，被選定的模型的參數集合都隻有唯一的解。這裏沒有最優化問題。各種不同類型的模型的參數間的差異不是隨機誤差，而是係統誤差。（此話不嚴謹，應該是：各種不同類型的模型的參數間的差異不僅有隨機誤差，還包含著一部分係統誤差。）

我不知道你是否有過測量中的係統誤差和隨機誤差的理論訓練和測量實踐。如果你不曾有過這類訓練和實踐，我會感到很遺憾。

回複YY101的評論:

>采用不具備一致性的方法得到的數據就不是隨機數據了嗎?一致性需要證明嗎?能夠用更加初級的概念及定理證明嗎?<

你前麵說過你受過測量中的係統誤差和隨機誤差的訓練。我很懷疑。

一致性需要證明嗎？這是對一個測量中所使用的測量工具的性質進行判斷的問題。怎麽會需要證明？舉例來說，測量一組人群的身高時，一部分人使用的是厘米製工具，另一部分人使用的是英尺製工具；或者測量血壓時，一部分人使用的水銀血壓計，另一部分人使用的是氣壓計。這類測量中便會包含係統誤差。我判斷出來了，難道你還要我證明給你看嗎？

當然，不論使用的工具是否一致，測量結果中都會包含著隨機誤差。這難道也需要證明？

回複TNEGI//ETNI的評論: 我們可以以歐氏幾何為例子.歐氏幾何有五大公理:1.過相異兩點，能作且隻能作一直線（直線公理。2.線段(有限直線)可以任意地延長。3.以任一點為圓心、任意長為半徑，可作一圓(圓公理)。 4.凡是直角都相等(角公理)。5.兩直線被第三條直線所截，如果同側兩內角和小於兩個直角，則兩直線作延長時在此側會相交。其它所有定理都可以從這五條公理推導出來.缺少了任何一條,就會出現矛盾.有人發現地球上的經緯線不符合第五公理,取消了第五公理就成了非歐幾何.

回複TNEGI//ETNI的評論:看來你對公理係統的理解有偏差.你所說的都不可能成為公理係統的要素.公理係統是構成一門學問的基本要素,任何定理可以從公理係統導出來,而任何與公理相違背的都是謬論.如果測量的一致性是公理係統的要素,采用不具備一致性的方法得到的數據就不是隨機數據了嗎?一致性需要證明嗎?能夠用更加初級的概念及定理證明嗎?如果可以,它就不是公理.

回複北極企鵝的評論:這是對數學的誤解.數學研究的對象可以是確定性的,也可以是隨機的.認為先進的確定性數學分析可以準確預測股票,那麽股票市場就不可能存在了.從博弈論的角度出發,沒有誰比對方更聰明.你能想到的,對方也能想到.你靠你手裏的PC賺錢,人家用高性能計算機算,你就隻有賠了.大家都不玩了,對方賺誰的錢呢?自己買,自己賣?隻有存在隨機性,才使大家都有賺錢賠錢的機會.至於說你是賺還是賠,隻有看你的運氣了.

回複YY101的評論:

其實，統計學是一門認知方法論，直觀地說，它近乎於一門測量技術的匯總。它有兩個基本形態或層麵：1）方法論的構建；2）方法論的應用、檢驗和改建或重建。

統計學有自身的公理係統，這個公理係統並不總是與數學的公理係統一致，例如測量的一致性，係統誤差的發現與排除，隨機誤差的最小化等，這些與數學的公理係統風馬牛不相及。

回複easycity的評論:
我很讚成您所言，將來會有真相大白的時候！

要知道就連統計學中的最大爭論,傳統頻率學派與貝葉斯學派隻爭也不能上升到公理係統之爭,大家都仍然人為平行線不相交.有時候不要人為地將問題複雜化了.

樓主對統計學的深入思考值得敬佩！讚！

我覺得統計的模型沒有最好，隻有更好。統計學還是在發展階段，有太多理論需要補充。尤其是計算機的發展促進了統計的深入，但是和每天出現大量的數據相比還是遠遠不夠的。

統計往往先假設一個現有的模型然後對照數據檢驗，這樣是做不到百分之一百的準確性的，一個模型能做到百分之七十吻合就是很不錯的了，但是這樣依然是很難的。

基於這個原因，我是不大相信任何股票價格的，說白了，統計到現在想做到像數學那麽精準是不可能的。它對一切的解釋隻能是個大概而已，這就不是科學，我想。

金融危機前，往往先假設數據是正態分布，然後再去做研究，現在發生了金融危機知道了很多數據不是正態分布的，那以前的模型還可信麽，帶來的損失該是多麽巨大。
拙見，歡迎拍磚。

回複TNEGI//ETNI的評論:在將哲學概念引入討論之前,首先要搞清楚數學的公理係統與統計學的公理係統都包含哪些,也許你會發現實際上他們是重合的.一般很少有人討論統計學的公理係統,這個詞匯很有可能是臆造的.沒有公理係統的完整理論隻可能是兩種情況,一是胡說,二是某一完整係統的子集合.

回複YY101的評論:

>從我的觀點看,統計是數學的真子集.<

隻要從統計學的全部概念中找出一個不屬於數學範疇，那麽，統計學就不完全是數學的分支。

搞數學的人是最講究嚴謹的，你應該可以找出至少一個不是純數學可以討論的統計學概念，例如，總體和樣本及其相互關係，還有統計認知的哲學基礎，等等。更重要的是，任何一個統計分析的方法都不是從數學公理係統演繹出來的，而是一種簡單的分析邏輯。這種分析邏輯通常屬於哲學性的分析和思考，然後在此基礎上才能引入數學計算技能來構建統計算法和公式。

回複TNEGI//ETNI的評論: 如果從可測空間的角度去看問題,統計學要講的東西就多了.現在常用的所謂一類二類誤差就完全是胡說八道.兩種誤差不能用同一個分布來衡量,要假設兩個不同的分布.而統計測度與分布是相關的,同時引入兩個測度,就永遠是公說公有理,婆說婆有理.

回複TNEGI//ETNI的評論:很多時候一個學科的定義不能命名來狹義解釋.實際上,學科命名就是約定俗成的稱呼.就好物理化學是物理還是化學.如果追究起來,談到分子結構似乎是化學,談到原子結構是物理,兩個一塊談,化學與物理的界限就分不清了,就算是科學吧.從我的觀點看,統計是數學的真子集.

回複YY101的評論:

關於統計學的學科性質，我想請你回答一個簡單的數學集合論的問題：

{統計學的全部概念}是否屬於{數學的全部概念}的一個真子集？如果是，你可以說統計學是一個純粹的數學分之學科；反之，就不是。你是搞數學出生的，應該可以回答這個問題。

其實，Mathematical Statistics應該被稱為The Mathematics in Statistics. 前者說的是“統計學是數學的”，而後者是在說“統計學裏的數學”。

回複YY101的評論:

>但不論哪一個類型的模型被選定，被選定的模型的參數集合都隻有唯一的解。不一定,如果你有100個數據點,擬合一個101階多項式,參數估計就不可能唯一.<

很遺憾，你把一個給定的樣本數據看成是一推抽象的數字，可以任意玩弄了。你完全忽視了針對該樣本的統計認知的理性基礎，以為隻要數學計算上可行，就可以任意而為。

回複YY101的評論:

>分段回歸中段點必須要在擬合曲線以前確定,這屬於確定集合時討論的問題.當然你也可以將其作為一個變量一同估計.<

顯然，在對未知總體進行隨機抽樣的條件下，臨界點一定是且隻能是一個隨機變量，因而需要找到它的可測空間並進行測量，從而以期望和可信區間估計來決定它的位置，而不是以“最優化”搜索和解聯立方程組的方法來求解。後一種方法連隨機臨界點的可測空間在哪裏都沒有搞清楚。我不知道那些人的概率論是怎麽學的。

顯然，如果樣本空間（X,Y）裏隻有一個臨界點被假設在X上，則臨界點的可測空間與X是完全一致的。但X的期望和可信區間並非就是其上的那個臨界點的期望和可信區間，因為這裏存在著每一樣本點作為臨界點時的重要性的差異的隨機變異，我們需要測量這個重要性，然後以此為權重來估計X的加權期望和加權基礎上的可信區間。這個加權期望和加權基礎上的可信區間才是對臨界點的正確估計。除此以外沒有它途。

>在合並殘差最小化準則下得到的最優曲線對每一段來說不一定是最優的,但這取決於你的模型結構,例如相鄰段結點是否要求平滑.<

在臨界點通過上述加權估計得到後，事情便簡單了，可以建立連續性檢驗來取代平滑化，因為是否平滑地連接兩個分段模型已經不是一個數學美化的問題，而是一個概率檢驗的問題。這才是真正的統計學思維。一個看起來斷開的兩段模型並非就不是連續的，這取決於連接變異在其最大可測空間上發生的程度。

回複TNEGI//ETNI的評論:但不論哪一個類型的模型被選定，被選定的模型的參數集合都隻有唯一的解。不一定,如果你有100個數據點,擬合一個101階多項式,參數估計就不可能唯一.不同段曲線參數的差異不能被稱為係統誤差,甚至不能被稱為誤差.你在模型結構集合裏麵就是這樣定義的.如果定義本身就有誤差,這就要回到對什麽是模型的討論了.

回複TNEGI//ETNI的評論:分段回歸中段點必須要在擬合曲線以前確定,這屬於確定集合時討論的問題.當然你也可以將其作為一個變量一同估計.在合並殘差最小化準則下得到的最優曲線對每一段來說不一定是最優的,但這取決於你的模型結構,例如相鄰段結點是否要求平滑.係統誤差與隨機誤差的概念是有的,但這完全取決於你對集合的定義.譬如說你的估計本身就不是無偏的,什麽是隨機就要準確定義了.

回複YY101的評論:

>比方說你擬合一條Y相對於X的回歸曲線,如果是限定於線性模型,肯定有一跳最佳曲線,使殘差平方和最小.……<

我在本文裏討論的最優化不是這個情形下的最優化，而是指的類似於在分段回歸中使用合並殘差最小化來決定分段模型的“最有化”，因為那些方法論構建者認為，最小的合並殘差對應的分段模型就是他要的或期望的。這是不可能的。從你的那段話來看，你沒搞清楚我所說的存在錯誤的最優化是怎麽回事。

當使用全部樣本建立單一模型時，如果需要在不同的模型類型間作出選擇，可能會麵臨何者“最優”的問題，但不論哪一個類型的模型被選定，被選定的模型的參數集合都隻有唯一的解。這裏沒有最優化問題。各種不同類型的模型的參數間的差異不是隨機誤差，而是係統誤差。

我不知道你是否有過測量中的係統誤差和隨機誤差的理論訓練和測量實踐。如果你不曾有過這類訓練和實踐，我會感到很遺憾。

回複TNEGI//ETNI的評論: 你說,在我看來，統計學根本不應被認為是一門純粹的數學分支學科，它其實是一門數學化的認知方法論，而認知方法論原本屬於哲學範疇內的認識論（epistemology）而非數學範疇的某個門類。也許首先要搞明白的是什麽是數學.從廣泛的意義上去講,統計學肯定是一個數學的分支.並不是說數學隻研究確定性的數字.如果從狹義的角度出發,應用數學與純數學都不是一回事情.研究生物統計的人也許忽略一些數學基本的要求,譬如臨床試驗的漸進性.如果臨床試驗的結論取決於樣本數量,小樣本得到的結論在大樣本下不成立,這在純數學體係下是不行的.否則,哥德巴赫猜想就已經被證明了.所以,在討論問題的時候,大家都要有一個共同承認的討論基礎.

比方說你擬合一條Y相對於X的回歸曲線,如果是限定於線性模型,肯定有一跳最佳曲線,使殘差平方和最小.如果說模型是X的多項式,在給定多項式階數的條件下,最優也是成立的.如果不給定階數,最優多項式的階數可以超過樣本數目,殘差和為零,最優不唯一.這裏,線性模型與多項式是我說的集合,殘差平方和是我說的目標準則.缺少了任何一個,最優無從談起.當然,這裏的最優隻是相對於現有數據而言.如果繼續采樣,已經得到的最優將不再是最優.同時,選定的集合與目標準則本身就可能有問題.因此有存在問題的最優.沒有前提的最優是不存在的.這就是說所有模型都在一定條件下談論的,都有局限性.沒有什麽模型在最廣泛的意義下都可以被為最優.唯一的例外是不包含隨機因素的問題,也就是你所說的數學家考慮的問題.

回複3722的評論:

Thank you so much for the information.

回複YY101的評論:

In a mathematician's eyes, a sample is a given set; and nothing is variable, so they treat the set as a certainty. However, a sample is a random set and variable to population. Nothing is certainty.

The optimization takes the idea of "one-to-one correspondence" to make the model selection. This is a shame for a mathematician doing in this way since nothinig is a one-to-one correspondence in a random sample. Every correspodence in a random sample is random.

實際上,你的問題本身有問題.這樣的問題很容易讓統計初學者與專家一同晃秋千.在統計分析中,沒有什麽東西叫最佳模型,所謂最佳隻是講在某一特定集合裏麵根據某種目標的最佳.因此,討論最優,你首先要限定在哪個集合中以什麽目標尋找最優.如果說擬合一條曲線,原始數據本身對於擬合來說就是最優,但對於模型簡單明了來說卻不是一個好模型.拋開集合與目標,優化這個詞就沒有意義了.

All models are wrong, but some are useful
--- Statistician George E P Box, in "Science and statistics", Journal of the
American Statistical Association 71:791-799, quoted in Holling, C S, Stephen R Carpenter, William A Brock, and Lance H Gunderson, “Discoveries for Sustainable Futures”, Ch. 15 in Gunderson, Lance H and C S Holling, Panarchy: Understanding transformations in human and natural systems, Island Press (2002), p. 409

回複TNEGI//ETNI的評論:

Please refer to my response below inline between the dotted lines as such:
--------------
my response
---------------

回複nightrider的評論:

Thank you very much for your time and attention. I would like to take this opportunity to clarify something that I might not expressed clearly in this blog article, though they have been clearly stated in my papers in two JSM's proceedings.

> The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? <

Exactly I would like to say, the concept of the "segmented regression or piecewise regression (I prefer the latter one as the formal term in the field)" are not referred from that website, but from several formal top journals in Statistics, like JASA, Annals of Statistics, etc.

The classical method in this field was developed from 1959 to 1979, then turned to spline as the modern form with the enforced continuity assumption and smoothing techniques. Although the methodology for piecewise regression has been continuously developed since then, the basic assumption and the computation techniques are almost the same or similar. What are improved are just the computation technqiues for estimating each threshold or change-point or node and for smoothing the connections in spline in different situations. No one had ever doubted the theoretical issues behind the assumptions and the computation techniques untill I began to doubt them in 2007.

-----------------
Good that you provide a little background information. But you still not have not stated clearly what your objection is.

------------------

> Of course the line can be replaced with nonlinear parametric curves.<

No, sometimes we don't need a smoothy non-linear curve to describe the entire process, but need a threshold to change something, i.e. a policy for investment, etc. A smoothy curve may not help to find the critical point to make a decision.
---------------------
You misunderstood my statement. I meant the curves between the break points or discontinuity be smooth parametric curves, linear or not. After all, the discontinuity is what you are after, isn't it? You do need only a finite number of discontinuity, don't you? So the rest of the curve has to be continuous or smooth, doesn't it?

-------------------------
> Does your first question concern with the legitimacy of the least square method for deducing the parameters? <

No, the LSM is correct for estimating model parameters covering a specific whole sample. What I criticized is the computation techniques ba23sed on an optimizational approach to make a decision for the piecewise models, and the assumption of enforced continuity for estimating the thresholds and smoothing the connection between any two adjacent piecewise models in a whole sample space.

In the current methodology, usually we don't know where a threshold or node is, so we have to search it in a sample space based on a real sample. This means that we have to assume each real sample point may be the threshold or node, thus, if the sample size is n; and there is only one threshold, we will have n pairs of piecewise models and n combined sums of squared residuals because of n pairs of piecewise models. Then, which is the pair that we can expect? The current method took the smallest combined sum of squared residuals (this is an optimizational approach) in the n combined sums of squared residuals to make the model selection, then to estimate a theoretical threshold by taking Model_1 = Model_2 (this is the so-called enforced continuity) in the selected pair of the piecewise models.

It sounds extremely solid in a mathemtical point of view, right? However, if the connection variablity at an unknown sampling threshold cannot be assumed to be zero, we cannont take the equation Model_1 = Model_2 to estimate the unknown threshold or node. This will be an ultimate obstacle to a mathematician in Statistics. This means that the curent methodology is a dead end or went onto a dead path! We have to find another way.

--------------------------
You need to be more specific to in explaining the present methodology of "estimating theoretical threshold by taking Model_1 = Model_2 and your objection concerning "connection variability". Could you give a reference for a thorough mathematically rigorous treatment of the present methodology and a link to your "papers in two JSM's proceedings"? The discussion would be much more efficient and concrete looking at the mathematics.

-------------------
> Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous? <

Yes!
-------------------
Now you are confusing me. If the curve is piecewise, then discontinuities are allowed and continuity is not enforced. Judging from your comments above, your answer here should be "No".
---------------------

回複3722的評論:

>所有的模型都是錯的，但是有的模型是有用的 (All models are incorrect, but some models are useful)。<

In my opinion, 這可能是一個無知者的謬論。他不去努力找到一個盡可能充分直至終極正確的途徑，卻以一種詭辯式的語氣為自己開脫責任。

回複nightrider的評論:

Thank you very much for your time and attention. I would like to take this opportunity to clarify something that I might not expressed clearly in this blog article, though they have been clearly stated in my papers in two JSM's proceedings.

> The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? <

Exactly I would like to say, the concept of the "segmented regression or piecewise regression (I prefer the latter one as the formal term in the field)" are not referred from that website, but from several formal top journals in Statistics, like JASA, Annals of Statistics, etc.

The classical method in this field was developed from 1959 to 1979, then turned to spline as the modern form with the enforced continuity assumption and smoothing techniques. Although the methodology for piecewise regression has been continuously developed since then, the basic assumption and the computation techniques are almost the same or similar. What are improved are just the computation technqiues for estimating each threshold or change-point or node and for smoothing the connections in spline in different situations. No one had ever doubted the theoretical issues behind the assumptions and the computation techniques untill I began to doubt them in 2007.

> Of course the line can be replaced with nonlinear parametric curves.<

No, sometimes we don't need a smoothy non-linear curve to describe the entire process, but need a threshold to change something, i.e. a policy for investment, etc. A smoothy curve may not help to find the critical point to make a decision.

> Does your first question concern with the legitimacy of the least square method for deducing the parameters? <

No, the LSM is correct for estimating model parameters covering a specific whole sample. What I criticized is the computation techniques based on an optimizational approach to make a decision for the piecewise models, and the assumption of enforced continuity for estimating the thresholds and smoothing the connection between any two adjacent piecewise models in a whole sample space.

In the current methodology, usually we don't know where a threshold or node is, so we have to search it in a sample space based on a real sample. This means that we have to assume each real sample point may be the threshold or node, thus, if the sample size is n; and there is only one threshold, we will have n pairs of piecewise models and n combined sums of squared residuals because of n pairs of piecewise models. Then, which is the pair that we can expect? The current method took the smallest combined sum of squared residuals (this is an optimizational approach) in the n combined sums of squared residuals to make the model selection, then to estimate a theoretical threshold by taking Model_1 = Model_2 (this is the so-called enforced continuity) in the selected pair of the piecewise models.

It sounds extremely solid in a mathemtical point of view, right? However, if the connection variablity at an unknown sampling threshold cannot be assumed to be zero, we cannont take the equation Model_1 = Model_2 to estimate the unknown threshold or node. This will be an ultimate obstacle to a mathematician in Statistics. This means that the curent methodology is a dead end or went onto a dead path! We have to find another way.

> Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous? <

Yes!

所有的模型都是錯的，但是有的模型是有用的 (All models are incorrect, but some models are useful)。(忘了誰說的)

TNEGI//ETNI:

I am trying to understand your two questions. As it appears that you have expended so much time effort trying to understand and challenge what you call mistakes in statistics, would it not be helpful for you and for your audience to state clearly and rigorously the problems first? What you have written written here does not appear that you have not done that. If what appears here is what you wrote to the journals and the experts, at least it is not exactly clear to me what you are trying to say. I will have say that some of the review comments you quoted are not that off mark, regarding the clarity of your presentation.

As an attempt at clarification, allow me to ask you a few questions. The "segmented regression or piecewise regression" you mentioned refers to this http://en.wikipedia.org/wiki/Segmented_regression, right? Of course the line can be replaced with nonlinear parametric curves. Does your first question concern with the legitimacy of the least square method for deducing the parameters? Is the "enforced continuity" in your second question referring to the whole of the regression curve consisting of the segments (straight line or not) having to be continuous?

回複半世的評論:

你讓我感到有點可笑或自嘲。我本是想通過這篇拙文喚醒哪怕是一個統計學家，沒想到卻招來了你來試圖喚醒我！看來，我得閉門反思了。多謝你的警醒。

在我看來，統計學根本不應被認為是一門純粹的數學分支學科，它其實是一門數學化的認知方法論，而認知方法論原本屬於哲學範疇內的認識論（epistemology）而非數學範疇的某個門類。隻不過，統計學由於大量應用了數學技能構建算法而體現出了一定程度的“數學”屬性，但其本質依然屬於認知方法論，其目的絕非為了提出、論證和演繹數學命題，而是如何實現認識外部客觀世界的某種更加可靠的途徑。所以，一個數學背景的人如果不懂基本哲學，尤其是認識論的基本原理，它是沒有資格在統計學領域從事方法學構建的。

我的上述論斷可能會傷害某些數學背景的統計學專家。但願人們能夠理解我所說的道理。

回複easycity的評論:

多謝你的激情參與，也感謝你的警醒和勸告。

我想我不是一個隻會在嘴巴上說說的人。你認為“哲學和神學隻有說教，沒有基於事實的討論。極端的固執，不顧事實。”我想，我在這篇拙文裏陳述的很多東西應該屬於“事實”而非臆造。如果統計學家們不能認真對待我所指出的事實和錯誤，那麽，他們將沒有能力開創新的局麵。

至於你提到的統計學可能需要一次大的變革，我想我已經為此做出了自己的貢獻。遺憾的是，它們尚未被學術界認真對待，或許他們根本就沒有讀懂我的思想和方法。我的醫學和公共衛生的master背景在統計學這個被認為是數學分支學科的領域將不會被人認真對待。

除了這篇質疑和批判性的書信稿，我將在以後的博客文章裏逐漸披露自己這些年來所做的工作。我想，如果你是一位卓有成效且功底很深的統計學家，你將會為此感到震撼不已——為什麽一個如此背景的人能夠完成這樣的工作？

回複needtime的評論:

當一個方法論不能自圓其說或自相矛盾時，就一定不是一個正確的方法論。你可以試各種方法，但隻有那種能夠自圓其說且不違背其fundamentals的方法才能夠被認可；一旦某個方法被發現邏輯悖論或缺陷，它就必須被修正。

Dear 立功,

Who is your 校友旭光? Is there any way I can get in touch with him?

Thanks and best regards,

alsoRun

樓主啊，我是在喚醒您啊。。。。。。

有很多東西，是互相部分相連的，但又有本質上的不同。如果一定要用統計學去完全解釋生物學，或者用哲學去解釋統計學，或者統計學是否合乎哲學的解釋，本身就是有點荒誕的。之所以他們以它們各自的獨立身份存在，就是由於他們有本質上的不同。如果您硬是要找到他們的統一，就應當到更高的層次上去找，而不是到他們互相之間去找。您以為呢？好了，我就此 Shutup了。

回複臭老王的評論:

Yes, you are right. Thanks very much.

“The American Statistics (1次投稿，唯一評語：無法判斷本文的觀點和方法是否正確)”

The American Statistics 是不是 The American Statistician 之筆誤？

讀讀俺的這篇博文

http://blog.wenxuecity.com/myblog/29080/200910/31855.html

也許對理解這類問題有幫助。

敬佩博主對科學原理本源上的追尋，但希望博主不要停留在空泛的哲學/數學/統計學的研討這個層次，大膽地在實際運用中驗證和完善自己的理論。
本人看過大量的論文，參與過不少實際運算的研究項目，將各式各樣的統計方法用於生物學的研究當中。到目前為止，在現有的數據和生物學知識的基礎上，沒有一種方向能為藥物研製作出重大貢獻，而公司和學校投入的資金至少是以億（美）元計算了。
我非常悲哀地承認，統計學可能有重大的缺陷。就像牛頓物理學不能解釋光線的波粒二項性一樣，在商業和人工智能方麵大顯身手的統計學，可能需要一次大的發展才能對生物研究和藥物開發有貢獻。
但是，那麽多的統計方法都失敗了，現在任何一個人提出一個新的統計方法，在沒有應用到藥物研究中的基本的數據和證據之前，我都不會去多看一眼。讓數據說話，讓成果說話，不單單用舌頭說話，是科學和哲學最基本的區別。
哲學和神學隻有說教，沒有基於事實的討論。極端的固執，不顧事實，其實來源於個人多次的失敗和內心的怯弱，以致於以強硬充門麵。誠心希望博主的才華和努力，不要成為博主怯弱和固執的犧牲品。
不敢期望博主改變，如果能有一個來訪者能受我一勸，不走進與博主類似的死胡同，我就滿足了。

回複TNEGI//ETNI的評論:

唉。老兄別爭論了吧。
正是因為有用，至少在我所知的實際領域如此，你一定要證明理論不成立，就很難說服人了。也許在你所知的例子，真的無效。

理論這樣的東西，隻要在特定情況下有效，就有人要用啊。
更別說，能用於賺錢實用方麵了。實實在在的賺錢，你說它是怪論，無效，怎麽能說服人？

看你純粹不把統計用於實際的吧？

第一個用在股票的抄底摸頂。
第二個用在趨勢跟隨交易。

實實在在的每天應用著，你倒是爭論著成立不成立呢。你看看雜誌給你的投稿評論，也就是這個意思吧。

不明白為什麽反感這樣的討論. 我不熟悉統計, 無法談論本題. 但是科學史上錯誤的理論被廣泛流傳的例子很多. 質疑不應被指責. 近幾年流行 compressed sensing 理論也是漏洞百出, 但被吹捧的不行. 很象皇帝的新裝.

回複玄米、半世和brent2008的評論:

風涼話少說，有本事請切入主題來點真格的；otherwise, 去雜誌社投稿支持或反駁本文作者，或者，please shut up.

轉貼原文以記錄發布和最終修改日期和時間：

標題：數學家們在統計學領域犯下了幾個嚴重的錯誤

穩健回歸的開創者、美國著名的統計學家、前美國總統科技顧問Peter John Huber於1997年11月在北京中國科學院數理統計研究所演講時說道：“很多數學背景的統計學家們在統計學領域犯下了嚴重的錯誤，導致了很多思想和方法上的混亂。”他並期待著一股來自數學以外的力量能夠推動統計學和數學的變革。

聽到這個演講內容和觀點後，我的第一感覺是，如果這個力量存在的話，那麽，它隻能是哲學，因為哲學是人類一切知識的認識論和方法論根源，因而也是一切知識的終極裁決者。

一個學統計的，如果不懂哲學，便如一個在黑暗中摸索的瞎子。對於在黑暗中感到困頓的人，哲學將會開啟他的智慧，並賦予他一盞明亮的燈，照亮他前進的道路。

最近試圖與幾位著名的數學背景的統計學家交流自己的思想，但無一願意給出有價值的東西，他們基本采取了沉默不語或不屑理睬的態度。為此，我把試圖與他們交流的東西發表在自己的博客裏，作為對整個係統的挑戰之一。這個挑戰將一直存在於這裏，以便人們可以觀瞻這一科學史上的悲劇。

Dear Dr. XXX，

您能夠解答我的以下兩個困惑嗎？

我在長達近14年多的時間裏做的是關於臨界回歸分析或分段回歸分析（segmented regression or piecewise regression）的邏輯與算法的重建。我之所以堅持不懈地這樣做，是因為我相信沒有一套數學公理係統可以演繹出這個方法論，而當前的方法論存在嚴重的理論錯誤。這個領域裏最困擾我的問題有以下兩個：

第一，在基於樣本測量的基礎上在樣本可測空間上搜索未知臨界點時，目前的經典方法論是以隨機分段模型組中最小合並預測殘差（min(combined residuals)）作出一組“最優”的模型決策，也就是所謂的最優化決策。我想請問，這個決策的數學根據是什麽？誰已經或能夠從概率論上證明那個最小合並預測殘差與所謂的“最優臨界模型組”的隨機參數集合之間的對應是一個“可期望的”或“可靠的”對應，或者說，上述兩個隨機測度的收斂在各自的可測空間上具有概率上最大且充分的一致性。

我從直覺上看這個對應是不可期望的，因為無論是最小合並預測殘差，還是對應於它的隨機臨界模型組的各個統計量都是隨機的“點”測量，它們之間的對應關係就好比我們在一定的樣本量條件下得到的一組同質人群的身高與體重之間的隨機的點對應一樣。如果我們的研究目的是試圖用“身高”這個隨機變量來對“體重”這個隨機變量的某個屬性做出統計決策，我們顯然是不可能使用min(身高)或max(身高)來做出一個關於“體重”的那個屬性的穩定而可靠的決策的。這樣的“最優化”在統計學上是絕對不可接受的，因為，If we could use min(X) or max(X) to make a statistical decision for Y, where both X (maybe an optimizer) and Y (maybe a set of parameters of a set of threshold models) are randomly variable, then all the fundamentals of Statistics would be collapsed.

第二，關於spline技術在臨界回歸分析中的應用。這裏有一個前提假設，即所謂的enforced continuity，這個假設是以數學函數理論求解臨界點的關鍵條件。沒有這個假設的給定，就無法使用解聯立方程組的方法求解未知臨界點。但是，從統計學的角度，如果一個總體中存在一個臨界點，那麽，在隨機抽樣的條件下，在樣本臨界點（如果它可以被以另外的方法估計出來的話）附近的兩個臨界模型間將必然存在一個抽樣的連接變異（這是一個確定性的存在），至於這個連接變異有多大多小，nobody knows（也即這是一個非確定性的存在），從而，我們不可以強製性地預設那個“連續性”來建立一套方法論。反之，如果堅持采用那個強製連續性的假設，就等於是用一個確定性的假設來否決了一個確定性的存在，並以假定的方式肯定了一個非確定性的不存在（非確定性的連接變異 = 0，即肯定了“非確定性的連接變異”的不存在）！這是一個令人驚歎的低級錯誤。

If the continuity between two adjacent threshold models is not inferred in a probability, it is not a statistical method but a mathematical game with an arbitrary assumption in a certainty for an uncertainty.

所以，我認為以上兩個問題可能是統計學方法論發展史上的兩個悲劇性錯誤。我在2007年和2009年的JSM會議上曾兩次談到了這兩個錯誤，也曾試圖投稿發表自己的見解，卻被所有雜誌社拒絕了，但卻從來沒有人對這類拒絕的理由給出任何專業方麵的解釋。這些期刊包括（按投稿時間順序）：

Biometric (2次修稿。唯一評論：目前的方法比這個好)

Statistics in Medicine (1次投稿。唯一評語：沒有創新)

JASA (3次修稿。第一個評語：本文的思想確實有趣(definitely interesting)，但數學表達不規範，會使審稿者感到burden。最終評語：該文不適合發表)

Biometrika (1次投稿。唯一評語：本刊空間有限)

Annals of Statistics (7次修稿。第一個有意義的評語：本文試圖挑戰the large body of Statistics and Mathematics,但以本文目前的英語寫作水平，不足以令讀者信服。最終評語：建議投稍微低一點的刊物)

Computational Statistics and Data Analysis (2次修稿。唯一評語：作者有點妄言)

The American Statistics (1次投稿，唯一評語：無法判斷本文的觀點和方法是否正確)

上述兩個問題我曾請教過哈佛統計係的主任孟曉犁(Xiao-Li Meng)以及當前的Annals of Statistics的副主編蔡天文(Tong Cai)，然而，這兩位傑出的數學背景的統計學家無一願意回應。所以，那兩個困惑對於我依然待解，我相信沒有哪個數學背景的數理統計學家可以給出關於它們的肯定的論證，因為它們本是統計學領域的兩個謬論，是由於概念缺失導致的分析邏輯和數學算法上的錯誤。

人們可以繼續無視我所做出的東西，因為作為國內醫學院畢業的master-level的我在統計學領域的credit可以被忽略不計，但問題將依然存在。正如Dr. Huber所指出的那樣，“一些數學家習慣於以他們的確定性思維模式來解決非確定性領域的問題”，這是統計學領域中一切錯誤和問題的根源所在。

I stopped reading when I encountered "我從直覺..." Never seen a paper with such wording gets published.

那麽多的熱心人，都在搜尋那些個矯情肆意的芙蓉姐夫的下落，怎麽就沒有人想到來這裏考證一番？這可真是個莫大的漏洞啊！

好像你在什麽教吧？真信假信？難道教裏沒有答案？你這不是褻瀆了你信的教嗎？

真是超級興奮，30年了，再次遇到像你這麽“二”的。當年同學中有過和你有一拚的，後來好像進了精神病院。老兄特哈馬克思，說馬克思主義裏包含了對世界所有問題的答案。把一些姑娘鎮的把他就當成了馬克思。但不知道馬克思腦子裏哪裏灌了水，就是沒有給出他把不出娃兒的答案。哎。。。。。。

別動不動統計學家什麽的，我一直以為你是呢，因為上大學時我的概率統計就考了64分，所以很佩服文學城還有統計學家坐鎮。
上次看你辯論醫學院教育的事，我才發現原來是你自己管自己叫統計學家。
我也是看了二姐的題目進來的，從上次以後，很怕點進你這裏，文學城頭的導讀有時候挺坑人的。

回複pillar的評論:

You are a great hero in the sports you just mentioned below. Hope you can win them. However, if you are a great statistician, please leave your answers for those questions since I have said that this blog is a challenge for anyone in the field of Statistics; otherwise, dream yourself as you wish you were whatever you want to be.

I tried to challenge Federer on tennis but he did not answer; I tried to defeat Kobi on basketball but he did not show up; I tried to race with Bolts on 100m dash he ignored me. So I decide to record this here so mankind will witness such a great sport man has lived.

回複needtime的評論:

The mathematics in Statistics should not be contraditory to itself!(統計學中的數學不應該與其自身相矛盾！)

你所說的話讓我懷疑你是否有過現場調查和數據管理的經驗。你很可能是一個學院式的統計學家，隻會用幾個數學概念在自己的腦袋裏演繹外部客觀世界，並堅信自己的演繹是正確的，因為它們在你看來可能符合你的假設條件和基於此上的數學原理。

鴨同雞講，你怎麽不下水捉魚啊？你看我們長的很一樣，有羽毛，有腿的。

真的能一樣嗎？
統計學，不就是對存在的現象進行規範化後的描述。能用於實際上的有限預測，指導生產等。給出的是，一定的可能性。這些在數學上，如何純理論性證明？你的第2個問題很符合股票價格的走勢預測理論，原本也許就來自實際現象，鑽什麽牛角尖啊。

是一個很有用的交易手法。

回複xwenxuecityy的評論:

如果你是一個數學背景的統計學家，如果你想接受那個挑戰並在這裏發言，就請說出幾句有價值的話，否則，就讓我的那個在你看來似“精神病患者般”的傻笑陪你進入夢鄉好了。

回複pillar的評論:

如果你是某個統計雜誌的編輯或同行評議者，如果你曾犯下了類似的錯誤，你會允許我的思想發表嗎？

看你那副精神病患者的傻笑，文學城簡直被你糟蹋了。

要不是“二姐”，我根本不會回這文學城了。

http://blog.wenxuecity.com/myblog/40482/201208/17777.html

"我把試圖交流的東西發表在自己的博客裏，作為對整個係統的挑戰。這個挑戰將一直存在於這裏，以便人們可以觀瞻這一科學史上的悲劇。" That's a huge statement. It's only logic that whoever makes such a statement should know the best place to discuss the issues are the leading scientific journals,not here with the laymen.

數學家們在統計學領域犯下了幾個嚴重的錯誤

今日熱點

一周熱點

TNEGI//ETNI 名博

數學家們在統計學領域犯下了幾個嚴重的錯誤