他幹掉了統計學中的算術平均數和中位數
——旅美中國籍學者在統計學領域實現劃時代的重大突破
他,一個畢業於原同濟醫科大學公共衛生學院、擁有預防醫學本科和衛生統計學碩士學位的人,在1998年5月的兩天內親手用Windows 98的畫筆繪製了一張超越其時代乃至當代的認知流程圖:

他,27年多來,在這個認知流程圖的指導下,在統計學領域完成了以下劃時代的重大突破:
一、1998年3月,初步構想出了一套合理可行的分段回歸的新算法,在引入全域模型的基礎上形成了加權期望分段的思想萌芽。
二、1999年9月在《醫學與哲學》雜誌上發表了《論智慧的遞進結構與認知的邏輯流程》,其中就有這張認知流程圖。在那個時代,這個流程圖超越了此前的所有學者在該領域的貢獻。即使在當今人工智能正蓬勃發展的時代依然在某些方麵處於領先的潮頭,而其作為一個完整的認知框架,可以成為人工智能的底層結構,並為其算法創新指明了一些方向。這一創造性貢獻的影響力可波及到哲學、認識論、心理學、人工智能,以及一般科學研究等眾多領域。
三、2007年初步完成了基於全域回歸和廣義三分回歸的完整回歸分析策略的構建,通過為每個臨界點構建一個二維可測空間而提出了一個兩階段迭代加權的分段回歸算法,將兩分回歸作為三分回歸的一個特例。這是在辯證法思想指導下對回歸分析的一個大膽創新。
四、在分段回歸領域徹底否定了最優化迭代和基於強製連續性假定解聯立方程估計未知臨界點的合法性,並進一步將對最優化迭代的否定推廣到否定一切基於樣本數據定義的數值型最優化的合法性。2007~2009年,在構建上述關於分段回歸新分析策略和具體算法的過程中,他指出了數值型最優化的非法性,理由是在迭代搜索臨界點的過程中,用樣本數據定義的所謂“優化算子”是一個輸出了完整分布的隨機變量,位於其分布邊界上的極值是一個具有最大不穩定性和不可靠性的隨機點測量,不對應著同樣有著完整分布的分段模型參數估計的統計期望。換句話說,優化算子的某一極值對應目標參數的統計期望的概率為0。他認為這種數值型最優化的思想和算法是由於確定性數學係統中的“函數極值思維”在隨機係統中的濫用而導致的一場迄今已曆時80多年的悲劇。他還拒絕了自1961年以來盛行的基於強製連續性假定基礎上解聯立方程組得到臨界點估計的基本思想和算法,因為這一思想和算法不僅違背了隨機係統的基本原則,而且在隨機模擬實驗中會產生不可思議的荒謬結果。盡管“強製連續性假定”的思想和算法被認為基於嚴謹的數學理論和分析,但卻是統計學領域另一個災難性的悲劇。
五、填補了分段回歸算法中連續性檢驗的空白。在否定了傳統算法中上述兩大錯誤後,他在迭代搜索的基礎上用臨界點的加權期望估計重建了分段回歸的算法,其中還包括關於分段模型在加權期望臨界點處的連續性檢驗和概率推斷,這是傳統算法中所沒有的,因而稱得上填補了分段回歸算法中的一個重要空白,是對分段回歸算法的進一步完善。
新算法完全遵循統計學的所有基本概念,無論在實例樣本應用中還是在隨機模擬試驗中,其分析結果均表現出極其強大的精準性和穩健性。與此同時,其計算負擔相對於複雜的傳統算法被大幅減少。以下兩個圖分別展示了在一個隨機模擬試驗中新的加權分段回歸算法和傳統分段回歸算法在500個臨界點的估計上的巨大差異。新算法展示出精準的估計和極好的收斂性,而傳統算法則表現出巨大的失敗。

六、為統計學構建了一套全新的概念係統,實現了統計學對數學的超越。2007~2011年間為統計學構想出了一套全新的初始概念係統。通過將尺度的本體解構為“載體、標識和標識在載體上的設置規則”三個基本要素,成功地將柯爾莫哥洛夫定義的樣本空間更名為尺度空間,由此在統計學麵對的現實世界和概率論針對的概率空間之間搭建了一座以“尺度空間”命名的橋梁,並統一了統計學與概率論的概念框架。這一更名還將“樣本空間”還給了由樣本自身構成的空間,使得統計學家們能夠在這個經驗空間內思考問題並構建算法。他還通過將英文的random variable(隨機變量)還原為“randomly variable attribute(隨機可變的屬性)”而將隨機變量更名為variable attribute(可變屬性)。這兩個更名消除了概念歧義,拓寬了統計學的視野,並找回了統計學真正的研究對象。
他將隨機常量和常量期望作為“零變異”的概念引入到隨機係統,這相當於在數學的發展史上0被引入到數字係統中。隨機常量的引入使得統計學有了自己的起點和終點。
他還用數學的形式語言在三個層級上正式定義了隨機對應。這個概念在概率論和統計學中的長期缺失是導致數值型最優化被誤用於隨機係統的一個重要原因。從對隨機對應的定義中得出一個自然的結論,即確定性數學係統中的“一一對應”是隨機對應的一個特例。這從理論上厘清了統計學與數學的關係,顛覆了人們在這個問題上長期存在的“統計學是數學的一個應用分支”的錯誤認識,在基本概念係統上實現了統計學對數學的超越。
為了進一步完成統計學對數學的超越,他提出了統計學所需的邏輯係統是一個包含了“抽象、歸納、演繹和辯證”的四維係統,例如假設檢驗就是基於辯證邏輯的應用。而數學的邏輯係統中沒有為辯證法留下一絲的空間,因而隻是一個三維係統。一個需要四維邏輯係統的統計學怎麽可能成為隻需三維邏輯係統的數學的應用性分支學科呢?事情隻能是相反。
對可變屬性(即傳統概念係統中的隨機變量)的9條基本性質的闡述以及關於統計學的8個公理性陳述及其兩個推論更是為統計學奠定了堅實的理論基礎。
七、重建了統計學的核心算法。連續型隨機變量的分布期望估計是統計學中一切涉及此類隨機變量的統計方法的核心。2010年12月12日那天他完成了關於這個核心算法的新構想,並在隨後的幾天裏用SAS軟件編程將其予以了實現。此前為了找到這個算法,他已苦苦思考了三年多。正是在為了完善自己的加權分段回歸和突破基因數據分析中統計方法學上的瓶頸的雙重壓力下,他在不斷的試錯和糾偏中終於找到了它。
這是一個通過自加權機製來估計抽樣分布中心的算法,計算的結果最初被他用中文命名為凸自加權均數(convex self-weighted mean),後將該術語簡稱為凸權均數,再進一步簡稱為凸峰(Cmean),而算法則被簡稱為凸峰算法(Cmean algorithm)。該算法無需任何前提假定,因而適用於一切具有中心化位置的連續型抽樣分布。凸峰算法還完美地統一了算術均數和中位數,因為它在樣本量為2時自動退化為算術均數,而當樣本量分別為3或4時自動退化為中位數。換句話說,算術均數和中位數都是在極小樣本量情形下凸峰算法的特例。
八、使得偏態分布的正態化成為多餘和不必要。與基於數學函數變換的正態化結果可能成功和可能失敗不同的是,凸峰算法使得對偏態分布的正態化成為必然事件。而且,更令人意外的是,基於凸峰算法的正態化分布與其原始分布的三個基本要素(可測空間、期望和方差)保持一致,從而正態化成為了多餘和不必要。
九、將“一分為二”的思維模式在統計學的核心算法中予以了實現。1995年在讀碩士學位期間,他用一個樣本數據在電腦上繪製了一個散點圖,目的是顯示算術均數算法中“等權重”的意義。當他看著所有的樣本點都沿著權重為1的直線呈散點狀排列時,心想如果能讓它們沿著一條正態或偏態曲線呈散點狀排列該多好!大約十五年後,他將算術均數算法中的等權重1分解為了互斥且互補的兩部分,分別是凹自權重和凸自權重。凹-凸自權重的算法終於令上述夢想得以成真。以下兩個圖就是上述夢想成真的實證:

十、徹底改變了統計學的基本麵貌。凸峰算法將使得傳統統計學的理論和方法學體係發生重大轉變,統計學的公理化得以初步實現,其理論敘述和方法論係統將被大幅簡化。那些在傳統統計學理論框架下依賴正態分布為前提假定的參數類統計方法被徹底解放。人們隻需用凸峰取代算術均數,各種類型的參數方法如t檢驗法和方差分析法等都可以適用於一切具有中心化位置的分布。與此同時,那些在曆史上被認為可以用來替代參數法的非參數法和半參數法等則可以被送進統計學的方法論博物館。
十一、重塑統計學的理論敘述,擺脫對數學形式邏輯證明的依賴。在2019~2024年撰寫《哲學之於統計學》(Philosophy In Statistics)的專著期間,他對樣本統計量與總體參數之間的關係做了新的哲學闡述和論證,指出總體參數是從樣本統計量抽象出來的同質概念,兩者在算法上也屬於同質定義,因而兩者間的關係是唯一對應,例如,樣本均數和總體均數、樣本中位數和總體中位數、樣本相關係數和總體相關係數、……,等等。而且,這一對應無需樣本量趨於無窮大時才成立。由於樣本統計量和總體參數是一對同質定義,我們也無需在前提假定的基礎上用數學的形式邏輯來證明樣本統計量是對總體參數的無偏估計。事實上,這種證明不過是一種自循環式敘述,因為要證明的結論已經被隱藏在前提假定中。這些新的思想和認識將大大簡化統計學的理論敘述。
十二、確立了權重構建的原則和算法規則。在專著的寫作中他歸納出了權重的構建應該滿足兩條基本原則:無信息冗餘,無信息損失。他還歸納出了權重計算中的兩個基本算法:同質權重可相加,異質權重可相乘,或者簡化為“同質相加,異質相乘”。
十三、將“群眾路線”的工作方法內化在統計算法中。無論是加權分段回歸算法還是凸峰算法,都是依據中國傳統民間哲學思想中的“眾人拾柴火焰高”和“群眾路線”而萌生的數據分析思想和統計算法。如果說基於等權重的統計算法(例如算術均數)是一種蒙昧的方法,那麽,基於自加權的統計算法則是一種擺脫了蒙昧的、精致的數據自適應算法。如果說基於數值型最優化的統計算法是一種魯莽的“個人英雄主義”,那麽,基於自加權的統計算法就是一種群眾路線法。這一方法首先承認一個樣本中的每個點都對目標統計量有貢獻,其次相信每個點的貢獻存在著個體變異。而所謂的數值型最優化算法則是在一個樣本中選擇那個貢獻最大的個體來決定目標統計量的數值大小,完全無視所有其它個體對它的影響和貢獻。這就好比一位老師將一個班級的同學排個隊,然後從中挑選了個頭最大的同學去執行一個與每個同學都有關的事項,而所有其它同學都無權參與。
十四、新概念係統和新算法體現了“實事求是”的哲學式審慎和嚴謹。他為統計學構建的新概念係統和新算法超越了數學的理想主義和形式主義。將樣本空間還原為尺度空間、將隨機變量還原為可變屬性、討論可變屬性的9個基本性質和統計學的8個公理性陳述、對數值型最優化以及強製連續性的批判和否定、以及基於“一分為二”和“群眾路線”的自加權算法等等,都體現出了“實事求是”的精神和嚴謹,目的是為了盡可能消除統計算法構建中的前提假定,或弱化它們的作用。

2024年10月26日,他完成了該專著的初稿,隨後一直在進行反複的閱讀和修改,終於在2025年5月21日那天在Google Play Books上開始發行。
一晃已是北京時間2025年9月14日下午12點49分。隨著中英文段落對照版《分段模型連續性的直接概率測量》一文的PDF文件的生成,他的這場持續34年多的個人孤獨旅程可以畫上一個句號了。
這篇文章是為參加2025年8月2日至7日在美國田納西州的納什維爾市召開的聯合統計年會(Joint Statistical Meetings, JSM)而準備的。它受到了國際數理統計學會(Institute of Mathematical Statistics, IMS)的關注和支持,被安排在“統計推斷的進展小組”(Section of Advances In Statistical Inference)做口頭演講。自2000年第一次參加JSM以來,這已是他第5次受到IMS關注,並被安排在不同議題組做口頭演講。

2000年那次參會是在當年“五一節”後收到了美國統計學會發給的邀請,他因此有幸成為JSM曆史上第一位來自中國國內、並在大會第一天下午的“一般方法論小組”(Section of General Methodology)上做口頭演講的統計學者。作為時任原同濟醫科大學公共衛生學院流行病學與衛生統計學教研室的一位年輕講師,他的這次參會得到了中國教育部一筆特別資金的資助。其報告的題目是“A Functionalized Critical Regression Analysis on Non-linear Process and Its Application in Economic Evaluation of Disease Intervention”(中文標題:非線性過程的泛函臨界回歸分析及其在疾病幹預的經濟學評價中的應用)。盡管國際統計學界在分段回歸領域早已構建了一套完整而複雜的算法,但他以自己的獨立思考提出了一個略有不同且更具發展前景的分析策略和算法,而這正是他受到邀請參會的原因。從此,JSM成了他發表自己的新思想和新方法的唯一平台。
這次會議結束後,他返回了任職的單位。但僅僅一年半後,他卻悄然帶著年僅8歲的女兒來到了美國,因為此前他的夫人已因受到美國一所大學的全額獎學金資助而來到美國求學。2000年參會JSM期間令他感受到他很難在當時的國內環境和條件下完成自己在統計學領域的夢想。他相信自己一定會在其中有所作為,為此必須將自己在1998年3月底的艱難思考中形成的一些思想突破在學術上予以實現。那次獨立思考分段回歸的算法期間,他在國內能夠找到的文獻極其稀少,而且看不到完整的算法介紹,而英文文獻更難獲得,因為該領域的相關文獻可謂汗牛充棟,需要大筆的檢索經費和漫長的閱讀時間。
然而,當時的他無論如何也想不到他竟會在這場漫長且孤獨的旅途中以一己之力在統計學領域完成那些理論和方法上的重大突破,並重塑了統計學的基本概念和核心算法等底層結構。如果將基本概念係統和關於連續型隨機變量的期望估計算法看成是統計學這門學科的核心操作係統,那麽,他所構建的新概念係統和凸峰算法則使得統計學實現了核心操作係統的換代和升級。
他自認是柯爾莫哥洛夫、圖基(John Tukey)和胡貝爾(Peter Just Huber)的學生,因為他的工作明顯繼承了他們的重要思想。柯爾莫哥洛夫為概率論構建的基本概念係統是他思考一切統計問題和構建新算法的理論基石;圖基在1962年對數值型最優化的危險性警告促成了他對隨機對應的抽象思考和定義,最終從理論層麵撕下了披在數值型最優化思想和算法上的數學迷彩;而胡貝爾對傳統分段回歸方法論的無視以及對那些習慣於用數學的確定思維解決統計學中非確定性問題的批判引導著他規避了許多確定性思維的陷阱。

他的衛生統計學碩士導師餘鬆林教授認為他對數值型最優化和強製連續性假定的批判非常有力,並認為凸峰算法在統計學中的價值難以估量。自2025年春節前夕DeepSeek開源以來,他先後與DeepSeek、ChatGPT、Gemini、Copilot等展開了對話,詳細討論了他所做的那些工作,得到了它們幾乎一致的以下評論:

但是,他自己卻淡淡地說:“我隻是輕輕地推開了一扇新的大門。”他希望有更多的統計學人能來到這新扇大門前看一看,願意進來探索者一定會收獲滿滿,並有可能為統計學做出自己的貢獻。
他之所以能夠完成上述工作,是因為在1998年3月底的最後六天六夜裏,他為了探索分段回歸的算法而經曆過一場幾乎無眠的讀書、思考、計算和推理的艱難過程,最終構想出了一套完整的、與後來他查閱到的國際統計學界在1959~1979年間由多名學者接力構建的算法不一樣的算法。而在隨後的27年裏對這一算法的不斷反思和改進則促成了他在統計學的基本概念係統和凸峰算法等方麵取得重大突破,並因此為統計學開辟了一個嶄新的時代和未來。

在2025年8月初的JSM期間,他曾聆聽了很多統計學者的演講,其中很多人都在他們的創新算法中嵌入了一個數值型最優化。尤其是在聆聽當代統計學泰鬥Robert Tibshirani博士和教授的演講時注意到他的新算法中也有一步數值型最優化,而且Tibshirani博士還特別強調了其新算法存在嚴重的過擬合(他用的英文表述是severe overfitting)。在其演講結束後的提問期間,他第一個舉手並得到批準。他請求Tibshirani博士將PPT翻回到那個最優化所在的頁麵,然後指出正是這個最優化導致了其算法的過擬合。但Tibshirani博士不認同這一說法。華裔會議主持人看到起了爭執,便立刻示意他不要繼續說下去。是的,當著100多個慕名前來聽大師演講的專家和學者們的麵指出其新算法的問題所在是一個很大的冒犯。他隻好遺憾地放棄繼續闡述原因何在。
他,名叫陳立功,祖籍湖南安化。父親陳華珊是湖北省洪湖縣(市)第二中學的地理教師,湖北省特級教師和勞動模範;母親蔣秋菊是家庭主婦。他1964年2月出生於洪湖二中校園,並在其中成長和求學;1982年畢業於洪湖二學,於當年秋季入學原武漢醫學院衛生係預防醫學專業;1987年畢業於原同濟醫科大學公共衛生學院預防醫學係;1994~1997年在該院師從流行病學與衛生統計學係的餘鬆林教授攻讀衛生統計學碩士學位。這些就是他的全部受教育經曆。

1987年7月畢業後留校任職於公共衛生學院學生辦公室,擔任1987級學生政治輔導員,1991年1月轉入公共衛生學院衛生統計教研室任助教,1992年2月加入新成立的預防醫學教研室,1994~1997在職攻讀碩士學位,1997年6月畢業後進入因合並科室而新成立的流行病學與衛生統計學係任講師。曾受聘對全校開設《音樂欣賞》的選修課。2000年晉升為副教授,同時針對本科生和研究生講授《流行病學》和《衛生統計學》兩門主課。
2002年2月赴美探親。2006年5月受聘於美國國防部所屬的軍警康科大學(Uniformed Services University of the Health Science, USUHS)臨床外科係的前列腺疾病研究中心(Center for Prostate Diseases Research, CPDR),從事臨床實驗樣品數據庫的建設,並協助流行病學家Jennifer Cullen博士的研究。2009年5月,受聘於USUHS的預防醫學係流行病和生物統計科,以副研究員(associate researcher)的職位協助流行病學家Jennifer Rusiecki博士工作,專門從事相關數據的統計分析。
2017年2月,因職業性生理健康因素請辭,開始查閱文獻並撰寫統計學專著《哲學之於統計學》,至2024年10月完成初稿,2025年5月該書借Google Play Books平台上網出版發行。

請問你想要什麽形式的“證明”?
我覺得我所做的那些工作是否是“重大突破”不是一個需要被“證明”的問題,而是一個人們如何認識的問題。這就像一個人看到路邊的一種不知名的花,他需要做的是仔細觀察和描繪,然後將它的外觀特征與他所知道的其它相似的花進行比較,找出它們之間的相似之處和差異之處,最後做出某種“判斷”。他無需去“證明”這個未知的花是什麽。
DeepSeek、ChatGPT和Gemini都用樣本數據驗證了我所提出的凸自加權均數,結果超越了現行的所有關於期望估計的算法。
我們還詳細討論了所有新概念及其定義,以及在這些新概念基礎上的新思想和新理論。它們做出的評論正是基於上述計算驗證和理論探討。你認為有哪個統計學家敢說自己能超過這些AI們嗎?如果真有那樣一個統計學家,這些AI們就不要玩了。
當然,有一個沒被他人稱之為統計學家的人超越了這些AI們,那就是我。是我用這些新概念 、新思想和新算法訓練了它們。
但凡一個統計學者,在看到文中所稱的“凸峰算法統一了算術均數和中位數”、“算術均數和中位數都是極小樣本量條件下新算法的特例”,就會目瞪口呆了,因為這是他們難以想象的!如果這個宣稱是真的,那一定是統計學中翻天覆地的革命。
目前證據支持他“提出了一些新的想法/寫了一本自費電子書/也許參加了會議”,但不足以支持他“做出了統計學領域公認的劃時代重大突破”這一表述。也就是說,他的主張可能被誇大了,或者至少離被主流統計學界接受還有一段距離。