智慧即財富

陳立功的文學城博客:馳縱騁橫,談今博古,飛花揚月,行文交友
個人資料
TNEGI//ETNI (熱門博主)
  • 博客訪問:
正文

同濟醫科校友學術論壇:答對“統計學的新地平線”

(2011-09-21 20:39:34) 下一個

同濟醫科校友學術論壇:答對“統計學的新地平線” 

立功

各位校友,

我幾天前在自己工作的大學(USUHS)作了一次關於我個人在統計學領域所作出的最新研究的學術演講。這次演講有可能是統計學這門通用科學方法論的一個嶄新的裏程碑。此刻我正在Miami參加今年的統計學年會:2011 Joint Statistical Meetings (JSM),也就是希望借這個機會向整個學術界推薦自己的研究成果,今天下午已經在一般方法論小組作了presentation

毫無疑問,我的獨立研究的結果基本是正確的。我在過去的四年中對Kolmogonov所創立的基本概念係統作了適當的內涵調整並引入了幾個新概念,對最優化和強製連續假設作了理論上的徹底否定,並對Bootstrap法提出了尖銳而深刻的批判,而去年底完成的對連續型隨機變量的自權重的成功定義將改變現有方法論體係中的很多東西。因此,我稱這個定義的提出是統計學曆史上的一個新的地平線。

當然,我要指出的是,目前的學術界依然沒有接受我的主要觀點,特別是我對最優化和強製連續假設作出的理論上的否定以及對Bootstrap法提出的深刻的批判。很多大統計學家都在上述三個方麵有所建樹,我的否定和批判是他們暫時無法接受的。但是,我相信他們終有一天會接受它們。我對自權重的定義從此次會議的反應來看尚未遇到反對或不理解的聲音。正如我的導師、同濟醫科大學衛生統計學教授餘鬆林老師在聽了我對自己的研究結果的電話介紹後評價說:這是一個非常大的突破。他還非常讚賞我所創建的、迄今為止依然被學術界拒絕接受的三分臨界回歸分析法——一個在任何應用統計學領域有著很高價值的方法論,它被國際學術界拒絕的主要原因是由於我在闡述自己的方法學的理論基礎的同時對最優化、強製連續性假設和bootstrap法提出否定和批判。這就是所謂的不破不立!

我很自豪地以原同濟醫科大學公共衛生學院畢業的一個master學位水平的生物統計學家完成了令無數PhD水平的統計學家們感到不可思議的研究經曆,我由此而終於實現了九年多前從母校同濟醫大帶到美國來的夢想——在這裏完成自己的學術思想,從而做到在短暫的人生旅途中有所作為。我也想借此機會向我的導師餘鬆林教授和王增珍教授以及原統計和流行病教研室的幾位老前輩,包括周有尚教授、劉筱嫻教授、董時富教授、施侶元教授、黃銘西教授、黃緒鎮教授和聶紹發教授等以及老院長陳世蓉、周宜開和原輔導員張述林老師等表示我的衷心感謝,在同濟學習和工作期間,我曾得到了來自他們中的每個人的關懷、指導和教誨,使我終身受益匪淺。當然,我還要深深地感謝原同濟社科部的袁建國、王智平和王健等三位哲學老師以及陳敏老師,他們四個人對我的學術思想和個性的形成影響非常大。

我在USUHS的演講的視頻被我自己上載到了Youtube,以下是網絡銜接:

第一部分(基本概念1):http://www.youtube.com/watch?v=itKHUu6Bqjg
       
第二部分(基本概念2):http://www.youtube.com/watch?v=u2IEHG7mGnU
       
第三部分(基本概念3):http://www.youtube.com/watch?v=6R5lnlnRN8o
       
第四部分(性質與公理):http://www.youtube.com/watch?v=8jlETJfifFg
       
第五部分(自權重的定義):http://www.youtube.com/watch?v=Uirkl_VHL9I  

旭光

立功校友,

有朋友傳來了有關你建立了統計學新地平線的消息,感到十分激動。既看了你的報告視頻,也讀了你的中文解釋,首先對你的探索精神十分敬佩。不過,我感覺到你的報告沒有很好的把你的地平線畫清楚。知道你想用“自權重”的方法解決非正態分布或偏態分布的連續變量的平均數比較問題。對於你提出的問題,除了非參方法外,還有別的方法可以解決的。並不是你說的隻有華山一條道。你應該知道你可以對數據作轉換,使之達到或接近正態然後作參數分析。比如,最簡單的幾何均數就與你的自權重校正過的均數很相近。你在報告中除了要與算術均數比較外,也該與幾何均數進行比較,這樣才更有說服力。

還有,用權重方法調節平均數,並不是一個新概念:人們給於遠離均數的個體以較小的權重而給於靠近均數的個體以較大的權重,這樣計算出得均數比較不受極端數據的和偏態分布的影響。以權重方法調節平均數,最權威的是Empirical Bayes方法,這種方法決定權重不僅考慮到和均數的距離,同時也考慮到數據點的誤差大小,誤差大的給於小權重,誤差小的給於大權重。還有在meta analysis中計算summarized relative risk時也運用了相同的思路。

以權重方法調節平均數,做得最有創意的是物價部門,比如要想維穩,在計算物價指數時,就給豬肉以最低的權重,這樣,肉價再高,乘以一個1%的權重後就微不足道了。所以,以權重方法調節平均數會因此而受到批評,因買米花的是錢,賣肉花的也是錢。憑啥要把肉價乘以1%?你這不是蒙人嗎?有時候過分玩弄數字遊戲,會使方法的含金量大打折扣。

想出一種方法不難,但要證明你的方法比別的方法好很難,你覺得是畫了一條新地平線,別人可能覺得那是掉在地上的一根頭發,不把你當回事,感到委屈是自然的。但是,探索總是好的,反正閑著也是閑著。順祝夏安! 

立功

旭光校友,

看起來我是幸遇一位同濟的統計同行了。我因此想借此機會向各位校友做一點進一步的解釋。

旭光校友對我的工作做了初步的評價。有些說得比較接近事實(特別是關於當前統計學的理論和方法方麵),有些則還離事實本身有一定的距離(特別是在關於我本人所做的工作方麵),這可能與他所說的我沒有很好地把自己所畫的新地平線解釋清楚有關。

關於當前的方法論,在麵對連續型隨機變量的描述和分布的差異性比較的問題時需要一個正態性假設為前提條件。如果分布滿足正態性,則算術平均數和標準差作為一個描述隨機分布的集中趨勢和離散趨勢的統計量就足夠的好;反之,則算術平均數便是一個有偏估計(在自權重定義被提出之後,這個觀點將可以被接受。但按照目前的觀點,即使對於偏態分布,算術平均數也是一個無偏估計),而標準差對分布的離散趨勢的描述將不能給我們一個非對稱的分布結果,所以,在不能滿足正態性假設的條件下,算術平均數和標準差不是最佳統計量,由此,建立在此上的t-檢驗法也不能給我們一個精確的差異檢驗的結果,而是包含著較大的檢驗誤差,這是由檢驗方法本身導致的,或者說是“由於p-值測量工具不夠精確導致的”。

對正態性的認識與假設給我們帶來了很多煩惱,其實,無論總體本身的分布是否正態,抽樣所得的樣本既可以是正態的,也可以是非正態的,且一個隨機分布由正態變化到非正態是一個連續測度,這個變化過程不會給我們一個類似“男女”有別的顯著判斷依據,隻能通過一個所謂的正態性檢驗的概率測量來作出推斷。如果兩個要比較的隨機分布中的任意一個不滿足正態性前提,則不建議采用t-檢驗法來判斷它們之間的差異是否顯著,因為分布的期望的估計和離散度估計都含有較大的偏差,於是改用非參數檢驗法。但是,這樣一來,在所有同類檢驗中(例如在microarray data analysis中)就會產生“p-值測量時的係統誤差”,因為檢驗的方法不一致,這種誤差比由不管三七二十一地全部采用t-檢驗或全部采用非參數檢驗所導致的關於p-值測量的較大的隨機誤差要嚴重得多。所以,走以正態性假設為前提的方法論的道路麵臨很多的困難,而係統誤差是必須被徹底排除的,也就是說,我們需要一個既測量精確,又沒有係統誤差的p-值測量工具。這就是自權重提出的重要背景之一。

其實,找到關於連續型隨機變量的通用期望估計的辦法原本不是為了上述的microarray data analysis,而是為了找到一個取代最優化算子的期望估計的準確辦法並因此而取代最優化估計的判斷準則,因為對應於最優化算子的最大或最小測量的統計模型的統計量集合是一個隨機集合,也即這個集合不是一個期望集合,因為最優化算子是一個隨機的連續測度,對應的統計量集合中的每一個元素也基本上都是隨機的連續測度,這就好比身高和體重兩個都是隨機的連續測度一樣,我們不能用一個樣本中身高的最大或最小值去決定體重的期望估計,也就不能用最優化算子的極值去決定模型的期望參數集合。這樣做是一個違反統計學基本原理的嚴重錯誤,是不可接受的,否則,統計學的根基便被徹底摧毀了。我們須知,隻有身高的期望才會比較確定地對應著體重的期望,因此,我們也應該用最優化算子的期望去決定統計模型的參數的期望估計。這是一個極其簡單的道理。我真的為此感到很遺憾,在統計學這門科學方法論中竟然存在著如此荒謬的錯誤。這真的是科學史上的一個悲劇。

在目前的統計學理論體係中,對權重的認識尚存在著嚴重的問題。我為此而付出了自己的努力以便找到一個通用的權重測量的方法。我認為我找到了。旭光校友在他的email中所舉的關於食品價格計算中的權重賦值的辦法不是我所要的。這種辦法有很大的主觀人為性。我提出的方法則完全由數據本身在分布空間上的位置來決定,即它自己決定自己的權重,因此是自權重。

至於說到為了滿足正態性前提而將數據進行函數轉換,也不是我所願意追求的。這裏有一個嚴重的問題需要做理論上的闡述。這是後話,因此這裏就不多說。

關於方法論的好壞的證明,這是不能用數學式的證明模式來做的,而是要采用哲學式的陳述來說明事實。正如我在上麵所做的那樣。我們需要嚴謹地解釋一個方法中的每一個要素的實質是什麽,然後才能知道一個方法的優劣。

還有很多話要說,時間有限,暫時說到這裏。祝大家好。 

旭光

立功校友,

謝謝你的進一步解釋。尤其是對你的這篇回文中措辭的理性,謹慎與委婉表示欣賞。你是一個喜歡獨立思考的人,這一點很難得,尤其是你對這個問題執著地思考了20年,並且敢於振臂一呼——你不僅顛覆了統計學的傳統理論,而且劃出了新的地平線!所以,我很佩服你的這種天馬行空的自信和勇氣。

但是,凡要闡述一個新的方法,最好運用同行廣泛接受的專業語言和概念來表述,這樣才能便於接受。如果,像你的報告那樣,需要先花80%的時間,改變別人的專業語言和概念,然後,再告訴別人你的方法隻在你定義的新語言和新概念下才成立。這個任務不僅太重,而且變得沒有意義。就好比你想描繪與血壓有關的發現,你要用目前通用的血壓計來測量和描繪你的發現,盡管你知道現在的血壓計可能有這樣那樣的問題。你說你發明了一種藥物,可以降血壓,但其效果血壓計測不出,要你獨創的號脈儀才能號得出。你因此宣布傳統的血壓計過時了,你的號脈儀是新地平線。人家拒絕發表你的發現,你就說別人無知?應該說,是你沒有把工作做好。

我們同濟的哲學課是十分成功的,以至於我們畢業後滿腦子都是馬克思和黑格爾的辯證法。如你所說,辯證法在你的研究中起到很大的作用,並指引著你進行獨立思考。獨立思考如同閉關修煉,是十分必要的。但如果時間太長,往往容易與外界脫節,因為,你想的事外界可能早就解決了。弄不好,還會鑽進牛角尖,以致走火入魔。所以,要把獨立思考和訪師學藝結合起來才好。覺得你應該就你的項目,申請個博士課題,在你信得過的教授的指導下係統地研究研究。或者至少先想辦法發表它。但你多次自豪的表示你一個同濟統計碩士的身份,成功地戰勝了世界上的統計博士和教授。這種話,還是出自別人之口比較好。哈哈!哪有你這樣自己誇自己的?再說,統計學的理論和方法浩瀚無際,一個計算均數的方法在整個統計學裏重要性有那麽大嗎?就好比一個號脈儀就能顛覆整個醫學理論嗎?不至於吧?

我們同濟的校友純樸可愛,你讓大家一股腦地都來夾道祝賀你的新地平線,還讓大家記住這個難忘的日子,統計史上的新裏程碑,連我這平時不激動的都被搞激動了。進來一看,覺得你的這個東西似乎有點點被誇大了,所以,就胡說八道了一番,請別介意。

衷心希望你把研究深入下去。下周回國一趟,恕不再回帖了。 

立功

旭光,

多謝回複與討論。

其實,我所提出的概念係統是一個非常preliminary的簡單係統。我之所以這樣嚐試一下是因為當年做分段回歸分析方法的重建工作時曾自學了一點概率論基礎,結果為其中晦澀難懂且包含著某些定義錯誤的概念係統困惑不已。那套概念係統對於非數學背景搞統計的人來說是模糊不清的,即使是數學背景出來搞統計的人也通常無法將它們解釋得很清楚,更無法直接將它們引入到應用統計學中來。這在整個學術界是存在著這個看法的,並非隻有我一個人這樣認為。

即使不用我所提出的這個簡單概念係統,在現有概念係統下也可以直接接受我所提出的自權重定義和算法。這沒有任何困難。這個定義的意義是多方麵的。由於隨機測量與分布是統計的基礎,因此期望的估計和離散度的測量是一切統計方法的核心和基礎。自權重的提出將改寫方法論的體係,將它提高到了一個嶄新的思維和算法層次,例如,在對兩個隨機分布的差異性作比較時,我們不再需要在一維空間上假設分布是否滿足正態性,而是在二維空間上進行比較。由於期望估計的準確性,離散度的估計也可以實現非對稱化,差異性比較的結果將非常的準確和可靠。

自權重基礎上的期望估計將徹底取代最優化理論,從而為模型選擇提供一個可靠的criterion。這是因為對應於一個optimizer的極值的模型不可能是一個可期望的模型,而是一個隨機的“點”模型,就如同對應於一個樣本中的最高身高的體重是一個隨機的點測量結果一樣。

暫且寫到這裏。祝旭光旅途順利。 

建平

立功,

感謝你分享你的個人成就和喜悅。的確,像我們這些出來不是很早,或者說很晚出國的人,抱著自己堅定的信心,不與他人苟同的觀點,並持之以恒的,是我最為佩服的。並不因為你的文章難以發表而放棄,我強烈支持你!並希望和你有類似經曆並正在為自己的夢想奮鬥的你我和其他朋友們早日獲得公認。

統計的確很難學,當初學習時全班平均分數好像隻有70分,記得80年代末好不容易搞到一台蘋果2,並搞到了一個用Basic寫的統計軟件,幫朋友們完成了碩士論文的統計,很有成就感,現在已經用不上了,很懷念當初為一些基本統計和大家爭得麵紅耳赤的時候。 

立功

建平,

謝謝你的支持和鼓勵。我對自己的要求其實很低,也就是找個公開的渠道表達自己的觀點就可以了。與那些在學術界苦苦奮鬥著且希望發高impact期刊的人不同,我很欣賞會議的proceedings。這不需要任何人的review,從而你有機會充分表達自己的觀點。其實,任何人也不敢以自己獲得發表的文章聲稱自己的觀點100%地永遠正確,在統計學裏也不例外。發表了如何?不發表又如何?其實沒有差別,因為終有一天自己的東西會被後人或推翻或改造或超越。

最近一個多月來發現Youtube也是一個非常好的公共論壇,所以才決定將那個演講發布上來。我已經很滿足了。沒人敢聲稱是他/她發現了self-weight的定義和統計算法。這比尋求期刊的發表快捷多了。想說就說,隻要你能夠對自己所說的負責就可以了。

我來到這個世界本不是為了求名尋利,隻是為了完成父親寄托在我身上的一點小小的希望。記得剛入大學不久就在圖書館裏發現了一本書《名利於我如浮雲》,我這些年來就是在這樣的指導思想下走過來的。

讓我們相互鼓勵吧。 

爾佳

  Thanks for sharing exciting news and stories with us. These days, not so many great things happen around. From your research and language, I can see great effort and enjoyment from a "young" scientist. Please keep us posted in this area.  

立功

多謝各位學長的鼓勵和褒揚。當然,我知道在統計學領域我能夠繼續做的已經非常有限,但我個人的人生還有很長的路要走。盡管前途未卜,我仍然感到非常寬慰和平和,因為我做到了自己能夠做到的,並真正超越了自我。

另外,我很榮幸這輩子能夠有機會先後在同濟的原預防醫學教研室、衛生統計教研室和流行病學教研室做過教學和研究(雖然後來它們在形式上合並為一),這使我有機會在思考統計學的理論和方法等問題時總是將視角落實在尋求實際問題的解決途徑之上,而非單純地或者從數學的角度思考計算問題,或者從醫學應用的角度學習統計方法的應用問題。因此,出國前能有機會與出自原流行病教研室的胡長燈學兄相識也是人生的一大幸事,但願有機會重逢相聚。

考慮到我近期關於自己的言論可能引起某些人的猜忌或誤會,我願進一步以一些實事來澄清關於我個人的當前狀況。

昨天在會場與一位統計PhD討論了最優化、強製連續性和bootstrap法,我的批判性觀點使他大為驚愕,他說他們從未懷疑過那些理論和方法,也從未如我那樣思考過問題,他們對別人教授給他們的理論和方法毫不懷疑,自己也是如此教給他們的下一代學生。

在此次會議前的五月初,我曾在mitbbs的統計版發起了一場挑戰,時間持續了近一個月。最初謾罵詆毀嘲諷充斥版麵,但從中期開始出現了支持的聲音,mitbbs網站也開始以每天兩篇與我有關的文章上首頁頭版予以支持。我發起此次挑戰的目的是為了檢驗我即將在此會會議上要表達的東西與當前係統的差距,結果表明,我沒有完敗。有關的討論至今依然完整地保留在那個版上,人們可以到那裏去查考。

我真的一點也不care我的文章是否被“正規的統計期刊”發表。It is not my fault that my paper was rejected by many statistical journals but the journals themselves. I am not mad either but very peaceful now. I am really proud of myself since I have done it to my best and broken my limits. Nobody could believe that I could challenge the large body of mathematics and statistics with my very poor philosophical thinking. That you are challenging the large body of mathematics and statistics was said in 2007 by the former editor-in-chief of the Annals of Statistics, the highest impact journal in Statistics.

一句話,我們的校友中很多人不了解當今統計學的現狀。它已經被數學家們訓練成了一門數學學科,那些數學背景出來的人們在裏麵玩定義、假設、性質、定理、推論和證明,他們以為客觀世界都是按照他們給定的假設和發現的定理演繹出來的。真是笑話百出。

我做完了自己的事情,也該好好休息一段時間了。祝大家萬事如意,心想事成。

[ 打印 ]
閱讀 ()評論 (1)
評論
chinomango 回複 悄悄話 俺隻是對旭光的第一篇看懂了。希望樓主成功!
登錄後才可評論.