統計學的新地平線——陳立功與他的自權重曲線
A new horizon of Statistics: Ligong Chen and his Self-weight Curves
版上有人對我在統計學裏造新詞滿懷……。是的,我確實造了幾個新詞,諸如
1)隨機常量(random constant, 事實上,我們每個人的生命的每一刻就是一個random constant。這個生命的全部屬性在那一刻具有不變的確定性,但卻具有隨機性。)
2)常量期望(constant expectation, 即一個常量自己,或一個不變量。當我們對一個存在的最大期望等於對它的最小期望時,它就是一個不變量,或常量。它是隨機變量的對立麵。)
3)隨機對應(random correspondence, 嚴格地說,這個詞不是我造的。它早就存在於人們的思維活動中,隻不過我可能是第一個嚐試了從數學的角度給出一個嚴格定義的人,盡管我的定義所采用的數學表述語言和格式並不100%的嚴謹,但我給出的定義的邏輯思路應該是可行的)
4)全域回歸(fullwise regression,這個詞是相對於分段回歸(piecewise regression)而提出的,以便在更加廣闊的背景下思考回歸分析的問題時不至於引起思維的邏輯障礙或混亂。目前,它已經被統計學界的網絡詞匯係統所收錄)
5)三分回歸分析(trichotomic regression analysis,這是一個特定形式的分段回歸分析的策略。在我的文章中的全稱是functionalized general trichotomic regression analysis)
6)(分段或臨界模型的)殘差收斂率(convergence rate of residuals,它是分段或臨界回歸分析中用來構造隨機臨界點的權重的一個隨機測量或隨機變量)
7)加權平均臨界點(weighted mean threshold,即抽樣臨界點的期望估計是一個加權均數)
8)(臨界回歸模型間的)連續性檢驗(continuity test,這顯然是一個比強製連續性更好的統計學概念,因為前者意味著連續性的非確定性因而需要一個概率進行推斷,而後者則意味著連續性的確定性。請問,有哪位能夠對隨機係統的臨界模型間的連續性或離斷性給出一個確定性的假設?Spline模型可能是數學家們在統計學領域犯下的一個嚴重錯誤,或者說是科學史上的一個悲劇。)
9)尺度空間(scale space, 即kolmogorov所定義的樣本空間)
10 (累積)點對點的差異性((cumulative) point-to-point differentiality)
11)(累積)點對點的相似性((cumulative) point-to-point similarity)
12)自權重和自權重曲線(Self-weight and self-weight curve, 嚴格來說,自權重的概念是我盜用他人所創的概念,因為我對這個概念有著自己獨到的見解並提出了一個全新的數學算法。它應該可以被稱為是統計學的新地平線,而自權重曲線就是這道新地平線上最靚麗的風景。)
此外,任何人都可以在讀完了我的文章後構造一個新詞,例如
13)三分迭代法(trichotomic iteration method, TIM)。
當然,還有其它幾個新術語。構造新詞根本不是什麽異想天開,而是創新性思維活動中普遍存在的簡單事情。沒有新的概念的產生就沒有新的思想,也就沒有任何理論突破的可能性。在不久的將來更多的新詞匯還將從我的腦海裏蹦出來。
我對現行統計學理論和實踐的另一個主要批判就是對最優化提出了強烈的否定。這個否定足以引發整個學術界的地震,因為在我看來,最優化是數學家們在隨機係統中犯下的另一個嚴重錯誤或悲劇。這也是為什麽眾多統計期刊拒絕發表我的文章的主要原因。
以上就是一個畢業於國內醫學院/公共衛生學院的統計學master在過去的時間裏在統計學領域所作出的主要的理論和方法學的貢獻。最後,借此機會奉勸那些不能領會和理解我所提出的概念和新思想的人最好離它們遠點。
(照片說明:本照片拍攝於2011年2月28日,地點是USUHS的辦公室。屏幕上方是服從正態分布的隨機模擬樣本(sample size=100000)的自權重曲線,而下方是一個服從左偏態分布sample size=2480)的隨機樣本的自權重曲線。橫坐標是一個連續型隨機變量,縱坐標是自權重,其可測空間是[0, 1],兩個分布的自加權期望都在其曲線的頂點處,表明一個連續性隨機變量的自加權期望是一個無偏估計。由於遠離期望的自權重趨於減小甚至於0,因而自加權期望的估計具有極高的準確性和穩定性。因此,一個隨機測量的自加權期望估計可以被用來取代很多形式的最優化估計,例如最大似然估計,因為後者不過是一個隨機的點估計而已。這句話意味著所有建立在最大似然估計或者更廣義的optimizer上的方法論,都將被改造成以其自權重期望估計來決定其統計模型或統計決策。)
drburnie (專門爆料):算了,今天不罵人了,免得斑竹難辦。
TNEGIETNI (lovewisdom):謝謝你終於管住了你的嘴巴。我也認為,如果一個人在看了這篇文章後在此罵人的話,那他的腦袋一定是在抓狂了。
drburnie (專門爆料):是啊,你都已經這麽loser了,我也就沒必要往你的傷口撒鹽了。
TNEGIETNI (lovewisdom):You are so ridiculous. I have everything that I would like to have; I lose nothing that I did not want to lose; More important, I created everything that I have wanted to create.
dreamdate (dreamdate@WW):行為藝術?
TNEGIETNI (lovewisdom):對於我來說,討論科學概念和學術問題並非行為藝術。你認為呢?
dreamdate (dreamdate@WW):你要的不就是別人對你工作的承認麽,不幸的是在這個版上估計一個知音也遇不到。我看你寫宗教回憶錄還是一把好手,當文學青年可能更適合。好言勸一句,不要再冒充專家了,為什麽一定要和自己過不去。
TNEGIETNI (lovewisdom):I have said taht “最後,借此機會奉勸那些不能領會和理解我所提出的概念和新思想的人最好離它們遠點。”It looks like that you even don't understand what I am saying.
dapangmao (無敵大胖貓): Cong! BTW, which software did you use?
TNEGIETNI (lovewisdom):only SAS.
Actuaries (striving):I don't wanna be mean..., so the only thing I could say is--Master Chen is so handsome. God is fair to everyone. Amen!
swn1989 (無心細語):能說說批評最優化的原因麽,你覺得問題在哪?
drburnie (專門爆料):因為他不懂什麽叫概率收斂。
TNEGIETNI (lovewisdom):The reason is due to the random correspondence in a random measure with sampling. NO one can take the extreme value (min(X) or max(X)) of a random variable X to make a model selection or a statistical decision based on sampling. There is no a magic mathematical theory that can help us to do it either.
Actuaries (striving):Master chen always uses his self_created terminology A to define his self_created theory. When everyone is wondering what is A, Bang! he uses another self_created terminology B to define A. and C, D, E... Then everyone is trapped in an infinite loop... Finally he claims others are too young and too naive to understand his theory. I worship u Master Chen!
drburnie (專門爆料):你為啥不稱之為Master Bation Chen了?
Actuaries (striving):I told master chen's story to my friend. He told me another story about how one of his classmates became MinKe and then it led to a tragedy... So right now i am in very sympathy with all MinKe's. God/Buddas/Muhammad bless them!
TNEGIETNI (lovewisdom):Let me ask you several simple questions:
1) Is a likelihood (denoted by L) or an optimizer constructed with sampling data a random measure or random variable? The answer is Yes or No. Please select your answer here.
2) Is the set of statistics (denoted by S) of the target model that you try to determine with the L a random measure? The answer is Yes or No. Please select your answer here.
3) Is the correspondence between the max(L) and the E(S) the expected or robust or most certain correspondence? The answer is Yes or No. Please select your answer here.
4) Give you two random variables Height (H) and Weight (W) of 100 adult males, can you take the sampling min(H) or max(H) to determine the sampling E(W)? The answer is Yes or No. Please select your answer here.
5) Does the 概率收斂 to the extreme values of a random variable works here to guarantee us an expected correspondence between i.e. the min(H) or max(H) and the E(W)? The answer is Yes or No. Please select your answer here.
Actuaries (striving):Do u really know what is random measure?
TNEGIETNI (lovewisdom):Please answer my questions first: Yes or No for all the questions that I asked. Do you have any mathematical theory to prove that they are NOT random variables?
Actuaries (striving):u don't even ask the question in a right way.
TNEGIETNI (lovewisdom):Ok, please give your right way to ask. I would like to answer. Then let's see how you can self-explain with your magic mathematical knowledge.
However, if you cannot either answer my questions or ask in your "right way", you might not understand what a random measure is, or your magic mathematical knowledge is just a shit.
Actuaries (striving):Funny... How can i know what question u like to ask? as i said before, u like to self create or self modify math terminology... so i guess no one can answer ur questions coz they don't even know what u are talking about.
TNEGIETNI (lovewisdom):I am afraid that I might meet a scholar bustard (the scholar bustard means Xue2 Shu4 Liu2 Mang2 (in Chinese Pinyin,即學術流氓), in case that I made a linguistic misuse), or someone who might not be qualified to discuss with.
Actuaries (striving):Cool. u made another new terminology. cong!
TNEGIETNI (lovewisdom):Don't shame on yourself. You even cannot answer my questions or ask in the "right way" that you believe.
weekendsunny (醉生夢死):jin1 tian1 xian2 de2 dan4 teng2.....(今天閑得蛋疼)
1) Is a likelihood (denoted by L) or an optimizer constructed with sampling data a random measure or random variable?
~~~~~~RANDOM VARIABLE with fixed measure (ok..I create one new term now..)…random variable is a function from sample space Omega to real value space R. Measure must be well defined on the Omega. You understand? There is nothing called random measure.before you move to the stochastic process.
2) Is the set of statistics (denoted by S) of the target model that you try to determine with the L a random measure?
~~~~~~Set of statistics vs. random variable? What are you talking about? Is an apple a delicious orange?? Given the observation, you have a L for each model (sample points in your mind) in your target model family (sample space in your mind)..This family is a ill-defined space, without any measure…
~~~~~~Don’t talk about the measure of S, before you have a kind of “measure” of your model family..Then another logic question is: can you regard the model family as a sample space and then define the measure??
3) Is the correspondence between the max(L) and the E(S) the expected or robust or most certain correspondence?
~~~~~~If you really want to do this..it is already in Bayesian’s field..But it still doesn’t directly give a measure of the “model sample space”. …
4) Give you two random variables Height (H) and Weight (W) of 100 adult males, can you take the sampling min(H) or max(H) to determine the sampling E(W)?
~~~~~~It is possible. So what?? Be careful to say “determine” as soon as you are talking in statistics. Which kind of “determine”.
TNEGIETNI (lovewisdom):Let's have a concrete sample dataset as follow (Suppose all information in it is true for each one)
ID | X | Y | Z | W |
1 | TNEGIETNI | Male | 1.64 | |
2 | PharmD | Female | 1.78 | |
3 | goldmember | Male | 1.64 | |
. | . | . | . | . |
. | . | . | . | . |
. | . | . | . | . |
N | Actuaries | Female | 1.87 |
All the elements in the dataset are including ID, X, Y, Z, W, 1, 2, ..., n, TNEGIETNI, Male, Hubei, 1.64, PharmD, Female, Henan, 1.78,..., Actuaries, Female, Beijing, 1.87.
For the all elements above, please tell me what a random variable is, and what is not? What is the max(W) and the min(W)?
BTW, the dataset is the sample space for me, because it is a sample and it is a space, and the space is constructed with all the sample information, thus the space is a sample space rather than anything else; and anything else other than that cannot be called "sample space".
TNEGIETNI (lovewisdom)答weekendsunny (醉生夢死):
RANDOM VARIABLE with fixed measure (ok..I create one new term now..). Random variable is a function from sample space Omega to real value space R. Measure must be well defined on the Omega. You understand? There is nothing called random measure.before you move to the stochastic process.
~~~~~~~What is R here? Is it the set of real number? You have moved to a stochastic process when you take the sample data to calculate the L.
Set of statistics vs. random variable? What are you talking about? Is an apple a delicious orange?? Given the observation, you have a L for each model (sample points in your mind) in your target model family (sample space in your mind)..This family is a ill-defined space, without any measure…
~~~~~~~The set of statistics of the target model is also variable along with the L.
Don’t talk about the measure of S, before you have a kind of “measure” of your model family. Then another logic question is: Can you regard the model family as a sample space and then define the measure?? If you really want to do this, it is already in Bayesian’s field. But it still doesn’t directly give a measure of the “model sample space”. …
~~~~~~~Do you believe what you are saying?
It is possible..so what?? Be careful to say “determine” as soon as you are talking in statistics. Which kind of “determine”.
~~~~~~~How do you know the possiblility or probability? Do you believe it?
Actuaries (striving):Man, do u really know what is stochastic process? How come calculating ML becomes stochastic process?
TNEGIETNI (lovewisdom):Please answer my questions at the 20th Lou that I asked you, then come to post your comment here; otherwise say nothing further.
Actuaries (striving):Can u answer the following question? *&@%%^^(Dfh73&E*D&*?
TNEGIETNI (lovewisdom):This is none of my business but yours.
baicaibangzi (白菜幫子):陳大師是不是念個統計phd啊,年齡不是問題,for your revolutionarily theory's sake, 增加點creditability是不。master在學術界就是個屁。。。
TNEGIETNI (lovewisdom):我從您的這段評論裏能夠感受到的是:我所做出的工作對於您這位統計學PhD是一個羞辱。
遺憾的是,我在這個領域做什麽或說什麽僅出於自己的能力和內心的判斷而無關乎他人的感受。如果您非要將我拉到與您平起平坐才願意表示出自己起碼的尊重,那是您的單方麵願望,與我無關。對不起。
我就不明白,人們為什麽總是願意帶著偏見看世界,而有些人即使明知是偏見,卻頑固不化地堅持偏見。我希望人們看看我究竟做了什麽和說過什麽,而不是僅僅盯著我的國內醫學院/公共衛生學院的MPH學位。
請允許我借此機會講個自己的小故事。1988年暑假期間我到四川參加倫理學講習班,結束後與西南交大的三位學生(兩位美女和另外一名男生)一同前往九寨溝遊玩。第一天晚上到了九寨溝的溝口附近住下後,第二天一大早開始沿溝底向上遊玩。溝底已經有一條常人走的道路,還有一條通車的公路。我就對他們三個說,不如讓我們沿著水邊走吧。他們對這個建議一致讚同。沿著水邊走確實非常難走,但看到的風景卻是極其美麗無比。這就是我的個性。我不是一個循規蹈矩的人,且愛異想天開,並因此而實現了自己的夢想。
goldmember (蔬菜<<<菜鳥):理解別人的概念體係很困難。這麽著吧。陳大師,你舉出一個例子來看看你的方法和經典方法怎麽個不同。比如就y=x^2+noise好了。怎麽個自權重,怎麽個三分法,把結果顯示一下,比傳統方法高明在哪裏。不要搞什麽哲學區別。哲學上誰也不比誰強。我相信那句“all models are wrong.”咱就看結果。
Actuaries (striving):Long time ago i suggested Master Chen participate some data mining contests to prove his theory as well as to win some money. He replied that he didn't like money at all.
TNEGIETNI (lovewisdom):從goldmember留給我的所有評論中我感覺到他/她是個有著獨特個性和心智的人,且這種個性和心智中有一部分我是很欣賞的(因為那是我所缺乏的),而有一部分是我很不欣賞的(誠實地說,我曾遇見過有著這部分個性和心智的人)。
每個人的哲學係統(更狹義地說,認識世界的方式方法)之間存在著很大的差別。比如,我是個極度包容的人,而這裏的很多人卻恰恰相反。
你從我所提供的照片上就可以直覺地領會到連續型隨機變量的自權重在未來統計學中的地位有多麽的重要,這是任何一個擁有統計學常識的人都會作出的簡單判斷。
至於說到三分回歸分析法,一個簡單的實例就可以讓你接受它的基本分析邏輯:學生學習成績及其影響因素的線性模型分析。全域模型給定的回歸關係在全樣本空間上是一個“常量”,意味著每個影響因子對於從最低分到最高分的人來說都是一致的。這顯然是最粗糙的結果。如果一個人想知道高、中、低三個分數段的人的影響因素是否一致,他/她就要對全樣本空間進行分解或分割。這就是三分法的一個現實的需要,它出於認知的需要,而非任何數學的定理或法則。
你可能會問,為什麽恰恰是三分法,而不是兩分法或四分、五分、六分直至n分法(這裏n是sample size)?那就要看你的智慧、需要和能力了。從數學的角度,上述分法都可以實現,但並非都有意義,例如n分法,就完全走向了統計學的對立麵。
我說了這麽多,如果按照你的觀點“哲學上誰也不比誰強。”那麽,就請諸位按照自己的哲學去繼續思考好了。
tamuer (hoho):你所說的問題在統計上是有這麽個領域來解決這個問題的,叫做quantile regression。
minquan2 (三民主義 五權憲法):樓主,你先學會笑,然後再平心靜氣的研究一下學問。我感覺你現在走火入魔了,你這樣對你女兒的健康很不利。
樓主,我感覺你似乎根本不知道Bayesian Statistics。你所認為的Sample Fixed but Parameter Random在Bayesian Statistics裏麵早提到過。大學時我思考置信區間的時候考慮過這個問題當時就要寫論文,衝到書店裏查了一下Bayesian Statistics的書,然後就放棄了。不過你敢於質疑傳統觀念這點很不容易,要知道這裏有些人可能一輩子都說不明白Confidence Interval的假設前提,隻會鸚鵡學舌說那不是parameter落在那個區間的概率。
兩個分布的自加權期望都在其曲線的頂點處,表明一個連續性隨機變量的自加權期望是一個無偏估計。陳大師請仔細複習本科和研究生的統計概論。
TNEGIETNI (lovewisdom):我想知道的是,在你說這話前,你對我所做的了解多少?還是不屑一顧就來此胡言亂語一通?你自命三民主義五權憲法,卻對他人自由發表言論作出了嚴重的人身攻擊。
我從來沒有說過Sample是Fixed。我隻說過樣本中的所有隨機點以及樣本統計量都是隨機常量,亦即,整個樣本是總體的一個隨機代表以及對總體參數的一個隨機估計而已。
既然樣本是一個隨機代表,因此,樣本中的最大最小測量結果不能被用來做最優化決策,因為在抽樣基礎上對應於最大最小測量的那個統計模型或決策中的全部統計量構成的集合僅僅是一個隨機的點集合而已。我們需要的是一個對應於諸如likelihood或一般“optimizer”的期望的統計量集合所決定的統計模型或決策。隻有這個對應才是隨機係統中比較穩定的對應關係,因而是可以被“期望”的。
所謂統計量的可信區間,是由於抽樣導致的對樣本統計量所要推斷的總體參數的一個估算模型。它僅僅是依據樣本數據而構造的一個隨機測量的方法。任何人都可以另外構造一個不同的方法從而帶給我們一個不同的估計。不過,既然統計學的前輩提出了一個合理的分析邏輯和算法,大家就不妨接受它並因此而建立一個能帶給我們一致性測量結果的工具。
顯然,如果能夠得到總體的全部個體,我們就不需要可信區間了。遺憾的是,這是不可能的。
在此,我想說的是我對Bayesian Statistics不感興趣。它與我的哲學係統相衝突。
關於自加權期望,我可能沒有說明白而引起了你的誤會。我所說的自加權期望,不是自加權自己的期望,而是說的對隨機變量X采用其自加權來估計其分布的期望。這是在一個二維空間裏估計X的分布期望,因為它的自加權具有可測性和變異性。
所謂的算術均數是在一維空間上對X的分布期望做出的簡單估計。它的理論基礎是樣本中的每個點對分布期望的貢獻相同(以1來表示這種貢獻是最簡單的了)。
我也複習過了當前的統計學,那裏麵沒有我所提出的自加權的概念。
qiqicrq (正藍少爺):忍不住想說一下。你問人家在說話之前,了解你多少。可是你在討論學術問題之前,卻對統計了解多少呢?你連統計的最基本的理論都沒弄明白,就到處說自己劃時代了,新的地平線了,不妥。而大家在跟你討論之前,至少是看你所謂的理論的,大家看完的感官是,你連統計和概率基本的東西都沒弄清楚呢。也有人在閑暇對你的問題回複,但是感覺你壓根不明白人家說了啥,而後就用自己定義的一些東西去做反擊。
不要老把自己置於一個弱勢的地位,搞得大家因為你在國內讀的master,學的不是統計而不認同你,更不要以為是統計學術界害怕你的理論,才不接受你的觀點你的論文。在美國,大家的背景五花八門,是什麽背景都不稀奇。大家不認同,隻是覺得你連統計基本概念和理論都沒了解清楚,就把自己塑造成一個鬱鬱不得誌的劃時代的統計學家不太能接受。
大師會怎麽回貼,我大概有數。不奉陪了!
TNEGIETNI (lovewisdom):這個評論是一定要回的,因為它涉及到我捍衛自己的知識係統的問題,也因此而涉及到我是否在此擁有話語權的根本問題,因此,我的回答必須是有力的。
既然這位“少爺”級的他把自己裝扮成了耶穌似的天上來的裁判者,我就以一個事實來替我辯護:1994年我考同濟醫科大學公共衛生學院的衛生統計專業碩士研究生,考前去拜訪了從美國NIH/NCI的生物統計中心進修回國,並在國內享有很高聲譽的衛生統計學教授餘鬆林老師。餘教授告訴我說,衛生統計的專業考試內容中,教材部分占考試分數的80%,另有20%屬於教材外內容。考試的結果是,80分的教材內部分我的得分是78分,教材外的20分我一分未得。在當年報考該專業的所有考生中,我的這個分數是最高分,而我的總分也是最高分。我想,這個事實應該足以回答這位在公開場合自稱爺的人了。
當然,這樣說還不夠。我在餘教授那裏學習和做研究共三年,1997年畢業,並順利拿到了衛生統計學的碩士學位。我的碩士研究課題是世界銀行/世界衛生組織資助的中國湖區血吸蟲病防治的經濟學比較研究,這需要使用統計學的基本方法。該研究每年要向世界銀行/世界衛生組織匯報進度和年度研究報告。這些年度報告基本都是我用當時很蹩腳的英文親自撰寫的。我在階段研究的論文中就用樣本數據構造了一個非常有意義的統計測量,結果,課題組的同事評價說“陳立功真的很聰明。”
再後來就是進入了分段回歸分析的方法學探索階段,因為在那個疾病控製的專題研究中我發現,當年度投入成本(即防治策略)保持不變,疾病感染率下降的單位成本將呈急速上升的趨勢。這是很不合理的。如果我們能夠找到一個或兩個臨界點來修正防治策略,就可以控製成本,同時也不會顯著地改變防治的效果。
我對現行的分段回歸的方法論進行了一個簡單的回顧,發現存在著重大的理論問題——最優化的錯誤,並在第一次接觸到樣條模型那優美無比的曲線時就產生了先天的抵觸,認為那根本就不是統計學的思維模式導致的方法論,而是在數學的確定性假設下的數學演示。這才開始了自己的探索,並最終提出了自己的基於加權隨機測量和連續性檢驗上的三分回歸分析法。我提出這個方法後美國統計學界某位擁有數學專業背景和統計學PhD學位的教授竟然問我,你的這個加權法是怎麽來的?你為什麽要用加權法來估計臨界點的期望和可信區間?另一位在美國最著名的大學裏的著名的華人統計學教授也對我的加權估計未知臨界點的期望表現出不屑一顧。我被這兩個事實震驚得愕然無語。我由此強烈地質疑他們的統計學知識和能力。
我的其它應用統計學的論文在國內發表過不下16篇。如果我不懂統計學的概念,這是說不過去的。除非統計學的概念係統從2002年後(那一年我來到了美國,並再也不曾在刊物上發表過文章)發生了重大修正,而我對此完全無知。
我想我要說的已經足夠了。但願這位統計學少爺能夠堅守自己的諾言,絕不與我奉陪到底,因為我絕不再回答他的任何評論:它們不值得我繼續回擊。
drburnie (專門爆料):你女兒還把你當爹?還是已經離家出走了?
TNEGIETNI (lovewisdom):我想知道,如果你也有了孩子,你是如何教他們做人的。我可以從你的言論中望見你心中的黑暗。
drburnie (專門爆料):唉,你終有一天將被你自己的女兒唾棄。
TNEGIETNI (lovewisdom):但願某種光明能夠照亮你和我的心靈,使得我們能夠永遠保持健康的心理。
wuhuya (wuhuya):能不能冒昧地問一句,這裏回帖的人有幾個是學醫學的?隨便問問而已,別介意。陳先生,恕我冒昧的說一句話:沒有水,沒有月亮。
TNEGIETNI (lovewisdom):你這個評論太風花雪月,文學詩情了。不懂。
wuhuya (wuhuya):您應該去讀一讀奧修的這本書,這不是風花雪月,這是書名。
TNEGIETNI (lovewisdom):我在29歲後對文學作品慢慢失去了興趣,因為我的統計學職業要求我以嚴肅的事實說話,不得容忍任何的誇張、虛構、捏造等信息。
可讀的書千千萬萬。我現在讀書極其挑剔,不是非讀不可的書決不浪費時間。既然你如此推崇這本書,且已經知道了它的大概意思,可否請你在此多敲幾下鍵盤把內容簡介一下?多謝了。
wuhuya (wuhuya):去讀一讀吧,真心地為你好。
TNEGIETNI (lovewisdom):謝謝。其實我很好。我絕對不會care我的方法論是否被認可。我隻表達出自己的思想。人們是否認可和接受,那是他們自己的事,與我無關。
我早已說過自己不懂數學,更不懂概率論。但我在統計學裏所做的工作其實與概率論並無直接的關係。我的算法並不完全需要概率論的支持,例如三分迭代法,它僅僅是如何使用樣本數據進行迭代搜索的一種數據安排法。再如,我說我們可以在原始樣本的可測空間裏構造一個關於臨界點及其對臨界關係的可能改變做出貢獻的權重的可測空間,從而可以用加權平均來估計未知臨界點的期望。這一切都是數據分析的邏輯,它們根本不需要概率論。
我的方法論中需要概率論支持的是臨界模型的差異性檢驗,這由一個簡單的服從Chi-square分布的檢驗統計量就可以實現;另一個就是連續性檢驗,我提出了幾個選擇以應對不同情形下的檢驗。
我真搞不懂,我竭力引入概率論到分段回歸分析中,而那些不要概率論支持其連續性判斷而是以武斷的強製連續性假設為基礎的Spline法卻在統計學裏大行其道。這究竟是誰的錯?
goldmember (蔬菜<<<菜鳥):問題在於價值。我不懂計算機。我竭力想引入宇宙無敵萬億並行大編程法到這個領域,可是他們都無知地不理我。
TNEGIETNI (lovewisdom):三分回歸分析法的應用價值是顯而易見的。主要的意義在於使得我們可以在不同的臨界空間裏尋找可變的、有意義的自變量集(或因變量的影響因子),從而為預測和控製提供更加可靠的依據。
從那個學生成績的影響因素模型的分段回歸分析來看,在高、中、低三個分數段的影響因素很有可能是不一致的。反之,如果不作分段分析,則根本不可能知道影響因素在不同臨界空間的可變性。
在多維空間裏討論臨界模型間的連續性將是一個極其複雜的問題。從統計學的隨機變異性思維來看,任何強製連續性假設都是沒有根據的。這種假設說得輕一點是不恰當的;說得重一點簡直就是在胡說八道。
我的方法可以按照現有的分析邏輯被改造為以最優化模型選擇和強製連續性假設為基礎的方法。是的,我不懂概率論,不懂概率收斂,更不懂根據連續性假設如何解高階函數求連續性的臨界點、拓撲變換、penalty的設定或任何數學家們可以使用的術語所代表的他們能理解和使用的理論和方法,因此,任何懂得上述數學理論的人想要這麽做我都不會反對,且改造後的方法不要與我搭任何邊。對於我自己來說,我寧可繼續在數學特別是概率論上無知也絕對不會為了一個發表機會而改變它。
Actuaries (striving):(你搞不懂)是接生婆的錯。她當初手一滑,你後腦勺著地,於是就變成現在這樣子了。
TNEGIETNI (lovewisdom)答Actuaries (striving):我以前回你的評論,抱著認真的態度和你討論,是因為我尊重你說話的權利。自從在本主題的前麵奉勸你say nothing further if you refuse to answer my questions後,你應該有點自知之明了。我相信你這位清華畢業的高才生有這個自我判斷能力。如果依然沒有,就當我再奉勸你一次,且事不過三。
Actuaries (striving):你問的壓根就不是一個統計或者科學問題,還要大家回答,太強人所難了吧。我認真回你一句,任何一本nonparametric/semiparametric model的統計教科書都說了為啥要假設連續,不過你得先學學啥叫degree of freedom啥叫overfitting. 對於你基礎這麽差的,還喜歡自以為是地亂用一堆random measure,measurable space,functional等名詞,我看比較難。
TNEGIETNI (lovewisdom):Please don't talk to me with an assumed certainty in an uncertainty domain. You are crazy.
Actuaries (striving):你以為曆史上沒人做過discontinuous splines啊。就送你兩字:看書。
TNEGIETNI (lovewisdom):Do you really understand "Please don't talk to me with an assumed certainty in an uncertainty domain"? Do you really know what you are saying? Do you really think that a "discontinuous splines" is discontinuous?
DaShagen (Unbearable lightness):讓我翻譯一下,請不要與我在我不知道的領域用假設我知道的語氣與我談話。
TNEGIETNI (lovewisdom):Please don't talk to me with an assumed certainty in an uncertainty domain. 這句英文的中文翻譯是“請不要在非確定性範疇裏跟我討論一個假定的確定性。”
Actuaries (striving):別杞人憂天了,你所謂的spline需不需要continuous的問題幾十年前就有人討論過了。不看書還整天像中了彩票一樣。
TNEGIETNI (lovewisdom):I know why they must assume the continuity because they cannot estimate the unknown threshold if they don't take the assumption in mathematics!!! As long as they have this assumed certainty, they can estimate the threshold with a mathematical skill (通過解方程組而得解).
這個非常數學化的分析邏輯看起來非常的正確,但是問題就在那個中文翻譯裏。這樣做等同於用了一個根本不存在的確定性取代了一個確定地存在著的非確定性!這是完全違反統計學基本邏輯的確定性數學思維。
Actuaries (striving):別瞎扯淡了,你先得理解model's degree of freedom/complexity與generalized performance的關係。你還是好好看書再來扯吧,當然你的水平也看不明白。
TNEGIETNI (lovewisdom):如果這樣的書籍存在,這樣的理論被人闡述,我認為那一定是在胡說八道。他們或許可以使用一大堆數學假設、符號、定理、推理、推論、公式來進行邏輯闡述,但所有這些闡述的基本前提根本不存在。
drburnie (專門爆料):陳大師倒現在都不知道,他所謂的什麽三分法,其實就是在fit噪音。
陳大師如果能花時間找個實際的data,比如Boston Housing和MARS或者GAM,比比cross validation error,他自己就應該能明白了。可惜啊,他連什麽是cross validation都不知道,更別提generalized error了。
TNEGIETNI (lovewisdom):如果你用了一個服從正態分布的全樣本數據計算出了一個算術均數,你就會知道應該沒有比這個期望更好的了;如果你用我的算法分析了一個樣本,你就會知道所謂的cross validation是否還有必要?
在現行的分析邏輯和算法下,cross validation是迫不得已的手段,因為你們估計出來的是一個極不可靠、極不穩定的隨機點模型。
Actuaries (striving):哦,我明白了,陳大師的三分法隻能用在全樣本啊,那當然不要CV了。要是全樣本的話為啥不用N分法,100% fit data啊。
TNEGIETNI (lovewisdom):第38樓恰當地回答了你的這個評論。(引第38樓中的部分內容“你可能會問,為什麽恰恰是三分法,而不是兩分法或四分、五分、六分直至n分法(這裏n是sample size)?那就要看你的智慧、需要和能力了。從數學的角度,上述分法都可以實現,但並非都有意義,例如n分法,就完全走向了統計學的對立麵。”)
Actuaries (striving):隻要知道你的model是用在全樣本就足夠了。哈哈,怪不得不用CV呢,也怪不得你找不到真實的數據來驗證你的model。
drburnie (專門爆料):既然你說已有的方法不好,那你來Show一下你的方法在Boston Housing Data的性能啊?這個是最簡單的data了,你來做做看啊,哈哈。
TNEGIETNI (lovewisdom):經過前麵的論戰,想必各位已經感到自己失去了招架之力。這個要求是你們最後的防守陣地。
我已經在一個醫學樣本上應用過自己的算法了。其結果無論是對於算法的創建人還是對於醫生來說都是振奮人心的。所以,你們這個最後的陣地還是由你們自己來摧毀比較有意義。請大家用我的方法處理你們手中擁有的任何一個合適的樣本。這要不了你們多長時間,因為它已經耗費了我13年的生命,但對於你們來說,可能僅僅需要3天就足夠了:第一天讀文章、第二天編程序處理數據,第三天分析結果並反思方法論。
drburnie (專門爆料):把你的實驗步驟說一下吧。你是怎麽得到“振奮人心”的結果的。
Actuaries (striving):陳大師既不懂啥是cross validation,甚至也不懂啥是validation,我猜他就隻有一個training sample,拚命overfit,然後宣稱自己的model更好。
TNEGIETNI (lovewisdom):我的三分法中的兩個臨界點是用全樣本數據及其對臨界關係的可變貢獻(權重)來估計的一個加權平均數。這就是說,每個臨界點的估計值都是一個100%地充分的且由權重校正後的無偏統計量,正如我們計算任何樣本的加權均數或算術均數一樣。有哪位對樣本均數做cross validation的?說出來讓我們開開眼界?
任何來自實際樣本的一個training sample都不可能給我們一個比由全部實際樣本計算出來的統計量更充分的統計量。在這種情形下,CV就沒有了任何意義。難道我們能用以一係列不充分的統計量作為標準去驗證一個充分統計量?難道我們能夠用一組殘疾人作為標準去驗證一個無殘疾的人?
Actuaries (striving):真是夏蟲不可語冰... 果然和我說的一樣嘛,就是拚命overfit一個training sample,不做任何validation和cross validation。
陳大師你不妨加入狂多的high order terms and interaction terms, 相信我,這方法一定會比你的所謂三分回歸fit的更好。你試試就知道了,哈哈。你大可以再宣稱發現了新的統計學地平線,千萬別告訴別人這方法是我告訴你的。
TNEGIETNI (lovewisdom):很顯然,你沒有看懂我的方法。我的方法中用來構造隨機臨界變量的模型擬合方法都是現行的已經考慮了如何克服overfitting的算法以及其它一切成熟的算法。我僅僅隻是把它們組合在一起完成一次“statistical survey”以便對每個隨機樣本點成為臨界點的“重要性”——即權重進行測量,然後再用此權重在臨界點的可測空間裏計算臨界點的加權期望。在得到臨界點的加權期望估計後,再由該期望估計決定樣本的臨界空間,然後在各臨界空間裏建回歸模型。這是因為期望的臨界模型隻能對應於期望的臨界點而不可能對應於任何其它。
事情就是這麽簡單。這就是我為什麽拒絕使用最優化和強製連續性假設的根本原因。
Actuaries (striving):連validation都不做的居然奢談克服overfitting... 老陳,你還是趕緊向接生婆索賠吧,學桑蘭。
TNEGIETNI (lovewisdom):你說這話表明你根本沒讀懂我的文章,或根本沒讀過。我的方法其實非常的簡單,簡單到如同你用一把尺給一個一定樣本量的人群中的每個人量身高,然後計算其身高的平均值。再用這個平均值去分割樣本空間,然後在各臨界空間裏建臨界模型、檢驗各臨界模型間的差異是否有顯著性、測量兩個相鄰模型間的連接變異的大小、最後檢驗其連續性(或離斷性)。
在這裏,一個成熟的回歸分析的算法在其中所起的作用恰如簡單的四則運算在回歸分析中所起的作用,從而,回歸分析在搜索臨界點時僅僅是一個測量權重的工具而已。顯然,測量人群的身高時是沒有必要做所謂的cross validation的,同樣,測量權重時也是不需要做CV的。事情就這麽簡單。
Actuaries (striving):我還是不是很懂。不過我猜我至少懂得你的measurable是啥意思了,就是用尺去量啊。再說,你壓根不懂CV的目的何在。我真是閑的蛋疼...
TNEGIETNI (lovewisdom):很好。我不知道為何以及如何做你所說的CV。如果你知道,為什麽不將它引入到三分回歸分析中以補缺呢?我倒是要等著瞧瞧,看你往哪裏插入它。
將樣本空間分割為高、中、低三個臨界空間再建臨界模型以探索整個空間上的關係的變異性,這樣的三分回歸有什麽錯?錯在哪?更何況整個三分回歸分析也包含了一個非臨界的全域模型在內。臨界的與非臨界的模型因而可以相互比較和關聯。這就是哲學裏的辯證法(整體與局部間的關係及其變化)。
一個人如果不懂辯證法的基本邏輯,確實是很難弄懂我的文章的基本邏輯的。Sorry, 如果你恰好是這樣的一個人,就不要怪我了。
Actuaries (striving):CV關model fitting啥事?CV是用來評價一個model是不是overfit的,是用來估計generalized error的,是用來指導model selection的,說了你也不懂吧。
TNEGIETNI (lovewisdom):如果果真如此,那麽,就讓我告訴你,我的方法論中沒有CV的地位。這是因為期望的臨界模型集合 唯一地對應於 期望的臨界點集合。
如果每個臨界點是由全部樣本中的每一個點及其對臨界關係的可變性的相對貢獻來估計的,那麽,就不存在另外一個比它更好的估計!!因為一個分布中有且隻有唯一的期望存在!
CV的出現恰恰是由於當前的方法論沒有使用期望對應,而是采用了最優化這一隻能帶給我們一個非期望的隨機點模型估計的緣故。如果臨界點和臨界模型都已經是期望的估計,還要CV幹嗎?
drburnie (專門爆料):大師,先給你一組observation,我們暫且稱之為A,你用A來訓來模型。然後再給你一組observation,我們暫且稱之為B,B不同於A,但B和A來自同一個分布,我們想知道你在A上訓練的模型在B上的預測性能如何。這個就叫做Validation。
我們現在想讓你重複上麵的步驟。你在validation中得到的mean square error或者是median square error可以用來衡量你model的實際性能,你的明白?
TNEGIETNI (lovewisdom):實話實說,我不是不懂CV的基本邏輯。這也就是為什麽我敢於堅持CV對於我的方法論沒有意義的緣故。
現在讓我回答你的問題。如果A和B來自同一總體(或服從同一分布),如果臨界點和臨界模型在A中都是真正的期望估計,那麽,在B中將得到驗證!這是不用懷疑的,恰如用B去validate由A做出的平均估計一樣。
drburnie (專門爆料):其實你完全不懂validation的意義。嗬嗬。都是估計也是有很大不同的,你應該沒聽說過有一種東西叫做bias-variance trade off。estimator的性能取決於估計的bias和估計的variance。
你以為估計是unbiased和low biased就是好的?用成百山千階的多項式幾乎可以完美fit訓練數據,bias極小,但variance極大,這種model的腦殘程度跟大師和大師的model真的有一拚啊。
嗬嗬。順便多告訴你點知識,對於一個3維以上高斯分布,如果在意L2 risk下的性能的話,最好的mean的estimator並不是unbiased的sample mean。不過這個結論對於你可能太高端了,感興趣的話就自己去看看吧。
http://en.wikipedia.org/wiki/James%E2%80%93Stein_estimator
TNEGIETNI (lovewisdom):我不懷疑人們在探索數據分析的過程中會有新的發現。人們可以發現很多很多現象。比如我在定義了點對點的差異性和相似性後,我可以在此基礎上為樣本中的每一個隨機點定義成百上千個不同的自權重,但隻有一個自權重是無偏的,即隨機變量X在該自權重基礎上的自加權期望與其自權重曲線的頂點之間的吻合程度在任意分布形態下最高。這表明除此之外的其它成百上千個自權重沒有意義,因為它們都擁有較大的偏差。
這是什麽原因呢?你要是想弄清楚這個問題,你需要學習使用辯證法,它會給你一個嚴謹的解釋。如果你不懂辯證法,你就會以為隻要是自己發現的客觀存在著的東西,就一定是真理。遺憾的是,這是一個謬論。
舉個最簡單的例子。一輛車子在路上行駛,司機開車的速度是80miles/h。在圍繞該車360度範圍內以目視觀察它的速度,每一個角度上得到的速度都是不一樣的,但對於觀察者來說都是真實的,而車子的速度卻不會因為觀察角度的不同而改變,它的速度就是80miles/h。
我想說的是,我從來不說人雲亦雲的話,不做人行亦行的事,除非我經過了認真的思考後發現它沒有任何我所能理解的問題。對於我來說,任何統計方法都是值得懷疑的,即使是算數平均數的計算方法。這就是我為什麽可以提出連續型隨機變量的自權重的定義的前提,因為我認為可能有一種方法可以幫助我們測量每個隨機點對分布的期望的貢獻存在變異性。而算術均數的哲學基礎是,每個隨機點的這種貢獻都相同。
關於我所提出的三分回歸分析法,這個方法將同時帶給我們較小的bias和較小的variance。
最後,你不能說我完全不懂validation的意義。這話太武斷了。Validation的分析邏輯很簡單,數學計算上也沒有什麽不可理解的東西。我想,以我的理解能力,沒有什麽統計方法的邏輯是不可理解的,即使是一個錯誤的分析邏輯,我也能夠理解。
Actuaries (striving):邏輯太牛了,我不懂XX,所以XX對我來說沒用。你做做validation就知道了,尤其當sample size of A < sample size of B的時候,你會發現你的model會死得很慘的。
TNEGIETNI (lovewisdom):非常感謝各位從不同的角度以不同的方式為我提供的指導和幫助。我會潛心思考這些問題。
讓我在此提出一個簡單的疑惑:對於某個被定義的總體,可以對其任一隨機training樣本做CV的validation樣本(相同抽樣條件下的、不同抽樣條件下的)具有無窮性,大家怎麽從邏輯上解釋究竟要做多少次validations才能被認為是有效的?
Actuaries (striving):自己可以看CV到底是啥東西
http://en.wikipedia.org/wiki/Cross-validation_%28statistics%29
DaShagen (Unbearable lightness):老陳是徹底瘋了。記得老陳以前沒那麽瘋。我猜都是你們這些人逼的,非得跟大師較真。大師不能下台,就知道能往上,升做神了。
TNEGIETNI (lovewisdom):毫無疑問,這個世界上常常有人會瘋,但我不會。如果有人能夠論證說我的東西全部錯了,我會放棄,而不會繼續堅持,因為我確知自己的知識非常有限,且極其貧乏。
遺憾的是,迄今尚無人能夠論證我所做出的全部東西是錯的。我不會care人們如何看待我的東西,我隻在乎我能否以及是否說了出來。人們接不接受,認不認可真的與我無關。
ningyan (ningyan):我很奇怪有人看大師的帖子內容嗎?怎麽這麽多人回複。
drburnie (專門爆料):你不得不承認,陳大師的東西寫得太晦澀,太多他自己創造的詞匯和亂用的詞匯,但是我們最後還是堅持看下來,終於看懂了!!有木有!!有木有!!
DaShagen (Unbearable lightness):因為大周末大家都很閑。
TNEGIETNI (lovewisdom)答ningyan (ningyan):既然你已經產生了如此的想法,你要麽不要發言,要麽去看我寫的東西並試圖弄懂它們
goldmember (蔬菜<<<菜鳥)答TNEGIETNI (lovewisdom):麻煩把文章鏈接貼出來好不好?至少審稿發表的文章比陳大師雲山霧罩的描述好懂一些。
drburnie (專門爆料):哈哈,他沒有在peer-review的任何雜誌和期刊上發表過論文。
Actuaries (striving):沒有peer reviewed 的JSM proceeding倒是有,不過光abstract就已經嚇死我了
http://www.amstat.org/meetings/jsm/2011/onlineprogram/AbstractD
http://www.amstat.org/meetings/jsm/2011/onlineprogram/AbstractD
看看老陳造了幾個新詞 Continuous Variattribute, convex-concave self-weight curve, Linkage coefficient, Random correspondence...再包括他亂用的術語,我覺得這世界上應該不存在能讀懂他文章的人。
littlebirds (dreamer):Chen L igong and Chen Yongmei? Is that his daughter?
TNEGIETNI (lovewisdom):由於我的知識係統非常有限,我不能保證我所說的將是100%的正確,但如此多的新概念的產生可能預示著某種有意義的突破的開始。
毫無疑問,我對連續型隨機變量的自權重的成功定義將是統計學裏最大的科學發現之一。
jackinsky (abcde):You know what? Many people are struggling with courses, degrees, jobs, money, house, career, and disease, and happiness is so hard to gain. You are doing great. You are pursuing your dream and you are happy. Many people at your age or even younger don't have dream at all, but you have a dream, no matter what it is. Keep going, and don't quit.
TNEGIETNI (lovewisdom):這個世界上隻有一種生物才有能力擁有夢想,那就是人類。如果人類本身沒有了夢想,它的命運將不堪設想;如果一個人沒有了夢想,他/她的人生就失去了任何的希望。因此,隻要有夢想,就會有希望;而隻要有希望,就有可能創造奇跡。
——與所有人共勉。
dingxu (保密)答jackinsky (abcde):兄弟,害人不是這麽害的。
TNEGIETNI (lovewisdom):我的夢想已經實現,我的使命也已基本完成了。我可以自豪地走了,因為我已數次超越了自己的極限。
Actuaries (striving):這聽起來怎麽像遺言?大師你別開玩笑,我們可不敢做燒死布魯諾的那群人。
jackinsky (abcde)答dingxu (保密):I am telling the true feeling and I am talking about HAPPINESS. How many people really have happiness? A student needs to work hard and can not sleep well under the pressure of graduation; after graduation he is struggling with finding a job, and after getting a job he will struggle with work and relationship; then after marriage he has to deal with family problem, child problem, house problem, etc. Finally all these are solved, you have to deal with your own disease, or health problem.
drburnie (專門爆料):其實換個說話就是,腦殘也有腦殘的幸福,哈哈。而陳大師是腦殘中的腦殘。
TNEGIETNI (lovewisdom)答drburnie (專門爆料):嗬嗬,瞧你那付德行總算表露出來了。該不是腦袋裏頭在抓狂吧?麵對一個國內醫學院畢業的統計學master所作出的成績,你作為一個自命尊貴的統計學PhD也隻能以如此低劣的品行說話了。還能對你期望什麽呢?期望你接受一個master創立的方法?對一個master表示尊敬?我料定你寧可喝自己撒出的尿也不會這樣做。
drburnie (專門爆料):學位這東西從來都不說明啥大問題,關鍵是你的態度和見識實在是太腦殘了。
TNEGIETNI (lovewisdom):你隻會用尖酸的心理為自己找平衡。如果你恰恰是接受了並采用過最優化和/或強製連續和/或bootstrap等的人,就會拚命貶低和攻擊他人對此的批判,以掩飾自己的錯誤。
順便說件事。我遇到的一個數學背景出生的高級統計專家(美國白人)則對我對分段回歸分析中的最優化和強製連續性的批判持完全讚成的態度。他原是某大學統計係的教授,了解現行的分段回歸及其分析邏輯和算法,在和我的討論中才猛然醒悟。
最後,如果你不NC,請回答我在第20樓提出的那幾個問題,其中之一就是針對你所說的“他不懂概率收斂”。我承認我確實不懂概率收斂,那麽,我的問題你該可以回答吧?請不要在一個master麵前表現得像一條可憐蟲。為了給你提供一個參考,我將自己對那五個問題的回答寫在這裏:
1)Yes; 2)Yes; 3)No; 4) No; 5) No.
drburnie (專門爆料):唉,你連概率收斂都不懂還在這裏de2 se4(得瑟)個屁啊。
TNEGIETNI (lovewisdom):Ok,你懂那個收斂,那好,就請回答我提出的第5個問題:5) Does the 概率收斂 to the extreme values of a random variable works here to guarantee us an expected correspondence between i.e. the min(H) or max(H) and the E(W)? The answer is Yes or No, please select your answer here.
請注意,我的那5個問題有一個共同的前提,即抽樣條件下。
我已經給出了自己的回答。如果你回答不了,就不要用這種方式說話。說了等於放屁。
drburnie (專門爆料):你自己問的問題狗屁不通,你先解釋一下什麽叫expected correspondence。
Actuaries (striving):我琢磨他理解的measure就是用尺來量,random measure就是用尺去量一個random variable。
TNEGIETNI (lovewisdom):看來,在那些抽象的概念上糾纏永遠不能有結果。讓我說得具體一點。
給定一個兩分法的樣本(假定X是自變量而Y是因變量,兩段都是簡單線性模型,且臨界點是在X上),讓我們看看現行算法及其分段模型組的基本表述:
haty_1 = a1+b1X if X<=t
haty_2 = a2+b2X if X>t
ID | X | Y | M | CR |
1 | x1 | y1 | m1 | cr1 |
2 | x2 | y2 | m2 | cr2 |
3 | x3 | y3 | m3 | cr3 |
4 | x4 | y4 | m4 | cr4 |
5 | x5 | y5 | m5 | cr5 |
6 | x6 | y6 | m6 | cr6 |
7 | x7 | y7 | m7* | cr7=min(.) |
8 | x8 | y8 | m8 | cr8 |
9 | x9 | y9 | m9 | cr9 |
0 | x0 | y0 | m0 | cr0 |
其中,M是由分段模型組的係數構成的矩陣,CR是分段模型的合並殘差。*表示根據最小CR選定的分段模型,如果我們有 min(CR)=cr7。
在得到m7後,按照強製連續性假設,對分段模型組7解聯立方程組得到關於X上的一個解Gamma
Gamma = (a1-a2)/(b2-b1) (1)
作為臨界點t的樣本估計。到此為止就是經典的分段回歸分析(classical piecewise regression or segmented regression)。後來,為了滿足模型間連接的平滑性,人們對連接點處進行了平滑處理,得到了一個現代化的樣條模型。這就是現行的分段回歸。這個方法從數學的角度非常的正確,無懈可擊。
然而,這樣得到的臨界點僅僅是一個隨機的點測量,沒有可信區間,在統計學上根本站不住腳。盡管後來有人為此付出了努力,但基本上都失敗了。直到bootstrap方法出來後,人們才開始用bootstrap來構建臨界點的可信區間。
現在,我對這樣的分析邏輯提出了批判。認為它在統計學理論上是一個錯誤。我的觀點是,首先,臨界點在抽樣條件下是一個隨機變量,兩段模型間是否連續是不確定的。它們在抽樣條件下一定存在一個連接變異。這個變異有多大多小誰也不知道,因而需要一個概率進行推斷而不是強製性地主觀假設它們之間是exactly連續的。從而,用解聯立方程組估計臨界點的方法根本行不通。其次,由於X是隨機變量,分段模型組的係數矩陣M以及合並殘差CR在搜索過程中也將是一個隨機變量,而且X、M和CR之間相互關聯。它們的隨機點測量之間的對應是一個隨機對應,從而不能由min(CR)來決定E(M)。最後,在公式(1)中,Gamma具有不可測的變異性,因為分母(b2-b1)可以趨於甚至等於0。因此,我對上述方法進行了如下改造:
haty_1 = a1+b1X if X<=t_bar (t: Threshold)
haty_2 = a2+b2X if X>=t_bar
ID | X=T | Y | R | M | CR | CRR=W |
1 | x1=t1 | y1 | r | m1 | cr1 | w1=|r-cr1|/r |
2 | x1=t2 | y2 | r | m2 | cr2 | w2=|r-cr2|/r |
3 | x1=t3 | y3 | r | m3 | cr3 | w3=|r-cr3|/r |
4 | x1=t4 | y4 | r | m4 | cr4 | w4=|r-cr4|/r |
5 | x1=t5 | y5 | r | m5 | cr5 | w5=|r-cr5|/r |
6 | x1=t6 | y6 | r | m6 | cr6 | w6=|r-cr6|/r |
7 | x1=t7 | y7 | r | m7 | cr7 | w7=|r-cr7|/r |
8 | x1=t8 | y8 | r | m8 | cr8 | w8=|r-cr8|/r |
9 | x1=t9 | y9 | r | m9 | cr9 | w9=|r-cr9|/r |
0 | x0=t0 | y0 | r | m0 | cr0 | w0=|r-cr0|/r |
這裏,R是全域模型的預測殘差,根據模型的假定它是一個隨機常量(因為樣本因而模型都是隨機的,但對於給定的樣本和模型來說,R是不變的)。由於臨界點被假定在X上,因而它與X擁有同一個可測空間。在兩分法中,對X的每個實測樣本點就是隨機臨界點的實測樣本點。這個搜索過程就是在假定每個實測X點作為臨界點時對臨界關係的改變的意義或貢獻是怎樣的,這由CRR來度量。由於我們不知道臨界點在哪裏,隻能這樣假設並搜索,從而得知每個點都有貢獻,因此,由一個簡單的加權平均估計就可以得到臨界點的期望估計。由此,臨界模型就被建立在這個期望臨界點之上,由此,兩段模型間的連接變異就可以在該期望臨界點處得到測量,從而有了連續性檢驗的基礎。由於有了權重,我們可以計算臨界點的加權抽樣誤差,從而可以計算其可信區間。而分段模型在臨界點處的CRR就是比較分段模型與全域模型之間的優劣的一個度量。
由於全域模型已經給定了全空間的基本關係型或模型結構,因此,在搜索臨界點的過程中,每次迭代的分段模型都應該與全域模型保持同一模型結構,從而CR就是一個單純依從係數的隨機改變而改變的隨機變量,因而它們之間的誤差僅有抽樣誤差而沒有係統誤差。
然而,兩分法是一個特例,即其中的臨界點數被arbitarily假定為隻有一個。在我看來,即使是臨界點數也是不確定的。如果存在一個,是否存在另一個與它一致或不一致呢?從而三分法的思想就誕生了。為了找到另一個,我構建了兩類三分迭代法(對稱的和非對稱的)以便為每個臨界點構造一個可測空間,並由此得到對它以及它的權重的隨機測量,進而將每個臨界點的估計建立在加權平均上。由於每個臨界點都有加權的抽樣誤差估計,因而采用一個加權的t-檢驗就可以推斷兩個臨界點是否一致。從而一個樣本空間裏的臨界點的個數也在概率論上找到了支持。
請問,我的分析邏輯和算法錯在哪?顯然,任何一個受過統計學常識訓練的人都會讚成這個分析邏輯和算法。現在,請你根據第20樓的問題以及這裏的闡述來回答:
X, M, R, CR以及CRR等是否是隨機變量?min(CR)與m7之間的對應是否是一個期望對應?我們可否用最優化來決定臨界模型的期望?你所謂的“概率收斂”在CR上會收斂到min(CR)處嗎?
ningyan (ningyan) 答TNEGIETNI (lovewisdom):其實我是想說,幹點什麽都比看你的東西有意義。看你的帖子純粹是浪費時間。
TNEGIETNI (lovewisdom):你想幹啥是你個人的事情。每個人都有自己ignorant的世界,例如我自己就對數學特別是概率論近乎於ignorant。你既然是學統計出生的,你願意對這個領域的新東西保持你的ignorance,那也是你自己的事情,與任何他人無關。
drburnie (專門爆料):又把你這些阿貓阿狗拿出來忽悠了。不容易,你終於把你的model寫出來了,原來就是這麽個破玩藝。你這個所謂的不連續早就有人做過了。
Spline estimation of discontinuous regression functions. JY Koo - Journal of Computational and Graphical Statistics, 1997
Discontinuous regression surfaces fitting. [PDF] from psu.eduP Qiu - The Annals of Statistics, 1998 – JSTOR
[PDF] Automatic smoothing for discontinuous regression functions. [PDF] from psu.eduTCM Lee - Statistica Sinica, 2002 – Citeseer
Kernel estimation of discontinuous regression functions. KH Kang, JY Koo… - Statistics & probability letters, 2000 – Elsevier
Estimation of the number of jumps of the jump regression functions. [PDF] from psu.eduP Qiu - Communications in Statistics-Theory and Methods, 1994 - informaworld.com
這裏麵的方法比你這些狗狗屁屁的玩意漂亮多了。
TNEGIETNI (lovewisdom):你自命自己懂概率論。我問你,你從他們的文章裏怎麽找到每個臨界點的可測空間?如果沒有可測空間,你怎麽“測量”它們?怎麽為它們構建可信區間?你以為那些臨界點都是由數學理論確定的?可笑之極。
我的三分法並非隻用在二維空間上,而是對於任意維可行。我不過是以最簡單的模型來闡述我的分析邏輯和算法。
drburnie (專門爆料):唉,我都已經這麽好心幫你google了,你自己看不懂就不要怪我了。我來主要是逗逗你這個板寵,不然版麵冷清了不好看。
goldmember (蔬菜<<<菜鳥):快幫我寫咆哮體!!!!咆哮大師方法的細節!!!!!好不好!!!!!!
TNEGIETNI (lovewisdom):我非常感謝你的幫助。不過,我還是堅持我的分析邏輯和算法。它們實在是非常簡單。
當然,我不會care人們是否認可。我的分析邏輯和算法都在“統計學的新地平線——陳立功與他的自權重曲線”中的第122樓。
我的三分法的文章link如下:
http://www.meetingproceedings.us/2009/jsm/contents/papers/30324
順便附上John Tukey的部分信息供大家參考:
Dangers of optimization! ------- Tukey.
ftp://128.32.135.2/pub/users/binyu/tea/215A/tukey.62.pdf
< The future of data analysis > The Annals of Statistics, 1962
http://en.wikipedia.org/wiki/John_Tukey
我就此話題要說的已全部說完。
Good Luck to everyone.
Bye by.
大名鼎鼎的餘鬆林教授
http://www.mitbbs.com/article_t/Statistics/31278239.html
wuhuya (wuhuya):
http://www.hstathome.com/jianjie/%E4%BD%99%E6%9D%BE%E6%9E%97%E7
TNEGIETNI (lovewisdom):撇清一下關係。我所做的方法學研究與我的導師幾乎沒有關係。他第一次聽說我的分段回歸分析後,建議我去看樣條理論和方法。可是看了後非常的不感冒。
在事情沒有搞清楚前,請不要將我的導師扯進來。
wuhuya (wuhuya):不是想扯進來,隻是覺得你在美國這樣,在這個版上這樣,沒想過你的導師嗎?做一個公衛人本來就不容易,你能約束一下自己的行為嗎?這樣做真的得不到任何人的尊重!
TNEGIETNI (lovewisdom):你這話說的很不尊重。我沒有不尊重誰,我甚至沒有對任何謾罵回以肮髒的文字。我隻是在闡述我的思想。
請你自己刪除這個貼。否則我將要求斑竹刪除。
wuhuya (wuhuya):版主刪不刪除其實不重要,真的。我隻是想奉勸你一句,你永遠是一個公衛人,不是數學家,這是你的背景決定的。這裏的人大多數是很好的,大家都很尊重數學,但是你的言行確實讓大家很不舒服。
我一開始其實真的很體諒你,並奉勸你放下。但是你真的不理解別人的好意。我潛水很久,實在看不下去了,所以上來說你兩句,真的希望你好自為之。
我也沒有謾罵任何人,發帖子是我的權利,餘教授不隻是你一個人的老師,我們大家都應該尊重他,所以我不覺得這個帖子有什麽不妥之處,也不會刪除。不過如果你一定要我這麽做,沒有問題,我可以答應你,但是請你永遠記住你不僅代表你自己,你代表公衛人!
TNEGIETNI (lovewisdom):既然如此,你可以保留此貼。我不再要求你刪除。其實,餘教授對我提出的方法論是很欣賞的,因為三分回歸分析法在醫學領域非常有價值。這是任何一個在這一領域從事統計學應用研究的人都非常清醒的認識。它被以數學背景為主體的統計學理論界壓製是因為它動搖了一些方法論的基礎。
既然你把數學在統計學裏看得那麽神聖,就讓我告訴你一個秘密:統計學不是數學的分支,而是哲學的認識論的分支,即它是一門應用數學技能解決認識世界的方法論的問題的學科,Fisher早就說過,統計學是認識世界的一般科學方法論。簡單地說是
mathematized epistemology
而不是
epistemologized mathematics.
因此,作為一個搞統計方法學研究的數學家不懂哲學,尤其是認識論,一定會犯錯誤!
wuhuya (wuhuya):你讓我怎麽說你呢?誰和你討論什麽分支的問題了?我還真的不懂,真的,你有可能還真的是對的,沒錯。
其實陳先生,我不想叫你大師,不和你開玩笑,你真的去看看我給你推薦的那本書吧,那是一本哲學書,希望你能喜歡。
TNEGIETNI (lovewisdom)答wuhuya (wuhuya):美國有一位大統計學家,名叫 Peter John Huber。他在1997年11月應邀對中國科學院數理統計研究所發表過一個演講,其中大量引用了Tukey在60年代發表的觀點。最後悲哀地希望能夠有一股來自數學以外的力量改變統計學的現狀。而這股力量在我看來隻能是來自哲學。
我的良好的哲學素養幫助我完成了這個研究。我因此而自豪。我並非不重視數學,我為此而花了一大筆錢買了一套《數學大百科辭典》(中文版)。盡管我高度重視數學,但我不能說我完全弄懂了全部相關的數學問題。
我主要是從統計學本身的研究對象及其基本行為模式開始有關的哲學思考的。於是發現了一些問題,並試圖提出自己的觀點。整個事情就是這樣簡單。我有自己的認識,並公開地表達出來,這有什麽錯?
他們公開指責我這不懂,那不懂,可是,你看到有誰真正對我的理論和方法提出過有力的批駁?None of them!!!!他們隻會謾罵、嘲笑、奚落、……。卻無人回答我提出的最簡單的問題,還揚言我的問題根本不該那麽問。而當我要求他們以正確的方式提問,卻又啞口無言。
我謝謝你的好意,看得出你和我的背景一致。請不要看不起自己。真的,任何人都可以成為偉大的統計學家。高爾頓,Karl Pearson, 戈塞特,費舍爾等都不是數學背景出生的。但他們占據了統計學領域最偉大的人的行列。無人能夠望其項背。
wuhuya (wuhuya):兄弟,我姑且還能利用自己的統計知識苟且偷生,不過我雖有PHD但是依然不能很自信的在統計領域做研究,因為自己不懂,這裏水太深了,而且越做越覺得不懂。
哲學是很好的,我很崇拜,很高興你能喜歡,也希望能好好地利用。
其實別人說什麽真的不重要,重要的是自己要學會放下。真正的月亮在天上,不在水裏,沒有水就沒有水中的月亮。
TNEGIETNI (lovewisdom):讓我給你一點信心。統計方法的誕生不在數學理論中,而在現實樣本中。你隻要掌握了基本的統計學思維,又有了獨特的研究設計和樣本來源,你就擁有了創造方法的前提基礎。
你感到這裏水深,是因為那些不懂統計的數學家把這裏的水攪渾了。他們以為隻要給定一個數學假設,就可以構建出一套方法,然後要大家依從他們的假設。荒謬之極。
wuhuya (wuhuya):謝謝你,我真的不缺自信,缺錢倒是真的:-)。你保重吧。。。
bearJhonson (八棵七七葚):“我的良好的哲學素養幫助我完成了這個研究”,ORZ。
TNEGIETNI (lovewisdom):你知道什麽是哲學素養嗎?讓我告訴你:它極其簡單,就是在任何時候對被認知對象作出“它是什麽?”的回答,就如同我在第20樓裏提出的那幾個問題一般。
Actuaries (striving):You need to understand a little bit math first and then you can formulate your question. Beside of Confucius' quotes, another quote from Plato: "Let no one ignorant of geometry enter."
TNEGIETNI (lovewisdom):你真以為你那點shit數學知識就能推導出統計方法?你有本事回答我在第20樓和第122樓中提出的問題,並將你的答案寫在這裏。我當然相信你有能力回答,且答案會與我的一致,隻是,你不敢!!
Actuaries (striving):One ID have told u exactly our feeling about your so-called questions.
發信人: dingxu (保密), 信區: Statistics
標 題: 請教陳大師幾個問題
發信站: BBS 未名空間站 (Mon May 9 00:10:45 2011, 美東)
這麽簡單的問題對陳大師一定是小菜一碟了。
1。海裏的白矮星唱著紅色的歌導致了日本飛了。yes or no?
2。。。。
發這個帖子才發現神經病也是要有天賦的。有木有
TNEGIETNI (lovewisdom):你有興趣你去回答好了。這個問題與我無關。我們在那裏討論的是什麽是隨機變量!!!我隻要求你回答它們是還是不是。你有種就說它們不是。別在我麵前表現得像個學術流氓似的。