如果樣本數量是3,怎麽做檢驗?
原文在此:
http://www.mitbbs.com/article_t/Statistics/31231595.html
網名jiansheng (月射寒江)在MITBBS的Statistics版裏提問:“如果樣本數量是3,怎麽做test?”,並向讀者比較詳細地解釋了該問題產生的背景(Thu Jun 17 18:27:51 2010, 美東,FROM: 155.91):
有3個animals按照兩種方法veh和compound處理。第一天每個animal上都分別放了veh;第二天是wash time;第三天每個animal上放compound。然後有每個方法處理後每隔兩個小時測的數據,其中還有不少是missing的。現在要看veh和compound的表現是否一致。
他對自己沒有信心,進一步懷疑道:“問題是隻有3個animal啊!請大家看看該怎麽做。多謝。”
網名hypnos (sleep!+sleep!)建議說:“可以用t-test比一下AUC。”
網名為TNEGIETNI (lovewisdom)的我認為這個問題不能用此方法解決:“僅有三個觀察對象,用什麽方法都很難給出有效的檢驗結果,即使AUC也不行,因為我們很難從如此小的樣本量得出變異的統計規律。當然,如果你將三個對象的AUC之間的差異看成是確定性的,那就另當別論了。”我進一步指出,這樣說不是說就不可給出一個統計結論。對於如此小的樣本,直接陳述觀察結果就可以了,無需檢驗。如果你非要檢驗不可,盡管在檢驗的數學計算上沒有困難,但在統計學的邏輯解釋上幾乎沒有意義,因為你的檢驗結論將直接被你的過小樣本量所懷疑或否定而不是得到證實。
jiansheng (月射寒江)回答說:“關鍵是,正是因為樣本少,由觀察得到的結果就不是很可信。好的地方是,VEH和COMPOUND差得實在很多。還有一些地方有MISSING,我在想能不能估計出來。”
網名為shinder (suibian+shinder)的就此評論說:“You have three animals but for each animal you have multiple observations, which means your estimates can be improved with multiple observations. The question is the generalizability. Your conclusion may not be generalized to a broader population.”
jiansheng (月射寒江)解釋道:“我剛開始也是這麽想的,後來覺得雖然無法估計(因為他測量的東西不是血壓,等等),但是前後數據其實可以相互解釋。多謝!”
TNEGIETNI (lovewisdom)不客氣地說:“樣本量如此小,還有missing values,一切都完了。隻能說你的這個實驗在統計上完全失敗。已經沒有什麽可做的了。當然,你如果想靠自己的數學知識來估計並填補missing values,這就隻能說你多少有點神性了。建議你還是放棄吧。我就不明白,對僅有的三個實驗動物在不同時間點上的觀察和測量怎麽會有missing values產生?是儀器出了問題?還是你錯過了時間?或是根本就測不到結果?”
zerk (阿呆):“sigh,雖然不想這麽說,不過統計用在這樣的dataset上基本就是招搖撞騙。。。”
DaShagen (Unbearable lightness):“just plot the data, i guess it really depends how the trend looks like.”
sir ( 郎):“people did microarray experiments with 3 replications all the time.”
hypnos (sleep!+sleep!):“這也沒辦法,做實驗的也知道做300個好,可是太貴了啊,3個怕都over budget了。見過一個三隻羊的實驗,養一隻一年的花費是5萬美元,做這個實驗得半年。”
PharmD (夜裏發呆):“How strongly are his 前後數據 correlated?”
hopedale (hopedale):“你可以試一下 linear mixed effect model.”
hypnos (sleep!+sleep!)對hopedale (hopedale):“LMM with sample size 3 may not be a good option.”
shinder (suibian+shinder):“in this case, you may be able to get something more if you can model with the correlation.”
jiansheng (月射寒江)感歎說:“這些scientists自己設計、自己測量、自己運算分析,如果發現有問題了,再來找我們。我知道怎麽去給他們說了。不管怎樣,多謝討論。”
zerk (阿呆)對hypnos (sleep!+sleep!):“其實我會更願意寫一個essay”
wrote (wrote)對jiansheng (月射寒江)的首問發表看法說:“I am a biologist, not a statistician. What biology people would do in this situation is pairwise t-test using the data from the timepoints where both groups (vhe and drug) are available. T-test of AUC is another option. Statisticians may not approve this, but if this paper is going to be published in a biology journal, you know what they say, when in
PharmD (夜裏發呆)就此評論說道:“Unfortunately, "biology journal" reviewers now know more and more about statistics. Last time someone came to my boss and myself with some data from a completely-fucked-up experiment and asked us to analyze them, because her reviewers were not satisfied with those t-test results she reported in her manuscript. Big headache...”
TNEGIETNI (lovewisdom)也就此發表看法說:“無論你在那個領域,統計的基本原則和方法是一致的和嚴謹的。本LZ提出的問題可以說在統計學上無解。”
jiansheng (月射寒江)針對TNEGIETNI的無解說堅持道:“我發現他的數據,在某個時間點上的確是非常顯著。後來我用他的mean、std、和size=3去估計power,得到90%,這個難道不是說明,在這樣一個小樣本情況下,還是能拿到比較顯著的差異?”
TNEGIETNI (lovewisdom)不認同這個觀點:“你這樣的說法無疑表明你將每個樣品的兩種處理之間的差異看成是確定性的了。我已經說過了,對如此小的樣本量做檢驗沒有意義,無論你的實際數據給了你怎樣的結果(諸如power,P value, etc.)。須知,統計檢驗的基礎是在充分大量的樣本觀察的基礎上對變異性導致的隨機誤差發生可能性的檢驗。僅有三個樣本,你怎麽能得到充分的變異性觀察?沒有這樣的觀察,怎麽能判斷隨機誤差發生的可能性?幾乎不可能。”
jiansheng (月射寒江):“是啊。話是這麽說。但是很多時候,做實驗的就隻有3條狗,3個猴子。。最少要多大樣本?5個?6個?”
TNEGIETNI (lovewisdom):“如果實驗條件控製得很好,試驗動物的種屬、出生時間、喂養方式、成長環境等非實驗因素可以得到一致性保證,那麽,在一個預試驗中5~8例應該是最低要求了。”
careerchange (Stupid):“I am surprised to see that so many people think they know statistics, but they can not do a statistics test in a real world problem.
There are several tests can be done. One is to use 2-way anova, which is equivalent to pairwised t-test of the difference. Proc mixed can be used as well.
The variable can be an AUC, or a half-life, 30%-life, or a fixed time measurements, such as observations at 12 hour.
Missing values will not cause big problems. You can use LOCF for fixed time value, and linear interpolation for estimating AUC.
If a 3-sample leads to a significant results, it is a significant results. If a drug shows significantly better results than a standard drug on a 3-sample trial, do you conclude that the drug/trial is meaningless? Let's come back to the real world, it sure will cause a lot of interest. Why? Most good drugs are not significantly better than a standard one in a 3-subjects trial.”
TNEGIETNI (lovewisdom):“I don't agree with you. The missing values are a big problem for such a small sample, because the missing values means you don't know them. If you try to use a mathematical technique to estimate them, it means you take a certain assumption to fix the problem, which will cause a bigger problem in your result.”
littlebirds (dreamer) 對TNEGIETNI說:“Your view is too dogmatic.”
TNEGIETNI (lovewisdom)對littlebirds (dreamer) 說:“可否請你說明你的理由?我的觀點的統計學基礎是:三個觀察對象,每個時點上隻有三個觀察值,任何一個或兩個缺省了,你將沒有任何基礎來估計它們。而所謂的估計也就是一個數學的函數轉換關係,而任何數學的函數轉換就是試圖用一個確定性的假設來估計一個非確定性的隨機事件!這種行為本身從認識論的邏輯來說是荒謬的。
我知道在很多流行的統計算法甚至成熟的統計軟件中都有對missing values的估計和填補以便盡可能地使用全部觀察對象。我對這種做法持審慎的態度。除非樣本量足夠大,且缺省值的個數占總數的比例盡可能地小,例如小於5%,否則,不能濫用估計法。例如LZ提到的樣本,三個樣本中任意缺少一個,缺省值的比例將高達33%以上。
另外,為了闡明你的理由,請你順便談談你對missing value的理解。”
jiansheng (月射寒江)對careerchange (Stupid)說道:“Thanks. Several People mentione AUC here? Why using AUC? what is the advantage of using AUC for this type of problem?”
MITBASIC (Tomorrow)就首問說道:“現在還沒有開始學統計。我以前的實驗發生過類似的現象:不過我都取同一生長條件下,外部因素一致,反正就是讓樣本的控製條件都一樣,隻取3個樣本(沒辦法樣本多了,累死我)來記錄反應。好像目前都沒有人質疑,不過不懂太多統計知識,就感覺樣本越多越完善。”
ohyoo (kk)就TNEGIETNI的missing value的問題發表評論說:“Missing value是可以用數據之間相關性來估計的。這種貌似時間序列的數據應該會有比較強的trend,用interpolation來填空未嚐不可。何況如果是用來估計AUC,本身就已經是個近似,就像曲線積分一樣。
我的觀點,隻要是數據,不管數量多少,就會含有信息量。The important thing is how to appropriately make inference based on the data. 樓主的這個問題,如果frequentist的方法不夠信服,或許可以考慮Bayesian的方法。
理論和應用總是有差別的。比如,樣本未必是越多越好。對於假設檢驗來說, 如果樣本太多,即使兩個總體沒差別也能得到顯著的結果。對樣本量的需要,一個很大的原因是很多檢驗是基於正態分布,隻有當樣本足夠大的時候,統計量(比如sample mean)才近似正態。從邏輯上講,這並非是說小樣本的數據就不能做假設檢驗。這隻是說明,如果你的數據很不normal而且樣本量很小,那麽t-test的power會很小。”
TNEGIETNI (lovewisdom):“你的觀點中滲透著深刻的數學理性原則。然而很遺憾,統計學從一開始就不是從肯定和接受已有的數學理性原則為基礎的;恰恰相反,它是從懷疑數學理性開始的。它的基礎是對客觀現實的經驗觀察,以便將一切知識建立在這種經驗觀察之上而非既有的數學理性之上!如果數學的理性可以為統計學所用,那麽,對任何總體的觀察需且隻需兩例即可,因為按照數學理性,兩點可確立一條直線,由這條直線便可以得到該總體中的一切點的估計,因此,三個樣本量已經過多了,會帶來令數學家們煩惱不已的“noise = 噪聲”。
這無疑是荒唐的!
用樣本來描述總體的分布特征是統計學的唯一使命,而總體的無限性、可測性和隨機可變性等將令一切現有的數學理性原則頓失光芒,由此人類對隨機世界的認識將進入無法窮盡的可能性而變得終極困惑。為了超越這種終極的困惑,人們想出了統計學的邏輯與方法。這是迄今為止人類認知理性能夠達到的終極高度。
Bayesian方法從本質上來說是一種先驗理性的方法,但不是經驗理性的方法。先驗理性方法存在著一個根本缺陷,即最終結果中含有“主觀”的假定前提,而這個主觀的假定前提沒有任何經驗事實為依據。
人類認識世界的兩個基本邏輯是歸納和演繹,其中歸納邏輯是提煉演繹邏輯的前提的方法,例如,在以下亞裏士多德式的三段論演繹邏輯中
人必有一死,
蘇格拉底是人,
所以,蘇格拉迪必死。
這裏的第一句是一個歸納結論,第二句是中間引據,第三句是關於中間引據的推論。
統計學就是試圖將知識建立在經驗觀察的歸納基礎之上,以便形成一個關於演繹邏輯的經驗理性前提。Bayesian方法如果沒有一個歸納結論作為前提,其方法將失去邏輯基礎。不錯,隻要你假定一個先驗概率,你就可以用Bayesian法得到一個結果。然而,概率的可測空間(或可假定空間)是[0,1],即它具有無限的可能性,因此,任何一個確定的先驗概率的假定值在統計學上的意義都等於0,除非你能提供一個充分的根據來支持你對先驗概率的假定。
任何一個missing value就是關於一個觀察對象的某個變量(或屬性)的未知測量,它原本不應該發生。對任何missing value的估計必須有充分的根據。像上述三個樣本量中任何一個的missing,將無法由一個充分的根據來估計。你所說的估計就是“近似”、“就像曲線積分一樣”等等從數學的角度來看:哇塞,很好,很理性!可是從統計學的角度來看簡直就是胡言亂語,因為這樣做與偽造數據毫無二致。
本LZ提供的實驗背景和數據表明它是一個失敗的實驗數據,無法進行統計分析,隻能直接陳述原始測量結果。”
ohyoo (kk):“不知所雲。如果數學理性是你所描述的那樣,數學家都要吐血了。兩點能決定一條直線,前提是你知道那是一條直線。哪個數學家會測兩點就決定兩個變量之間是一個確定的直線關係?如果真是個直線,搞個linear regression可以啊,點少點沒太大關係,隻要你除了point estimates同時提供confidence interval就行了。關鍵是怎樣make inference.
有個物理學家曾經說過,If your experiment needs statistics, you ought to have done a better experiment。這個觀點好像和樓主有點相似之處。可是,恰恰是因為現實中實驗條件不允許,取樣不夠多,種種製約因素,才有了統計的用武之地。大樣本當然好,有了大樣本一個CLT就搞定了,可是這現實嗎。就我理解,statistics is about how to identify and summarize certainty of uncertainty。小樣本一樣可以有inference, 你隻要別忘了報告你結果中的不確定性就行了。樓主對於Bayes的認識太偏頗,這個問題也太大,我就不多說了。我的本意是如果想避免用假設檢驗做似是而非的結論,可以用Bayes得出一個比如說關於mean difference的posterior, 一樣可以summerize實驗得到的信息。”
(討論暫時止於此)