費城加菲貓

喜歡逍遙自在的碼字,興趣廣泛,常常有感而發,並不拘泥於什麽主題。
個人資料
費城加菲貓 (熱門博主)
  • 博客訪問:
正文

貓語閑聊:統計學中的哲學和邏輯

(2021-08-01 08:25:44) 下一個

最近一段時間以來,常常看到有許多人對統計數據準確性的質疑, 特別是和新冠疫情有關的報道,比如各種疫苗的有效率,新冠病毒的感染率,新冠肺炎的死亡率,治療新冠肺炎藥物的有效率,等等。還有一個大眾關心問題,就是對許多所謂的“民調”數據準確性的質疑,因為媒體報道的民調數據往往和個人自身的感受不一樣。甚至有朋友問本貓,是不是做統計的都是騙子?這對本貓的感受傷害很大, 因為本貓就是一個做統計的人。

事實上,統計學是一門關於數據的收集,整理和分析的科學,這門科學的目標就是盡可能準確地描述觀察到的現象的本質,以判斷觀察到的現象到底是真實存在(大概率的存在),還是僅僅是隨機的閃現(小概率的存在)。如果一個科學家聲稱自己有所新的科學發現,但它其實僅僅是隨機出現的事件而已,這就稱作“虛假發現”或“假陽性”(false positive)。

怎樣從隨機事件中區分出真正的效應其實是一個很古老的問題。哲學家們為此已經爭論了數個世紀,統計學家亦然,並得到了更加豐富的成果。這一問題的關鍵在於對歸納推理和演繹推理的區分。很大部分科學家進行是一項歸納推理的活動:觀察大量的現象,並試圖從中歸納出一般性原理。但是,歸納永遠都不可能是完全確定的,因為會有很多因素影響到觀察到的自然現象和社會現象。然而,演繹推理要更容易些:先假定某個一般性原理是正確,依此推斷應該發生什麽,然後將其與你實際觀察到的進行對照。如果推斷結果和觀察到的結果顯著的不一致,那就可以認為,那個一般性原理是不正確的。

統計學家是運用演繹推理來分析數據的專家。但問題是,在很多的情況下,演繹論證並不能直接回答科學家想解決的問題。一個科學家真正在乎的是,當聲稱某一效應不是隨機結果而是真正存在時,出錯的可能性是多少。這是歸納推理的問題,所以很困難。為了處理這個問題,到20世紀早期,形成了這樣一種慣例——將問題轉化為僅運用演繹推理的問題,從而避免歸納。20世紀20年代,統計學家羅納德·費舍爾(Ronald Fisher)提倡用統計顯著性檢驗來實現這一點。這完全是演繹推理的方法,所以避開了歸納推理存在的哲學性問題。

一般來說,p值小於0.05(或0.01)就被統稱為“統計顯著”(statistically significant),這是一個在生物醫學文獻中無處不在的術語,現在人們用它來表示效應真實存在,而非僅僅是隨機現象。2005年,斯坦福大學的流行病學家 Ioannidis JP 針對生物醫學某些領域的研究結果發表了論文《為什麽大多數已發表的研究成果是錯誤的》(Why Most Published Research Findings Are False,PLoS Med 2(8): e124. https://doi.org/10.1371/journal.pmed.0020124),引起了一場風暴。Ioannidis的觀點已被隨後的研究進一步證實。例如,最近有研究者重複了100項實驗心理學的不同研究結果,發現僅有38%的結果重複了原來的結論。對於腦成像研究和認知神經科學來說,情況大概至少與此一樣糟糕。

統計顯著性檢驗計算的是一個條件概率:在沒有真實效應的條件下,觀察到我們所看見的現象(甚至更加極端的現象),這樣的概率有多大?這並不是斷言真實效應不存在,而是在計算如果沒有真實效應的話,可能會出現什麽情況。“沒有真實效應”的假定被稱為零假設(null hypothesis),在零假設成立的條件下,發生我們觀察到的現象的概率則被稱為p值。顯然,p值越小,零假設成立的可能性就越小,這也就意味著存在真實效應的可能性更大。但是,我們真正感興趣的,並非是在效應不存在時觀測到現象的概率(p值),而是在觀測到現象時效應存在的概率(也就是假說成立的概率)。而這是個歸納推理的問題。事實上,在一般情況下,我們無法從p值(也就是犯“假陽性”錯誤的概率)的大小來判斷出“在觀察到的現象的條件下,假說成立(真陽性)”的概率。混淆這兩個條件概率問題,是人們常常錯誤解釋統計數據的根本原因,這被稱為條件概率倒置錯誤(error of the transposed conditional)。

考慮一個新藥研發的例子,說“如果新研發的藥物和安慰劑沒有區別,那麽我們觀察到這種現象的概率很小”(這正是p值告訴你的) 沒什麽實際用處。真正有用的是需要知道“如果新研發的藥物和安慰劑真的是有區別,那麽我們觀察到這種現象的概率是否還是會很小”。這又把我們帶回了歸納推理。也就是說,表示統計顯著的p值是一個正確的答案,卻回答了一個錯誤的問題。

再來看一個新藥研發的例子。想象我們要測驗1000種不同的化合物來分辨出哪些有效, 哪些無效,一次測驗一種。假設這些化合物中有10%是有效的就算走運了。所以我們不妨假設先驗概率是10%。假如我們在一次測驗後得到一個“剛好顯著”的結果,即p=0.047,於是我們以此為證據宣稱發現這種化合物是有用的。但事實上,這一宣稱出錯的概率,並非通常認為的5%,而是76%。這一數值高得離譜。錯誤率這麽高的原因是檢測中本來無效卻檢出假陽性的數量,超過了真正有效而檢出真陽性的數量。

還有一類“統計陷阱”,是在於邏輯上的錯誤。看到有個關於養生的報道說,調查了140多位健康的高齡老人,發現他們大部分都喜歡喝粥(p值<0.05),於是就得出”統計顯著”的結論,多喝粥可以使人健康長壽。這是一個明顯的“統計陷阱”的例子。喜歡喝粥是因為他們年紀大了,消化功能退化而導致的,這根本無法確定喜歡喝粥是他們高齡健康的原因。這是一個類似於“圍著槍眼畫出靶子”的笑話,但是現在許多科學家就是這麽幹的。

當代的科學家,包括很多科學雜誌的編輯,大多數都是p值的粉絲,他們隻相信p值,不考慮其他。結果出現了p值濫用(p-value abuse)現象。但事實上,費舍爾在1926年就說過,p=0.05是“顯著性的低標準”,而隻有當重複實驗“在這一顯著水平上幾乎不失敗”時,一項科學事實才應被視作在實驗上建立了起來。所以,在統計學家眼裏,p值的濫用就是在用統計數據對廣大的媒體受眾“耍流氓”。如果有人是故意為之,那是統計上的災禍。

現在是自媒體時代,很多沒有任何統計知識的人也在做媒體,包括在主流媒體上,很多人由於缺乏統計學方麵的知識,對數據的采集分析和解釋都是非常任性的,最常見的就是“幸存者偏差”(survival bias)。在分析資料時,幸存者偏差所指的就是過度關注“幸存”的資料(可以被觀察到的人事物),而忽略了可能無法觀察到的資料,導致了錯誤的認知與結論。

真正在統計學意義上的結論,精髓在於(大概率的)可重複性。而“幸存者”往往都是一種無法複製的存在,在生活中也有許多“幸存者偏差”的例子。 比如說,某公司采用了某種新的營銷策略,使得營收增長了200%,被廣為報道。但是也有多少公司嚐試了同樣的策略,卻是以失敗收場。又有某明星吃了某種減肥藥,一星期就瘦了10公斤。但是又有多少比例的人吃這種減肥藥是無效的呢?特別是許多雞湯類的勵誌書籍常常說隻要吃苦耐勞,有創意就會成功,並以馬雲,馬化騰,比爾蓋茨,馬斯克為例子,但事實上還有一大堆擁有同樣特質的失敗者默默無聞而從來都不被人們提起。

許多科學工作者常常掛在嘴邊的一句話就是“數據會說話”,但是不同的數據分析方法顯示的結果會讓我們得到錯誤的結論。最有名的例子就是“辛普森悖論”(Simpson's paradox):在某些條件下的多組數據於分別討論時都會滿足某種性質(例如:A 優於B),但若是直接將數據合並在一起討論時卻可能導致相反的結論(例如:B 優於 A)。因此,若是實驗設計在一開始能采用隨機分層的設計就能有效降低潛在變數的影響,降低辛普森悖論發生的可能。若是無法采取隨機分派的情況,則需要盡可能地思考是否有忽略了潛在的影響因子(但現實生活中很難全麵的考量到所有潛在影響),並且透過分層的手段觀察結果的變化。

在一切的科學研究活動中,科學家們會運用邏輯法則堅持不懈從獲得的數據中試圖得出結論。這個過程就是依據從總體的一個樣本所取得的信息來對總體做出一些結論。用“在前提為真的條件下,結論為真”的概率作為這種歸納論證可信度的度量,就涉及到統計推斷。正是由於這個觀點,統計推斷是處於一切實驗科學的中心。值得注意的是,統計推斷是建立在一個數學模型的假定上的。沒有這些模型的知識,統計推斷隻是一個相當狹隘的課題。

[ 打印 ]
閱讀 ()評論 (0)
評論
目前還沒有任何評論
登錄後才可評論.