科學實驗醫學實驗,它們的統計結果有多可靠?最常用的檢測方法是根據所謂p-value 的null hypothesis test (零效假設檢驗), 譬如製藥公司臨床盲試一種新藥對某病的療效,幹預組和對照組都安排周細,試驗結果經統計後p-value 小於0.05,p=0.05是科研界和業界普遍接受的零效假設檢驗的閾值,因而新藥被認為有效。
什麽意思呢?曾有過幾個問卷調查,問研究人員或醫生對零效假設檢驗p值的理解,大部分人選了‘’p 值代表新藥無效的概率‘’或類似的答案,也就是說,在所獲得的實驗數據基礎上,新藥無效的概率是5%。
現實世界的事物都充滿變數和不確定性,不是所有變數都是實驗室可控的,譬如新藥被試人員的患病程度基礎生理狀態和臨床心理狀態很難做到每個人都一樣,因而實驗結果也必然因人而異,所以才要用到統計方法,但根據有效性來統計是很難的,有效性有弱有強難以確切定義,所以統計是基於零效性 - 幹預組和對比組統計意義上沒有任何不同,因而就有了"零效假設檢驗",先假設這個新藥是零效的,如果通過實驗數據發現不是,就是或多或少有效。這個方法教科書級,用了近百年了。
那麽如果新藥無效的概率是5%,不同程度的有效性總和就是95%,這應該是非常可靠的有效性統計證明了(當然這裏還牽涉單邊和雙邊檢測,藥物試驗多為單邊,正負效果分開)。
然而不是,那些在問卷調查裏如此認為的研究人員和醫生都錯了,他們不是想當然就是徹底忘了零效假設檢驗的根本含義:在假定完全零效的前提下,依然取得了顯示有些效果的數據,那麽我們問,如果由於純粹隨機性,這樣的可能性有多大?這就是p 值的含義。如果p值很小,說明純粹由於隨機性致使實驗數據違背零效假設的概率很小,要麽零效假設不成立,要麽數據根本有誤。
顯然,這和p 值代表藥物無效的概率或反過來1-p代表藥物有效的概率這樣的理解是大相徑庭的。
現實世界裏,數據顯示p值小於5%卻不說明任何問題的事例其實並不是十分難以碰到的,還記得以前給電力公司做谘詢,那幾年艾爾尼諾氣候現象統治,天氣反常,暴熱,山火,暴雨,洪水,酷暑天巨量空調設備上線,電力供應吃緊,造成電網跳閘癱瘓,電力公司一方麵對大企業實行強製錯峰讓電,一方麵對中小電力用戶推行自願高峰用電控製。我們給他們分析哪些行業自願控電做得最好,當然不會是醫院和學校,病人和學生的福祉遠高於節電,手下一個分析員用統計模型對用電大數據分析,得出了兩種用戶做得最顯著,一是博物館,一是政府的災難庇護臨時居所, p <0.05,他興高采烈準備了報告,大大咧咧就要通報電力公司,我一見立馬叫停,博物館理所應當,但災難臨時居所實在可疑,那些居所是給受災群眾和搶險人員用的。檢查他的數據和分析都沒發現問題,好在事情很容易核實,請相關部門一問就行,固然災難臨居的自願控電根本子虛烏有,連電力公司事先的控電通知都沒有到達,而不少博物館確實在接到通知後采取低峰時段預先製冷等控製措施。
這事上,我不是比分析員小哥有更好的統計知識,而是比他更有生活知識,那些被洪災火災搞得傾家蕩產的居民,那些為搶險救災筋疲力盡的人員,如何再會去操心自願節電,再說他們的臨居簡陋,用電也隻是支持最基本的必需。分析員小哥還隻是個頂替長假雇員的合同工,就已經出手上萬更新純屬個人愛好的大當量摩托車和高級攝影裝備,安排海外旅遊,而我,不好意思地說,在他那個年紀剛開始在舉目無親的海外自費半工求學,起點是50美元和兩個衣箱。對臨居生活之艱辛的理解,誰更靠譜呢?
這就是統計,統計不是火箭科學,統計一半是生活。即使統計結果告訴你p值遠低於0.05 , 在現實生活裏也不見得有多可靠,甚至可能完全誤導,更有甚者,還可以通過合理的看似天人無害的統計方法進行人為操控。對此,有不少在科學研究裏實際事例的報道,暫且不表, 有興趣者建議翻翻一本書的前半“Everything is predictable”。
先提及一下有心人肯定會馬上問的兩個問題:
一,既然p 值不是零效假設的概率,那麽兩者相比,哪個更大更小,相差有多遠?
二,正經的統計學發展曆史少說上百年,為何不搞出一個直接估計零效假設概率的方法,而要搞得現在這般糾纏不清呢?
這其實已超越學術問題範疇,而是牽涉哲學意義上的問題,關於世界,關於我們的認知,關於統計學界一場曠世紀的大爭論。整理一下思路以後有時間再寫。