朱頭山

無意邀眾賞,一心追殘陽
個人資料
朱頭山 (熱門博主)
  • 博客訪問:
正文

美國新冠疫苗的統計學問題

(2020-11-17 06:58:25) 下一個

過去兩周,美國兩家企業,Pfizer和Moderna,相繼宣布了它們的三期臨床試驗初步數據,都達到了驚人的90%以上的有效率,這給了深陷新冠災難不可自拔的世界一個希望。而且據說這種新型mRNA生產相對容易,安全,光Pfizer一家,年產量就可以達到14億支,加上Moderna,也許還有新來者,明年世界有望拜托新冠這個噩夢。

但我仔細看了Pfizer的統計方法,(Moderna也用的同樣方法),覺得一驚,這個方法好像有點不對勁。我當然不是大統計學家,但也算內行,在此就將這個疑慮說出來,與大家分享,有高手也希望與我解惑。

我在工業部門(不是學術研究)做過疫苗和蛋白藥物的免疫原性試驗(Immunogenecity),對疫苗的臨床試驗過程有一點了解,以我以往的了解,疫苗在批準前需完成三期臨床試驗。和其它藥物的臨床試驗不同,疫苗的受試者(Subject)全是正常的誌願者,而不是病人。

一期試驗的目的是安全性。根據臨床前在動物身上摸索出的劑量,從小計量開始,逐漸升級,在幾十個受試者身上觀察毒副作用,當到達出現了嚴重副作用的劑量,試驗終止。一期試驗成功,隻是說找到了安全的劑量範圍。也有藥物從最小劑量開始就有很大副作用,或疫苗受試者感染上了新冠,那可能這個疫苗的安全性有問題,就不再進行下去了。

二期試驗是安全性和免疫原性試驗。安全性貫其一生都是重要指標,疫苗的有效性要看其是否有預防作用,這和大多數藥物著重於治療性不同。在二期還無法作預防性試驗,隻是看疫苗能否在受試者身上激發其免疫原性。

人體免疫原性有兩個分支,體液免疫和細胞免疫。這兩者是互相聯係的,大多數免疫反應兩者都有。相比之下,體液免疫有可溶性的抗體,測定方法比較簡單可靠,所以大多數疫苗都以測定抗體為主要觀察指標。一個疫苗可以激發無數種抗體,我們一定要證明所測到的抗體能夠阻止病毒進入體內,或抑製某種功能,是所謂中和抗體(Neutralizing),這需要一係列複雜的步驟。如果在二期試驗內沒發現嚴重副作用,並在多數受試者體內測到高滴度的中和抗體,這說明疫苗過了第二關,可以進入第三關了。

三期試驗是安全性和預防有效性試驗。受試者人數需上萬例,必須在流行區域進行。受試者隨機分兩組,一組接種疫苗,一組接種安慰劑,通常是包裝和疫苗一樣的生理鹽水。誰是疫苗組,誰是安慰劑組,受試者自己不知道,接種的醫護人員也不知道,所謂雙盲,隻有最後分析時才揭盲,以避免人為的傾向性(BIAS)。

Pfizer公布的方法是這樣的: 招募到的受試者被隨機雙盲注射兩劑疫苗或安慰劑(間隔7天),然後就讓他們如常生活,並沒有強調不許自我防護。當其中出現確診的新冠病例到達164例時,或總例數到達44,000時,(看哪一個先到達),則終止試驗。按原計劃,在達到確診新冠數30,60,120例時要進行中期分析,但因技術原因無法進行。到11月份,總試驗例數達到了43,538例,已經接近44,000的終止指標時開始了中期分析,當時的確診新冠病人有94例,其中打疫苗隻有8例得病,因此得出保護率90%的結論。進一步試驗目標修正為達到確診數120例時終止(不是164例了)。

我想象中的臨床試驗方法是這樣的:試驗組和安慰劑組暴露在同樣條件下,比較兩組的感染率,進行統計學分析,根據P值,如果隨機因素造成的概率<0.05,判斷為兩組有顯著差異。試驗組的感染率低,則為疫苗有效,有效率的差距>50%,可以上市。

而Pfizer的方法不是這樣的,試驗組和安慰劑組的暴露情況並不能保證一致,當然,倫理上不能要求受試者不進行自我保護,但客觀上,這樣做參試者的暴露情況是不一致的。雖然,那些得了病的一定是受到有效病毒暴露了,因此在他們中間是否接種疫苗而造成的感染率不同,確實具有一定的意義,但我覺得這不是真正意義上的統計學顯著差異,而隻是算術差異。這裏的90%有效率,並不等同於統計學上的90%有效率。

這就好比驗證兩組婦女,哪組更容易懷孕。你的做法不是讓兩組婦女在受孕期和同一個男子性交來比較受孕率,而是把她們放羊,一定時間後檢查受了孕的婦女的數量,比較兩組的差異。這裏的影響因素多了,婦女有沒有性交,是不是受孕期,和男人是否不對......

統計學是門很tricky的科學,這次美國大選的民調也是基於統計學的,結果一筆吊帳。從我的眼光看,這些疫苗應該說是有效的,但其真正有效率還需要在實際使用中得到驗證。

 

 

 

[ 打印 ]
閱讀 ()評論 (31)
評論
蔣金幗 回複 悄悄話 這個國家已到了不可救藥的地步了,什麽神藥都無濟於事,美國在十年內翻不過身來。
liketotrade 回複 悄悄話 沒有什麽可以質疑的,這是經典,公認的,FDA接受的方法,Pfizer是老牌公司,不會隨便公布結果。
朱頭山 回複 悄悄話 回複 'Donald_Trump' 的評論 : 臨床試驗中的確診應該指核酸,抗體雙陽性同時也是實際感然人數,因為每個受試者都必須測的,而發布的美國發病率是核酸陽性,隻是參加檢測的人中陽性數,實際感染率要高得多,比較靠譜的是7月份紐約州抗體抽測,估總感染率20%,再結合瑞典的數據,人群自然感染率20%是比較靠譜的。本試驗群如按20%計算,安慰劑組的發病人數應在4000例以上,實際上隻有86例,應該是防護得很好,減少了40倍以上。這個設計的幹擾因素過強,比如做滅鼠劑在冬天的效果試驗,如果凍死的比藥死的多,那滅鼠劑的結果就很不準確了。這個臨床試驗中的受試者自我防護作用和疫苗具有同樣甚至更強的功效,不去除防護這個強幹擾因素,是無法得出準確結論的,就像照相,原圖不行,再是PS也不濟。感覺這個試驗中的統計學就像PS,成了事實上的騙人工具
零不是數 回複 悄悄話 兩個相近的兩位數相除,結果的有效數位不是四,最多是二,大概率是一,也就是說“九成左右”。
用這麽少的幾例陽性來比較兩種疫苗的有效率就是數字遊戲。
Donald_Trump 發表評論於 2020-11-17 19:50:55
再用Moderna數據: 95人5人疫苗。如沒疫苗就有90人感染,疫苗救了85人。疫苗有效率=85/90=94.44%。即所謂接近95%。
枕寒流 回複 悄悄話 完全同意您對疫苗實驗設計和統計的質疑。這不是研究人員水平的高低問題,是如何平衡實驗結論可靠性與倫理的問題。
新冠的感染受防護措施影響極大。戴好N95口罩,打疫苗的防護作用根本看不到。不強製讓受試者不加防護與確診新冠病人密切接觸足夠長時間,怎麽能確切觀察到疫苗的保護效果?
統計學無法解決實驗設計的缺陷。這兩個疫苗的保護性到底多強仍然存在疑問。
從招募誌願者角度考慮,如果參加實驗就要和確診病人共處,沒人願意被分到對照組,那能不能招夠誌願者都難說。除了人性化考慮,不限製受試者使用防護措施必然降低感染率,數據好看。說實在的,打疫苗打的不就是信心嘛。誰不想接種100%有效的呢? 從製藥公司的生意角度考慮,客觀指標在二期的中和抗體滴度裏呢。三期沒有嚴重副作用就可以放心使用了。難道要搞出保護率低的數據讓前期投入打水漂不成?
疫苗的保護性實驗不限製受試者的防護措施有其難言之隱,是綜合平衡的考慮。相信疫苗的盡早接種,不信的戴好口罩。
姍姍d來遲 回複 悄悄話 估計這個實驗的數據,p-value
姍姍d來遲 回複 悄悄話 估計這個實驗的數據,p-value
種竹山房 回複 悄悄話 random sampling 和 double blind 基本上可以把bias 降低到最小。這是現有條件下能做到的最大努力了。否則,還有什麼更好的方法?
Donald_Trump 回複 悄悄話 博主, ~0.3%有啥不對? 好像是2-3月內的三期? 美國3%是9個月積累,0.3%x4.5=1.3% 對3%也不能說太離譜。Moderna 是90/15000=0.6%是兩個月的. 0.6%×4.5 接近3%!
收試者本來或因受試疫苗變得更懂。這不影響結論,畢竟兩組幾萬人都一樣有可比性!
Donald_Trump 回複 悄悄話 再用Moderna數據: 95人5人疫苗。如沒疫苗就有90人感染,疫苗救了85人。疫苗有效率=85/90=94.44%。即所謂接近95%。
朱頭山 回複 悄悄話 回複 'Donald_Trump' 的評論 : 在不允許故意暴露試驗情況下,這可能是不得已之舉。但從其數據來看,安慰劑組的感染率隻有 86/43538/2=0.39%, 瑞典無防護的自然感然率達到20%以上,這說明大多數受試者是作了良好自我防護的,而防護本身對抗感染的作用很強。麵對一個強大的幹擾因素(自我防護),這種對照程度不高的設計的效能不高
Etornado 回複 悄悄話 在統計學上看,2000的random樣本通常可以提供相當準確的結論,何況是44000,真的很準了!我隻想說 Pfizer真有錢!很多中小公司在Phase II、III的時候很難做到這麽大的sample,因為這樣大的sample 無論人員、時間、和金錢的投入和花費很大。中小公司難以負擔。
Donald_Trump 回複 悄悄話 這種問題以最基本的算術解釋是最有力的。要大學專業或研究生的東西,則表明命題水平太低!
Donald_Trump 回複 悄悄話 這個統計用gut feeling來看: 疫苗感染8人,如果沒疫苗就會有86人感染。即疫苗保護了78人。有效率78/86=90.6%.即媒體說90%以上。
如50%以上,即94人感染,其中23.5人感染.
Etornado 回複 悄悄話 我個人覺得隻要在Sampling時候:
一、是random sampling的
二、A|B test 有做 propensity score matching

就基本就可以了,何況樣本數量有4萬多個,從大數據來看很足夠了!我看Pfizer的數據應該沒問題。
樓主的擔憂完全可以使用 propensity score matching 解決,稍微對統計有些認識的研究人員都知道的。
朱頭山 回複 悄悄話 回複 '就事論事^*^' 的評論 : 你對P值的意義都沒搞清楚,真是貽笑大方,還大二呢,二吧!
Donald_Trump 回複 悄悄話 博主用懷孕,性交率,性交對象等因素是忽略了用較大數據的意義。用22000左右樣品,就是假定了兩組"婦女"總共有一樣的性交次數,有一樣的受孕幾率!!
就事論事^*^ 回複 悄悄話 哪個藥物臨床試驗的兩組人群條件是絕對一致的?這就是為什麽要隨機分組,足夠的樣本,且結論允許存在誤判(一般不超過5%)。這不需要什麽“大統計學家“,隻要學好大二的“概率論與數理統計“足矣
紅米2019 回複 悄悄話 cng 發表評論於 2020-11-17 14:41:30
大選前民調不準,那是sampling技術不好,而統計模型也沒有對數據的粗糙做出必要矯正,這說明統計學用得不夠,用得不到家,並非是看不上統計學的理由。

問卷調查很難避免一些受訪者在一些問題上說謊,想不出有什麽好辦法可以校正這種偏差。也許同時測謊?
cng 回複 悄悄話 大選前民調不準,那是sampling技術不好,而統計模型也沒有對數據的粗糙做出必要矯正,這說明統計學用得不夠,用得不到家,並非是看不上統計學的理由。
笑薇. 回複 悄悄話 如果P value
朱頭山 回複 悄悄話 我查了下流感的臨床試驗方法,不是這樣的,兩組人注射後都暴露在環境中,不使用防護,然後用我所描述的那種傳統方法統計。可能流感不那麽致命吧,而倫理要求是高於一切的,無奈之下新冠疫苗才采用了這樣的統計方法。在例數足夠多的情況下,又采取隨機取樣,確實理論上可以說兩組人暴露一致了,但大選民調失敗的例子,要告訴我們,不要太迷信統計學,多思考總是沒錯!
替補球迷 回複 悄悄話 這結果大概可以得出疫苗比安慰劑顯著好的結論,換句話說,疫苗對易感人群至少有短期作用,但是不能得出疫苗90%有效或有90%保護力的結論。
因為並不是所有受試者在特定時間,比如打第二針後某天接受病毒檢測,隻是自覺出現症狀就醫確診,又因為理論上存在大量無症狀感染者,所以隻能說,疫苗可減輕感染後症狀或避免感染者出現症狀。這個數據並不能證實疫苗的作用肯定是避免感染。
傳統上一個成功疫苗的研發要10多年,現在搞大躍進,非要幾個月就得結論,所以很難避免這種有點糊了糊塗的結論。
cng 回複 悄悄話 誰說“試驗組和安慰劑組的暴露情況並不能保證一致”?

2萬人隨機分到對照,另外2萬人隨機分到疫苗組,基本就能保證暴露狀況一致了。而且的分組的時候,要確保兩組間的年齡,基礎病狀況差不多。
chufang 回複 悄悄話 很可能這就是規則,不然每次測試都必須保證一切外部條件完全相同,這幾乎是不可能的。
hagerty 回複 悄悄話 按你的說法吸煙有害也無法從統計學上證明了。 吸煙的和不吸煙的人生活方式不會一摸一樣的。必須把他們關起來喂同樣的食物觀察二十年?
3227 回複 悄悄話 現在情況特殊吧
PrimeryColor 回複 悄悄話 隻要樣本是隨機的, 統計意義就成立。 樣本也不是越大越好。 以前統計沒有學好的幹活?
紅米2015 回複 悄悄話 That's why we need so many people in the 3rd stage. In average, the exposure should be the same for both groups. Actually the injection of real vaccine may cause some side effects which I doubt if the placebo will also cause. In this case some people in vaccine group may guess they got the real thing and take more risks in daily life.
笑薇. 回複 悄悄話 同意你的分析。條件不一致怎麽比較? 164 和44000 是依據什麽製定的? 體內產生的抗體濃度也可以反應疫苗的作用,是否有抗體依舊被感染的現象呢?這和那個所謂的特效藥是依據住院天數進行assessment 一樣不可靠。一個行政標準成了藥物對人體的作用的衡量標準。
零不是數 回複 悄悄話 另外一個問題是那個從一百多受感染人員中算出所謂有效率並沒有那麽多位的有效數位。
[1]
[2]
[尾頁]
登錄後才可評論.