溯源調查：200多個被刪早期新冠數據已恢複了13個…zt

大約一年前，來自武漢新冠早期病例的200多個病毒樣本的基因序列從一個在線科學數據庫中消失了。

現在，西雅圖的一位研究人員報告說，通過對存儲在穀歌雲上的文件進行分析，他已經恢複了其中的13個原始序列——這是一個有趣的新信息，可以用來識別病毒可能是何時，以及如何從蝙蝠或其他動物傳播到人類的。

周二發布的新分析支持了早些時候的說法，即在2019年12月與生鮮市場有關的最初疫情暴發之前，多種冠狀病毒可能已經在武漢傳播開來。

目前拜登政府正在調查這種名為SARS-CoV-2的病毒的有爭議來源。這項研究既沒有加強，也沒有否定病原體是從武漢一家著名實驗室泄露出來的假設。但它確實提出了一個問題，那就是原始序列為何被刪除，並表明可能有更多信息可以從互聯網的偏遠角落恢複。

沒有參與這項研究的亞利桑那大學(University of Arizona)進化生物學家邁克爾·伍羅貝(Michael Worobey)說：“這無疑是一項偉大的偵查工作，它大大推進了了解SARS-CoV-2起源的努力。”

撰寫這份新報告的弗雷德·哈欽森癌症研究中心(Fred Hutchinson Cancer Research Center)的病毒學家傑斯·布魯姆(Jesse Bloom)稱，這些序列被刪除是可疑的。他在文中寫道，“刪除這些序列似乎是為了掩蓋它們的存在，”該論文尚未經過同行評審或發表在科學期刊上。

布魯姆和伍羅貝屬於一個直言不諱的科學家團體，他們呼籲對大流行如何開始進行更多研究。在5月發表的一封信中，他們抱怨說，沒有足夠的信息來確定新冠病毒的傳播是由於實驗室泄漏，還是由於與實驗室外的受感染動物接觸，從而傳到人類身上。

病毒樣本的基因序列提供了關於SARS-CoV-2如何從另一種動物（很可能是蝙蝠）轉移到我們這個物種的關鍵線索。最寶貴的是大流行早期的序列，因為它們讓科學家更接近最初的溢出事件。

布魯姆在審查各個研究小組公布的基因數據時，看到了2020年3月的一項研究，其中包含武漢大學科學家收集的241個基因序列的信息。電子表格顯示，科學家們已經將這些序列上傳到一個名為“序列讀取檔案”(Sequence Read Archive)的在線數據庫中，該數據庫由美國政府的國家醫學圖書館(National Library of Medicine)管理。

但當布魯姆本月早些時候在數據庫中查找武漢的基因序列時，他得到的唯一結果是“項目未找到”。

他很困惑，回到電子表格中尋找更多的線索。它顯示，這241個序列是由武漢人民醫院一位名叫傅愛思（音）的科學家收集的。通過搜索醫學文獻，布魯姆最終發現了傅愛思及其同事於2020年3月在網上發布的另一項研究，該研究描述了一種針對SARS-CoV-2的新實驗測試。三個月後，中國科學家在一份科學雜誌上發表了這篇文章。

在這項研究中，科學家們寫道，他們觀察了45份鼻拭子樣本，這些樣本取自“疑似Covid-19流行初期的門診患者”。然後他們在棉簽中尋找部分SARS-CoV-2的遺傳物質。研究人員沒有公布他們從樣本中找到的基因的實際序列，隻公布了一些病毒的突變。

但是一些線索向布魯姆表明，這些樣本是241個丟失序列的來源。這些論文沒有解釋為什麽這些序列被上傳到序列讀取檔案後又消失了。

通過仔細研究檔案，布魯姆發現很多序列都以文件的形式存儲在穀歌雲上。他報告說，每個序列都包含在雲中的一個文件內，文件的名稱都有相同的基本格式。

布魯姆將武漢的一個遺失序列的編碼換了進去。突然，他得到了序列。他總共用這種方法從雲中恢複了13個序列。

有了這些新數據，布魯姆再次回顧了大流行的早期階段。他將這13個序列與其他已發表的早期冠狀病毒序列結合，希望在構建SARS-CoV-2病毒族譜方麵取得進展。

弄清SARS-CoV-2從蝙蝠病毒演化而來的所有步驟一直是一個挑戰，因為科學家需要研究的樣本數量仍然有限。一些最早的樣本來自2019年12月暴發疫情的武漢華南海鮮批發市場。

但這些市場上的病毒實際上有三種額外的突變，而這些突變在幾周後收集的SARS-CoV-2樣本中是缺失的。換句話說，這些後來的病毒看起來更像在蝙蝠身上發現的冠狀病毒，這支持了這種病毒的一些早期譜係沒有經過海鮮市場的觀點。

布魯姆發現，他從雲中恢複的被刪除序列也沒有這些額外的突變。“它們與蝙蝠冠狀病毒的相似度比華南海鮮市場的病毒高三倍，”布魯姆說。

2020年1月，武漢華南海鮮市場。 DAKE KANG/ASSOCIATED PRESS

他說，這表明當SARS-CoV-2進入市場時，它已經在武漢或其他地方傳播了一段時間。他認為，市場的病毒並不代表2019年底已經傳播開來的冠狀病毒的全部多樣性。

他說：“也許我們根據測序得出的情況和武漢早期存在的情況可能有些偏差。”

布魯姆在他的報告中承認，必須通過對病毒序列的更深入分析來證實這一結論。沃羅比說，他和他的同事正在對SARS-CoV-2基因進行大規模研究，以更好地了解其起源，他們現在將添加布魯姆恢複的13個病毒序列。

“這些額外的數據將在這項工作中發揮重要作用，”沃羅比說。

目前尚不清楚一開始為什麽這些寶貴的信息丟失了。科學家可以通過向序列讀取檔案的管理員發送電子郵件來請求刪除文件。管理該檔案的國家醫學圖書館表示，這13個序列是在去年夏天刪除的。

“這些SARS-CoV-2序列於2020年3月提交給SRA發表，隨後在2020年6月被提交它的調查人員要求撤回，”美國國立衛生研究院發言人雷納特·邁爾斯(Renate Myles)說。

她說，調查員——她未透露其姓名——告訴檔案管理員，序列正在更新，並將被添加到另一個數據庫中。但是布魯姆已經搜索了他知道的每一個數據庫，都沒有找到。“顯然，我不能排除這些序列在某個其他數據庫或網頁上的某個地方，但我無法在我該找的地方找到它們，”他說。

得出13個序列的該2020年實驗研究的合著者中，有三人沒有立即回複就布魯姆的發現發出的詢問電郵。該研究沒有提供另一位合著者傅愛思的聯係信息，他的名字也出現在另一項研究的電子表格中。

一些科學家覺得，刪除這些序列不見得就等於背後有什麽不可告人的事。猶他大學(University of Utah)病毒學家斯蒂芬·戈德斯坦(Stephen Goldstein)說：“我不太明白這怎麽就意味著掩蓋了。”

戈德斯坦指出，實驗研究列出了武漢研究人員在其中發現的個體突變。他說，雖然完整的序列不再在檔案中，但關鍵信息已經公開了一年多。它隻是被塞在一種研究人員難以找到的格式中。

“我們都錯過了這篇相對不為人知的論文，”戈德斯坦說。

“你真的說不好為什麽它們會被刪除，”布魯姆在接受采訪時承認。“你可以說移除它們的實際後果是人們沒有注意到它們的存在。”他還指出，中國政府下令銷毀一些早期病毒樣本，並禁止未經批準發表有關冠狀病毒的論文。

而對沃羅比來說，他仍然想要答案。“我希望我們聽到那些生成但隨後刪除這些關鍵序列的作者的意見，以便我們能夠更多地了解他們這樣做的動機，”他說。“從表麵上看，這確實很奇怪，確實需要一個解釋。”

不管這13個序列下落如何，布魯姆現在想知道在網上還能發現什麽樣的線索。為了重建Covid-19的起源，所有這些線索可能都很重要。

“理想情況下，我們需要嚐試找到盡可能多的其他早期序列，”他說。“而且我認為這項研究表明我們應該所有地方都看看。”

我的夢想