關於圍繞這一組數據的種種爭議,國際數據基因庫GISAID今天發布了一個聲明,除了證實更新數據確實會導致數據無法獲取之外,重點批評了一組國際學者在未經數據發布者同意情況下,搶先發表自己根據該數據進行的分析,表示這違反了數據庫的規定。
從技術上說,這涉及到論文所用數據應該何時公布於眾的問題。過去,數據一般是與論文的發表同步公布的。但現在很多論文先以預印本形式發在網上,那麽其中用到的數據該何時發布?如果也同步發布,其他人就可能搶先發表論文。為了防止這個問題,我覺得大家的共識是,你可以下載數據做分析,但應該等到原作者的論文發表之後,再發表自己的結果。如果原作者的論文最終未能發表,那麽你應該與原作者協商,爭取與對方合作,或獲得對方允許之後再發表。
但是這次的數據,是與新冠起源緊密相關的,涉及到全人類的安全,而不是一般的科研數據。作為中國CDC,有責任盡早向全球研究人員和衛生機構提供這些數據,而不應該斤斤計較於論文發表的先後。事實上這些數據早在去年6月初就上傳到GISAID了,但一直沒有公開。希望這些數據目前確實是因為更新而暫時不能獲取,而不是為了不讓別人先發表文章而隱藏起來。
https://gisaid.org/statements-clarifications/data-availability/
目前GISAID 裏有關 Environment 的有 11,655 個序列。但Debarre 文章附錄B中的序列是沒了。
我隨便選了個 EPI_ISL_13052310 是沒有。