5月14日,Science《科學》在其線上新聞專欄Science Insider報道了一項令人震驚的研究發現:近3年來,利用美國健康與營養調查(NHANES)等公開數據庫發表的低質量論文數量激增,其中超過92%的論文由中國研究人員貢獻。這一現象被認為與“論文工廠”和人工智能(AI)技術的濫用密切相關。
這些論文的形式極為相似:先選定一種健康狀況以及與之可能相關的環境或生理因素,再確定特定人群,隨後圍繞這些要素迅速形成一篇論文。Scientific Reports副主編Matt Spick稱,“我收到了太多幾乎一模一樣的論文——每天一篇,有時甚至每天兩篇,”“感覺每一種可能的組合都有人在研究”。

Matt Spick團隊在PubMed、Scopus這兩個論文數據庫的147種期刊中,找到了341篇遵循上述“套路”的論文,不過這些論文的時間分布有明顯區別。2014年到2021年期間,平均每年僅有4篇相關論文。但從2022年起這類論文發表量激增,截至2024年10月,論文研究團隊關注的期刊上共發表了190篇相關論文。
Spick團隊的報告指出,近年來基於NHANES數據庫的低質論文泛濫,可能是“論文工廠”的運作、人工智能生成文本的濫用以及大型公共數據庫的成熟共同促成的。
此外,Spick團隊還發現,近期發表的使用NHANES數據的論文,大多出自中國研究人員之手。在2021年之後發表的這類論文中,有92%的論文第一作者來自中國機構,而在2021年之前的論文中,這一比例僅為8%。Spick分析稱,中國科研人員所麵臨的壓力和激勵機製,為“論文工廠”提供了機會。

西北大學的Reese Richardson表示,其他研究人員在一些課題中也發現了類似現象,"這種免費數據源讓幾乎任何人都可以采用已知的研究方法,然後換上新的變量,以一種‘瘋狂研究’的姿態創造出新的‘發現’。”目前已有出版商撤回了部分涉及NHANES數據的問題論文,並表示將加強審查。
Richardson指出,這些論文反映出科學出版和研究獎勵方式中存在的普遍問題。“文中提及的所有出版商都收取了這類論文的發表費用,每家可能在1000美元左右。”他補充道,研究人員為了自身職業發展,往往選擇發表更多的論文而不是更高質量的論文。他警告說,“除非我們從根本上調整科學發表的激勵機製,否則問題隻會越來越嚴重。”