題圖|Science
撰文 | 宋文法
近日,Science在其新聞專欄Science Insider上報道了一篇題為"Low-quality papers are surging by exploiting public data sets and AI"的文章。
文章顯示,2022年后,使用美國國家健康和營養檢查調查(NHANES)數據庫發表的低質量論文數量急劇增加,2021年后發表的論文中,92%的第一作者隸屬于中國機構,而2021年之前,這一數據只有8%。
文章還指出,這些論文高度相似,可能是由“論文工廠”利用人工智能(AI)生成的文本制造的,表明大型公共衛生數據庫很容易被濫用。
圖:Science官網截圖
去年,Scientific Reports期刊副主編(Matt Spick)注意到,大量NHANES數據集的論文涌入同行評審,這些論文高度相似,可能是由所謂的“論文工廠”利用AI生成的文本制造的。
Matt Spick表示,這些論文的形式極為相似,先選定一種健康狀況以及與之可能相關的環境或生理因素,再確定特定人群,然后通過簡單的變量替換來生成新的論文,類似于在“研究填空”的游戲中創造出新的“發現”。
此外,其他一系列主題中也發現了類似的爆炸式增長,包括遺傳學研究、文獻計量學、性別差異研究等。
Matt Spick團隊在PubMed、Scopus中搜索了使用NHANES數據研究單一關聯的研究,找到了341篇遵循上述“套路”的論文,它們發表在147種期刊上。
從發文時間上來看,在2014-2021年期間,平均每年發表4篇此類論文,但2022年以后,此類論文數量激增,截至2024年10月已發表190篇。
Matt Spick團隊還發現,近期的NHANES論文大多由中國研究人員撰寫,2021年后發表的論文中,92%的第一作者隸屬于中國機構,而2021年之前,這一數據只有8%。
Matt Spick表示,中國科研人員面臨的壓力和激勵機制,為“論文工廠”提供了機會,這也表明可能存在論文工廠的參與。
Springer Nature科研誠信主管表示,該出版商已經撤回了多篇NHANES論文,審查仍在進行中,并要求編輯們審查時保持警惕。
Matt Spick表示,低質量研究的“工業化”導致大量無用的研究成果充斥著文獻,其他大型健康數據集也可能存在類似的情況。
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
助力醫學研究高質量發展,推動醫療科技創新轉化!
研究設計|課題申報|數據挖掘|統計分析
生信分析|選題指導|寫作指導|評審指導
選刊投稿指導|研究項目指導|定制化培訓
定制化研究設計|真實世界研究(RWS)實施
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.