新智元報道
編輯:犀牛
【新智元導讀】當學術研究淪為「填空游戲」,利用美國NHANES公共數據集,結合AI工具如ChatGPT,研究者通過套用模板、排列變量,批量生產看似精美卻質量堪憂的論文。背后不僅是技術的濫用,更是科研評價體系扭曲的縮影。
假如你是一位科研期刊的編輯,每天打開郵箱,迎接的卻是一堆似曾相識的論文。
它們主題各異,數據整齊,措辭流暢,但總有種讓人不安的「模板感」。
這可不是一個瞎編的場景,而是2024年發生在《Scientific Reports》編輯Matt Spick身上的真實經歷。
作為英國薩里大學的統計學家,他發現大量論文像流水線產品般涌來,全部基于美國國家健康與營養檢查調查(NHANES)這一公共數據集。
「我收到的幾乎一模一樣的論文太多了,有時一天一篇,有時兩天三篇,」Spick無奈地說,「這不太對勁」。
近日,Science網站的一篇文章詳細詳細描述了這個事實。
文章地址:https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
Spick發現,他所在期刊遇到的問題只是冰山一角。
這些論文并非孤立現象,而是席卷全球學術界的一場「科研填空游戲」。
上周,他與同事在《PLOS Biology》雜志上發表的研究指出,近年來,使用NHANES的低質量論文數量激增。
論文地址:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003152
NHANES的「魔力」與「陷阱」
NHANES是一個龐大的公共數據集,涵蓋了超過13萬人的健康檢查、血液檢測和飲食信息。
它的開放性讓研究者可以輕松挖掘數據,探索健康與疾病的關系。
然而,這種便利也成了雙刃劍。
Spick發現,這些NHANES論文遵循一個簡單的「公式」:選擇一種健康狀況(比如抑郁癥)、一個可能相關的環境或生理因素(比如維生素D水平),再限定一個人群(比如65歲以上男性)。通過排列組合,研究者能迅速生成「新發現」。
「感覺好像所有可能的組合都被人研究過了」Spick說。
西北大學的元科學家Reese Richardson將其形象地稱之為「科研填空游戲」。
他提到,其他研究者在不少領域也發現了類似的「爆發式增長」,比如基因研究、文獻計量分析,還有不同科學學科里的性別差異研究。
為了量化這一現象,Spick團隊在PubMed和Scopus兩大數據庫中搜索基于NHANES的單變量關聯研究。
他們在147種期刊中發現了341篇這樣的論文,包括《Scientific Reports》、《BMC Public Health》及《BMJ Open》。
結果令人震驚:2014年至2021年,這類論文年均僅4篇,但2022年起數量激增,2024年截至10月已達190篇,遠超其他大型健康數據集研究的增長速度。
更令人擔憂的是,其中的許多論文選擇性地分析數據,比如只用某些年份或年齡段的數據,缺乏明確理由。
這背后往往是「p值狩獵」——通過反復嘗試找到統計上顯著的結果,哪怕這些結果可能是虛假的。
以抑郁癥相關研究為例,Spick團隊分析了28篇NHANES論文,發現在對多重檢驗結果進行假發現率(FDR)校正后,僅有 13 項關聯仍保持統計學顯著性。
這意味著一半以上的「發現」可能是統計噪聲,而非真相。
Spick和他的團隊甚至認為,他們的分析可能還大大低估了問題的嚴重性。
他們的搜索只針對符合Spick模式的NHANES研究,更廣泛的搜索發現,使用NHANES數據集的論文從2023年的4926篇激增到2024年的7876篇。
Spick還指出,其他大型健康數據集,比如全球疾病負擔研究,同樣可能存在類似漏洞。
AI與論文工廠的「共謀」
為什么NHANES論文會在2022年后井噴?
答案指向了一個時間點:AI工具如ChatGPT的廣泛普及。
這些工具能根據簡單指令生成流暢文本,甚至通過改寫來逃避抄襲檢測。
悉尼大學的分子生物學家Jennifer Byrne在審稿時指出,這種論文的「規模和時機」讓人懷疑背后有協調運作,論文工廠(paper mills)可能是幕后推手。
論文工廠是專門出售論文署名權的商業機構。它們利用AI快速生成論文框架,再結合NHANES等公共數據集的便利性,生產出看似合法的論文。
Spick團隊甚至編寫了一段簡單的Python代碼,就能從NHANES中提取數據并「批量生成」疾病與健康變量的組合。
這種「工業化」生產模式讓低質量論文如洪水般涌入學術期刊。
「老實說,這讓我氣得跳腳。」Spick表示。
哲學家Hannah Arendt曾提出「平庸之惡」的概念,形容那些在體制下機械執行惡行的行為。
今天的論文工廠何嘗不是一種「平庸之惡」?它們未必有意破壞科學,但機械化的論文生產,悄然侵蝕了學術的根基。
扭曲之鏡
這場「科研填空游戲」的根源不僅在于技術和數據,還在于學術生態的扭曲。
Richardson一針見血地指出:「所有被點名的期刊都收取了約1000美元的發表費用,來刊登這些垃圾論文。」
開放獲取期刊(如《PLOS Biology》)通過作者付費實現免費閱讀,但這也讓一些期刊更看重數量而非質量。
更深層的問題是科研評價體系。
許多高校和機構以論文數量作為晉升和資助的主要標準,而非論文的質量或影響力。
在「發表即成功」的文化下,研究者只能制造出更多論文,哪怕這些論文毫無意義。
但當科研變成填空游戲,研究者很難從中找到意義。相反,他們被困在一個循環中:不斷生產「成果」,即使這些成果可能只是學術垃圾。
當論文成為KPI,科學便從探索真理淪為數字游戲。
破局之道
這場危機并非無解。
Spick建議,期刊應加強對NHANES等公共數據集論文的審查,比如要求作者明確數據選擇的理由,并進行更嚴格的統計校正。Byrne則呼吁開發更智能的檢測工具,以識別AI生成的文本。
更根本的改變需要重塑學術激勵機制。
Richardson警告:「除非我們徹底改革科研發表的激勵模式,否則問題只會更糟」。
這場「科研填空游戲」更像是一面鏡子,映照出技術進步與學術倫理的碰撞。
AI和公共數據集本應是科學的加速器,卻在扭曲的激勵下成了垃圾論文的溫床。
參考資料:
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.