導(dǎo)讀
近年來,大量低質(zhì)論文如潮水般涌向?qū)W術(shù)界,不斷侵蝕并挑戰(zhàn)科學(xué)研究的公信力。
助長該不良風(fēng)氣的是公共數(shù)據(jù)集與人工智能、論文工廠的“聯(lián)袂攜手”,讓學(xué)術(shù)出版業(yè)面臨更為嚴(yán)峻的造假危機(jī)。
英國薩里大學(xué)一名學(xué)者表示,“我每天都能收到許多幾乎一模一樣的論文,有時甚至一天兩篇”,“劣質(zhì)量研究的‘產(chǎn)業(yè)化’讓大量無用研究充斥文獻(xiàn),實在令人憤怒?!?/p>
01
學(xué)界之“哀”,大量相似論文充斥文獻(xiàn)
2024年,英國薩里大學(xué)統(tǒng)計學(xué)家、《科學(xué)報告》副主編Matt Spick在工作中覺察到詭異現(xiàn)象,大量看似出自同一模板的論文涌入期刊進(jìn)入同行評審。
他還發(fā)現(xiàn)這些論文大多基于美國同一個公開數(shù)據(jù)集——全國健康與營養(yǎng)檢查調(diào)查(NHANES)。該數(shù)據(jù)集通過健康檢查、血液檢測和訪談等方式,收集了超過 13 萬人的飲食信息及其他健康相關(guān)測量數(shù)據(jù)。
Spick無奈地表示:“我每天都能收到許多幾乎一模一樣的論文,有時甚至一天兩篇?!?/p>
Spick很快意識到,這并非個例,而是只是問題的冰山一角。他與同事在《公共科學(xué)圖書館·生物學(xué)》雜志上發(fā)表報告指出,近年來利用 NHANES 數(shù)據(jù)集的劣質(zhì)論文數(shù)量急劇增加。
其他研究人員也發(fā)現(xiàn),在基因研究、文獻(xiàn)計量學(xué)分析以及不同科學(xué)學(xué)科中的性別差異研究等多個領(lǐng)域,都存在類似現(xiàn)象。
02
千篇一律的“套路”
這些 NHANES 論文均遵循著相似的模式:首先選定一種健康狀況,再確定一個可能與之相關(guān)的環(huán)境或生理因素,最后指定一個人群群體。例如研究 65 歲以上男性維生素 D 水平與抑郁癥的關(guān)聯(lián),或分析 18 至 45 歲女性牙齒健康狀況與糖尿病的關(guān)系。
Spick感慨道:“感覺就像有人把所有可能的組合都研究了個遍。”
為了深入了解這類研究的泛濫程度,Spick及其團(tuán)隊在 PubMed 和 Scopus 兩大科學(xué)論文數(shù)據(jù)集中展開搜索,尋找使用 NHANES 數(shù)據(jù)研究單一關(guān)聯(lián)的論文。
結(jié)果顯示,共有 341 篇此類論文發(fā)表在 147 種期刊上,包括《科學(xué)報告》《BMC 公共衛(wèi)生》和《英國醫(yī)學(xué)雜志·開放版》等。2014 年至 2021 年期間,平均每年僅發(fā)表 4 篇此類論文。
然而自 2022 年起,數(shù)量急劇攀升,截至 2024 年 10 月研究團(tuán)隊搜索時,當(dāng)年已發(fā)表 190 篇。這一增長速度遠(yuǎn)遠(yuǎn)超過了使用大型數(shù)據(jù)集進(jìn)行健康研究的總體增長速度,暗示 NHANES 研究數(shù)量激增背后存在其他因素。
03
人工智能與論文工廠或是“幕后推手”
Spick認(rèn)為這背后極有可能是以營利為目的的論文工廠在作祟,同時 AI也起到了推波助瀾的作用,不斷生成文本為論文造假提供了便利。
悉尼大學(xué)分子生物學(xué)家、此次《公共科學(xué)圖書館·生物學(xué)》論文的同行評審員Jennifer Byrne認(rèn)為,人工智能可能被用于不斷改寫相同的 NHANES 研究結(jié)果,以逃避抄襲檢測。
Byrne也表示,“論文數(shù)量的激增速度和規(guī)模,讓人不得不懷疑背后存在某種協(xié)調(diào)機(jī)制”。
許多近期發(fā)表的 NHANES 研究在數(shù)據(jù)分析上存在明顯問題,作者往往在沒有明確理由的情況下,對數(shù)據(jù)集進(jìn)行選擇性分析。例如僅對特定年份或特定年齡段的人群進(jìn)行分析。
Spick認(rèn)為,這表明作者旨在尋找具有統(tǒng)計學(xué)顯著性的結(jié)果,以便輕松發(fā)表論文。然而,在如此龐大的數(shù)據(jù)集中“碰運氣”,必然會產(chǎn)生大量假陽性結(jié)果。研究團(tuán)隊對 28 項探討抑郁癥的 NHANES 研究進(jìn)行深入分析后發(fā)現(xiàn),僅有 13 項研究的結(jié)果在經(jīng)過統(tǒng)計調(diào)整后依然成立。
Spick及其團(tuán)隊認(rèn)為,他們的分析可能大大低估了問題的嚴(yán)重性。他們的搜索僅針對符合特定模式的 NHANES 研究,而更廣泛的搜索顯示,使用該數(shù)據(jù)集的論文數(shù)量從2023 年的 4926 篇增加到 2024 年的 7876 篇。Spick還指出,其他大型健康數(shù)據(jù)集,如全球疾病負(fù)擔(dān)研究,也可能面臨類似風(fēng)險?!傲淤|(zhì)量研究的‘產(chǎn)業(yè)化’讓大量無用研究充斥文獻(xiàn),實在令人憤怒?!?/p>
Richardson指出:“文章中提到的所有出版商都收取了費用,每篇論文的收費可能高達(dá) 1000 美元左右,以發(fā)表這些劣質(zhì)量內(nèi)容?!?此外,研究人員為了職業(yè)發(fā)展,往往更傾向于發(fā)表更多論文,而非追求更高質(zhì)量的論文。Richardson警告說:“除非我們從根本上改變科學(xué)出版的激勵機(jī)制,否則這一問題只會愈發(fā)嚴(yán)重?!?/p>
參考資料
Low-quality papers are surging by exploiting public data sets and AI
https://www.science.org/content/article/low-quality-papers-are-surging-exploiting-public-data-sets-and-ai
識別微信二維碼,添加生物制品圈小編,符合條件者即可加入
生物制品微信群!
請注明:姓名+研究方向!
本公眾號所有轉(zhuǎn)載文章系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉(zhuǎn)載的媒體或個人可與我們聯(lián)系(cbplib@163.com),我們將立即進(jìn)行刪除處理。所有文章僅代表作者觀點,不代表本站立場。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.