網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

14%論文都有AI代寫？Nature：每7篇就有1篇藏有ChatGPT特征詞

2025-07-04 15:49:13　來源: 量子位

北京舉報

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

“unparalleled”、“invaluable”、“heighten”……

小心！這些詞可能會偷偷暴露你的論文是AI幫忙寫的，一年之內(nèi)14%使用LLM的生物醫(yī)學(xué)論文就是這樣被發(fā)現(xiàn)滴……

據(jù)Nature最新報道，研究發(fā)現(xiàn)在2024年PubMed上發(fā)表的150萬篇生物醫(yī)學(xué)研究摘要中，其中超過20萬篇都頻繁出現(xiàn)LLM特征詞。

這些詞匯大多都是多余的風(fēng)格性動詞和形容詞，只改變了文體，并不影響內(nèi)容。

在部分國家和學(xué)科中，AI輔助寫作的比例也已經(jīng)超過五分之一，而這一趨勢還在不斷上升。

與此同時，部分作者也注意到這點，開始引導(dǎo)LLM規(guī)避明顯的AI痕跡，這也讓我們現(xiàn)在難以得知LLM對學(xué)術(shù)產(chǎn)出的影響究竟有多深……

日益深化的LLM學(xué)術(shù)影響力

自從ChatGPT首次實現(xiàn)在學(xué)術(shù)領(lǐng)域生成接近人類水平的文本，許多作者開始將LLM融入日常寫作，甚至與LLM一起合作撰寫論文。

但雇傭LLM代筆，未必如想象中隱秘。

和人類作者一樣，LLM也喜歡在論文中留下自己獨特的寫作印記，雁過留痕，恰好這些也成為了發(fā)現(xiàn)LLM的途徑。

研究團隊從PubMed上下載了1400萬篇摘要（2010年-2024年），構(gòu)建詞匯出現(xiàn)的二元矩陣，計算每年詞匯頻率，并將實際頻率與預(yù)期頻率的差值δ和比值r作為衡量超額使用的指標。

實驗發(fā)現(xiàn)，在2024年以前，類似“coronavirus” 的名詞被超額使用；2024年之后，則以“intricate”、“notably” 等與研究內(nèi)容無關(guān)的風(fēng)格詞為主，其中66%都是動詞（如 “delving”、“emphasizing”），16%為形容詞（如 “crucial”、“pivotal”）。

好家伙，原來LLM你小汁喜歡華麗風(fēng)哇，喜歡怎么夸張怎么來。

Σ( ° △ °|||)︴

例如，LLM喜歡醬紫：

通過仔細研究連接[…]和[…]的錯綜復(fù)雜的網(wǎng)絡(luò)，本章深入探討了他們的參與作為[…]的重要風(fēng)險因素。
全面掌握[…]和[…]之間錯綜復(fù)雜的相互作用對于有效的治療策略至關(guān)重要。
最初，我們深入研究了[…]的復(fù)雜性，強調(diào)了它在細胞生理學(xué)中不可或缺的地位，控制其通量的酶迷宮，以及關(guān)鍵的[…]機制。

嘶，聽起來是不是相當(dāng)熟悉，現(xiàn)在人類寫作風(fēng)格也逐漸被LLM影響，打開一篇論文鋪天蓋地都是“深入研究了”、“極具潛力的”、“至關(guān)重要的”、“無與倫比的”……

部分詞匯的頻繁出現(xiàn)，讓使用LLM的論文極易被察覺，通過將222個低頻風(fēng)格詞和10個高頻風(fēng)格詞組合計算，研究人員發(fā)現(xiàn)在2024年的論文中至少10%-11%的摘要中使用了LLM，部分子語料庫中這一比例甚至高達30%。

另外，研究還發(fā)現(xiàn)，在不同學(xué)科、地域和期刊中LLM的使用也存在顯著差異。

在計算領(lǐng)域、生物信息學(xué)等學(xué)科中，由于行業(yè)技術(shù)日新月異，而研究者需要迅速掌握新技術(shù)，依賴LLM協(xié)助，約占20%。

在中國、韓國等非英語國家中，由于需要LLM輔助英語寫作，LLM使用率可達15%，相比之下，像英國、澳大利亞等英語國家的LLM使用率相對較低。

一些低門檻的開放獲取期刊，如MDPI旗下的《Sensors》，LLM可達24%，而像《Nature》、《Science》等頂刊只有6%到8%，研究人員推測，可能是由于前者審稿流程相對簡化，而作者需要依賴LLM快速成文。

所以原來不知不覺，LLM已經(jīng)影響我們?nèi)绱酥睿?/p>

不夠透明的LLM使用

然而在2024年底，研究人員對arXiv已發(fā)表和已撤回的論文摘要再次進行統(tǒng)計分析，以月為單位計算詞匯頻率，并對每1萬篇摘要進行標準化處理。

研究發(fā)現(xiàn)，一些像“delve”、“intricate” 這類已經(jīng)被明確指出是ChatGPT的常用詞匯，自2024年4月起使用頻率顯著下降。

而ChatGPT喜歡的另一些較為常見的詞匯，如“significant”、“additionally” ，使用率反而持續(xù)上升。

該現(xiàn)象表明，在使用LLM時，論文作者現(xiàn)在會主動調(diào)整輸出，避免使用典型的LLM特征詞，而一些常用詞因為本身普遍使用，且相關(guān)研究討論度較低，單獨出現(xiàn)也并不容易被發(fā)現(xiàn)。

這一點研究人員在實驗中也得以證明，他們分別通過以下兩種提示詞，讓GPT-4o-mini處理文本：

直接修改句子。
禁止使用LLM特征詞并修改句子。

對比原始文本和修改后的摘要，發(fā)現(xiàn)使用提示詞1后，LLM特征詞頻率上升，而使用提示詞2后，相關(guān)詞頻出現(xiàn)下降，不過并未完全消除，說明人為干預(yù)可以調(diào)整部分輸出，但無法完全規(guī)避。

再將原始摘要、LLM生成摘要、經(jīng)過提示詞修改后的摘要依次投入Binoculars這一MGT（機器生成文本）檢測器中。

與詞頻分析得出的結(jié)果不同，檢測器并未顯示出明顯的真實摘要和LLM生成摘要的得分差異，但提示詞處理確實會在一定程度上影響MGT檢測器的結(jié)果。

所以MGT檢測器也并非完全準確，準確度受不同LLM模型和文本類型影響，且作者們現(xiàn)在使用特定提示詞修改文本，都讓檢測器難以準確判斷論文與LLM關(guān)系。

但研究人員也表示，未來他們將通過統(tǒng)計大量文本中常見詞匯的頻率來進一步估計AI對學(xué)術(shù)文獻的影響，而不僅僅只針對單個短文本進行檢測。

總而言之，LLM在科研工作中的影響力日益增長的同時，也亟需逐步完善其在學(xué)術(shù)論文中占比的量化分析，如何更好地讓AI參與學(xué)術(shù)寫作、AI使用的邊界在哪里等等，這些問題也許都值得我們重新思考。

參考鏈接：
[1]https://www.nature.com/articles/d41586-025-02097-6
[2]https://www.science.org/doi/10.1126/sciadv.adt3813
[3]https://arxiv.org/abs/2502.09606

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.