鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
“unparalleled”、“invaluable”、“heighten”……
小心!這些詞可能會偷偷暴露你的論文是AI幫忙寫的,一年之內(nèi)14%使用LLM的生物醫(yī)學(xué)論文就是這樣被發(fā)現(xiàn)滴……
據(jù)Nature最新報道,研究發(fā)現(xiàn)在2024年PubMed上發(fā)表的150萬篇生物醫(yī)學(xué)研究摘要中,其中超過20萬篇都頻繁出現(xiàn)LLM特征詞。
這些詞匯大多都是多余的風(fēng)格性動詞和形容詞,只改變了文體,并不影響內(nèi)容。
在部分國家和學(xué)科中,AI輔助寫作的比例也已經(jīng)超過五分之一,而這一趨勢還在不斷上升。
與此同時,部分作者也注意到這點,開始引導(dǎo)LLM規(guī)避明顯的AI痕跡,這也讓我們現(xiàn)在難以得知LLM對學(xué)術(shù)產(chǎn)出的影響究竟有多深……
日益深化的LLM學(xué)術(shù)影響力
自從ChatGPT首次實現(xiàn)在學(xué)術(shù)領(lǐng)域生成接近人類水平的文本,許多作者開始將LLM融入日常寫作,甚至與LLM一起合作撰寫論文。
但雇傭LLM代筆,未必如想象中隱秘。
和人類作者一樣,LLM也喜歡在論文中留下自己獨特的寫作印記,雁過留痕,恰好這些也成為了發(fā)現(xiàn)LLM的途徑。
研究團隊從PubMed上下載了1400萬篇摘要(2010年-2024年),構(gòu)建詞匯出現(xiàn)的二元矩陣,計算每年詞匯頻率,并將實際頻率與預(yù)期頻率的差值δ和比值r作為衡量超額使用的指標。
實驗發(fā)現(xiàn),在2024年以前,類似“coronavirus” 的名詞被超額使用;2024年之后,則以“intricate”、“notably” 等與研究內(nèi)容無關(guān)的風(fēng)格詞為主,其中66%都是動詞(如 “delving”、“emphasizing”),16%為形容詞(如 “crucial”、“pivotal”)。
好家伙,原來LLM你小汁喜歡華麗風(fēng)哇,喜歡怎么夸張怎么來。
Σ( ° △ °|||)︴
例如,LLM喜歡醬紫:
- 通過仔細研究連接[…]和[…]的錯綜復(fù)雜的網(wǎng)絡(luò),本章深入探討了他們的參與作為[…]的重要風(fēng)險因素。
- 全面掌握[…]和[…]之間錯綜復(fù)雜的相互作用對于有效的治療策略至關(guān)重要。
- 最初,我們深入研究了[…]的復(fù)雜性,強調(diào)了它在細胞生理學(xué)中不可或缺的地位,控制其通量的酶迷宮,以及關(guān)鍵的[…]機制。
嘶,聽起來是不是相當(dāng)熟悉,現(xiàn)在人類寫作風(fēng)格也逐漸被LLM影響,打開一篇論文鋪天蓋地都是“深入研究了”、“極具潛力的”、“至關(guān)重要的”、“無與倫比的”……
部分詞匯的頻繁出現(xiàn),讓使用LLM的論文極易被察覺,通過將222個低頻風(fēng)格詞和10個高頻風(fēng)格詞組合計算,研究人員發(fā)現(xiàn)在2024年的論文中至少10%-11%的摘要中使用了LLM,部分子語料庫中這一比例甚至高達30%。
另外,研究還發(fā)現(xiàn),在不同學(xué)科、地域和期刊中LLM的使用也存在顯著差異。
在計算領(lǐng)域、生物信息學(xué)等學(xué)科中,由于行業(yè)技術(shù)日新月異,而研究者需要迅速掌握新技術(shù),依賴LLM協(xié)助,約占20%。
在中國、韓國等非英語國家中,由于需要LLM輔助英語寫作,LLM使用率可達15%,相比之下,像英國、澳大利亞等英語國家的LLM使用率相對較低。
一些低門檻的開放獲取期刊,如MDPI旗下的《Sensors》,LLM可達24%,而像《Nature》、《Science》等頂刊只有6%到8%,研究人員推測,可能是由于前者審稿流程相對簡化,而作者需要依賴LLM快速成文。
所以原來不知不覺,LLM已經(jīng)影響我們?nèi)绱酥睿?/p>
不夠透明的LLM使用
然而在2024年底,研究人員對arXiv已發(fā)表和已撤回的論文摘要再次進行統(tǒng)計分析,以月為單位計算詞匯頻率,并對每1萬篇摘要進行標準化處理。
研究發(fā)現(xiàn),一些像“delve”、“intricate” 這類已經(jīng)被明確指出是ChatGPT的常用詞匯,自2024年4月起使用頻率顯著下降。
而ChatGPT喜歡的另一些較為常見的詞匯,如“significant”、“additionally” ,使用率反而持續(xù)上升。
該現(xiàn)象表明,在使用LLM時,論文作者現(xiàn)在會主動調(diào)整輸出,避免使用典型的LLM特征詞,而一些常用詞因為本身普遍使用,且相關(guān)研究討論度較低,單獨出現(xiàn)也并不容易被發(fā)現(xiàn)。
這一點研究人員在實驗中也得以證明,他們分別通過以下兩種提示詞,讓GPT-4o-mini處理文本:
- 直接修改句子。
- 禁止使用LLM特征詞并修改句子。
對比原始文本和修改后的摘要,發(fā)現(xiàn)使用提示詞1后,LLM特征詞頻率上升,而使用提示詞2后,相關(guān)詞頻出現(xiàn)下降,不過并未完全消除,說明人為干預(yù)可以調(diào)整部分輸出,但無法完全規(guī)避。
再將原始摘要、LLM生成摘要、經(jīng)過提示詞修改后的摘要依次投入Binoculars這一MGT(機器生成文本)檢測器中。
與詞頻分析得出的結(jié)果不同,檢測器并未顯示出明顯的真實摘要和LLM生成摘要的得分差異,但提示詞處理確實會在一定程度上影響MGT檢測器的結(jié)果。
所以MGT檢測器也并非完全準確,準確度受不同LLM模型和文本類型影響,且作者們現(xiàn)在使用特定提示詞修改文本,都讓檢測器難以準確判斷論文與LLM關(guān)系。
但研究人員也表示,未來他們將通過統(tǒng)計大量文本中常見詞匯的頻率來進一步估計AI對學(xué)術(shù)文獻的影響,而不僅僅只針對單個短文本進行檢測。
總而言之,LLM在科研工作中的影響力日益增長的同時,也亟需逐步完善其在學(xué)術(shù)論文中占比的量化分析,如何更好地讓AI參與學(xué)術(shù)寫作、AI使用的邊界在哪里等等,這些問題也許都值得我們重新思考。
參考鏈接:
[1]https://www.nature.com/articles/d41586-025-02097-6
[2]https://www.science.org/doi/10.1126/sciadv.adt3813
[3]https://arxiv.org/abs/2502.09606
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.