新智元報道
編輯:編輯部
【新智元導讀】大數據已經能聞出AI味兒了!最近,一份席卷生物醫學圈的報告發出警告:如果你論文里高頻出現delves、underscores等454個特定詞匯,就要小心了——這很可能就是AI留下的「指紋」。
如果你在一篇論文里看到下面這454個詞,就要小心了。
它,很可能是AI寫的。
正所謂:勇敢的人先享受世界。
一些科學家早早就在投稿給期刊的論文中用上了AI,并且率先享受到了潑天的發表數量。
甚至有些人用6個月,就成為了一個全領域「專家」——投稿給各類專業期刊的letter和comment,方向包括但不限于心臟病學、急診醫學、內分泌學、胃腸病學、肝病學、免疫學、重癥監護醫學、精神病學、外科學、泌尿學等等……
不過,即便他們十分小心地刪除了「我是一個大語言模型」等一眼假的內容,也依然會留下大肆使用AI的蛛絲馬跡。
來自圖賓根大學的Dmitry Kobak團隊表示,他們找到了一種方法追蹤AI寫作論文摘要的頻率。
論文鏈接:https://www.science.org/doi/10.1126/sciadv.adt3813
他們發現,AI特別愛用一些詞,比如「深入探討」(delves)「關鍵的」(crucial)「潛在的」(potential)「顯著的」(significant)「重要的」(important),比人類作者用得勤多了。
具體來說,研究人員分析了2010-2024年間,1510萬篇生物醫學摘要的用詞,注意到一些詞的出現頻率蹭蹭上漲。
2024年,他們發現有454個詞,AI用得特別多。
Kobak團隊估算,至少13.5%的生物醫學摘要有AI幫忙的痕跡。在一些國家,不太挑剔的期刊摘要,高達40%可能是AI搞定的。
看到如此多AI撰寫的摘要令他感到驚訝。他表示,摘要可是論文結論的精華總結,很多人就只看這一塊。
「這么重要的內容,居然讓AI寫?簡直難以想象。」Kobak特別聲明,他們自己的論文沒用AI。
13.5%?還是太保守了!
研究人員分析了2010-2024年這14年間,發表在PubMed上的1510萬篇英文摘要。
結果發現,2023年以后,很多詞匯出現的頻率顯著增加。
比如「深入探究」(delves)這個詞,2022年之前每年出現次數穩定在幾千次,2024年卻暴增28倍;「展示」(showcasing)的使用頻率也翻了10倍以上。
為了能更好地量化這個增長趨勢。研究人員,基于2021和2022年詞頻的線性外推計算了2024年反事實預期頻率。
為衡量超額使用情況,有兩個關鍵指標:超額頻率差δ=p?q和超額頻率比r=p/q。
前者主要突出高頻詞的超額使用情況,后者則指向低頻詞的超額使用。
為什么這些詞能暴露AI痕跡?因為它們大多是不涉及具體科研內容的「風格詞」。
研究員利用以上方法,分析了兩萬六千多個詞,發現2024年,有些詞簡直被用爛了。
比如一些顯得很專業但有點套路化的表達,像delves (深入研究)、underscores (強調) 和 showcasing (展示),出鏡率高得嚇人。
還有一些老熟人,比如potential (潛力)、findings (發現) 和 crucial (至關重要),也成了重災區。
如果AI寫的論文里,每10篇就有1篇會用「potential」這個詞,而正常寫作中100篇才出現1次,那么「potential」的超額頻率是9%,這就意味著至少9%的論文用過AI。
但科學家找了291個這樣的稀有風格詞,把它們的影響疊加起來,才得到13.5%這個保守值。
AI參與度高達41%!
來自非英語國家、發在某些「不知名」期刊(如MDPI、Sensors)的論文,最有可能帶著一股濃濃的AI寫作腔。
計算生物學研究者最敢用AI,估計有20%的論文摘要經過AI處理,而傳統臨床領域不到5%。
非英語國家的論文中,AI使用率接近20%,英語國家只有5%左右。
最夸張的是發表在Sensors上的深度學習論文,AI使用率估計有41%。這可能和出版周期和審稿嚴格程度有關。
頂刊審稿嚴、周期長,AI痕跡有更多時間被修改掉,而快審期刊更有可能保留原始AI寫作風格。
亞利桑那州立大學計算機教授Subbarao Kambhampati表示,科學家知道AI偏好某些詞語,盡管原因還不清楚。
他說,一些科學家故意避免使用像「深入探討」(delve)這樣的詞,以免被懷疑用AI寫作。
但也有些人壓根不在乎被抓包。
Kambhampati舉例,放射學期刊的病例報告里居然寫著:「抱歉,我是AI模型,沒法訪問實時信息或患者數據。」
AI寫的letter,該不該發?
Science最近詢問了超過5000名研究人員,何時能接受用AI撰寫論文,結果大家意見不一。
是撰寫摘要、整篇論文,還是編輯、總結,對于不同的情況,大家看法也不同。
有人抱怨:「上周我讓ChatGPT寫綜述,它居然編造了一個不存在的研究結論。」
這正是科學界最擔心的問題。
AI會一本正經地胡說八道。比如讓AI總結某領域進展,它可能會把相似研究的結論嫁接過來,甚至虛構數據。
如果訓練數據里某類研究占比高,AI會進一步強化這種偏見。
當大家都用AI寫作,論文的語言風格會越來越像,甚至連討論部分的邏輯框架都趨同,這會扼殺創新思維。
斯坦福AI醫學教育主任Dr. Jonathan H. Chen表示:「現在一切都很模糊。我們處于灰色地帶,像是西部荒野。」
這引發了一個問題:要是投稿完全是AI寫的,沒有人類作者,期刊該不該直接拒搞?
斯坦福精神病學與行為科學教授Keith Humphreys表示,他曾被Addiction期刊的一封letter欺騙。
Letter中評論了一篇剛發的論文,寫得挺有道理。按照慣例,他把letter轉給了論文作者,讓他們回復。
論文作者卻說壓根沒聽說過此人,并表示學術圈子不大,沒人認識這號人。
他們搜索了letter作者的出版記錄,發現了大量出版物,全是各種期刊的讀者letter和comment,涵蓋心臟病學、急診、內分泌學、胃腸病學、肝病學、免疫學、重癥監護、精神病學、外科和泌尿學等多個領域。
「這些全是在六個月內完成的,他精通每個領域。」Humphreys說。
這八成是把期刊文章丟給AI,讓它生成給編輯的letter。他猜想,作者可能是學術崗位,工資跟發表量掛鉤。
于是,他回復letter作者,如果使用了AI,必須聲明。
作者沒有回復。
Humphreys也沒有發表這封letter。
但問題是,letter寫得不錯,也不是傳統意義上的欺詐。
但同事認為,既然現在每個人都有聊天機器人,為什么要發表它們寫的東西?任何想看此類分析的人都可以自己生成一個。
Humphreys認為,AI生成的社論可能還挺有洞見。
但同事的一句話點醒了他:「我關心一篇社論的原因是署名。頂尖學者敢冒職業風險,敢說刺耳或不受歡迎的話。」
Humphreys深以為然:「AI沒有意義,也沒有聲譽,我對它沒有信任,它不具備道德價值。」
當AI開始代筆,我們更需要思考:什么才是科研寫作不可替代的核心?
或許不是華麗的辭藻,而是對科學問題的深刻洞察,以及那份探索未知的真誠。
參考資料:
https://www.science.org/doi/10.1126/sciadv.adt3813
https://www.nytimes.com/2025/07/02/health/ai-chatgpt-research-papers.html
https://www.nature.com/articles/d41586-025-01463-8
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.