網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

只因一個“：”，大模型全軍覆沒

2025-07-15 17:03:44　來源: 量子位

北京舉報

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

一個冒號，竟然讓大模型集體翻車？

明明應(yīng)該被攔下來的虛假回答，結(jié)果LLM通通開綠燈。

該發(fā)現(xiàn)來自一篇名叫“一個token就能欺騙LLM”的論文。

不僅如此，除了冒號、空格這類符號，還有諸如此類的推理開頭語：“Thought process：”、“解”，也是輕松通過。

好家伙，原來一個“解”字，數(shù)學(xué)考試能得分，LLM也會被騙到……

而且這一波是沖著所有通用LLM來的，GPT-4o、Claude-4、LLaMA3-70B通通被斬于馬下。

那咋辦？bug有了，來自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)的研究人員就開始哼哧哼哧解bug。

用增強數(shù)據(jù)集訓(xùn)練出一個靠譜的“評委”模型Master-RM，被騙概率直接無限接近0，正常評估能力還能不受影響。

具體什么情況，咱且接著往下看。

一把能欺騙LLM的“萬能鑰匙”

近來，利用LLM充當(dāng)評判工具，在帶可驗證獎勵的強化學(xué)習(xí)（RLVR）中評估答案質(zhì)量的場景愈加普遍。

LLM評判模型通過比對生成的候選答案與參考答案，輸出二元獎勵信號，從而指導(dǎo)策略模型更新。

然而研究發(fā)現(xiàn)，LLM“崩潰”了？

響應(yīng)長度不僅銳減至30 tokens以下，一些意義不大的語句或文字符號，卻從LLM處騙得了假陽性獎勵，也就是打開LLM后門的一把“萬能鑰匙”。

這把能誘導(dǎo)LLM評判模型產(chǎn)生假陽性判斷的“萬能鑰匙”可分為兩類：

非文字符號：如空格、“.”、“,”、“：”。
推理開頭語：如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等，僅表示推理開始但并沒有實質(zhì)內(nèi)容。

同時為了進一步研究這種“獎勵模型欺騙”現(xiàn)象是否存在普遍性，研究人員在多數(shù)據(jù)集、提示詞格式上對各種LLM均進行了系統(tǒng)性評估。

實驗分別選取兩類模型，分別是專用生成式獎勵模型（如Multi-sub RM、Omni-Judge），以及通用LLM（如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等）。

專用模型使用默認(rèn)提示，而通用LLM采用標(biāo)準(zhǔn)化提示模板。

然后選擇10種可觸發(fā)假陽性的對抗性響應(yīng)，包括非文字符號（如空格、“:”）和多語言推理開頭語（如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”）。

另外為了測試模型跨領(lǐng)域的穩(wěn)健性，實驗涵蓋通用推理和數(shù)學(xué)推理的共5個推理基準(zhǔn)。

實驗結(jié)果表明，所有測試模型無一幸免，全部都會觸發(fā)假陽性響應(yīng)。

例如GPT-4o對符號 “:” 的假陽性率（FPR）可達35%，LLaMA3-70B對 “Thought process:” 的FPR甚至高達60%-90%，專有模型General-Verifier在MATH數(shù)據(jù)集上對空格的FPR也達66.8%。

另外，不同語言也不會影響這種欺騙現(xiàn)象的出現(xiàn)，無論是中文還是日語，都同樣能夠誘發(fā)高FPR，該漏洞具有跨語言的普遍性。

研究人員還分析了0.5B至72B的Qwen2.5-Instruct系列模型，發(fā)現(xiàn)：

0.5B模型：依賴字面匹配，F(xiàn)PR低但與GPT-4o一致性差；
1.5B-3B模型：能檢測語義相似性但缺乏精細(xì)驗證，F(xiàn)PR驟升；
7B-14B模型：平衡驗證能力與謹(jǐn)慎性，F(xiàn)PR最低且一致性高；
32B-72B模型：因為更傾向于自己解題而非對比響應(yīng)與參考答案，F(xiàn)PR再次上升。

所以模型的大小與FPR之間并非完全的單調(diào)關(guān)系，不是模型越大就越不容易被騙。

如果想通過一些推理時的技巧來減少這種漏洞，效果也不太穩(wěn)定，還得看具體模型和應(yīng)用場景。

此外，研究人員還發(fā)現(xiàn)，這種bug還能無限繁殖……

只需要基于all-MiniLM-L6-v2編碼器進行嵌入相似度搜索，從大規(guī)模語料中自動生成與已知 “萬能鑰匙” 相似的新對抗性響應(yīng)，新的“萬能鑰匙”就能同樣產(chǎn)生出高水平FPR。

實驗最終說明生成式獎勵模型其實存在一個相當(dāng)關(guān)鍵的核心機制漏洞：原本用于過濾無效或錯誤答案的驗證器，容易被無關(guān)緊要的表面內(nèi)容操縱，從而產(chǎn)生假陽性結(jié)果。

這對任何依賴驗證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。

一個不會被騙的“評委”模型

為了緩解“萬能鑰匙”的影響，研究人員專門構(gòu)建了新的“評委”模型Master-RM（Master Reward Model）。

首先從原始的16萬條訓(xùn)練數(shù)據(jù)中隨機采樣2萬條，用GPT-4o-mini生成帶推理開頭語句的響應(yīng)，但僅保留無實質(zhì)內(nèi)容的第一句話，并標(biāo)記為“錯誤”。

將這2萬條對抗樣本與原始數(shù)據(jù)結(jié)合，構(gòu)成增強訓(xùn)練數(shù)據(jù)集。

然后基于Qwen2.5-7B-Instruct進行有監(jiān)督微調(diào)（SFT），保證最小化交叉熵?fù)p失，讓模型學(xué)習(xí)如何區(qū)分有效響應(yīng)與表面欺騙性響應(yīng)。

將Master-RM放入相同條件下實驗再次驗證，發(fā)現(xiàn)此時在跨數(shù)據(jù)集測試中，模型對所有 “萬能鑰匙” 的假陽性率接近0%（甚至完全為零），且魯棒性可泛化到未見過的數(shù)據(jù)集和欺騙攻擊中。

同時模型保持與GPT-4o的評估一致性可達0.96，驗證了其作為通用領(lǐng)域生成式獎勵模型的有效性。

所以LLM作為“評委”模型其實相當(dāng)脆弱，小小一個冒號就可能讓它出錯。

因此有網(wǎng)友表示，該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性，而RLHF也需要嚴(yán)格對抗評估，構(gòu)建更為可靠的LLM工作流程。

作者本人也現(xiàn)身評論區(qū)，他認(rèn)為，生成式獎勵模型容易受到虛假獎勵攻擊，如何更好地避免類似情況發(fā)生，將是未來的研究方向。

全華人團隊

最后來看下研究團隊，分別來自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)。

值得一提的是，其中看到了大佬俞棟的身影。

他被稱為騰訊AI Lab三劍客之一，目前是騰訊云人工智能首席科學(xué)家兼副總經(jīng)理，之前曾是微軟首席研究員，2017年加入騰訊。

他在深度學(xué)習(xí)的自動語音識別和處理領(lǐng)域深耕多年，共發(fā)表兩本專著和400多篇論文，并獲得4年的IEEE信號處理學(xué)會最佳論文獎、2021年NAACL最佳長論文獎等。

此外，論文一作Yulai Zhao本科畢業(yè)于清華大學(xué)，目前在普林斯頓大學(xué)攻讀機器學(xué)習(xí)的博士學(xué)位，另外他還在騰訊AI Lab擔(dān)任研究人員。

研究方向主要是通過數(shù)據(jù)驅(qū)動的方法探索現(xiàn)代強化學(xué)習(xí)和擴散模型，另外他的一篇有關(guān)讓擴散模型在生成蛋白質(zhì)和DNA序列表現(xiàn)更優(yōu)的論文，最近剛剛被ICML 2025錄用。

共同一作Haolin Liu則是弗吉尼亞大學(xué)計算機科學(xué)系的博士生，師從Chen-Yu Wei教授。

之前在上海科技大學(xué)就讀本科，先學(xué)習(xí)了1.5年化學(xué)，后才轉(zhuǎn)為計算機科學(xué)，主要研究以強化學(xué)習(xí)為中心，致力于推進RL在LLM后訓(xùn)練中的應(yīng)用。

Dian Yu目前是騰訊AI Lab的一名NLP研究員，曾在倫斯勒理工學(xué)院取得博士學(xué)位，目前研究方向包含自然語言處理、信息抽取、機器閱讀理解和對話理解。

另外，作者里還有普林斯頓大學(xué)電子工程專業(yè)的貢三元教授，其研究領(lǐng)域包括機器學(xué)習(xí)、系統(tǒng)建模與識別、人工神經(jīng)網(wǎng)絡(luò)等，發(fā)表過400余篇論文及專著。

因其對VLSI信號處理和神經(jīng)網(wǎng)絡(luò)的貢獻，被表彰為IEEE終生會士，還獲得過IEEE信號處理學(xué)會最佳論文獎、IEEE信號處理學(xué)會技術(shù)成就獎等。

Haitao Mi博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所，曾在支付寶中擔(dān)任首席研究員。

目前是騰訊AI Lab的首席研究員,隸屬于旗下的語言智能研究小組，主要研究方向是擴展大型基礎(chǔ)模型和下一代智能體系統(tǒng)。

論文鏈接：https://arxiv.org/abs/2507.08794
數(shù)據(jù)集鏈接：https://huggingface.co/datasets/sarosavo/Master-RM
模型鏈接：https://huggingface.co/sarosavo/Master-RM

參考鏈接：
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.