鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
一個冒號,竟然讓大模型集體翻車?
明明應該被攔下來的虛假回答,結果LLM通通開綠燈。
該發(fā)現(xiàn)來自一篇名叫“一個token就能欺騙LLM”的論文。
不僅如此,除了冒號、空格這類符號,還有諸如此類的推理開頭語:“Thought process:”、“解”,也是輕松通過。
好家伙,原來一個“解”字,數(shù)學考試能得分,LLM也會被騙到……
而且這一波是沖著所有通用LLM來的,GPT-4o、Claude-4、LLaMA3-70B通通被斬于馬下。
那咋辦?bug有了,來自騰訊AI Lab、普林斯頓大學和弗吉尼亞大學的研究人員就開始哼哧哼哧解bug。
用增強數(shù)據(jù)集訓練出一個靠譜的“評委”模型Master-RM,被騙概率直接無限接近0,正常評估能力還能不受影響。
具體什么情況,咱且接著往下看。
一把能欺騙LLM的“萬能鑰匙”
近來,利用LLM充當評判工具,在帶可驗證獎勵的強化學習(RLVR)中評估答案質(zhì)量的場景愈加普遍。
LLM評判模型通過比對生成的候選答案與參考答案,輸出二元獎勵信號,從而指導策略模型更新。
然而研究發(fā)現(xiàn),LLM“崩潰”了?
響應長度不僅銳減至30 tokens以下,一些意義不大的語句或文字符號,卻從LLM處騙得了假陽性獎勵,也就是打開LLM后門的一把“萬能鑰匙”。
這把能誘導LLM評判模型產(chǎn)生假陽性判斷的“萬能鑰匙”可分為兩類:
- 非文字符號:如空格、“.”、“,”、“:”。
- 推理開頭語:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開始但并沒有實質(zhì)內(nèi)容。
同時為了進一步研究這種“獎勵模型欺騙”現(xiàn)象是否存在普遍性,研究人員在多數(shù)據(jù)集、提示詞格式上對各種LLM均進行了系統(tǒng)性評估。
實驗分別選取兩類模型,分別是專用生成式獎勵模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)。
專用模型使用默認提示,而通用LLM采用標準化提示模板。
然后選擇10種可觸發(fā)假陽性的對抗性響應,包括非文字符號(如空格、“:”)和多語言推理開頭語(如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”)。
另外為了測試模型跨領域的穩(wěn)健性,實驗涵蓋通用推理和數(shù)學推理的共5個推理基準。
實驗結果表明,所有測試模型無一幸免,全部都會觸發(fā)假陽性響應。
例如GPT-4o對符號 “:” 的假陽性率(FPR)可達35%,LLaMA3-70B對 “Thought process:” 的FPR甚至高達60%-90%,專有模型General-Verifier在MATH數(shù)據(jù)集上對空格的FPR也達66.8%。
另外,不同語言也不會影響這種欺騙現(xiàn)象的出現(xiàn),無論是中文還是日語,都同樣能夠誘發(fā)高FPR,該漏洞具有跨語言的普遍性。
研究人員還分析了0.5B至72B的Qwen2.5-Instruct系列模型,發(fā)現(xiàn):
- 0.5B模型:依賴字面匹配,F(xiàn)PR低但與GPT-4o一致性差;
- 1.5B-3B模型:能檢測語義相似性但缺乏精細驗證,F(xiàn)PR驟升;
- 7B-14B模型:平衡驗證能力與謹慎性,F(xiàn)PR最低且一致性高;
- 32B-72B模型:因為更傾向于自己解題而非對比響應與參考答案,F(xiàn)PR再次上升。
所以模型的大小與FPR之間并非完全的單調(diào)關系,不是模型越大就越不容易被騙。
如果想通過一些推理時的技巧來減少這種漏洞,效果也不太穩(wěn)定,還得看具體模型和應用場景。
此外,研究人員還發(fā)現(xiàn),這種bug還能無限繁殖……
只需要基于all-MiniLM-L6-v2編碼器進行嵌入相似度搜索,從大規(guī)模語料中自動生成與已知 “萬能鑰匙” 相似的新對抗性響應,新的“萬能鑰匙”就能同樣產(chǎn)生出高水平FPR。
實驗最終說明生成式獎勵模型其實存在一個相當關鍵的核心機制漏洞:原本用于過濾無效或錯誤答案的驗證器,容易被無關緊要的表面內(nèi)容操縱,從而產(chǎn)生假陽性結果。
這對任何依賴驗證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。
一個不會被騙的“評委”模型
為了緩解“萬能鑰匙”的影響,研究人員專門構建了新的“評委”模型Master-RM(Master Reward Model)。
首先從原始的16萬條訓練數(shù)據(jù)中隨機采樣2萬條,用GPT-4o-mini生成帶推理開頭語句的響應,但僅保留無實質(zhì)內(nèi)容的第一句話,并標記為“錯誤”。
將這2萬條對抗樣本與原始數(shù)據(jù)結合,構成增強訓練數(shù)據(jù)集。
然后基于Qwen2.5-7B-Instruct進行有監(jiān)督微調(diào)(SFT),保證最小化交叉熵損失,讓模型學習如何區(qū)分有效響應與表面欺騙性響應。
將Master-RM放入相同條件下實驗再次驗證,發(fā)現(xiàn)此時在跨數(shù)據(jù)集測試中,模型對所有 “萬能鑰匙” 的假陽性率接近0%(甚至完全為零),且魯棒性可泛化到未見過的數(shù)據(jù)集和欺騙攻擊中。
同時模型保持與GPT-4o的評估一致性可達0.96,驗證了其作為通用領域生成式獎勵模型的有效性。
所以LLM作為“評委”模型其實相當脆弱,小小一個冒號就可能讓它出錯。
因此有網(wǎng)友表示,該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性,而RLHF也需要嚴格對抗評估,構建更為可靠的LLM工作流程。
作者本人也現(xiàn)身評論區(qū),他認為,生成式獎勵模型容易受到虛假獎勵攻擊,如何更好地避免類似情況發(fā)生,將是未來的研究方向。
全華人團隊
最后來看下研究團隊,分別來自騰訊AI Lab、普林斯頓大學和弗吉尼亞大學。
值得一提的是,其中看到了大佬俞棟的身影。
他被稱為騰訊AI Lab三劍客之一,目前是騰訊云人工智能首席科學家兼副總經(jīng)理,之前曾是微軟首席研究員,2017年加入騰訊。
他在深度學習的自動語音識別和處理領域深耕多年,共發(fā)表兩本專著和400多篇論文,并獲得4年的IEEE信號處理學會最佳論文獎、2021年NAACL最佳長論文獎等。
此外,論文一作Yulai Zhao本科畢業(yè)于清華大學,目前在普林斯頓大學攻讀機器學習的博士學位,另外他還在騰訊AI Lab擔任研究人員。
研究方向主要是通過數(shù)據(jù)驅(qū)動的方法探索現(xiàn)代強化學習和擴散模型,另外他的一篇有關讓擴散模型在生成蛋白質(zhì)和DNA序列表現(xiàn)更優(yōu)的論文,最近剛剛被ICML 2025錄用。
共同一作Haolin Liu則是弗吉尼亞大學計算機科學系的博士生,師從Chen-Yu Wei教授。
之前在上海科技大學就讀本科,先學習了1.5年化學,后才轉(zhuǎn)為計算機科學,主要研究以強化學習為中心,致力于推進RL在LLM后訓練中的應用。
Dian Yu目前是騰訊AI Lab的一名NLP研究員,曾在倫斯勒理工學院取得博士學位,目前研究方向包含自然語言處理、信息抽取、機器閱讀理解和對話理解。
另外,作者里還有普林斯頓大學電子工程專業(yè)的貢三元教授,其研究領域包括機器學習、系統(tǒng)建模與識別、人工神經(jīng)網(wǎng)絡等,發(fā)表過400余篇論文及專著。
因其對VLSI信號處理和神經(jīng)網(wǎng)絡的貢獻,被表彰為IEEE終生會士,還獲得過IEEE信號處理學會最佳論文獎、IEEE信號處理學會技術成就獎等。
Haitao Mi博士畢業(yè)于中國科學院計算技術研究所,曾在支付寶中擔任首席研究員。
目前是騰訊AI Lab的首席研究員,隸屬于旗下的語言智能研究小組,主要研究方向是擴展大型基礎模型和下一代智能體系統(tǒng)。
論文鏈接:https://arxiv.org/abs/2507.08794
數(shù)據(jù)集鏈接:https://huggingface.co/datasets/sarosavo/Master-RM
模型鏈接:https://huggingface.co/sarosavo/Master-RM
參考鏈接:
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.