99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

只因一個“:”,大模型全軍覆沒

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

一個冒號,竟然讓大模型集體翻車?



明明應該被攔下來的虛假回答,結果LLM通通開綠燈。



該發(fā)現(xiàn)來自一篇名叫“一個token就能欺騙LLM”的論文。



不僅如此,除了冒號空格這類符號,還有諸如此類的推理開頭語:“Thought process:”“解”,也是輕松通過。

好家伙,原來一個“解”字,數(shù)學考試能得分,LLM也會被騙到……



而且這一波是沖著所有通用LLM來的,GPT-4oClaude-4LLaMA3-70B通通被斬于馬下。

那咋辦?bug有了,來自騰訊AI Lab普林斯頓大學弗吉尼亞大學的研究人員就開始哼哧哼哧解bug。



用增強數(shù)據(jù)集訓練出一個靠譜的“評委”模型Master-RM,被騙概率直接無限接近0,正常評估能力還能不受影響。

具體什么情況,咱且接著往下看。

一把能欺騙LLM的“萬能鑰匙”

近來,利用LLM充當評判工具,在帶可驗證獎勵的強化學習(RLVR)中評估答案質(zhì)量的場景愈加普遍。

LLM評判模型通過比對生成的候選答案與參考答案,輸出二元獎勵信號,從而指導策略模型更新。

然而研究發(fā)現(xiàn),LLM“崩潰”了?

響應長度不僅銳減至30 tokens以下,一些意義不大的語句或文字符號,卻從LLM處騙得了假陽性獎勵,也就是打開LLM后門的一把“萬能鑰匙”



這把能誘導LLM評判模型產(chǎn)生假陽性判斷的“萬能鑰匙”可分為兩類:

  • 非文字符號:如空格、“.”、“,”、“:”。
  • 推理開頭語:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開始但并沒有實質(zhì)內(nèi)容。

同時為了進一步研究這種“獎勵模型欺騙”現(xiàn)象是否存在普遍性,研究人員在多數(shù)據(jù)集、提示詞格式上對各種LLM均進行了系統(tǒng)性評估。



實驗分別選取兩類模型,分別是專用生成式獎勵模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)

專用模型使用默認提示,而通用LLM采用標準化提示模板。

然后選擇10種可觸發(fā)假陽性的對抗性響應,包括非文字符號(如空格、“:”)和多語言推理開頭語(如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”)

另外為了測試模型跨領域的穩(wěn)健性,實驗涵蓋通用推理和數(shù)學推理的共5個推理基準。



實驗結果表明,所有測試模型無一幸免,全部都會觸發(fā)假陽性響應。

例如GPT-4o對符號 “:” 的假陽性率(FPR)可達35%,LLaMA3-70B對 “Thought process:” 的FPR甚至高達60%-90%,專有模型General-Verifier在MATH數(shù)據(jù)集上對空格的FPR也達66.8%

另外,不同語言也不會影響這種欺騙現(xiàn)象的出現(xiàn),無論是中文還是日語,都同樣能夠誘發(fā)高FPR,該漏洞具有跨語言的普遍性。



研究人員還分析了0.5B至72BQwen2.5-Instruct系列模型,發(fā)現(xiàn):

  • 0.5B模型:依賴字面匹配,F(xiàn)PR低但與GPT-4o一致性差;
  • 1.5B-3B模型:能檢測語義相似性但缺乏精細驗證,F(xiàn)PR驟升;
  • 7B-14B模型:平衡驗證能力與謹慎性,F(xiàn)PR最低且一致性高;
  • 32B-72B模型:因為更傾向于自己解題而非對比響應與參考答案,F(xiàn)PR再次上升。

所以模型的大小與FPR之間并非完全的單調(diào)關系,不是模型越大就越不容易被騙

如果想通過一些推理時的技巧來減少這種漏洞,效果也不太穩(wěn)定,還得看具體模型和應用場景。

此外,研究人員還發(fā)現(xiàn),這種bug還能無限繁殖……

只需要基于all-MiniLM-L6-v2編碼器進行嵌入相似度搜索,從大規(guī)模語料中自動生成與已知 “萬能鑰匙” 相似的新對抗性響應,新的“萬能鑰匙”就能同樣產(chǎn)生出高水平FPR。



實驗最終說明生成式獎勵模型其實存在一個相當關鍵的核心機制漏洞:原本用于過濾無效或錯誤答案的驗證器,容易被無關緊要的表面內(nèi)容操縱,從而產(chǎn)生假陽性結果。

這對任何依賴驗證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。

一個不會被騙的“評委”模型

為了緩解“萬能鑰匙”的影響,研究人員專門構建了新的“評委”模型Master-RM(Master Reward Model)

首先從原始的16萬條訓練數(shù)據(jù)中隨機采樣2萬條,用GPT-4o-mini生成帶推理開頭語句的響應,但僅保留無實質(zhì)內(nèi)容的第一句話,并標記為“錯誤”。

將這2萬條對抗樣本與原始數(shù)據(jù)結合,構成增強訓練數(shù)據(jù)集

然后基于Qwen2.5-7B-Instruct進行有監(jiān)督微調(diào)(SFT),保證最小化交叉熵損失,讓模型學習如何區(qū)分有效響應與表面欺騙性響應。

將Master-RM放入相同條件下實驗再次驗證,發(fā)現(xiàn)此時在跨數(shù)據(jù)集測試中,模型對所有 “萬能鑰匙” 的假陽性率接近0%(甚至完全為零),且魯棒性可泛化到未見過的數(shù)據(jù)集和欺騙攻擊中。



同時模型保持與GPT-4o的評估一致性可達0.96,驗證了其作為通用領域生成式獎勵模型的有效性。

所以LLM作為“評委”模型其實相當脆弱,小小一個冒號就可能讓它出錯。

因此有網(wǎng)友表示,該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性,而RLHF也需要嚴格對抗評估,構建更為可靠的LLM工作流程。



作者本人也現(xiàn)身評論區(qū),他認為,生成式獎勵模型容易受到虛假獎勵攻擊,如何更好地避免類似情況發(fā)生,將是未來的研究方向。



全華人團隊

最后來看下研究團隊,分別來自騰訊AI Lab、普林斯頓大學和弗吉尼亞大學。

值得一提的是,其中看到了大佬俞棟的身影。

他被稱為騰訊AI Lab三劍客之一,目前是騰訊云人工智能首席科學家兼副總經(jīng)理,之前曾是微軟首席研究員,2017年加入騰訊。

他在深度學習的自動語音識別和處理領域深耕多年,共發(fā)表兩本專著和400多篇論文,并獲得4年的IEEE信號處理學會最佳論文獎、2021年NAACL最佳長論文獎等。



此外,論文一作Yulai Zhao本科畢業(yè)于清華大學,目前在普林斯頓大學攻讀機器學習的博士學位,另外他還在騰訊AI Lab擔任研究人員。



研究方向主要是通過數(shù)據(jù)驅(qū)動的方法探索現(xiàn)代強化學習和擴散模型,另外他的一篇有關讓擴散模型在生成蛋白質(zhì)和DNA序列表現(xiàn)更優(yōu)的論文,最近剛剛被ICML 2025錄用。

共同一作Haolin Liu則是弗吉尼亞大學計算機科學系的博士生,師從Chen-Yu Wei教授。

之前在上海科技大學就讀本科,先學習了1.5年化學,后才轉(zhuǎn)為計算機科學,主要研究以強化學習為中心,致力于推進RL在LLM后訓練中的應用。

Dian Yu目前是騰訊AI Lab的一名NLP研究員,曾在倫斯勒理工學院取得博士學位,目前研究方向包含自然語言處理、信息抽取、機器閱讀理解和對話理解。

另外,作者里還有普林斯頓大學電子工程專業(yè)的貢三元教授,其研究領域包括機器學習、系統(tǒng)建模與識別、人工神經(jīng)網(wǎng)絡等,發(fā)表過400余篇論文及專著。



因其對VLSI信號處理和神經(jīng)網(wǎng)絡的貢獻,被表彰為IEEE終生會士,還獲得過IEEE信號處理學會最佳論文獎、IEEE信號處理學會技術成就獎等。

Haitao Mi博士畢業(yè)于中國科學院計算技術研究所,曾在支付寶中擔任首席研究員。



目前是騰訊AI Lab的首席研究員,隸屬于旗下的語言智能研究小組,主要研究方向是擴展大型基礎模型和下一代智能體系統(tǒng)。

論文鏈接:https://arxiv.org/abs/2507.08794
數(shù)據(jù)集鏈接:https://huggingface.co/datasets/sarosavo/Master-RM
模型鏈接:https://huggingface.co/sarosavo/Master-RM

參考鏈接:
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西媒:世俱杯失利后,恩里克想從老東家巴薩挖走兩名新星

西媒:世俱杯失利后,恩里克想從老東家巴薩挖走兩名新星

星耀國際足壇
2025-07-15 10:40:56
美籍華裔影星胡凱莉捐款80萬美元支援烏克蘭

美籍華裔影星胡凱莉捐款80萬美元支援烏克蘭

桂系007
2025-07-14 00:20:47
英媒曝光陣風真實戰(zhàn)損,印度:用5架陣風換了殲10數(shù)據(jù)

英媒曝光陣風真實戰(zhàn)損,印度:用5架陣風換了殲10數(shù)據(jù)

智觀科技
2025-07-14 09:56:13
反華勢力鬧事,中使館向韓方求助,李在明很給力,罪魁禍首已入獄

反華勢力鬧事,中使館向韓方求助,李在明很給力,罪魁禍首已入獄

歷史求知所
2025-07-14 19:05:03
乾隆去酒樓吃飯,問掌柜:朕要付錢嗎?掌柜只用8個字救下全酒樓

乾隆去酒樓吃飯,問掌柜:朕要付錢嗎?掌柜只用8個字救下全酒樓

磊子講史
2025-07-12 14:24:49
“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉(xiāng)親強烈抵制

“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉(xiāng)親強烈抵制

感覺會火
2025-04-10 12:05:49
德防長宣稱已做好殺死俄軍的準備,佩斯科夫:德國正再次變得危險

德防長宣稱已做好殺死俄軍的準備,佩斯科夫:德國正再次變得危險

花仙歷史說
2025-07-16 06:30:53
英王室的魅力:瑪格麗特碾壓英女王,安妮壓制查爾斯,夏洛特更甚

英王室的魅力:瑪格麗特碾壓英女王,安妮壓制查爾斯,夏洛特更甚

緣緣人生觀
2025-07-15 22:36:15
俄羅斯必須直面現(xiàn)實:歸還領土100萬,換取中國的全力支持

俄羅斯必須直面現(xiàn)實:歸還領土100萬,換取中國的全力支持

科技虎虎
2025-06-16 17:40:21
沈陽將新建一個火車站!

沈陽將新建一個火車站!

沈陽公交網(wǎng)小林
2025-07-16 02:19:21
手欠是什么體驗?看了網(wǎng)友分享后謹記,手欠要付出代價的

手欠是什么體驗?看了網(wǎng)友分享后謹記,手欠要付出代價的

藝魅哈哈
2025-06-01 19:05:05
4比2,泰國最新民調(diào)出爐,佩通坦想官復原職,中方說了句公道話

4比2,泰國最新民調(diào)出爐,佩通坦想官復原職,中方說了句公道話

比利
2025-07-15 17:22:45
男籃首秀8分險勝歐洲勁旅!胡明軒轟13分:小張鎮(zhèn)麟成最大收獲!

男籃首秀8分險勝歐洲勁旅!胡明軒轟13分:小張鎮(zhèn)麟成最大收獲!

籃球快餐車
2025-07-16 06:32:15
兒媳要去月子中心坐月子,婆家反對!兒媳:你甭管,又不用你出錢

兒媳要去月子中心坐月子,婆家反對!兒媳:你甭管,又不用你出錢

清水家庭故事
2025-07-15 07:18:23
新版《超人》“黑歷史”再次被重提,引得網(wǎng)友尖叫連連!

新版《超人》“黑歷史”再次被重提,引得網(wǎng)友尖叫連連!

美劇組|人人影視
2025-07-14 23:51:02
文胖:快船仍是比爾的熱門下家 我認為這最終會變成現(xiàn)實

文胖:快船仍是比爾的熱門下家 我認為這最終會變成現(xiàn)實

直播吧
2025-07-16 07:47:06
單位聚餐我被排在最后一個,直到老廳長走進來,第一個和我敬酒

單位聚餐我被排在最后一個,直到老廳長走進來,第一個和我敬酒

白云故事
2025-07-03 10:20:03
東大真夠狠!一出手就掏了美國老窩,三萬大軍淪為笑話

東大真夠狠!一出手就掏了美國老窩,三萬大軍淪為笑話

華山穹劍
2025-07-15 20:33:37
特朗普對俄放出強硬信號 克宮回應:非常嚴肅,需時間分析

特朗普對俄放出強硬信號 克宮回應:非常嚴肅,需時間分析

財聯(lián)社
2025-07-15 21:45:04
美報告:應減少在中國“家門口”的軍事存在

美報告:應減少在中國“家門口”的軍事存在

環(huán)球時報國際
2025-07-12 09:27:33
2025-07-16 08:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10864文章數(shù) 176189關注度
往期回顧 全部

科技要聞

恢復對華出口AI芯片,AMD漲6%,英偉達漲4%

頭條要聞

"山姆下架好麗友派"吵上熱搜 盼盼洽洽改用英文名上架

頭條要聞

"山姆下架好麗友派"吵上熱搜 盼盼洽洽改用英文名上架

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經(jīng)要聞

黃仁勛釋懷了

汽車要聞

六座布局/深淺配色 仰望U8L內(nèi)飾亮相

態(tài)度原創(chuàng)

教育
時尚
游戲
本地
數(shù)碼

教育要聞

中學高考沖清北失敗,逼學生報天坑專業(yè)被拒,遭老師言語攻擊

7次拒絕潛規(guī)則!萬茜的逆襲之路,給內(nèi)娛上了一課!

LPL001號選手重新連接,加入豪門戰(zhàn)隊沖擊S賽,觀眾評價太扎心!

本地新聞

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

數(shù)碼要聞

AMD處理器銷量輕松超越所有英特爾CPU 即使是上一代AM4型號

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 茂名市| 堆龙德庆县| 镇坪县| 大安市| 西城区| 镇巴县| 宜黄县| 顺昌县| 东丰县| 克什克腾旗| 澄迈县| 灵丘县| 广德县| 南漳县| 绿春县| 涿州市| 十堰市| 遵义市| 临汾市| 大余县| 安化县| 合川市| 城固县| 沙坪坝区| 蒙自县| 民勤县| 清丰县| 澳门| 洱源县| 敦化市| 临桂县| 溆浦县| 上饶市| 运城市| 乌恰县| 中宁县| 惠水县| 廉江市| 潜山县| 乌兰察布市| 昌平区|