99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

只因一個“:”,大模型全軍覆沒

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

一個冒號,竟然讓大模型集體翻車?



明明應(yīng)該被攔下來的虛假回答,結(jié)果LLM通通開綠燈。



該發(fā)現(xiàn)來自一篇名叫“一個token就能欺騙LLM”的論文。



不僅如此,除了冒號空格這類符號,還有諸如此類的推理開頭語:“Thought process:”“解”,也是輕松通過。

好家伙,原來一個“解”字,數(shù)學(xué)考試能得分,LLM也會被騙到……



而且這一波是沖著所有通用LLM來的,GPT-4oClaude-4LLaMA3-70B通通被斬于馬下。

那咋辦?bug有了,來自騰訊AI Lab普林斯頓大學(xué)弗吉尼亞大學(xué)的研究人員就開始哼哧哼哧解bug。



用增強數(shù)據(jù)集訓(xùn)練出一個靠譜的“評委”模型Master-RM,被騙概率直接無限接近0,正常評估能力還能不受影響。

具體什么情況,咱且接著往下看。

一把能欺騙LLM的“萬能鑰匙”

近來,利用LLM充當(dāng)評判工具,在帶可驗證獎勵的強化學(xué)習(xí)(RLVR)中評估答案質(zhì)量的場景愈加普遍。

LLM評判模型通過比對生成的候選答案與參考答案,輸出二元獎勵信號,從而指導(dǎo)策略模型更新。

然而研究發(fā)現(xiàn),LLM“崩潰”了?

響應(yīng)長度不僅銳減至30 tokens以下,一些意義不大的語句或文字符號,卻從LLM處騙得了假陽性獎勵,也就是打開LLM后門的一把“萬能鑰匙”



這把能誘導(dǎo)LLM評判模型產(chǎn)生假陽性判斷的“萬能鑰匙”可分為兩類:

  • 非文字符號:如空格、“.”、“,”、“:”。
  • 推理開頭語:如“Thought process:”、“Solution”、“Let’s solve this problem step by step”等,僅表示推理開始但并沒有實質(zhì)內(nèi)容。

同時為了進一步研究這種“獎勵模型欺騙”現(xiàn)象是否存在普遍性,研究人員在多數(shù)據(jù)集、提示詞格式上對各種LLM均進行了系統(tǒng)性評估。



實驗分別選取兩類模型,分別是專用生成式獎勵模型(如Multi-sub RM、Omni-Judge),以及通用LLM(如GPT-4o、Claude-4、LLaMA3-70B、Qwen2.5-72B等)

專用模型使用默認(rèn)提示,而通用LLM采用標(biāo)準(zhǔn)化提示模板。

然后選擇10種可觸發(fā)假陽性的對抗性響應(yīng),包括非文字符號(如空格、“:”)和多語言推理開頭語(如英文的 “Thought process:”、中文的“解”、日語的“かいせつ”)

另外為了測試模型跨領(lǐng)域的穩(wěn)健性,實驗涵蓋通用推理和數(shù)學(xué)推理的共5個推理基準(zhǔn)。



實驗結(jié)果表明,所有測試模型無一幸免,全部都會觸發(fā)假陽性響應(yīng)。

例如GPT-4o對符號 “:” 的假陽性率(FPR)可達35%,LLaMA3-70B對 “Thought process:” 的FPR甚至高達60%-90%,專有模型General-Verifier在MATH數(shù)據(jù)集上對空格的FPR也達66.8%

另外,不同語言也不會影響這種欺騙現(xiàn)象的出現(xiàn),無論是中文還是日語,都同樣能夠誘發(fā)高FPR,該漏洞具有跨語言的普遍性。



研究人員還分析了0.5B至72BQwen2.5-Instruct系列模型,發(fā)現(xiàn):

  • 0.5B模型:依賴字面匹配,F(xiàn)PR低但與GPT-4o一致性差;
  • 1.5B-3B模型:能檢測語義相似性但缺乏精細(xì)驗證,F(xiàn)PR驟升;
  • 7B-14B模型:平衡驗證能力與謹(jǐn)慎性,F(xiàn)PR最低且一致性高;
  • 32B-72B模型:因為更傾向于自己解題而非對比響應(yīng)與參考答案,F(xiàn)PR再次上升。

所以模型的大小與FPR之間并非完全的單調(diào)關(guān)系,不是模型越大就越不容易被騙

如果想通過一些推理時的技巧來減少這種漏洞,效果也不太穩(wěn)定,還得看具體模型和應(yīng)用場景。

此外,研究人員還發(fā)現(xiàn),這種bug還能無限繁殖……

只需要基于all-MiniLM-L6-v2編碼器進行嵌入相似度搜索,從大規(guī)模語料中自動生成與已知 “萬能鑰匙” 相似的新對抗性響應(yīng),新的“萬能鑰匙”就能同樣產(chǎn)生出高水平FPR。



實驗最終說明生成式獎勵模型其實存在一個相當(dāng)關(guān)鍵的核心機制漏洞:原本用于過濾無效或錯誤答案的驗證器,容易被無關(guān)緊要的表面內(nèi)容操縱,從而產(chǎn)生假陽性結(jié)果。

這對任何依賴驗證器提供反饋的RLVR流程都提出了破壞性的挑戰(zhàn)。

一個不會被騙的“評委”模型

為了緩解“萬能鑰匙”的影響,研究人員專門構(gòu)建了新的“評委”模型Master-RM(Master Reward Model)

首先從原始的16萬條訓(xùn)練數(shù)據(jù)中隨機采樣2萬條,用GPT-4o-mini生成帶推理開頭語句的響應(yīng),但僅保留無實質(zhì)內(nèi)容的第一句話,并標(biāo)記為“錯誤”。

將這2萬條對抗樣本與原始數(shù)據(jù)結(jié)合,構(gòu)成增強訓(xùn)練數(shù)據(jù)集

然后基于Qwen2.5-7B-Instruct進行有監(jiān)督微調(diào)(SFT),保證最小化交叉熵?fù)p失,讓模型學(xué)習(xí)如何區(qū)分有效響應(yīng)與表面欺騙性響應(yīng)。

將Master-RM放入相同條件下實驗再次驗證,發(fā)現(xiàn)此時在跨數(shù)據(jù)集測試中,模型對所有 “萬能鑰匙” 的假陽性率接近0%(甚至完全為零),且魯棒性可泛化到未見過的數(shù)據(jù)集和欺騙攻擊中。



同時模型保持與GPT-4o的評估一致性可達0.96,驗證了其作為通用領(lǐng)域生成式獎勵模型的有效性。

所以LLM作為“評委”模型其實相當(dāng)脆弱,小小一個冒號就可能讓它出錯。

因此有網(wǎng)友表示,該發(fā)現(xiàn)揭示了模型穩(wěn)健的重要性,而RLHF也需要嚴(yán)格對抗評估,構(gòu)建更為可靠的LLM工作流程。



作者本人也現(xiàn)身評論區(qū),他認(rèn)為,生成式獎勵模型容易受到虛假獎勵攻擊,如何更好地避免類似情況發(fā)生,將是未來的研究方向。



全華人團隊

最后來看下研究團隊,分別來自騰訊AI Lab、普林斯頓大學(xué)和弗吉尼亞大學(xué)。

值得一提的是,其中看到了大佬俞棟的身影。

他被稱為騰訊AI Lab三劍客之一,目前是騰訊云人工智能首席科學(xué)家兼副總經(jīng)理,之前曾是微軟首席研究員,2017年加入騰訊。

他在深度學(xué)習(xí)的自動語音識別和處理領(lǐng)域深耕多年,共發(fā)表兩本專著和400多篇論文,并獲得4年的IEEE信號處理學(xué)會最佳論文獎、2021年NAACL最佳長論文獎等。



此外,論文一作Yulai Zhao本科畢業(yè)于清華大學(xué),目前在普林斯頓大學(xué)攻讀機器學(xué)習(xí)的博士學(xué)位,另外他還在騰訊AI Lab擔(dān)任研究人員。



研究方向主要是通過數(shù)據(jù)驅(qū)動的方法探索現(xiàn)代強化學(xué)習(xí)和擴散模型,另外他的一篇有關(guān)讓擴散模型在生成蛋白質(zhì)和DNA序列表現(xiàn)更優(yōu)的論文,最近剛剛被ICML 2025錄用。

共同一作Haolin Liu則是弗吉尼亞大學(xué)計算機科學(xué)系的博士生,師從Chen-Yu Wei教授。

之前在上海科技大學(xué)就讀本科,先學(xué)習(xí)了1.5年化學(xué),后才轉(zhuǎn)為計算機科學(xué),主要研究以強化學(xué)習(xí)為中心,致力于推進RL在LLM后訓(xùn)練中的應(yīng)用。

Dian Yu目前是騰訊AI Lab的一名NLP研究員,曾在倫斯勒理工學(xué)院取得博士學(xué)位,目前研究方向包含自然語言處理、信息抽取、機器閱讀理解和對話理解。

另外,作者里還有普林斯頓大學(xué)電子工程專業(yè)的貢三元教授,其研究領(lǐng)域包括機器學(xué)習(xí)、系統(tǒng)建模與識別、人工神經(jīng)網(wǎng)絡(luò)等,發(fā)表過400余篇論文及專著。



因其對VLSI信號處理和神經(jīng)網(wǎng)絡(luò)的貢獻,被表彰為IEEE終生會士,還獲得過IEEE信號處理學(xué)會最佳論文獎、IEEE信號處理學(xué)會技術(shù)成就獎等。

Haitao Mi博士畢業(yè)于中國科學(xué)院計算技術(shù)研究所,曾在支付寶中擔(dān)任首席研究員。



目前是騰訊AI Lab的首席研究員,隸屬于旗下的語言智能研究小組,主要研究方向是擴展大型基礎(chǔ)模型和下一代智能體系統(tǒng)。

論文鏈接:https://arxiv.org/abs/2507.08794
數(shù)據(jù)集鏈接:https://huggingface.co/datasets/sarosavo/Master-RM
模型鏈接:https://huggingface.co/sarosavo/Master-RM

參考鏈接:
[1]https://x.com/omarsar0/status/1944778174493343771
[2]https://yulaizhao.com/
[3]https://liuhl2000.github.io/
[4]https://ece.princeton.edu/people/sun-yuan-kung
[5]https://openreview.net/profile?id=~Haitao_Mi1
[6]https://sites.google.com/view/dongyu888/
[7]https://openreview.net/profile?id=~Dian_Yu3

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
跌慘了!單價從22000元到5700元,南京一樓盤淪落到2折銷售…

跌慘了!單價從22000元到5700元,南京一樓盤淪落到2折銷售…

火山詩話
2025-07-19 18:34:40
宗馥莉更換廣告牌:水就是水,讓水回歸純凈,網(wǎng)友稱:在宣示主權(quán)

宗馥莉更換廣告牌:水就是水,讓水回歸純凈,網(wǎng)友稱:在宣示主權(quán)

丫頭舫
2025-07-19 14:58:20
老板兒高考 560分,門衛(wèi)隨禮1000元;門衛(wèi)女兒考701分,老板回禮

老板兒高考 560分,門衛(wèi)隨禮1000元;門衛(wèi)女兒考701分,老板回禮

詩詞中國
2025-07-19 17:51:01
逃離俄占區(qū)!僅剩345人學(xué)俄語,烏克蘭人知道俄羅斯人支持戰(zhàn)爭

逃離俄占區(qū)!僅剩345人學(xué)俄語,烏克蘭人知道俄羅斯人支持戰(zhàn)爭

鷹眼Defence
2025-07-20 17:17:32
三伏天不要太節(jié)儉,建議:中老年多吃4種高蛋白食物,精神過苦夏

三伏天不要太節(jié)儉,建議:中老年多吃4種高蛋白食物,精神過苦夏

艾米手工作品
2025-07-20 16:42:18
繼續(xù)追趕!邁阿密國際近7輪6勝,少賽3場落后東部第一8分

繼續(xù)追趕!邁阿密國際近7輪6勝,少賽3場落后東部第一8分

直播吧
2025-07-20 10:13:27
中國頂級設(shè)計,雅魯藏布江下游水電站正式開建,印度早已無話可說

中國頂級設(shè)計,雅魯藏布江下游水電站正式開建,印度早已無話可說

光電科技君
2025-07-20 14:08:57
宗繼昌律師發(fā)聲:宗慶后曾承認(rèn)3個孩子是宗氏血脈,不會虧待他們

宗繼昌律師發(fā)聲:宗慶后曾承認(rèn)3個孩子是宗氏血脈,不會虧待他們

涵豆說娛
2025-07-14 17:58:19
上海10多位老人長期組團霸占麥當(dāng)勞多張餐桌,不消費只打牌

上海10多位老人長期組團霸占麥當(dāng)勞多張餐桌,不消費只打牌

阿傖說事
2025-07-19 09:39:56
英億萬富豪前女友突然墜亡:正與其爭奪倫敦價值270萬英鎊豪宅

英億萬富豪前女友突然墜亡:正與其爭奪倫敦價值270萬英鎊豪宅

瀟湘晨報
2025-07-20 14:54:07
京東被曝計劃推出“京東外賣”獨立App

京東被曝計劃推出“京東外賣”獨立App

瀟湘晨報
2025-07-19 07:59:04
女演員長相多重要,看《朝雪錄》26歲李蘭迪和24歲沈羽潔就知道了

女演員長相多重要,看《朝雪錄》26歲李蘭迪和24歲沈羽潔就知道了

娛君墜星河
2025-07-20 13:22:13
第二個杜特爾特已冒頭?莎拉全面接掌菲律賓,恐怕不用拖到2028年

第二個杜特爾特已冒頭?莎拉全面接掌菲律賓,恐怕不用拖到2028年

南宗歷史
2025-07-20 11:33:09
印度計劃在雅魯藏布江南段修建巨型水利項目,不和我們商量一下?

印度計劃在雅魯藏布江南段修建巨型水利項目,不和我們商量一下?

大道無形我有型
2025-07-03 12:12:30
佩斯科夫:俄愿加快推進烏克蘭局勢調(diào)解目標(biāo)的實現(xiàn)

佩斯科夫:俄愿加快推進烏克蘭局勢調(diào)解目標(biāo)的實現(xiàn)

財聯(lián)社
2025-07-20 17:15:03
奧尼爾:別搞錯三連冠湖人的老大!科比是乘客!

奧尼爾:別搞錯三連冠湖人的老大!科比是乘客!

氧氣是個地鐵
2025-07-20 19:11:45
線下斷貨!馬云西湖夜騎帶火同款,旗艦店每人限購2輛

線下斷貨!馬云西湖夜騎帶火同款,旗艦店每人限購2輛

第一財經(jīng)資訊
2025-07-20 13:20:26
偷雞不成蝕把米?后媽謀奪豪門家產(chǎn),反被做局扛下百億負(fù)債!

偷雞不成蝕把米?后媽謀奪豪門家產(chǎn),反被做局扛下百億負(fù)債!

阿傖說事
2025-07-20 08:09:42
張靚穎是越來越放的開了,新造型不斷突破,創(chuàng)新能力很強

張靚穎是越來越放的開了,新造型不斷突破,創(chuàng)新能力很強

動物奇奇怪怪
2025-07-17 12:46:51
炸機場、炸基地、炸港口,以色列沒想到朱拉尼有外援,美國急喊停

炸機場、炸基地、炸港口,以色列沒想到朱拉尼有外援,美國急喊停

武事匯
2025-07-20 19:11:20
2025-07-20 20:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10893文章數(shù) 176192關(guān)注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復(fù)盤

頭條要聞

深圳自建房業(yè)主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業(yè)主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂要聞

肖戰(zhàn)改名官宣!徹底不裝了,要自由

財經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態(tài)度原創(chuàng)

親子
時尚
房產(chǎn)
旅游
手機

親子要聞

長沙才待幾天,雙胞胎小哥倆已經(jīng)念起媽媽了

夏天穿衣別死氣沉沉!來點彩色、多穿牛仔褲,減齡又不老套

房產(chǎn)要聞

海南中學(xué)江東校區(qū)學(xué)區(qū)劃片重磅出爐!這些項目贏麻了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

明日發(fā)布,OPPO K13 Turbo 系列手機搭載疾風(fēng)散熱引擎

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 上高县| 包头市| 蒲江县| 乳山市| 化州市| 屯昌县| 大足县| 延津县| 泰宁县| 青浦区| 长白| 东阳市| 搜索| 壤塘县| 建昌县| 鲁山县| 会宁县| 尉氏县| 白银市| 阜新市| 阳山县| 买车| 安远县| 望谟县| 富川| 缙云县| 高青县| 彝良县| 容城县| 方山县| 通城县| 武穴市| 建水县| 临湘市| 山东省| 鹤山市| 周口市| 罗山县| 海门市| 庐江县| 沧州市|