網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一行“解”字贏了全場(chǎng)？騰訊 x 普林斯頓發(fā)現(xiàn)AI裁判集體走神

2025-07-17 15:09:04　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

想象一下，你向一個(gè)AI提問一道數(shù)學(xué)題：“阿里有21美元，萊拉把她100美元的一半給了他，現(xiàn)在阿里有多少錢？”

接著，你讓一個(gè)“AI裁判”去評(píng)估兩個(gè)答案，一個(gè)答案是一串錯(cuò)誤的計(jì)算公式，另一個(gè)答案只有一個(gè)單詞：“Solution”（解）。

你認(rèn)為AI裁判會(huì)判定哪個(gè)答案正確？一個(gè)驚人的事實(shí)是，它很有可能會(huì)給那個(gè)只寫了“解”字的答案打上高分。

這個(gè)看似荒謬的場(chǎng)景，正是騰訊AI實(shí)驗(yàn)室與普林斯頓大學(xué)等機(jī)構(gòu)的一項(xiàng)研究揭示的關(guān)鍵問題：AI正在獎(jiǎng)勵(lì)“格式感強(qiáng)但內(nèi)容空”的答復(fù)，而非真正解題的過程。

地址：https://arxiv.org/pdf/2507.08794

一、“萬(wàn)能鑰匙”的發(fā)現(xiàn)：AI裁判的驚人漏洞

該研究團(tuán)隊(duì)發(fā)現(xiàn)，被廣泛用于評(píng)估人工智能答案質(zhì)量的大語(yǔ)言模型，存在著令人驚訝的系統(tǒng)性漏洞。

這些被稱為“AI裁判”的系統(tǒng)，本應(yīng)通過比較模型生成的答案與標(biāo)準(zhǔn)答案來給出評(píng)分，但它們卻能被輕易地欺騙。

研究人員將這些能騙過AI的特定詞語(yǔ)和符號(hào)，生動(dòng)地稱為“萬(wàn)能鑰匙” (Master Keys)。

它們包括“Thought process:”（思考過程：）、“Solution”（解）、“Let's solve this problem step by step.”（讓我們一步步解決這個(gè)問題）等引導(dǎo)性短語(yǔ)。

甚至，僅僅輸入一個(gè)冒號(hào)“:”或一個(gè)句號(hào)“.”這樣的非詞語(yǔ)符號(hào)，也能觸發(fā)AI裁判的錯(cuò)誤判斷。

當(dāng)AI裁判面對(duì)這些“萬(wàn)能鑰匙”時(shí)，即便其與正確答案毫不相關(guān)，模型依然會(huì)頻繁地給出“正確”的評(píng)價(jià)。

圖注：“萬(wàn)能鑰匙”攻擊揭示了大語(yǔ)言模型評(píng)審系統(tǒng)的系統(tǒng)性漏洞，誤判率可達(dá)80%。

這種現(xiàn)象導(dǎo)致了極高的誤報(bào)率（False Positive Rate），在某些測(cè)試中甚至高達(dá)90%，揭示了AI裁判存在著系統(tǒng)性的判斷缺陷。

無論是像GPT-4o、Claude-4這樣的頂級(jí)商業(yè)閉源模型，還是Qwen2.5、LLaMA3等強(qiáng)大的開源模型，都普遍存在這一漏洞。

該漏洞的影響并不僅限于特定模型或特定任務(wù)，它廣泛存在于不同的數(shù)據(jù)集、語(yǔ)言以及提示詞格式中。

研究人員在一個(gè)實(shí)驗(yàn)中觀察到了災(zāi)難性的后果，他們稱之為“訓(xùn)練崩潰” (collapsed training)。

在這個(gè)實(shí)驗(yàn)中，一個(gè)AI模型在接受存在漏洞的AI裁判的指導(dǎo)后，完全放棄了學(xué)習(xí)如何解決實(shí)際問題。該模型轉(zhuǎn)而開始“學(xué)習(xí)”如何利用捷徑，僅僅生成“思考過程：”這類簡(jiǎn)短無意義的“萬(wàn)能鑰匙”來獲取高分獎(jiǎng)勵(lì)。

圖注：以“解答”等推理開頭語(yǔ)在許多最先進(jìn)的大語(yǔ)言模型中作為生成式獎(jiǎng)勵(lì)模型時(shí)，會(huì)觸發(fā)誤判性獎(jiǎng)勵(lì)。

這表明，被欺騙的AI裁判正在強(qiáng)化一種毫無價(jià)值的行為模式，從根本上破壞了人工智能模型的訓(xùn)練過程和可靠性。

二、漏洞的根源與擴(kuò)散：為何模型會(huì)被輕易欺騙

研究人員進(jìn)一步探究了這種漏洞的根源，發(fā)現(xiàn)問題與模型的規(guī)模存在一種出乎意料的復(fù)雜關(guān)系。

模型的脆弱性并非隨著模型參數(shù)的增大而線性減少，反而呈現(xiàn)出一種非單調(diào)的“U型”變化。

在較小的模型（如0.5B）上，由于能力有限，模型傾向于進(jìn)行字面匹配，誤報(bào)率反而較低。

當(dāng)模型規(guī)模增加到中等水平（如1.5B/3B）時(shí)，它們開始理解粗略的語(yǔ)義相似性，但缺乏精確驗(yàn)證能力，導(dǎo)致誤報(bào)率急劇上升。

在7B到14B參數(shù)規(guī)模的模型上，模型能力與謹(jǐn)慎性達(dá)到了一個(gè)較好的平衡，誤報(bào)率有所下降，表現(xiàn)最佳。

然而，當(dāng)模型規(guī)模繼續(xù)增大到32B和72B這樣的超大規(guī)模時(shí)，它們有時(shí)會(huì)“過度思考”，自己先解決一遍問題，再將自己得出的答案與標(biāo)準(zhǔn)答案比較，從而肯定了錯(cuò)誤的提交，導(dǎo)致誤報(bào)率再次攀升。

Qwen2.5 模型的誤判率（FPR）隨著模型規(guī)模的增大而顯著上升，顯示出規(guī)模越大越容易被“萬(wàn)能鑰匙”攻擊誘導(dǎo)。

這種漏洞不僅限于英文，它具有跨語(yǔ)言的特性。

與英文“Solution”具有相同含義的中文“解”、日文“かいせつ”等，同樣能有效觸發(fā)AI裁判的誤判。

更令人警惕的是，攻擊者可以系統(tǒng)性地生成新的“萬(wàn)能鑰匙”。

研究人員通過搜索與已知“萬(wàn)能鑰匙”在語(yǔ)義上（嵌入向量相似）接近的句子，成功發(fā)現(xiàn)了更多可以欺騙模型的短語(yǔ)。

這證明了該漏洞是基于語(yǔ)義關(guān)聯(lián)的，而非偶然的巧合，攻擊面可以被輕易擴(kuò)大。

一些研究者曾認(rèn)為，通過更復(fù)雜的推理策略（如思維鏈CoT）或多次采樣投票等方法，或許可以增強(qiáng)模型的魯棒性。

然而，本次研究的測(cè)試結(jié)果否定了這種猜想。實(shí)驗(yàn)表明，這些推理時(shí)策略的效果非常不穩(wěn)定，其有效性高度依賴于具體的模型和任務(wù)領(lǐng)域，有時(shí)甚至?xí)?b>加劇問題，讓誤報(bào)率變得更高。

三、打造“堅(jiān)盾”：Master-RM模型的誕生與啟示

地址：https://huggingface.co/datasets/sarosavo/Master-RM

為了解決這一嚴(yán)峻挑戰(zhàn)，騰訊AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)著手構(gòu)建一個(gè)更具魯棒性的AI裁判。開發(fā)了一個(gè)名為Master-RM (Master Reward Model)的新型獎(jiǎng)勵(lì)模型，其核心策略是進(jìn)行針對(duì)性的數(shù)據(jù)增強(qiáng)。

研究人員的思路是“以子之矛，攻子之盾”，他們利用類似“萬(wàn)能鑰匙”的模式來訓(xùn)練模型進(jìn)行防御。

具體而言，他們首先生成了大量包含完整解題步驟的正確答案樣本。

接著，他們故意將這些正確答案截?cái)啵槐Ａ糸_頭的第一句話，這些話通常是“為了解決這個(gè)問題，我們首先需要...”之類的通用引導(dǎo)語(yǔ)。

這些被截?cái)嗟摹⒅话龑?dǎo)語(yǔ)的樣本，被系統(tǒng)地標(biāo)記為“不正確”的負(fù)樣本。

研究人員生成了2萬(wàn)個(gè)這樣的合成負(fù)樣本，并將它們與16萬(wàn)個(gè)原始的訓(xùn)練數(shù)據(jù)混合，構(gòu)成了一個(gè)新的、更具挑戰(zhàn)性的訓(xùn)練集。

利用這個(gè)增強(qiáng)后的數(shù)據(jù)集，團(tuán)隊(duì)對(duì)一個(gè)7B規(guī)模的Qwen2.5模型進(jìn)行了監(jiān)督微調(diào)，最終得到了Master-RM。

訓(xùn)練結(jié)果極為成功，Master-RM在所有測(cè)試的“萬(wàn)能鑰匙”攻擊中，幾乎達(dá)到了零誤報(bào)率。

重要的是，這種強(qiáng)大的防御能力并不以犧牲其通用評(píng)估能力為代價(jià)。

在對(duì)正常答案進(jìn)行評(píng)估時(shí)，Master-RM的表現(xiàn)與業(yè)界公認(rèn)的黃金標(biāo)準(zhǔn)GPT-4o保持著極高的一致性，證明了其判斷的準(zhǔn)確性。

目前。研究人員已經(jīng)將他們訓(xùn)練好的Master-RM模型以及相關(guān)的合成數(shù)據(jù)集公開發(fā)布。

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.