網易首頁 > 網易號 > 正文申請入駐

LLM加RL遭質疑：故意用錯獎勵，數(shù)學基準也顯著提升，AI圈炸了

2025-05-28 16:47:07　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：澤南、+0

我們訓練了這么久，都在訓練些什么？

這是今年最「好笑」的一篇論文。

本文一出，所有的大語言模型（LLM）+ 強化學習（RL）都要被質疑是否有意義了。

這周二，一篇來自華盛頓大學、艾倫人工智能實驗室、伯克利的論文引爆了 AI 界。

論文：Spurious Rewards: Rethinking Training Signals in RLVR
項目鏈接：https://github.com/ruixin31/Rethink_RLVR/tree/main

作者駁斥了最近大模型領域盛行的強化學習方式，他們發(fā)現(xiàn)：使用虛假獎勵訓練 Qwen2.5-Math-7B 模型也可以提高 MATH-500 的成績，如果是隨機獎勵，成績能提高 21%，如果是錯誤獎勵，成績能提升 25%（真實獎勵能提升 28.8%）。

這是怎么一回事？大模型的訓練技巧真的有用嗎？該工作的作者寫了一篇博客進行了介紹：

質疑強化學習 (RLVR) 傳統(tǒng)觀點

近一段時間，可驗證獎勵強化學習（RLVR）已成為增強大型語言模型（LLM）推理能力的標準方法。傳統(tǒng)觀點認為，高質量的監(jiān)督信號對于有效的 RLVR 訓練至關重要。最近的研究挑戰(zhàn)了這一假設，表明使用 RLVR 對單個樣本或無監(jiān)督樣本進行訓練仍然可以在 Qwen-Math 模型上取得顯著的進步。

但是，我們不禁要問：單樣本或無監(jiān)督 RLVR 中的訓練信號來自哪里？為了提供有意義的 RLVR 訓練信號，獎勵的最低要求是什么？

我們的發(fā)現(xiàn)令人震驚。

虛假獎勵，即使是隨機的或錯誤的，也能顯著提升 Qwen-Math 表現(xiàn)

我們發(fā)現(xiàn)，RLVR 可以通過所謂的「虛假獎勵」—— 提供極少甚至誤導性指導的信號，大幅提升數(shù)學推理能力。

以下是我們嘗試過的一些有趣的獎勵：

格式獎勵：僅因答案包含 \boxed { } 而給予獎勵 —— 因答案包含 \boxed {} 表達式而給予獎勵。此格式也是系統(tǒng)提供給模型的提示中指定的格式，從而提供了一種「提示遵循」的概念。
隨機獎勵：完全任意的反饋 —— 字面意思：1 if (random.random () < rate) else 0
錯誤獎勵：故意設置錯誤的監(jiān)督信號 —— 獲取錯誤但可信的標簽的步驟：

按頻率對模型的 rollout 進行排序
取最常見的答案
如果答案正確，則丟棄樣本
在模型最常見答案錯誤的子集上進行訓練，并將該特定答案作為訓練標簽。

我們還與文獻中研究過的其他一些弱獎勵進行了比較：

多數(shù)投票獎勵：將多數(shù)投票的答案作為標簽。
單樣本強化學習：在單個樣本上進行標準強化學習虛擬學習 (RLVR)。

RLVR 在不同訓練信號上進行 150 步訓練后的 MATH-500 準確率。我們證明，即使是「虛假獎勵」也能在 Qwen 模型上帶來顯著的 MATH-500 提升。需要注意的是，這些獎勵信號不適用于其他模型，例如 Llama3 和 OLMo2，因為它們的推理先驗有所不同。

從 AI 社區(qū)廣泛用于強化學習的模型 Qwen2.5-Math-7B 開始，我們在多個數(shù)學推理基準測試中取得了與基于真實值監(jiān)督模型相當?shù)男阅芴嵘?/p>

這一發(fā)現(xiàn)直接挑戰(zhàn)了強化學習在提升 AI 推理能力方面所起作用的現(xiàn)有理解。

有反轉：虛假獎勵并非對所有模型都有效

當我們將實驗擴展到其他未專門針對數(shù)學推理進行優(yōu)化的模型系列（包括 Qwen2.5-Base、Olmo2 和 Llama3 變體）時，觀察到了一些有趣的現(xiàn)象：

與 Qwen-Math 不同，其他模型在「虛假獎勵」方面表現(xiàn)得非常有限。

（我們主要討論 MATH-500 上的表現(xiàn)，有關 AMC、AIME 2024，尤其是訓練數(shù)據(jù)截止日期之后的 AIME 2025 測試集的更多結果，請參閱完整論文。）

對真實標簽進行首次健全性檢查。它提高了所有模型的性能。在使用真實標簽進行簡單的 GRPO 時，我們看到所有模型系列都得到了改進，Qwen 和 Qwen-Math 的改進比 Llama 和 OLMo 模型更大。
多數(shù)投票結果如何？先前的研究已提出提高模型一致性的方法。我們發(fā)現(xiàn)，這確實對大多數(shù)模型有益，但對 OLMo 卻無益。
如果我們只在響應包含 \\boxed {} 時才給予獎勵會怎么樣？實驗發(fā)現(xiàn)，僅僅訓練模型生成可解析的結果，就能在 Qwen 模型上獲得巨大的性能提升 ——Qwen2.5-1.5B 的絕對提升高達 49.9%。但這種獎勵會損害 Llama3.2-3B-Instruct 和 OLMo2-SFT-7B 的性能，分別降低 7.3% 和 5.3%。有趣的是，性能在達到峰值后開始逐漸下降。我們假設這是因為模型已經「學習」了格式，因此進一步的訓練并不能為其提供更多信息。
錯誤的獎勵 —— 事情開始變得有趣起來。我們發(fā)現(xiàn)，它仍然顯著地提高了 Qwen 模型的性能，但對 Llama 模型沒有影響，并且損害了 OLMo-Base 和 OLMo-SFT 模型。
最后，如果我們不觀察模型本身，直接隨機地將獎勵 0 或 1 分配給模型，結果會怎樣？這仍然有效嗎？你猜對了，對于 Qwen 模型有效，但對于其他模型無效。

請注意，隨機獎勵在 Qwen2.5-1.5B 中不起作用，并且僅在約 120 步后才在 Qwen2.5-7B 中開始起作用。基于這一觀察，我們對其進行了更長時間的訓練（300 步），發(fā)現(xiàn)與其他帶信號的獎勵相比，這些模型的收斂水平較低。

這種依賴于架構的行為表明，RLVR 的有效性更多地取決于預先存在的模型能力，而不是監(jiān)督信號的質量。

給未來工作的實踐性警示

Qwen 模型憑借其開源權重和在推理任務上的高性能，已成為開源社區(qū)中 RLVR 研究事實上的選擇 —— 近期一系列關于 RLVR 的研究都是基于以 Qwen 為中心的實驗得出結論的（請參閱原論文以獲取列表）。

然而，我們發(fā)現(xiàn)近期有兩項研究表明，使用弱監(jiān)督的 RLVR 在 Qwen 模型上效果良好，但這些結論無法泛化到其他模型家族。

測試時強化學習：該論文提出在測試樣本上進行 RLVR，并使用同策略 (on-policy) 下多數(shù)投票 (majority-voted)的答案來計算獎勵。
單樣本強化學習：這篇論文表明，僅用一個樣本進行 RLVR 就可以達到與在標準訓練集上進行 RLVR 相當?shù)男阅堋?/li>

我們在多種基礎模型上評估了最近提出的兩種弱監(jiān)督 RL 方法 ——TTRL 和單樣本 RL。我們發(fā)現(xiàn)，這些提出的訓練獎勵在 Qwen 模型上能夠持續(xù)奏效。然而，除了少數(shù)例外，這些相同的信號在其他模型家族上通常無法帶來收益，這與我們使用虛假獎勵進行訓練時觀察到的有限泛化能力相呼應。

因此，我們建議未來的 RLVR 研究應該在其他模型上進行驗證。

是什么讓帶有虛假獎勵的 RLVR 生效呢？

現(xiàn)在，你可能會好奇 —— 為什么會發(fā)生這種情況？？為什么所有這些虛假獎勵都在 Qwen-Math 模型上有效？魔法究竟在哪里？

總的來說，我們假設 RLVR 訓練結果的差異是由于每個模型在預訓練過程中學到的特定推理策略不同所致。特別是，某些策略可能很容易被 RLVR 引出 (elicited)，而其他策略則可能更難顯現(xiàn)，或者根本不存在。

我們識別出了一種這樣的預存策略：生成代碼以輔助數(shù)學推理，Qwen-Math 能夠有效利用它，而其他模型家族則利用得較少。我們將代碼推理作為一項有啟發(fā)性的案例研究來進行調查，但這并非完整的解釋：我們觀察到其他一些行為也很容易被引出，并且常常與性能相關，例如「不重復」。更多詳情請參閱論文。

個有啟發(fā)性的案例研究：代碼推理

通過仔細分析，我們發(fā)現(xiàn)了一個關鍵洞察：即使在進行 RLVR 訓練之前，Qwen-Math 也有 65.0% 的時間會生成 Python 代碼來解決數(shù)學問題。更驚人的是，在沒有代碼執(zhí)行器的情況下，它常常能生成正確的代碼輸出以及問題的正確答案。

然而，這種頻繁且高質量的代碼推理能力在其他模型中并不存在。

Qwen2.5-Math-7B 的代碼推理回應示例。該問題從 MATH-500 測試集中隨機選取。請注意，代碼及其執(zhí)行結果均由 Qwen2.5-Math-7B 自回歸生成。并未向模型提供外部代碼解釋器。

在應用 RLVR 之后，無論獎勵質量如何，這種代碼推理的頻率平均增加到 90% 以上。

這種推理策略的轉變——而非獲取新的推理技能——似乎是驅動性能提升的原因。Qwen 模型通過 RLVR 訓練學會了使用更多的代碼推理。從語言推理到代碼推理的轉變有效地提升了性能。

對于 Qwen-Math 和 Qwen 模型而言，代碼頻率與性能高度相關。代碼越多 —> 正確答案越多，反之亦然。然而，在那些能產生代碼但無法產生優(yōu)質代碼的模型（例如 OLMo2-7B-SFT）中，這種相關性是相反的。

細粒度準確率追蹤 — 我們僅從選擇正確的推理策略中能獲益多少？

更有趣的是，我們追蹤了那些在 RLVR 前后推理策略發(fā)生改變的問題，并分析了性能增益究竟從何而來。我們發(fā)現(xiàn)：

虛假獎勵在將模型行為轉換為代碼推理方面更為激進，并且極少將原本是代碼推理的行為轉變?yōu)樽匀徽Z言推理。令人印象深刻的是，看起來基于虛假獎勵的 RLVR 做出了正確的選擇 —— 對于那些從自然語言推理切換到代碼推理的問題，性能急劇提升了約 55%。另一方面，真實標簽獎勵則將自然語言推理的性能提升了 60.2%！下面的流程圖包含了更詳細的說明。

我們進一步量化了每種策略轉換行為對每個模型性能增益的貢獻。看到這一點非常酷：如果一個模型擅長代碼推理（代碼準確率 > 語言準確率），RLVR 的增益主要來自于從語言到代碼推理的轉換；如果一個模型不擅長代碼推理（代碼準確率 < 語言準確率），RLVR 的增益則主要來自于從代碼到語言推理的轉換。

在成功引導模型推理策略的獎勵上平均計算，對整體性能增益的部分貢獻。

基于我們初步觀察到的這些強相關性，我們假設代碼推理是 Qwen 模型中導致良好數(shù)學性能的推理行為之一。

為了驗證我們的假設，我們通過提示和強化學習明確地約束模型生成代碼推理。我們觀察到，在所有測試的模型中，代碼推理的頻率與基準性能之間存在強相關性。（相關性的方向取決于特定模型的代碼質量）。

通過提示誘導代碼推理

我們僅僅通過提示模型，讓它以「讓我們用 Python 來解決這個問題。」 (Let's solve this using Python) 這句話來開始其回應。這個簡單的做法顯著提升了 Qwen-math 模型的性能，但卻降低了 Llama 和 OLMo 模型的性能。

通過強化學習 (RL) 誘導代碼推理

鑒于提示實驗的成功，我們設計了一種額外的虛假獎勵：只要模型的回應中包含字符串 python，就給予獎勵。這極大地鼓勵了所有模型去使用代碼推理（在訓練 50 步之后，超過 99% 的回應包含代碼）。

在下方的圖表中，我們展示了類似的趨勢，但如果我們使用強化學習來訓練模型更多地使用 Python 代碼，效果會更加顯著。Qwen-Math 和 Qwen2.5-7B 模型的性能得到了提升，而其他模型的性能則有所下降。

但為什么要隨機？

當我們看到訓練曲線隨著 random.random () < 0.5 產生的獎勵而攀升時，我們感到困惑。完全無意義、毫無信息的獎勵，又怎能真正促進模型學習呢？

這個悖論促使我們去尋找人工智能領域的「倫敦色散力」—— 就像電中性的原子之間仍然神秘地相互吸引一樣。在深入研究 GRPO 后，我們發(fā)現(xiàn)裁剪項可能是關鍵。我們通過三種方法對裁剪因子進行了消融研究：

(a) 在損失計算中直接禁用裁剪。

(b) 調整訓練和推演的批量大小，使推演模型與策略保持一致。

方法 (b) 和 (c) 確保每個推演步驟只有一個梯度更新，從而自然地避免了裁剪約束。

在 Qwen2.5-Math-7B 模型上，對 GRPO 中的裁剪項進行消融研究時的性能和代碼推理頻率。使用帶有裁剪的隨機獎勵進行訓練，會增加代碼推理模式并提高性能。

在使用標準 GRPO 裁剪的情況下，隨機獎勵為 Qwen2.5-Math-7B 帶來了約 21% 的性能提升，并增加了代碼推理模式。但是，當我們通過上述三種方法中的任何一種消除裁剪效應時，隨機獎勵并未帶來任何改善。

我們推測這是由于 GRPO 公式本身存在的偏差，我們將在下面詳細說明。在裁剪的作用下，隨機獎勵并非教給模型任務的質量 —— 相反，它們觸發(fā)了一種集中效應，使模型專注于其現(xiàn)有的推理模式分布。當禁用裁剪時，這種集中機制就完全消失了。

啟示與未來工作

虛假獎勵通過放大現(xiàn)有能力起作用：帶有虛假獎勵的 RLVR 可以作為一種機制，來放大和凸顯在預訓練過程中學到的有用推理表示。當提出新的 RLVR 方法時，它們應該審視其帶來的益處是否超越了揭示這些表面模式的層面，以研究真正學習發(fā)生的程度。
在更多模型家族上測試關于 RL 方法的主張：鑒于不同的模型家族具有不同的預存能力，我們建議未來的 RLVR 研究或許應該在多樣化的模型上進行驗證，而不是僅僅依賴于單一的「事實標準」選擇，因為我們已經證明，即使使用完全虛假的獎勵信號，也很容易在 Qwen 模型上獲得明顯的性能增益。
首先了解你的模型：我們應該更加意識到，在預訓練期間學到的推理模式會嚴重影響下游的 RLVR 訓練行為 —— 無論是在設計預訓練方法時，還是在使用預訓練模型進行 RLVR 時，都應如此。

參考內容：

https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.