GRPO=高級版拒絕采樣？強(qiáng)化學(xué)習(xí)祛魅時(shí)刻：負(fù)樣本“去蕪存菁”才是關(guān)鍵

2025-06-11 08:25:29　來源: 將門創(chuàng)投

北京舉報(bào)

分享至

現(xiàn)在大家都用強(qiáng)化學(xué)習(xí)（RL）來訓(xùn)練大語言模型（LLM）做比較復(fù)雜的推理任務(wù)，比如數(shù)學(xué)題。其中，像 PPO 這樣的算法雖然主流，但它需要額外的網(wǎng)絡(luò)（critic network），搞得比較復(fù)雜和麻煩。

同時(shí)，像 GRPO 這樣的算法在實(shí)踐中效果很好（比如訓(xùn)練 DeepSeek-R1），但大家其實(shí)不太清楚它到底為什么有效，是不是真的比更簡單的方法好很多。

另一方面，有一些非常簡單的方法，比如 RAFT（拒絕采樣），就是只用模型答對了的樣本進(jìn)行微調(diào)，似乎效果也不錯。這就讓研究者們好奇了：

這些復(fù)雜的 RL 算法（比如 PPO、GRPO）相比于簡單的 SFT 類方法（比如 RAFT），優(yōu)勢到底在哪里？真的有必要搞那么復(fù)雜嗎？
GRPO 之所以效果好，是因?yàn)樗惴ū旧淼脑O(shè)計(jì)（比如獎勵歸一化），還是因?yàn)樗谑褂脴颖旧系哪承┎呗裕ū热缛绾翁幚泶疱e的樣本）？
對于 LLM 這種輸出是文字序列、環(huán)境相對確定的場景，是不是可以用更簡潔、更適合的 RL 算法？

所以，這篇文章的出發(fā)點(diǎn)就是，重新審視和比較幾種有代表性的 RL 方法（特別是 GRPO 和極簡的 RAFT、以及基礎(chǔ)的 Reinforce），弄清楚它們成功的關(guān)鍵因素，尤其是負(fù)樣本（模型答錯的例子）到底該怎么用，以及能不能找到一種既簡單又有效的 RL 訓(xùn)練方法。

論文標(biāo)題： A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 論文地址： https://arxiv.org/abs/2504.11343 GitHub地址： https://github.com/rlhflow/minimal-rl

這篇文章主要有以下幾個(gè)發(fā)現(xiàn)和貢獻(xiàn)：

驗(yàn)證了極簡方法的有效性：研究者們發(fā)現(xiàn)，RAFT 這個(gè)非常簡單的拒絕采樣方法（只用回答正確的樣本訓(xùn)練），效果竟然和當(dāng)前流行的 GRPO 方法差不多，甚至在訓(xùn)練早期收斂得更快。

這說明，對于這類任務(wù)，簡單的“只學(xué)好的”策略本身就是一個(gè)很強(qiáng)的基準(zhǔn)（baseline）。不過，他們也指出，RAFT 因?yàn)橹挥谜龢颖荆笃跁驗(yàn)槟Ｐ吞剿餍越档停販p小太快）而被 GRPO 超越。

揭示了 GRPO 的優(yōu)勢來源：通過細(xì)致的對比實(shí)驗(yàn)（消融研究），他們發(fā)現(xiàn) GRPO 相對于標(biāo)準(zhǔn) Reinforce 算法的主要優(yōu)勢，其實(shí)來自于它在處理樣本時(shí)，隱式地過濾掉了那些“所有回答都錯了”的題目（prompt）。

也就是說，避免在完全失敗的例子上學(xué)習(xí)，是 GRPO 效果提升的關(guān)鍵。相比之下，GRPO 中使用的那種根據(jù)同一題目下不同回答的好壞來做獎勵歸一化的技術(shù)，影響并不大。這說明，不是所有負(fù)樣本都有用，有些負(fù)樣本（全錯的）甚至可能拖后腿。

提出了新的簡化版 RL 算法：基于以上發(fā)現(xiàn)，他們提出了一個(gè)叫 Reinforce-Rej 的新方法。這個(gè)方法是對基礎(chǔ) Reinforce 算法的一個(gè)小改進(jìn)，核心思想是：既不學(xué)習(xí)“所有回答都正確”的題目（可能太簡單了），也不學(xué)習(xí)“所有回答都錯誤”的題目（可能是有害的），只在那些“有好有壞”的題目上進(jìn)行學(xué)習(xí)。

實(shí)驗(yàn)證明，這個(gè) Reinforce-Rej 方法最終性能和 GRPO 差不多，但是 KL 效率（衡量模型更新幅度）更高，訓(xùn)練更穩(wěn)定。

提供了實(shí)踐指導(dǎo)：總的來說，這項(xiàng)工作強(qiáng)調(diào)了在用獎勵微調(diào) LLM 時(shí)，“如何選擇和使用訓(xùn)練樣本”（尤其是負(fù)樣本）比“用哪個(gè)復(fù)雜的 RL 算法”可能更重要。他們建議大家可以將 RAFT 作為一個(gè)簡單、可靠的 baseline，并且未來的研究應(yīng)該更深入、更原理性地去設(shè)計(jì)如何利用負(fù)樣本，而不是不加區(qū)分地混用。

一、現(xiàn)有方法的詳細(xì)分析

首先我們回顧幾種用于 LLM 后訓(xùn)練（post-training）的代表性算法：

1.1 RAFT（拒絕采樣微調(diào)）

RAFT 這個(gè)方法，在文獻(xiàn)里也叫拒絕采樣微調(diào)（Rejection Sampling Fine-tuning）。它的操作步驟很簡單，主要分三步：

1. 收集數(shù)據(jù)：拿一批提示 x ，用一個(gè)參考模型（比如當(dāng)前模型自己）給每個(gè)提示生成 n 個(gè)回答。

2. 篩選數(shù)據(jù)（拒絕采樣）：用獎勵函數(shù) r(x, a) 給每個(gè)回答打分，只保留那些得分最高的（通常是獎勵為 1 的，也就是正確的回答）。把這些篩選出來的“好”樣本匯總成數(shù)據(jù)集 D 。

3. 模型微調(diào)：用這個(gè)只包含好樣本的數(shù)據(jù)集 D 來微調(diào)當(dāng)前的模型 π ，目標(biāo)是最大化模型在這些好樣本上的對數(shù)似然。

1.2 策略梯度（Policy Gradient）與 Reinforce

這是強(qiáng)化學(xué)習(xí)里的經(jīng)典方法。核心思想是優(yōu)化一個(gè)目標(biāo)函數(shù) J(θ) ，這個(gè)函數(shù)代表了模型在所有可能的提示 x 下，生成回答 a 并獲得獎勵 r(x, a) 的期望值：

目標(biāo)是找到讓 J(θ) 最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù)：

目標(biāo)是找到讓最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù)：

為了讓訓(xùn)練更穩(wěn)定，防止新舊模型差異過大導(dǎo)致重要性采樣權(quán)重爆炸，研究者們借鑒了 PPO 算法里的裁剪（clipping）技術(shù)。最終，Reinforce 算法的損失函數(shù)（這里是最小化負(fù)的目標(biāo)函數(shù)）可以寫成：

由于 LLM 是自回歸的（一個(gè) token 一個(gè) token 地生成），通常會把上面的損失函數(shù)應(yīng)用到 token 層面：

1.3 GRPO

GRPO 的損失函數(shù)形式和上面 Reinforce 的 token-level 損失很像。關(guān)鍵區(qū)別在于，它不用原始的獎勵 r(x, a) ，而是用一個(gè)為每個(gè) token 計(jì)算的優(yōu)勢函數(shù)（Advantage Function）。

具體計(jì)算方法是：對每個(gè)提示 x ，采樣 n 個(gè)回答，得到對應(yīng)的獎勵。然后計(jì)算這些獎勵的平均值 mean 和標(biāo)準(zhǔn)差 std 。第 i 個(gè)回答中第 t 個(gè) token 的優(yōu)勢值計(jì)算如下：

這里的在強(qiáng)化學(xué)習(xí)里叫做基線（baseline），它的作用是減小梯度估計(jì)的方差，讓訓(xùn)練更穩(wěn)定。

1.4（Iterative）DPO（直接偏好優(yōu)化）

DPO 是一種不同的方法，它不直接用獎勵分?jǐn)?shù)，而是依賴于成對的比較數(shù)據(jù)。數(shù)據(jù)集里是這樣的樣本： (x, a+, a-) ，表示對于提示 x ，回答 a+ 比 a- 更好。

DPO 優(yōu)化的目標(biāo)是一個(gè)對比損失（contrastive loss）：

這里， σ 是 sigmoid 函數(shù)， β 是一個(gè)超參數(shù)（大于 0）， π_ref 通常是初始的模型或者一個(gè)固定的參考模型。

原始的 DPO 是在離線數(shù)據(jù)上訓(xùn)練的。但后續(xù)研究發(fā)現(xiàn)，可以迭代進(jìn)行：用訓(xùn)練過程中的模型去生成新的回答，然后根據(jù)某種方式（比如模型自己打分或者人工標(biāo)注）得到新的偏好對 (a+, a-) ，再用這些新的在線數(shù)據(jù)繼續(xù)訓(xùn)練模型。這種迭代的方式可以顯著提升模型性能。

1.5 RAFT++

研究者注意到，RAFT 如果在每次迭代中，用收集到的數(shù)據(jù)（replay buffer）進(jìn)行多步梯度更新，那它其實(shí)也可以看作是一種混合了離策略（off-policy）的算法。

基于這個(gè)想法，他們提出了 RAFT++，就是把 Reinforce 里的重要性采樣和裁剪技術(shù)也應(yīng)用到 RAFT 上。它的損失函數(shù)形式和 Reinforce 類似，但有一個(gè)關(guān)鍵區(qū)別：它只在最好的樣本（獎勵最高的那些，也就是正樣本）上進(jìn)行訓(xùn)練。這通過一個(gè)指示函數(shù) I 來實(shí)現(xiàn)：

其中是一個(gè)指示函數(shù)，當(dāng)當(dāng)前回答 a 是所有 n 個(gè)回答里獎勵最高的那個(gè)時(shí)， I 等于 1，否則等于 0。這樣就保證了只有正樣本對損失有貢獻(xiàn)。

二、實(shí)驗(yàn)結(jié)果與有趣的發(fā)現(xiàn)

匯總以下是基于提供的實(shí)驗(yàn)部分的解讀，總結(jié)出的主要結(jié)果和有趣發(fā)現(xiàn)：

簡單方法表現(xiàn)驚艷：

RAFT 及其改進(jìn)版 RAFT++ ，雖然是相對簡單的基于“拒絕采樣”的方法（只用好的樣本），但在數(shù)學(xué)推理任務(wù)上的表現(xiàn)出人意料地好。
它們的效果能跟更復(fù)雜的深度強(qiáng)化學(xué)習(xí)方法（如 PPO , GRPO ）打個(gè)平手，超過了 iterative DPO 。
尤其是在 Qwen 模型上， RAFT++ （52.5%）的平均準(zhǔn)確率非常接近當(dāng)時(shí)效果最好的 GRPO （53.9%）。

RAFT++ 的改進(jìn)有效：

在 RAFT 基礎(chǔ)上加入重要性采樣（修正數(shù)據(jù)分布偏差）和裁剪（限制更新幅度）技術(shù)后形成的 RAFT++ ，確實(shí)比原版 RAFT 收斂更快，最終準(zhǔn)確率也更高。
實(shí)驗(yàn)證明，裁剪步驟非常關(guān)鍵。如果只用重要性采樣而不進(jìn)行裁剪，效果反而會變差，說明無限制的更新可能會破壞訓(xùn)練穩(wěn)定性。

學(xué)習(xí)動態(tài)對比：先快后慢 vs 持續(xù)提升：

RAFT++ 在訓(xùn)練早期學(xué)得比 GRPO 更快。
但是， RAFT++ 的性能提升在訓(xùn)練中后期會明顯放緩，最終被 GRPO 反超。

負(fù)樣本是把“雙刃劍”？

RAFT++ （只用正樣本）性能提升放緩與其策略熵（模型探索性/答案多樣性）的快速下降有關(guān)。熵太低，模型就不太會探索新的推理路徑了。
GRPO 因?yàn)橐部紤]了負(fù)樣本，策略熵下降較慢，保持了更長時(shí)間的探索能力，所以后期還能繼續(xù)提升。這表明，負(fù)樣本可能有助于維持探索。
然而，簡單的 Reinforce 算法（也用負(fù)樣本）在 LLaMA 模型上效果反而不如只用正樣本的 RAFT++ 。這暗示，如何定義和使用負(fù)樣本很重要，僅僅基于最終答案對錯可能過于粗糙，不一定總能帶來好處。

在 GRPO 和強(qiáng)化學(xué)習(xí)類型算法的各個(gè)組件上進(jìn)行的消融研究。將 GRPO 與其他基于強(qiáng)化學(xué)習(xí)的變種進(jìn)行比較，以隔離去除錯誤樣本、正確樣本和應(yīng)用標(biāo)準(zhǔn)化的影響。去除錯誤樣本（“移除所有錯誤”）提供了最大的獎勵增益，突出了它們的有害影響。相比之下，去除正確樣本沒有增益。均值歸零標(biāo)準(zhǔn)化增加了 KL 損失并不穩(wěn)定訓(xùn)練。按標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化幾乎沒有額外的好處。“Reinforce + Remove both” 變種在獎勵、KL 穩(wěn)定性和熵正則化之間達(dá)到了很好的平衡。

GRPO 強(qiáng)大的核心在于“樣本剔除”：

通過詳細(xì)的消融實(shí)驗(yàn)對比 Reinforce 的各種變體，發(fā)現(xiàn) GRPO 性能優(yōu)越的關(guān)鍵在于剔除了那些所有生成答案都錯誤的樣本（“Remove all wrong”）。這些全是錯誤的樣本對訓(xùn)練的干擾最大。
相比之下，獎勵歸一化（如減去均值或除以標(biāo)準(zhǔn)差）對性能提升作用不大，甚至簡單的均值歸一化還會導(dǎo)致訓(xùn)練不穩(wěn)定。
剔除所有答案都正確的樣本（“Remove all correct”）幫助也不大。
同時(shí)剔除“全對”和“全錯”樣本的策略（稱為 Reinforce-Rej ）在性能、穩(wěn)定性和保持探索性之間取得了不錯的平衡。

三、一些思考

提出新的簡化基準(zhǔn)：

基于以上發(fā)現(xiàn)，研究者認(rèn)為 RAFT++ 和 Reinforce-Rej （剔除全對和全錯樣本的 Reinforce）是有效且更簡單的基準(zhǔn)算法，值得未來研究參考。

對負(fù)樣本作用的新思考：

研究結(jié)果表明，在基于強(qiáng)化學(xué)習(xí)的大模型訓(xùn)練中，負(fù)樣本的作用比想象中更微妙。直接使用所有負(fù)樣本不一定最好，未來可能需要更精細(xì)化的方法來篩選和利用不同質(zhì)量的樣本。

來源：公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（www.techbeat.net）。社區(qū)上線600+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門創(chuàng)投”公眾號，后臺回復(fù)“投稿”二字，獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù)，歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

點(diǎn)擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.