現(xiàn)在大家都用強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練大語言模型(LLM)做比較復(fù)雜的推理任務(wù),比如數(shù)學(xué)題。其中,像 PPO 這樣的算法雖然主流,但它需要額外的網(wǎng)絡(luò)(critic network),搞得比較復(fù)雜和麻煩。
同時(shí),像 GRPO 這樣的算法在實(shí)踐中效果很好(比如訓(xùn)練 DeepSeek-R1),但大家其實(shí)不太清楚它到底為什么有效,是不是真的比更簡單的方法好很多。
另一方面,有一些非常簡單的方法,比如 RAFT(拒絕采樣),就是只用模型答對了的樣本進(jìn)行微調(diào),似乎效果也不錯。這就讓研究者們好奇了:
這些復(fù)雜的 RL 算法(比如 PPO、GRPO)相比于簡單的 SFT 類方法(比如 RAFT),優(yōu)勢到底在哪里?真的有必要搞那么復(fù)雜嗎?
GRPO 之所以效果好,是因?yàn)樗惴ū旧淼脑O(shè)計(jì)(比如獎勵歸一化),還是因?yàn)樗谑褂脴颖旧系哪承┎呗裕ū热缛绾翁幚泶疱e的樣本)?
對于 LLM 這種輸出是文字序列、環(huán)境相對確定的場景,是不是可以用更簡潔、更適合的 RL 算法?
所以,這篇文章的出發(fā)點(diǎn)就是,重新審視和比較幾種有代表性的 RL 方法(特別是 GRPO 和極簡的 RAFT、以及基礎(chǔ)的 Reinforce),弄清楚它們成功的關(guān)鍵因素,尤其是負(fù)樣本(模型答錯的例子)到底該怎么用,以及能不能找到一種既簡單又有效的 RL 訓(xùn)練方法。
論文標(biāo)題: A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 論文地址: https://arxiv.org/abs/2504.11343 GitHub地址: https://github.com/rlhflow/minimal-rl
這篇文章主要有以下幾個(gè)發(fā)現(xiàn)和貢獻(xiàn):
驗(yàn)證了極簡方法的有效性:研究者們發(fā)現(xiàn),RAFT 這個(gè)非常簡單的拒絕采樣方法(只用回答正確的樣本訓(xùn)練),效果竟然和當(dāng)前流行的 GRPO 方法差不多,甚至在訓(xùn)練早期收斂得更快。
這說明,對于這類任務(wù),簡單的“只學(xué)好的”策略本身就是一個(gè)很強(qiáng)的基準(zhǔn)(baseline)。不過,他們也指出,RAFT 因?yàn)橹挥谜龢颖荆笃跁驗(yàn)槟P吞剿餍越档停販p小太快)而被 GRPO 超越。
揭示了 GRPO 的優(yōu)勢來源:通過細(xì)致的對比實(shí)驗(yàn)(消融研究),他們發(fā)現(xiàn) GRPO 相對于標(biāo)準(zhǔn) Reinforce 算法的主要優(yōu)勢,其實(shí)來自于它在處理樣本時(shí),隱式地過濾掉了那些“所有回答都錯了”的題目(prompt)。
也就是說,避免在完全失敗的例子上學(xué)習(xí),是 GRPO 效果提升的關(guān)鍵。相比之下,GRPO 中使用的那種根據(jù)同一題目下不同回答的好壞來做獎勵歸一化的技術(shù),影響并不大。這說明,不是所有負(fù)樣本都有用,有些負(fù)樣本(全錯的)甚至可能拖后腿。
提出了新的簡化版 RL 算法:基于以上發(fā)現(xiàn),他們提出了一個(gè)叫 Reinforce-Rej 的新方法。這個(gè)方法是對基礎(chǔ) Reinforce 算法的一個(gè)小改進(jìn),核心思想是:既不學(xué)習(xí)“所有回答都正確”的題目(可能太簡單了),也不學(xué)習(xí)“所有回答都錯誤”的題目(可能是有害的),只在那些“有好有壞”的題目上進(jìn)行學(xué)習(xí)。
實(shí)驗(yàn)證明,這個(gè) Reinforce-Rej 方法最終性能和 GRPO 差不多,但是 KL 效率(衡量模型更新幅度)更高,訓(xùn)練更穩(wěn)定。
提供了實(shí)踐指導(dǎo):總的來說,這項(xiàng)工作強(qiáng)調(diào)了在用獎勵微調(diào) LLM 時(shí),“如何選擇和使用訓(xùn)練樣本”(尤其是負(fù)樣本)比“用哪個(gè)復(fù)雜的 RL 算法”可能更重要。他們建議大家可以將 RAFT 作為一個(gè)簡單、可靠的 baseline,并且未來的研究應(yīng)該更深入、更原理性地去設(shè)計(jì)如何利用負(fù)樣本,而不是不加區(qū)分地混用。
一、現(xiàn)有方法的詳細(xì)分析
首先我們回顧幾種用于 LLM 后訓(xùn)練(post-training)的代表性算法:
1.1 RAFT(拒絕采樣微調(diào))
RAFT 這個(gè)方法,在文獻(xiàn)里也叫拒絕采樣微調(diào)(Rejection Sampling Fine-tuning)。它的操作步驟很簡單,主要分三步:
1. 收集數(shù)據(jù):拿一批提示 x ,用一個(gè)參考模型(比如當(dāng)前模型自己)給每個(gè)提示生成 n 個(gè)回答。
2. 篩選數(shù)據(jù)(拒絕采樣):用獎勵函數(shù) r(x, a) 給每個(gè)回答打分,只保留那些得分最高的(通常是獎勵為 1 的,也就是正確的回答)。把這些篩選出來的“好”樣本匯總成數(shù)據(jù)集 D 。
3. 模型微調(diào):用這個(gè)只包含好樣本的數(shù)據(jù)集 D 來微調(diào)當(dāng)前的模型 π ,目標(biāo)是最大化模型在這些好樣本上的對數(shù)似然。
1.2 策略梯度(Policy Gradient)與 Reinforce
這是強(qiáng)化學(xué)習(xí)里的經(jīng)典方法。核心思想是優(yōu)化一個(gè)目標(biāo)函數(shù) J(θ) ,這個(gè)函數(shù)代表了模型在所有可能的提示 x 下,生成回答 a 并獲得獎勵 r(x, a) 的期望值:
目標(biāo)是找到讓 J(θ) 最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù):
目標(biāo)是找到讓 最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù):
為了讓訓(xùn)練更穩(wěn)定,防止新舊模型差異過大導(dǎo)致重要性采樣權(quán)重 爆炸,研究者們借鑒了 PPO 算法里的裁剪(clipping)技術(shù)。最終,Reinforce 算法的損失函數(shù)(這里是最小化負(fù)的目標(biāo)函數(shù))可以寫成:
由于 LLM 是自回歸的(一個(gè) token 一個(gè) token 地生成),通常會把上面的損失函數(shù)應(yīng)用到 token 層面:
1.3 GRPO
GRPO 的損失函數(shù)形式和上面 Reinforce 的 token-level 損失很像。關(guān)鍵區(qū)別在于,它不用原始的獎勵 r(x, a) ,而是用一個(gè)為每個(gè) token 計(jì)算的優(yōu)勢函數(shù)(Advantage Function) 。
具體計(jì)算方法是:對每個(gè)提示 x ,采樣 n 個(gè)回答 ,得到對應(yīng)的獎勵 。然后計(jì)算這些獎勵的平均值 mean 和標(biāo)準(zhǔn)差 std 。第 i 個(gè)回答中第 t 個(gè) token 的優(yōu)勢值計(jì)算如下:
這里的 在強(qiáng)化學(xué)習(xí)里叫做基線(baseline),它的作用是減小梯度估計(jì)的方差,讓訓(xùn)練更穩(wěn)定。
1.4(Iterative)DPO(直接偏好優(yōu)化)
DPO 是一種不同的方法,它不直接用獎勵分?jǐn)?shù),而是依賴于成對的比較數(shù)據(jù)。數(shù)據(jù)集里是這樣的樣本: (x, a+, a-) ,表示對于提示 x ,回答 a+ 比 a- 更好。
DPO 優(yōu)化的目標(biāo)是一個(gè)對比損失(contrastive loss):
這里, σ 是 sigmoid 函數(shù), β 是一個(gè)超參數(shù)(大于 0), π_ref 通常是初始的模型或者一個(gè)固定的參考模型。
原始的 DPO 是在離線數(shù)據(jù)上訓(xùn)練的。但后續(xù)研究發(fā)現(xiàn),可以迭代進(jìn)行:用訓(xùn)練過程中的模型去生成新的回答,然后根據(jù)某種方式(比如模型自己打分或者人工標(biāo)注)得到新的偏好對 (a+, a-) ,再用這些新的在線數(shù)據(jù)繼續(xù)訓(xùn)練模型。這種迭代的方式可以顯著提升模型性能。
1.5 RAFT++
研究者注意到,RAFT 如果在每次迭代中,用收集到的數(shù)據(jù)(replay buffer)進(jìn)行多步梯度更新,那它其實(shí)也可以看作是一種混合了離策略(off-policy)的算法。
基于這個(gè)想法,他們提出了 RAFT++,就是把 Reinforce 里的重要性采樣和裁剪技術(shù)也應(yīng)用到 RAFT 上。它的損失函數(shù)形式和 Reinforce 類似,但有一個(gè)關(guān)鍵區(qū)別:它只在最好的樣本(獎勵最高的那些,也就是正樣本)上進(jìn)行訓(xùn)練。這通過一個(gè)指示函數(shù) I 來實(shí)現(xiàn):
其中 是一個(gè)指示函數(shù),當(dāng)當(dāng)前回答 a 是所有 n 個(gè)回答里獎勵最高的那個(gè)時(shí), I 等于 1,否則等于 0。這樣就保證了只有正樣本對損失有貢獻(xiàn)。
二、實(shí)驗(yàn)結(jié)果與有趣的發(fā)現(xiàn)
匯總以下是基于提供的實(shí)驗(yàn)部分的解讀,總結(jié)出的主要結(jié)果和有趣發(fā)現(xiàn):
簡單方法表現(xiàn)驚艷:
RAFT 及其改進(jìn)版 RAFT++ ,雖然是相對簡單的基于“拒絕采樣”的方法(只用好的樣本),但在數(shù)學(xué)推理任務(wù)上的表現(xiàn)出人意料地好。
它們的效果能跟更復(fù)雜的深度強(qiáng)化學(xué)習(xí)方法(如 PPO , GRPO )打個(gè)平手,超過了 iterative DPO 。
尤其是在 Qwen 模型上, RAFT++ (52.5%)的平均準(zhǔn)確率非常接近當(dāng)時(shí)效果最好的 GRPO (53.9%)。
RAFT++ 的改進(jìn)有效:
在 RAFT 基礎(chǔ)上加入重要性采樣(修正數(shù)據(jù)分布偏差)和裁剪(限制更新幅度)技術(shù)后形成的 RAFT++ ,確實(shí)比原版 RAFT 收斂更快,最終準(zhǔn)確率也更高。
實(shí)驗(yàn)證明,裁剪步驟非常關(guān)鍵。如果只用重要性采樣而不進(jìn)行裁剪,效果反而會變差,說明無限制的更新可能會破壞訓(xùn)練穩(wěn)定性。
學(xué)習(xí)動態(tài)對比:先快后慢 vs 持續(xù)提升:
RAFT++ 在訓(xùn)練早期學(xué)得比 GRPO 更快。
但是, RAFT++ 的性能提升在訓(xùn)練中后期會明顯放緩,最終被 GRPO 反超。
負(fù)樣本是把“雙刃劍”?
RAFT++ (只用正樣本)性能提升放緩與其策略熵(模型探索性/答案多樣性)的快速下降有關(guān)。熵太低,模型就不太會探索新的推理路徑了。
GRPO 因?yàn)橐部紤]了負(fù)樣本,策略熵下降較慢,保持了更長時(shí)間的探索能力,所以后期還能繼續(xù)提升。這表明,負(fù)樣本可能有助于維持探索。
然而,簡單的 Reinforce 算法(也用負(fù)樣本)在 LLaMA 模型上效果反而不如只用正樣本的 RAFT++ 。這暗示,如何定義和使用負(fù)樣本很重要,僅僅基于最終答案對錯可能過于粗糙,不一定總能帶來好處。
在 GRPO 和強(qiáng)化學(xué)習(xí)類型算法的各個(gè)組件上進(jìn)行的消融研究。將 GRPO 與其他基于強(qiáng)化學(xué)習(xí)的變種進(jìn)行比較,以隔離去除錯誤樣本、正確樣本和應(yīng)用標(biāo)準(zhǔn)化的影響。去除錯誤樣本(“移除所有錯誤”)提供了最大的獎勵增益,突出了它們的有害影響。相比之下,去除正確樣本沒有增益。均值歸零標(biāo)準(zhǔn)化增加了 KL 損失并不穩(wěn)定訓(xùn)練。按標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化幾乎沒有額外的好處。“Reinforce + Remove both” 變種在獎勵、KL 穩(wěn)定性和熵正則化之間達(dá)到了很好的平衡。
GRPO 強(qiáng)大的核心在于“樣本剔除”:
通過詳細(xì)的消融實(shí)驗(yàn)對比 Reinforce 的各種變體,發(fā)現(xiàn) GRPO 性能優(yōu)越的關(guān)鍵在于剔除了那些所有生成答案都錯誤的樣本(“Remove all wrong”)。這些全是錯誤的樣本對訓(xùn)練的干擾最大。
相比之下,獎勵歸一化(如減去均值或除以標(biāo)準(zhǔn)差)對性能提升作用不大,甚至簡單的均值歸一化還會導(dǎo)致訓(xùn)練不穩(wěn)定。
剔除所有答案都正確的樣本(“Remove all correct”)幫助也不大。
同時(shí)剔除“全對”和“全錯”樣本的策略(稱為 Reinforce-Rej )在性能、穩(wěn)定性和保持探索性之間取得了不錯的平衡。
提出新的簡化基準(zhǔn):
基于以上發(fā)現(xiàn),研究者認(rèn)為 RAFT++ 和 Reinforce-Rej (剔除全對和全錯樣本的 Reinforce)是有效且更簡單的基準(zhǔn)算法,值得未來研究參考。
對負(fù)樣本作用的新思考:
研究結(jié)果表明,在基于強(qiáng)化學(xué)習(xí)的大模型訓(xùn)練中,負(fù)樣本的作用比想象中更微妙。直接使用所有負(fù)樣本不一定最好,未來可能需要更精細(xì)化的方法來篩選和利用不同質(zhì)量的樣本。
來源: 公眾號【PaperWeekly】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.