本文第一作者王宜平是華盛頓大學的博士生,其導師、通訊作者杜少雷為華盛頓大學Assistant Professor;另外兩位通訊作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。
最近, 大型語言模型(LLM)在推理能力方面取得了顯著進展,特別是在復雜數(shù)學任務上。推動上述進步的關鍵方法之一就是帶可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Reward,RLVR),其根據(jù)數(shù)學題最終答案的正確性提供 0-1 的結果獎勵(outcome reward)。然而, 大量研究工作集中于改進原有的強化學習算法(如 PPO,GRPO),對于 RLVR 中所利用數(shù)據(jù)的研究仍相對不足。
近日,來自華盛頓大學西雅圖分校、微軟等機構的研究人員探索了一個重要的問題:RLVR 中究竟需要多少數(shù)據(jù)才能有較好的表現(xiàn)?
他們發(fā)現(xiàn)了一個神奇的現(xiàn)象:用一個數(shù)學數(shù)據(jù)就能夠大幅提升模型在各種數(shù)學推理任務上的表現(xiàn)!
- 論文標題:Reinforcement Learning for Reasoning in Large Language Models with One Training Example
- 論文地址:https://arxiv.org/abs/2504.20571
- 代碼地址:https://github.com/ypwang61/One-Shot-RLVR
- W&B 實驗記錄:https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22
- X(Twitter):https://x.com/ypwang61/status/1917596101953348000
論文發(fā)現(xiàn),只在 RLVR 訓練中使用一個訓練數(shù)據(jù)(稱作 1-shot RLVR),就可以在 MATH500 上,將 Qwen2.5-Math-1.5B 的表現(xiàn)從 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表現(xiàn)從 51.0% 提升到 79.2% 。
這個表現(xiàn)和使用 1.2k 數(shù)據(jù)集(包括這一個數(shù)據(jù))的 RLVR 效果差不多。使用兩個訓練樣本的 RLVR 甚至略微超過了使用 1.2k 數(shù)據(jù)集(稱作 DSR-sub)的表現(xiàn),和使用 7.5k MATH 訓練集的 RLVR 表現(xiàn)相當。這種表現(xiàn)可以在 6 個常用的數(shù)學推理任務上都可以觀察到。
這種利用一個數(shù)學訓練數(shù)據(jù)的 1-shot RLVR 激發(fā)的推理能力甚至可以拓展到非數(shù)學的推理任務上,如 ARC-Easy/Challenge。
背景介紹
在這項工作中,論文使用了包含 policy gradient loss ,KL divergence loss 以及 entropy loss 三項損失函數(shù)。這里 policy loss 使用 GRPO 格式的損失函數(shù),對應是否解決數(shù)學題的 0-1 結果獎勵;KL loss 用于保持模型在一般任務上的語言質量;而 entropy loss(系數(shù)為負)用于鼓勵模型產生更加多樣化的推理模式。
對于數(shù)據(jù)選擇,研究者使用一個叫 historical variance score 的指標來將數(shù)據(jù)池(前面提到的 1.2k DSR-sub 數(shù)據(jù)集)中的數(shù)據(jù)來排序,為了優(yōu)先選擇在模型訓練過程中準確度方差較大的那些數(shù)據(jù)。不過論文強調這種數(shù)據(jù)選擇并不一定是最優(yōu)的,只是為了更好的說明現(xiàn)象。而且 1-shot RLVR 對很多 historical variance score 不那么高的數(shù)據(jù)也能生效,可能是更通用的現(xiàn)象。
此外,研究者還發(fā)現(xiàn)讓 1-shot RLVR 表現(xiàn)的很好的數(shù)據(jù)其實都不是特別困難。初始模型就已經有一定的概率可以解決。
實驗觀察
通過 1-shot RLVR,論文還發(fā)現(xiàn)了很多有趣的現(xiàn)象:
(1) 飽和后泛化:論文發(fā)現(xiàn), 1-shot RLVR 中,單個訓練樣本的訓練準確率快速達到接近 100%,但是下游任務的表現(xiàn)隨著訓練的進行還在不斷地提升。(后文說明因為 entropy loss 鼓勵多樣性的探索,使得準確率略小于 100%,因此在訓練過程中始終保持有 policy gradient)。
與此同時,在飽和后泛化的過程中,過擬合發(fā)生的比較晚,在單個樣本 rollout 超過 1 百萬次之后才出現(xiàn)明顯亂碼混合正確解答。而且此時下游任務的 reasoning 輸出仍然正常而且表現(xiàn)良好。
(2) 1-shot RLVR 對很多數(shù)學樣例都有效,而且可泛化性好。論文嘗試了十多個樣本,基本都可以在 MATH500 上取得接近或超過 30% 的提升。同時,來自一個數(shù)學主題(如幾何)的單個訓練數(shù)據(jù)可以同時提升其他數(shù)學主題(如代數(shù),數(shù)論等)的表現(xiàn)。
(3) 更多的自我反思:1-shot RLVR 的訓練過程也會出現(xiàn)之前 R1 之類的工作提到的回答長度(response length)的增加。而且更重要的是,論文觀察到了模型在下游任務上的自我反思(self-reflection)相關詞匯的頻率的增加。
(4) 1-shot RLVR 可用在不同的模型和算法上。研究人員嘗試了不同的模型 (Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B),不同的 RL 算法 (GRPO, PPO),都可以觀察到很大的提升。而且這里使用的數(shù)據(jù)是用 Qwen2.5-Math-1.5B 模型的 historical variance score 計算得到的,說明有些數(shù)據(jù)對不同的模型都適用。
消融實驗和分析
論文進一步分析 1-shot RLVR 取得的改進的主要原因。通過移除其他的損失函數(shù),論文發(fā)現(xiàn) 1-shot RLVR 對模型的改進主要來自于 policy gradient loss,而且和 KL divergence loss 以及 weight decay 關系不大。因此,即使飽和后泛化現(xiàn)象與 “grokking” 現(xiàn)象有相似之處(都出現(xiàn)了在過擬和之后仍能在下游任務泛化良好),因為 “grokking”受到 regularization 方法(如 weight decay)的影響較大,兩者仍有較大區(qū)別。
此外,論文也發(fā)現(xiàn)鼓勵探索的重要性,如額外在 policy gradient loss 的基礎上加合適大小的 entropy loss 能夠進一步提升 1-shot RLVR 的表現(xiàn),尤其是對飽和后泛化較為重要。作為一個額外的觀察,論文發(fā)現(xiàn)只加 entropy loss 進行少量 step 的訓練也能神奇的提升模型表現(xiàn),并且這導致了在 1-shot RLVR 中如果數(shù)據(jù)的 lable 出現(xiàn)錯誤,也仍能部分提高模型的表現(xiàn)。論文作者們也仍在探究這一現(xiàn)象的原因。
總結和討論
1-shot RLVR 在數(shù)學任務上的表現(xiàn)支持了之前很多論文的結論,即用于RLVR 的基礎模型本身往往就有較好的推理能力,而這篇論文進一步展示了這種能力可能可以用非常少的數(shù)據(jù)就激發(fā)出來。
論文相信這些現(xiàn)象可以促進人們進一步反思最近 RLVR 的進展,并思考 RLVR 的內部機制。并且它們對一些問題留下了一些啟發(fā),例如如何設計更好的 RLVR 數(shù)據(jù)選擇算法,如何理解 1-shot RLVR 以及飽和后泛化現(xiàn)象,如何更好的鼓勵探索,以及如何探索其他任務的少樣本 RLVR 及其應用等等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.