網易首頁 > 網易號 > 正文申請入駐

僅需1個數(shù)據(jù)，就能讓大模型的數(shù)學推理性能大大增強？

2025-05-09 21:21:47　來源: 機器之心Pro

河北舉報

分享至

本文第一作者王宜平是華盛頓大學的博士生，其導師、通訊作者杜少雷為華盛頓大學Assistant Professor；另外兩位通訊作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。

最近, 大型語言模型（LLM）在推理能力方面取得了顯著進展，特別是在復雜數(shù)學任務上。推動上述進步的關鍵方法之一就是帶可驗證獎勵的強化學習（Reinforcement Learning with Verifiable Reward，RLVR），其根據(jù)數(shù)學題最終答案的正確性提供 0-1 的結果獎勵（outcome reward）。然而, 大量研究工作集中于改進原有的強化學習算法（如 PPO，GRPO），對于 RLVR 中所利用數(shù)據(jù)的研究仍相對不足。

近日，來自華盛頓大學西雅圖分校、微軟等機構的研究人員探索了一個重要的問題：RLVR 中究竟需要多少數(shù)據(jù)才能有較好的表現(xiàn)？

他們發(fā)現(xiàn)了一個神奇的現(xiàn)象：用一個數(shù)學數(shù)據(jù)就能夠大幅提升模型在各種數(shù)學推理任務上的表現(xiàn)！

論文標題：Reinforcement Learning for Reasoning in Large Language Models with One Training Example
論文地址：https://arxiv.org/abs/2504.20571
代碼地址：https://github.com/ypwang61/One-Shot-RLVR
W&B 實驗記錄：https://wandb.ai/yipingwanguw/verl_few_shot?nw=nwuseryipingwang22
X(Twitter)：https://x.com/ypwang61/status/1917596101953348000

論文發(fā)現(xiàn)，只在 RLVR 訓練中使用一個訓練數(shù)據(jù)（稱作 1-shot RLVR），就可以在 MATH500 上，將 Qwen2.5-Math-1.5B 的表現(xiàn)從 36.0% 提升到 73.6%，以及把 Qwen2.5-Math-7B 的表現(xiàn)從 51.0% 提升到 79.2% 。

這個表現(xiàn)和使用 1.2k 數(shù)據(jù)集（包括這一個數(shù)據(jù)）的 RLVR 效果差不多。使用兩個訓練樣本的 RLVR 甚至略微超過了使用 1.2k 數(shù)據(jù)集（稱作 DSR-sub）的表現(xiàn)，和使用 7.5k MATH 訓練集的 RLVR 表現(xiàn)相當。這種表現(xiàn)可以在 6 個常用的數(shù)學推理任務上都可以觀察到。

這種利用一個數(shù)學訓練數(shù)據(jù)的 1-shot RLVR 激發(fā)的推理能力甚至可以拓展到非數(shù)學的推理任務上，如 ARC-Easy/Challenge。

背景介紹

在這項工作中，論文使用了包含 policy gradient loss ，KL divergence loss 以及 entropy loss 三項損失函數(shù)。這里 policy loss 使用 GRPO 格式的損失函數(shù)，對應是否解決數(shù)學題的 0-1 結果獎勵；KL loss 用于保持模型在一般任務上的語言質量；而 entropy loss（系數(shù)為負）用于鼓勵模型產生更加多樣化的推理模式。

對于數(shù)據(jù)選擇，研究者使用一個叫 historical variance score 的指標來將數(shù)據(jù)池（前面提到的 1.2k DSR-sub 數(shù)據(jù)集）中的數(shù)據(jù)來排序，為了優(yōu)先選擇在模型訓練過程中準確度方差較大的那些數(shù)據(jù)。不過論文強調這種數(shù)據(jù)選擇并不一定是最優(yōu)的，只是為了更好的說明現(xiàn)象。而且 1-shot RLVR 對很多 historical variance score 不那么高的數(shù)據(jù)也能生效，可能是更通用的現(xiàn)象。

此外，研究者還發(fā)現(xiàn)讓 1-shot RLVR 表現(xiàn)的很好的數(shù)據(jù)其實都不是特別困難。初始模型就已經有一定的概率可以解決。

實驗觀察

通過 1-shot RLVR，論文還發(fā)現(xiàn)了很多有趣的現(xiàn)象：

(1) 飽和后泛化：論文發(fā)現(xiàn)， 1-shot RLVR 中，單個訓練樣本的訓練準確率快速達到接近 100%，但是下游任務的表現(xiàn)隨著訓練的進行還在不斷地提升。（后文說明因為 entropy loss 鼓勵多樣性的探索，使得準確率略小于 100%，因此在訓練過程中始終保持有 policy gradient）。

與此同時，在飽和后泛化的過程中，過擬合發(fā)生的比較晚，在單個樣本 rollout 超過 1 百萬次之后才出現(xiàn)明顯亂碼混合正確解答。而且此時下游任務的 reasoning 輸出仍然正常而且表現(xiàn)良好。

(2) 1-shot RLVR 對很多數(shù)學樣例都有效，而且可泛化性好。論文嘗試了十多個樣本，基本都可以在 MATH500 上取得接近或超過 30% 的提升。同時，來自一個數(shù)學主題（如幾何）的單個訓練數(shù)據(jù)可以同時提升其他數(shù)學主題（如代數(shù)，數(shù)論等）的表現(xiàn)。

(3) 更多的自我反思：1-shot RLVR 的訓練過程也會出現(xiàn)之前 R1 之類的工作提到的回答長度（response length）的增加。而且更重要的是，論文觀察到了模型在下游任務上的自我反思（self-reflection）相關詞匯的頻率的增加。

(4) 1-shot RLVR 可用在不同的模型和算法上。研究人員嘗試了不同的模型 (Qwen2.5-Math-1.5B/7B, Llama-3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)，不同的 RL 算法 (GRPO, PPO)，都可以觀察到很大的提升。而且這里使用的數(shù)據(jù)是用 Qwen2.5-Math-1.5B 模型的 historical variance score 計算得到的，說明有些數(shù)據(jù)對不同的模型都適用。

消融實驗和分析

論文進一步分析 1-shot RLVR 取得的改進的主要原因。通過移除其他的損失函數(shù)，論文發(fā)現(xiàn) 1-shot RLVR 對模型的改進主要來自于 policy gradient loss，而且和 KL divergence loss 以及 weight decay 關系不大。因此，即使飽和后泛化現(xiàn)象與 “grokking” 現(xiàn)象有相似之處（都出現(xiàn)了在過擬和之后仍能在下游任務泛化良好），因為 “grokking”受到 regularization 方法（如 weight decay）的影響較大，兩者仍有較大區(qū)別。

此外，論文也發(fā)現(xiàn)鼓勵探索的重要性，如額外在 policy gradient loss 的基礎上加合適大小的 entropy loss 能夠進一步提升 1-shot RLVR 的表現(xiàn)，尤其是對飽和后泛化較為重要。作為一個額外的觀察，論文發(fā)現(xiàn)只加 entropy loss 進行少量 step 的訓練也能神奇的提升模型表現(xiàn)，并且這導致了在 1-shot RLVR 中如果數(shù)據(jù)的 lable 出現(xiàn)錯誤，也仍能部分提高模型的表現(xiàn)。論文作者們也仍在探究這一現(xiàn)象的原因。

總結和討論

1-shot RLVR 在數(shù)學任務上的表現(xiàn)支持了之前很多論文的結論，即用于RLVR 的基礎模型本身往往就有較好的推理能力，而這篇論文進一步展示了這種能力可能可以用非常少的數(shù)據(jù)就激發(fā)出來。

論文相信這些現(xiàn)象可以促進人們進一步反思最近 RLVR 的進展，并思考 RLVR 的內部機制。并且它們對一些問題留下了一些啟發(fā)，例如如何設計更好的 RLVR 數(shù)據(jù)選擇算法，如何理解 1-shot RLVR 以及飽和后泛化現(xiàn)象，如何更好的鼓勵探索，以及如何探索其他任務的少樣本 RLVR 及其應用等等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.