網易首頁 > 網易號 > 正文申請入駐

英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

2025-06-22 12:16:12　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 桃子

【新智元導讀】強化學習可以提升LLM推理嗎？英偉達ProRL用超2000步訓練配方給出了響亮的答案。僅15億參數模型，媲美Deepseek-R1-7B，數學、代碼等全面泛化。

強化學習Scaling來了！

剛剛，英偉達團隊提出全新訓練方法——ProRL，成功將RL擴展到2000步。

論文鏈接：https://arxiv.org/abs/2505.24864

并且，它通過跨領域訓練數據，包括數學、代碼、STEM、謎題、指令遵循，實現了泛化能力。

基于此方法，研究團隊訓出的1.5B模型，性能直接媲美Deepseek-R1-7B！

這證實了，通過長時間訓練，RL確實能解鎖全新推理能力。

這就是強化學習的Scaling Law：強化學習訓練越長，LLM推理能力越強。

黃仁勛很高興，畢竟在年初他就提出了所謂的「三大AI Scaling Law」。

預訓練Scaling Law馬上觸頂，后訓練Scaling Law正在發力。

而強化學習Scaling需要更多的算力，對英偉達而言就是商機和利潤。

后訓練拓展（Post-training scaling）利用微調（fine-tuning）、剪枝（pruning）、蒸餾（distillation）和強化學習等技術，優化預訓練模型，從而提升模型的效率和任務適應性。

這次研究的主要發現：

性能顯著提升：在數學、編程、邏輯謎題、STEM推理和指令跟隨等任務中，ProRL訓練的模型在pass@1指標上分別提升了14.7%、13.9%、54.8%、25.1%和18.1%。
發現新穎解法：ProRL訓練的模型在某些任務中表現出前所未有的推理路徑，甚至在基準模型完全失敗的情況下也能成功解決問題，顯示出其探索新解法的能力。
持續訓練帶來持續收益：即使經過2000多步的訓練，模型性能仍在提升，表明長時間的RL訓練可以不斷擴展模型的推理邊界。

強化學習Scaling

只要2000步

近來，許多人質疑RL是否真正提升模型的推理能力。甚至，有研究聲稱RL無法為基礎模型帶來新的推理技能。

這些觀點認為，RL的效果受限，主要源自以下問題：

1. 訓練領域過于狹窄：比如過度聚焦于數學等特定領域，導致模型難以泛化。

2. 訓練時間不足：許多強化學習訓練僅在數百步后就停止，遠未挖掘出真正的潛力。

這些限制，讓人們誤以為RL無法突破基礎模型的推理邊界。但事實證明，并非如此。

英偉達這項突破性研究，帶來了振奮人心的答案：

只要將RL訓練足夠久，AI推理能力就能實現質的飛躍！

ProRL便成為了突破2000步的強化學習新配方，通過KL懲罰和定期參考策略重置，解決了長期以來存在的兩大難題——熵崩潰和訓練不穩定性。

論文中利用ProRL，作者打造了僅15億參數推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

ProRL的核心突破在于，它讓模型能夠在新穎任務中，發現基礎模型完全無法企及的解決方案。

結果顯示，在數學、代碼、STEM、謎題和指令遵循方面，1.5B模型實現了超強泛化能力，完全不輸Deepseek-R1-7B。

另外，在許多測試中，基礎模型即使經過大量采樣也完全失敗，而ProRL訓練的模型卻能實現100%通過率。

尤其是，在高難度任務和域外任務上，ProRL訓練的模型表現出色。這表明了推理能力真正Scaling，并內化了超越訓練數據的抽象推理模式。

以Codeforce任務為例，RL后模型的解法發布更加廣泛，展現出更高的多樣性。

而對于全新的family_relationships任務，模型從幾乎全0通過率，躍升至完美準確率，成功發現了全新的解法路徑。

接下來，一起看看ProRL方法如何實現的？為何2000步能帶來如此顯著變化？

關鍵在于策略優化的底層機制：GRPO與KL正則的協同進化，為強化學習注入了穩定與多樣性。

改造GRPO

「三板斧」解決熵坍縮

在策略優化訓練時間較長時，主要難題是熵坍縮。

熵坍縮指的是模型輸出的概率分布在訓練早期就變得非常集中，導致輸出熵迅速下降。

當熵坍縮發生時，策略會過早地固定在少量輸出上，嚴重限制了探索性。

對于GRPO（Group Relative Policy Optimization，組相對策略優化）這樣的RL算法來說，多樣化的輸出樣本是估算相對優勢的基礎，因此探索受限會使學習信號偏差，訓練難以繼續有效推進。

提高采樣的溫度，雖然可以延緩熵坍縮的發生，但隨著訓練的進行，熵仍會持續下降。

這次，研究團隊徹底改造了GRPO方法。

GRPO的優化目標如下：

τ是當前策略πθ所采樣的響應，rθ(τ)表示當前策略與舊策略的概率比。

GRPO中的優勢函數（advantage）不依賴于PPO的價值網絡（critic），而是用同一組樣本{Ri}的得分來估算基線：

DAPO的啟發

開源的DAPO算法中的幾個關鍵組件，啟發了研究團隊解決熵坍縮問題。

論文鏈接：https://arxiv.org/abs/2503.14476

首先，DAPO引入了「解耦剪輯」機制，在PPO的目標函數中將上下剪輯邊界視為兩個獨立的超參數：

通過將?_high設置為較高值，算法鼓勵「向上剪輯」（clip-higher），即提升原本概率較低的token的生成概率，從而擴大模型的探索范圍。

他們發現，這種調整有助于保持輸出熵，并減少過早的模式坍縮現象。

此外，DAPO還采用了「動態采樣」策略，即過濾掉那些模型總是成功（準確率為1）或總是失敗（準確率為0）的提示語。這些示例無法提供有效的學習信號。

相反，訓練更集中在「中等難度」的樣本上，有助于保持多樣化的學習信號，推動模型持續進步。

顯式正則化：更強、更穩定

盡管DAPO機制和調整采樣溫度可以在一定程度上減緩熵坍縮，但引入顯式正則化方法KL散度懲罰項，能夠提供更強、更穩定的解決方案。

具體而言，研究團隊在當前策略πθ和參考策略πref之間加入KL散度懲罰：

這個懲罰項不僅有助于維持策略的熵，還起到了正則化的作用，防止當前策略過度偏離一個穩定的參考策略，從而提升訓練穩定性，避免模型過擬合于某些虛假的獎勵信號。

此外，隨著訓練推進，KL懲罰項可能在損失函數中占比過高，從而抑制策略更新的步幅。

為了解決這個問題，研究團隊引入了一種簡單但有效的方法：參考策略重置（Reference Policy Reset）。

具體做法是：定期將參考策略πref硬性重置為當前策略πθ的最近快照，并重新初始化優化器的狀態。

這種機制既能讓模型繼續改進，又能保留KL正則化帶來的穩定性。在整個訓練過程中反復應用這種重置策略，以防模型過早收斂，同時鼓勵更長時間的有效訓練。

全面泛化

1.5B刷新SOTA

借助穩定的獎勵計算機制、改進版GRPO算法以及延長的訓練過程，在不同任務上，新模型Nemotron-Research-Reasoning-Qwen-1.5B都展現出強大的泛化能力。

項目鏈接：https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

在以下領域，新模型均顯著優于基礎模型DeepSeek-R1-Distill-Qwen-1.5B：

數學：提升+15.7%
編程：提升+14.4%
STEM推理：提升+25.9%
指令遵循：提升+22.0%
文字邏輯謎題（Reasoning Gym）：提升+54.8%

此外，在數學（+4.6%）和編程（+6.5%）兩個領域，新模型也超越了專門針對特定任務訓練的領域專用基線模型，充分體現了通用型強化學習（Prolonged RL）訓練方法的有效性。

實驗設置

為了驗證假設，研究團隊構建了多樣化且可驗證的訓練數據集，共包含約13.6萬個樣本，涵蓋五個任務領域：數學（math）、編程（code）、理工類（STEM）、邏輯謎題（logical puzzles）和指令遵循（instruction following）。

每種任務類型都配有清晰的獎勵信號（可為二值或連續值），從而在訓練過程中提供可靠反饋。

表4：這次研究中使用的訓練數據概覽

為了實現有效的長周期強化學習訓練，他們在融合的驗證集（從評估基準集中抽樣）實時監控訓練進展。

當驗證集表現停滯或下降時，他們會對參考模型和優化器進行硬性重置，以恢復訓練穩定性，并允許策略進一步偏離初始基礎模型。

在訓練的大部分時間里，響應長度被限制在8000個token內，保證生成結果簡潔穩定。

在訓練的最后階段（約200個步驟），上下文窗口token總數擴大到16000。

研究團隊觀察到模型能夠迅速適應，并取得了可觀的性能提升。

圖2展示了在多階段擴展強化學習過程中，訓練動態的關鍵統計數據。

DAPO的多項增強策略，結合KL散度損失，有效防止了模型出現熵坍縮現象。

盡管觀察到平均響應長度與驗證集得分之間存在一定的正相關關系，但這一因素并非決定性，因為在某些訓練階段，即使響應長度沒有明顯增加，性能依然有所提升。

與此同時，驗證性能（通過pass@1和pass@16指標衡量）持續改善，并隨著訓練計算量的增加而穩步提升。

下圖8展示了整個訓練過程中KL散度的變化情況。

實驗利用開源項目reasoning-gym進行。

項目鏈接：https://github.com/open-thought/reasoning-gym

評測結果分析

在多個領域對DeepSeek-R1-Distill-Qwen-1.5B基礎模型與Nemotron-Research-Reasoning-Qwen-1.5B，研究團隊進行了全面對比。

新模型在所有數學推理基準測試中均穩定超越基礎模型，平均提升15.7%（見表1）。

在復雜數學推導任務中展現出更強的邏輯連貫性。

在競技編程任務（pass@1準確率）中提升14.4%，尤其擅長處理算法優化與邊界條件判斷（見表2）。

在STEM推理與指令跟隨測試中，GPQA Diamond基準成績提升25.9%；IFEval指令理解任務提升22.0%(見表3左側)。

在邏輯謎題（Reasoning Gym）測試中，在基礎模型普遍受困于格式解析與復雜子任務的場景下，獎勵分數提升54.8%。

新模型展現出優異的非結構化問題分解能力(見表3左側)。

即便與參數量更大的DeepSeek-R1-Distill-Qwen-7B相比，1.5B新模型在多數領域表現相當甚至更優，驗證了ProRL方法的高效性。

關鍵發現：強化學習訓練不僅全面提升模型在各專業領域的表現，更在基礎模型原本失效的任務上實現突破性進展，證實了該方法對模型本質推理能力的拓展作用。

分布外任務（OOD）泛化能力

表3（右側）展示了新模型在Reasoning Gym中多個分布外（OOD）任務上的表現。

模型在三項OOD任務中均取得顯著提升，展現出強大的泛化能力。這表明新的訓練方法有助于模型應對未知挑戰。

與領域專用模型的對比

研究團隊對比了Nemotron-Research-Reasoning-Qwen-1.5B與兩個專門面向某一領域的基準模型：DeepScaleR-1.5B（數學推理）、DeepCoder-1.5B（編程任務）。

下表2顯示，基于ProRL訓練的模型具備強泛化能力，在：

數學任務中提升+4.6%
編程任務中提升+6.5%

此外，ProRL使模型能在較短響應長度內完成更深入的推理與優化，相比之下，現有方法往往過早增加響應長度，導致「過度思考」（overthinking）并生成冗長啰嗦的推理內容。

實驗分析

這次的主要分析結論如下：

（1）強化學習在擴展模型推理邊界（以pass@128衡量）方面的效果，與基礎模型的初始能力密切相關。

（2）強化學習確實能夠顯著擴展模型的推理能力，尤其是在那些超出基礎模型原有能力范圍的高難度任務上。

（3）強化學確實可以擴展LLM推理邊界，能夠推廣到訓練中未見的分布外任務。

（4）新方法ProRL不僅提高了平均pass@1，還足以彌補訓練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動推理能力的實質躍升。

起點越弱，收益越大

這次研究的一個關鍵發現是：強化學習在擴展模型推理邊界（以pass@128衡量）方面的效果，與基礎模型的初始能力密切相關。

如圖3所示，研究團隊觀察到基礎模型的推理邊界越弱，其在經過RL訓練后的推理提升越顯著，二者呈現出明顯的負相關關系。

具體來說：

對于基礎模型原本表現較好的任務（即初始pass@128較高），RL訓練后的推理廣度提升有限，甚至可能出現負增長。這表明模型更傾向于在已掌握的解法中增強信心，而非探索新的推理路徑，導致推理邊界變得更「窄」。
相反，在基礎模型本身較弱、初始pass@128較低的領域中，ProRL的效果最為顯著。此時，RL不僅提高了pass@1準確率，還顯著增強了模型在更廣泛推理路徑上的探索和成功能力。

為進一步驗證這種現象，他們引入了「創造力指數」（creativity index），衡量基礎模型在每個任務中的響應與最大規模開源預訓練語料庫DOLMA之間的重合度。

結果表明，那些在RL訓練后幾乎沒有提升的任務，其創造力指數普遍較低——

尤其是一些數學和編程任務（圖中用圓圈標出）。

這表明基礎模型在預訓練期間已經接觸過大量相似內容，因而對這些任務「熟悉」，也更難通過RL獲得進一步提升。

圖3：左：在基礎模型最初難以應對的任務上，ProRL最能有效地擴展模型的推理邊界。右：圓圈中標出的那些經過強化學習（RL）后收益最小的任務通常具有較低的創造力指數

解構ProRL的推理邊界

他們逐一分析了各個評估基準任務的訓練表現，并根據訓練過程中pass@k的變化趨勢，把它們分類。

結果表明，強化學習確實能夠顯著擴展模型的推理能力，尤其是在那些超出基礎模型原有能力范圍的高難度任務上。

具體來說：

一些任務在訓練初期就出現了性能飽和甚至推理能力退化的現象；
但也有不少任務展現出隨著訓練持續而不斷提升的趨勢，說明ProRL能幫助模型不斷探索并掌握更復雜的推理策略。

最顯著的例子是代碼生成任務，在這一領域，ProRL能夠帶來持續性的性能提升。這表明，延長訓練時間使模型有機會深入探索，并逐步內化更復雜的推理模式。

整體來看，這些結果說明：在合適的訓練條件下，ProRL不僅能優化模型當前的表現，還能突破基礎模型的推理上限，推動模型在推理能力上的持續進步。

在評估過程中發現，ProRL對不同任務的推理邊界影響存在顯著差異，主要可分為以下三類情況：

1.推理邊界退化（Diminished Reasoning Boundary）

在部分任務中（尤其是數學領域），Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基礎模型有所下降或保持不變，這一現象也與先前研究中的觀察結果一致。

2.RL收益早期飽和（Gains Plateau with RL）

對于這一類任務，RL訓練確實提升了pass@1和pass@128，說明推理能力有所增強。但這種提升大多出現在訓練初期。

比較中間訓練檢查點與最終模型可以看出，ProRL在訓練后期幾乎不再帶來額外收益，表明模型對這類任務的學習潛力已很快達到飽和。

3.持續收益（Sustained Gains from ProRL）

與上述情況相反，部分任務——尤其是更復雜的任務，如代碼生成——在經過長時間ProRL訓練后，推理能力持續提升。

這些任務通常需要模型在訓練過程中對多樣化問題進行充分探索，才能有效泛化到測試集。在此類任務上，ProRL顯著拓展了模型的推理邊界，展現出延長訓練在復雜任務上的巨大潛力。

ProRL提升分布外推理能力

ProRL如何增強模型在分布外（Out-of-Distribution, OOD）任務上的泛化能力?

延長強化學習訓練是否能夠顯著擴展模型的推理邊界，尤其是在面對結構上新穎或語義上具有挑戰性、且在初始訓練階段未曾接觸過的任務時?

這次研究試圖單獨評估長期RL更新的作用，觀察其是否能促使模型學習到更抽象、通用的推理策略，從而在陌生任務中也能表現出色。這是驗證ProRL是否具備「超出經驗學習」能力的重要指標。

分布外（OOD）任務評估

在Reasoning Gym中選取了boxnet任務進行評估，該任務在訓練階段從未出現過，用于測試模型在完全陌生任務上的泛化能力。

如圖5所示：

基礎模型在該任務上完全無法作答，表現出明顯的能力缺失。
相比之下，經過ProRL訓練的模型展現出明顯的解題能力，說明其推理邊界得到了實質性的擴展，能夠推廣到訓練中未見的分布外任務。

進一步對比中期RL檢查點和最終延長訓練后的模型，研究者發現隨著訓練持續，模型在boxnet上的表現穩步增強，且在所有pass@k值上均有提升。

這一結果強有力地支持了以下結論：ProRL不僅提升模型在已知任務上的表現，更促使模型內化抽象的推理模式，具備超越具體訓練數據與任務復雜度的泛化能力。

難度提升下的泛化能力評估

研究者進一步在graph_color任務中評估模型在不同任務難度下的表現。

具體做法是通過生成不同節點數的圖結構問題來調節任務難度：

訓練數據僅包含10個節點的圖
測試數據則使用更大規模的圖，以評估模型在超出訓練分布范圍下的泛化能力

圖6展示了不同模型在各個圖規模下的表現（pass@1為實線，pass@128為虛線）。結果顯示：

隨著圖規模增大，任務復雜度指數級上升，各模型性能均有一定下降，這是合理預期；
但延長ProRL訓練的模型在所有圖規模上始終顯著優于基礎模型與中間檢查點模型，無論是pass@1還是pass@128。

這一發現表明：

ProRL不僅提升了模型在訓練分布內的準確率
更增強了模型對更復雜、未見任務的穩健性與泛化能力，即便任務的結構復雜度大大超出原始訓練范圍，模型依然能保持較強表現。

訓練過程中pass@1分布如何演化？

已有研究表明：

提高平均pass@1（期望值）可以提升pass@k上界
而更高的方差則會削弱這個上限

與已有研究中觀察到的「訓練過程中pass@k隨時間下降」的現象不同，這次的實驗結果（圖1）顯示：

pass@1和pass@16均隨著訓練持續而持續提升;
這種趨勢重現了OpenAI o1的RL訓練中報告的scaling law。

ProRL方法在多個任務上帶來了顯著的性能提升。

圖7(a)和圖7(b)展示了在代碼任務和邏輯謎題任務中的pass@1分布變化：

訓練初期：模型輸出的pass@1分布主要集中在零附近，且呈現長尾分布
訓練后期：分布明顯整體右移，表明模型在更多樣本上的首個解答成功率大幅提升

具體案例：

Codeforces題目：訓練后分布更寬，準確率覆蓋面顯著擴大
family_relationships任務：作為一個新穎的推理任務，該任務最初幾乎全部為零準確率，但訓練后出現集中于滿分（100%）的顯著峰值，表明模型成功學會了解題思路，能夠在大多數提示下正確作答

這些明顯的分布變化由延長RL訓練驅動，說明：

ProRL不僅提高了平均pass@1，還足以彌補訓練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動推理能力的實質躍升。

作者簡介

Mingjie Liu，現任英偉達研究科學家，專注于電子設計自動化（EDA）領域的前沿研究。

他的研究領域主要涵蓋：人工智能與機器學習、模擬與混合信號集成電路。

他于2022年獲得德克薩斯大學奧斯汀分校UT-Austin電子與計算機工程博士學位。

在2018年，他獲得密歇根大學電子與計算機工程碩士學位。

2012年-2016年，他就讀于北京大學微電子專業。

參考資料：

https://x.com/_AndrewZhao/status/1929376147957076447

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.