網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)笑到最后！訓(xùn)練2000步，1.5B逆襲7B巨獸，Scaling真來了

2025-06-22 12:16:12　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：KingHZ 桃子

【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)可以提升LLM推理嗎？英偉達(dá)ProRL用超2000步訓(xùn)練配方給出了響亮的答案。僅15億參數(shù)模型，媲美Deepseek-R1-7B，數(shù)學(xué)、代碼等全面泛化。

強(qiáng)化學(xué)習(xí)Scaling來了！

剛剛，英偉達(dá)團(tuán)隊(duì)提出全新訓(xùn)練方法——ProRL，成功將RL擴(kuò)展到2000步。

論文鏈接：https://arxiv.org/abs/2505.24864

并且，它通過跨領(lǐng)域訓(xùn)練數(shù)據(jù)，包括數(shù)學(xué)、代碼、STEM、謎題、指令遵循，實(shí)現(xiàn)了泛化能力。

基于此方法，研究團(tuán)隊(duì)訓(xùn)出的1.5B模型，性能直接媲美Deepseek-R1-7B！

這證實(shí)了，通過長時(shí)間訓(xùn)練，RL確實(shí)能解鎖全新推理能力。

這就是強(qiáng)化學(xué)習(xí)的Scaling Law：強(qiáng)化學(xué)習(xí)訓(xùn)練越長，LLM推理能力越強(qiáng)。

黃仁勛很高興，畢竟在年初他就提出了所謂的「三大AI Scaling Law」。

預(yù)訓(xùn)練Scaling Law馬上觸頂，后訓(xùn)練Scaling Law正在發(fā)力。

而強(qiáng)化學(xué)習(xí)Scaling需要更多的算力，對(duì)英偉達(dá)而言就是商機(jī)和利潤。

后訓(xùn)練拓展（Post-training scaling）利用微調(diào)（fine-tuning）、剪枝（pruning）、蒸餾（distillation）和強(qiáng)化學(xué)習(xí)等技術(shù)，優(yōu)化預(yù)訓(xùn)練模型，從而提升模型的效率和任務(wù)適應(yīng)性。

這次研究的主要發(fā)現(xiàn)：

性能顯著提升：在數(shù)學(xué)、編程、邏輯謎題、STEM推理和指令跟隨等任務(wù)中，ProRL訓(xùn)練的模型在pass@1指標(biāo)上分別提升了14.7%、13.9%、54.8%、25.1%和18.1%。
發(fā)現(xiàn)新穎解法：ProRL訓(xùn)練的模型在某些任務(wù)中表現(xiàn)出前所未有的推理路徑，甚至在基準(zhǔn)模型完全失敗的情況下也能成功解決問題，顯示出其探索新解法的能力。
持續(xù)訓(xùn)練帶來持續(xù)收益：即使經(jīng)過2000多步的訓(xùn)練，模型性能仍在提升，表明長時(shí)間的RL訓(xùn)練可以不斷擴(kuò)展模型的推理邊界。

強(qiáng)化學(xué)習(xí)Scaling

只要2000步

近來，許多人質(zhì)疑RL是否真正提升模型的推理能力。甚至，有研究聲稱RL無法為基礎(chǔ)模型帶來新的推理技能。

這些觀點(diǎn)認(rèn)為，RL的效果受限，主要源自以下問題：

1. 訓(xùn)練領(lǐng)域過于狹窄：比如過度聚焦于數(shù)學(xué)等特定領(lǐng)域，導(dǎo)致模型難以泛化。

2. 訓(xùn)練時(shí)間不足：許多強(qiáng)化學(xué)習(xí)訓(xùn)練僅在數(shù)百步后就停止，遠(yuǎn)未挖掘出真正的潛力。

這些限制，讓人們誤以為RL無法突破基礎(chǔ)模型的推理邊界。但事實(shí)證明，并非如此。

英偉達(dá)這項(xiàng)突破性研究，帶來了振奮人心的答案：

只要將RL訓(xùn)練足夠久，AI推理能力就能實(shí)現(xiàn)質(zhì)的飛躍！

ProRL便成為了突破2000步的強(qiáng)化學(xué)習(xí)新配方，通過KL懲罰和定期參考策略重置，解決了長期以來存在的兩大難題——熵崩潰和訓(xùn)練不穩(wěn)定性。

論文中利用ProRL，作者打造了僅15億參數(shù)推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

ProRL的核心突破在于，它讓模型能夠在新穎任務(wù)中，發(fā)現(xiàn)基礎(chǔ)模型完全無法企及的解決方案。

結(jié)果顯示，在數(shù)學(xué)、代碼、STEM、謎題和指令遵循方面，1.5B模型實(shí)現(xiàn)了超強(qiáng)泛化能力，完全不輸Deepseek-R1-7B。

另外，在許多測試中，基礎(chǔ)模型即使經(jīng)過大量采樣也完全失敗，而ProRL訓(xùn)練的模型卻能實(shí)現(xiàn)100%通過率。

尤其是，在高難度任務(wù)和域外任務(wù)上，ProRL訓(xùn)練的模型表現(xiàn)出色。這表明了推理能力真正Scaling，并內(nèi)化了超越訓(xùn)練數(shù)據(jù)的抽象推理模式。

以Codeforce任務(wù)為例，RL后模型的解法發(fā)布更加廣泛，展現(xiàn)出更高的多樣性。

而對(duì)于全新的family_relationships任務(wù)，模型從幾乎全0通過率，躍升至完美準(zhǔn)確率，成功發(fā)現(xiàn)了全新的解法路徑。

接下來，一起看看ProRL方法如何實(shí)現(xiàn)的？為何2000步能帶來如此顯著變化？

關(guān)鍵在于策略優(yōu)化的底層機(jī)制：GRPO與KL正則的協(xié)同進(jìn)化，為強(qiáng)化學(xué)習(xí)注入了穩(wěn)定與多樣性。

改造GRPO

「三板斧」解決熵坍縮

在策略優(yōu)化訓(xùn)練時(shí)間較長時(shí)，主要難題是熵坍縮。

熵坍縮指的是模型輸出的概率分布在訓(xùn)練早期就變得非常集中，導(dǎo)致輸出熵迅速下降。

當(dāng)熵坍縮發(fā)生時(shí)，策略會(huì)過早地固定在少量輸出上，嚴(yán)重限制了探索性。

對(duì)于GRPO（Group Relative Policy Optimization，組相對(duì)策略優(yōu)化）這樣的RL算法來說，多樣化的輸出樣本是估算相對(duì)優(yōu)勢(shì)的基礎(chǔ)，因此探索受限會(huì)使學(xué)習(xí)信號(hào)偏差，訓(xùn)練難以繼續(xù)有效推進(jìn)。

提高采樣的溫度，雖然可以延緩熵坍縮的發(fā)生，但隨著訓(xùn)練的進(jìn)行，熵仍會(huì)持續(xù)下降。

這次，研究團(tuán)隊(duì)徹底改造了GRPO方法。

GRPO的優(yōu)化目標(biāo)如下：

τ是當(dāng)前策略πθ所采樣的響應(yīng)，rθ(τ)表示當(dāng)前策略與舊策略的概率比。

GRPO中的優(yōu)勢(shì)函數(shù)（advantage）不依賴于PPO的價(jià)值網(wǎng)絡(luò)（critic），而是用同一組樣本{Ri}的得分來估算基線：

DAPO的啟發(fā)

開源的DAPO算法中的幾個(gè)關(guān)鍵組件，啟發(fā)了研究團(tuán)隊(duì)解決熵坍縮問題。

論文鏈接：https://arxiv.org/abs/2503.14476

首先，DAPO引入了「解耦剪輯」機(jī)制，在PPO的目標(biāo)函數(shù)中將上下剪輯邊界視為兩個(gè)獨(dú)立的超參數(shù)：

通過將?_high設(shè)置為較高值，算法鼓勵(lì)「向上剪輯」（clip-higher），即提升原本概率較低的token的生成概率，從而擴(kuò)大模型的探索范圍。

他們發(fā)現(xiàn)，這種調(diào)整有助于保持輸出熵，并減少過早的模式坍縮現(xiàn)象。

此外，DAPO還采用了「動(dòng)態(tài)采樣」策略，即過濾掉那些模型總是成功（準(zhǔn)確率為1）或總是失敗（準(zhǔn)確率為0）的提示語。這些示例無法提供有效的學(xué)習(xí)信號(hào)。

相反，訓(xùn)練更集中在「中等難度」的樣本上，有助于保持多樣化的學(xué)習(xí)信號(hào)，推動(dòng)模型持續(xù)進(jìn)步。

顯式正則化：更強(qiáng)、更穩(wěn)定

盡管DAPO機(jī)制和調(diào)整采樣溫度可以在一定程度上減緩熵坍縮，但引入顯式正則化方法KL散度懲罰項(xiàng)，能夠提供更強(qiáng)、更穩(wěn)定的解決方案。

具體而言，研究團(tuán)隊(duì)在當(dāng)前策略πθ和參考策略πref之間加入KL散度懲罰：

這個(gè)懲罰項(xiàng)不僅有助于維持策略的熵，還起到了正則化的作用，防止當(dāng)前策略過度偏離一個(gè)穩(wěn)定的參考策略，從而提升訓(xùn)練穩(wěn)定性，避免模型過擬合于某些虛假的獎(jiǎng)勵(lì)信號(hào)。

此外，隨著訓(xùn)練推進(jìn)，KL懲罰項(xiàng)可能在損失函數(shù)中占比過高，從而抑制策略更新的步幅。

為了解決這個(gè)問題，研究團(tuán)隊(duì)引入了一種簡單但有效的方法：參考策略重置（Reference Policy Reset）。

具體做法是：定期將參考策略πref硬性重置為當(dāng)前策略πθ的最近快照，并重新初始化優(yōu)化器的狀態(tài)。

這種機(jī)制既能讓模型繼續(xù)改進(jìn)，又能保留KL正則化帶來的穩(wěn)定性。在整個(gè)訓(xùn)練過程中反復(fù)應(yīng)用這種重置策略，以防模型過早收斂，同時(shí)鼓勵(lì)更長時(shí)間的有效訓(xùn)練。

全面泛化

1.5B刷新SOTA

借助穩(wěn)定的獎(jiǎng)勵(lì)計(jì)算機(jī)制、改進(jìn)版GRPO算法以及延長的訓(xùn)練過程，在不同任務(wù)上，新模型Nemotron-Research-Reasoning-Qwen-1.5B都展現(xiàn)出強(qiáng)大的泛化能力。

項(xiàng)目鏈接：https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

在以下領(lǐng)域，新模型均顯著優(yōu)于基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-1.5B：

數(shù)學(xué)：提升+15.7%
編程：提升+14.4%
STEM推理：提升+25.9%
指令遵循：提升+22.0%
文字邏輯謎題（Reasoning Gym）：提升+54.8%

此外，在數(shù)學(xué)（+4.6%）和編程（+6.5%）兩個(gè)領(lǐng)域，新模型也超越了專門針對(duì)特定任務(wù)訓(xùn)練的領(lǐng)域?qū)Ｓ没€模型，充分體現(xiàn)了通用型強(qiáng)化學(xué)習(xí)（Prolonged RL）訓(xùn)練方法的有效性。

實(shí)驗(yàn)設(shè)置

為了驗(yàn)證假設(shè)，研究團(tuán)隊(duì)構(gòu)建了多樣化且可驗(yàn)證的訓(xùn)練數(shù)據(jù)集，共包含約13.6萬個(gè)樣本，涵蓋五個(gè)任務(wù)領(lǐng)域：數(shù)學(xué)（math）、編程（code）、理工類（STEM）、邏輯謎題（logical puzzles）和指令遵循（instruction following）。

每種任務(wù)類型都配有清晰的獎(jiǎng)勵(lì)信號(hào)（可為二值或連續(xù)值），從而在訓(xùn)練過程中提供可靠反饋。

表4：這次研究中使用的訓(xùn)練數(shù)據(jù)概覽

為了實(shí)現(xiàn)有效的長周期強(qiáng)化學(xué)習(xí)訓(xùn)練，他們?cè)谌诤系尿?yàn)證集（從評(píng)估基準(zhǔn)集中抽樣）實(shí)時(shí)監(jiān)控訓(xùn)練進(jìn)展。

當(dāng)驗(yàn)證集表現(xiàn)停滯或下降時(shí)，他們會(huì)對(duì)參考模型和優(yōu)化器進(jìn)行硬性重置，以恢復(fù)訓(xùn)練穩(wěn)定性，并允許策略進(jìn)一步偏離初始基礎(chǔ)模型。

在訓(xùn)練的大部分時(shí)間里，響應(yīng)長度被限制在8000個(gè)token內(nèi)，保證生成結(jié)果簡潔穩(wěn)定。

在訓(xùn)練的最后階段（約200個(gè)步驟），上下文窗口token總數(shù)擴(kuò)大到16000。

研究團(tuán)隊(duì)觀察到模型能夠迅速適應(yīng)，并取得了可觀的性能提升。

圖2展示了在多階段擴(kuò)展強(qiáng)化學(xué)習(xí)過程中，訓(xùn)練動(dòng)態(tài)的關(guān)鍵統(tǒng)計(jì)數(shù)據(jù)。

DAPO的多項(xiàng)增強(qiáng)策略，結(jié)合KL散度損失，有效防止了模型出現(xiàn)熵坍縮現(xiàn)象。

盡管觀察到平均響應(yīng)長度與驗(yàn)證集得分之間存在一定的正相關(guān)關(guān)系，但這一因素并非決定性，因?yàn)樵谀承┯?xùn)練階段，即使響應(yīng)長度沒有明顯增加，性能依然有所提升。

與此同時(shí)，驗(yàn)證性能（通過pass@1和pass@16指標(biāo)衡量）持續(xù)改善，并隨著訓(xùn)練計(jì)算量的增加而穩(wěn)步提升。

下圖8展示了整個(gè)訓(xùn)練過程中KL散度的變化情況。

實(shí)驗(yàn)利用開源項(xiàng)目reasoning-gym進(jìn)行。

項(xiàng)目鏈接：https://github.com/open-thought/reasoning-gym

評(píng)測結(jié)果分析

在多個(gè)領(lǐng)域?qū)?strong>DeepSeek-R1-Distill-Qwen-1.5B基礎(chǔ)模型與Nemotron-Research-Reasoning-Qwen-1.5B，研究團(tuán)隊(duì)進(jìn)行了全面對(duì)比。

新模型在所有數(shù)學(xué)推理基準(zhǔn)測試中均穩(wěn)定超越基礎(chǔ)模型，平均提升15.7%（見表1）。

在復(fù)雜數(shù)學(xué)推導(dǎo)任務(wù)中展現(xiàn)出更強(qiáng)的邏輯連貫性。

在競技編程任務(wù)（pass@1準(zhǔn)確率）中提升14.4%，尤其擅長處理算法優(yōu)化與邊界條件判斷（見表2）。

在STEM推理與指令跟隨測試中，GPQA Diamond基準(zhǔn)成績提升25.9%；IFEval指令理解任務(wù)提升22.0%(見表3左側(cè))。

在邏輯謎題（Reasoning Gym）測試中，在基礎(chǔ)模型普遍受困于格式解析與復(fù)雜子任務(wù)的場景下，獎(jiǎng)勵(lì)分?jǐn)?shù)提升54.8%。

新模型展現(xiàn)出優(yōu)異的非結(jié)構(gòu)化問題分解能力(見表3左側(cè))。

即便與參數(shù)量更大的DeepSeek-R1-Distill-Qwen-7B相比，1.5B新模型在多數(shù)領(lǐng)域表現(xiàn)相當(dāng)甚至更優(yōu)，驗(yàn)證了ProRL方法的高效性。

關(guān)鍵發(fā)現(xiàn)：強(qiáng)化學(xué)習(xí)訓(xùn)練不僅全面提升模型在各專業(yè)領(lǐng)域的表現(xiàn)，更在基礎(chǔ)模型原本失效的任務(wù)上實(shí)現(xiàn)突破性進(jìn)展，證實(shí)了該方法對(duì)模型本質(zhì)推理能力的拓展作用。

分布外任務(wù)（OOD）泛化能力

表3（右側(cè)）展示了新模型在Reasoning Gym中多個(gè)分布外（OOD）任務(wù)上的表現(xiàn)。

模型在三項(xiàng)OOD任務(wù)中均取得顯著提升，展現(xiàn)出強(qiáng)大的泛化能力。這表明新的訓(xùn)練方法有助于模型應(yīng)對(duì)未知挑戰(zhàn)。

與領(lǐng)域?qū)Ｓ媚Ｐ偷膶?duì)比

研究團(tuán)隊(duì)對(duì)比了Nemotron-Research-Reasoning-Qwen-1.5B與兩個(gè)專門面向某一領(lǐng)域的基準(zhǔn)模型：DeepScaleR-1.5B（數(shù)學(xué)推理）、DeepCoder-1.5B（編程任務(wù)）。

下表2顯示，基于ProRL訓(xùn)練的模型具備強(qiáng)泛化能力，在：

數(shù)學(xué)任務(wù)中提升+4.6%
編程任務(wù)中提升+6.5%

此外，ProRL使模型能在較短響應(yīng)長度內(nèi)完成更深入的推理與優(yōu)化，相比之下，現(xiàn)有方法往往過早增加響應(yīng)長度，導(dǎo)致「過度思考」（overthinking）并生成冗長啰嗦的推理內(nèi)容。

實(shí)驗(yàn)分析

這次的主要分析結(jié)論如下：

（1）強(qiáng)化學(xué)習(xí)在擴(kuò)展模型推理邊界（以pass@128衡量）方面的效果，與基礎(chǔ)模型的初始能力密切相關(guān)。

（2）強(qiáng)化學(xué)習(xí)確實(shí)能夠顯著擴(kuò)展模型的推理能力，尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。

（3）強(qiáng)化學(xué)確實(shí)可以擴(kuò)展LLM推理邊界，能夠推廣到訓(xùn)練中未見的分布外任務(wù)。

（4）新方法ProRL不僅提高了平均pass@1，還足以彌補(bǔ)訓(xùn)練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動(dòng)推理能力的實(shí)質(zhì)躍升。

起點(diǎn)越弱，收益越大

這次研究的一個(gè)關(guān)鍵發(fā)現(xiàn)是：強(qiáng)化學(xué)習(xí)在擴(kuò)展模型推理邊界（以pass@128衡量）方面的效果，與基礎(chǔ)模型的初始能力密切相關(guān)。

如圖3所示，研究團(tuán)隊(duì)觀察到基礎(chǔ)模型的推理邊界越弱，其在經(jīng)過RL訓(xùn)練后的推理提升越顯著，二者呈現(xiàn)出明顯的負(fù)相關(guān)關(guān)系。

具體來說：

對(duì)于基礎(chǔ)模型原本表現(xiàn)較好的任務(wù)（即初始pass@128較高），RL訓(xùn)練后的推理廣度提升有限，甚至可能出現(xiàn)負(fù)增長。這表明模型更傾向于在已掌握的解法中增強(qiáng)信心，而非探索新的推理路徑，導(dǎo)致推理邊界變得更「窄」。
相反，在基礎(chǔ)模型本身較弱、初始pass@128較低的領(lǐng)域中，ProRL的效果最為顯著。此時(shí)，RL不僅提高了pass@1準(zhǔn)確率，還顯著增強(qiáng)了模型在更廣泛推理路徑上的探索和成功能力。

為進(jìn)一步驗(yàn)證這種現(xiàn)象，他們引入了「創(chuàng)造力指數(shù)」（creativity index），衡量基礎(chǔ)模型在每個(gè)任務(wù)中的響應(yīng)與最大規(guī)模開源預(yù)訓(xùn)練語料庫DOLMA之間的重合度。

結(jié)果表明，那些在RL訓(xùn)練后幾乎沒有提升的任務(wù)，其創(chuàng)造力指數(shù)普遍較低——

尤其是一些數(shù)學(xué)和編程任務(wù)（圖中用圓圈標(biāo)出）。

這表明基礎(chǔ)模型在預(yù)訓(xùn)練期間已經(jīng)接觸過大量相似內(nèi)容，因而對(duì)這些任務(wù)「熟悉」，也更難通過RL獲得進(jìn)一步提升。

圖3：左：在基礎(chǔ)模型最初難以應(yīng)對(duì)的任務(wù)上，ProRL最能有效地?cái)U(kuò)展模型的推理邊界。右：圓圈中標(biāo)出的那些經(jīng)過強(qiáng)化學(xué)習(xí)（RL）后收益最小的任務(wù)通常具有較低的創(chuàng)造力指數(shù)

解構(gòu)ProRL的推理邊界

他們逐一分析了各個(gè)評(píng)估基準(zhǔn)任務(wù)的訓(xùn)練表現(xiàn)，并根據(jù)訓(xùn)練過程中pass@k的變化趨勢(shì)，把它們分類。

結(jié)果表明，強(qiáng)化學(xué)習(xí)確實(shí)能夠顯著擴(kuò)展模型的推理能力，尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。

具體來說：

一些任務(wù)在訓(xùn)練初期就出現(xiàn)了性能飽和甚至推理能力退化的現(xiàn)象；
但也有不少任務(wù)展現(xiàn)出隨著訓(xùn)練持續(xù)而不斷提升的趨勢(shì)，說明ProRL能幫助模型不斷探索并掌握更復(fù)雜的推理策略。

最顯著的例子是代碼生成任務(wù)，在這一領(lǐng)域，ProRL能夠帶來持續(xù)性的性能提升。這表明，延長訓(xùn)練時(shí)間使模型有機(jī)會(huì)深入探索，并逐步內(nèi)化更復(fù)雜的推理模式。

整體來看，這些結(jié)果說明：在合適的訓(xùn)練條件下，ProRL不僅能優(yōu)化模型當(dāng)前的表現(xiàn)，還能突破基礎(chǔ)模型的推理上限，推動(dòng)模型在推理能力上的持續(xù)進(jìn)步。

在評(píng)估過程中發(fā)現(xiàn)，ProRL對(duì)不同任務(wù)的推理邊界影響存在顯著差異，主要可分為以下三類情況：

1.推理邊界退化（Diminished Reasoning Boundary）

在部分任務(wù)中（尤其是數(shù)學(xué)領(lǐng)域），Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基礎(chǔ)模型有所下降或保持不變，這一現(xiàn)象也與先前研究中的觀察結(jié)果一致。

2.RL收益早期飽和（Gains Plateau with RL）

對(duì)于這一類任務(wù)，RL訓(xùn)練確實(shí)提升了pass@1和pass@128，說明推理能力有所增強(qiáng)。但這種提升大多出現(xiàn)在訓(xùn)練初期。

比較中間訓(xùn)練檢查點(diǎn)與最終模型可以看出，ProRL在訓(xùn)練后期幾乎不再帶來額外收益，表明模型對(duì)這類任務(wù)的學(xué)習(xí)潛力已很快達(dá)到飽和。

3.持續(xù)收益（Sustained Gains from ProRL）

與上述情況相反，部分任務(wù)——尤其是更復(fù)雜的任務(wù)，如代碼生成——在經(jīng)過長時(shí)間ProRL訓(xùn)練后，推理能力持續(xù)提升。

這些任務(wù)通常需要模型在訓(xùn)練過程中對(duì)多樣化問題進(jìn)行充分探索，才能有效泛化到測試集。在此類任務(wù)上，ProRL顯著拓展了模型的推理邊界，展現(xiàn)出延長訓(xùn)練在復(fù)雜任務(wù)上的巨大潛力。

ProRL提升分布外推理能力

ProRL如何增強(qiáng)模型在分布外（Out-of-Distribution, OOD）任務(wù)上的泛化能力?

延長強(qiáng)化學(xué)習(xí)訓(xùn)練是否能夠顯著擴(kuò)展模型的推理邊界，尤其是在面對(duì)結(jié)構(gòu)上新穎或語義上具有挑戰(zhàn)性、且在初始訓(xùn)練階段未曾接觸過的任務(wù)時(shí)?

這次研究試圖單獨(dú)評(píng)估長期RL更新的作用，觀察其是否能促使模型學(xué)習(xí)到更抽象、通用的推理策略，從而在陌生任務(wù)中也能表現(xiàn)出色。這是驗(yàn)證ProRL是否具備「超出經(jīng)驗(yàn)學(xué)習(xí)」能力的重要指標(biāo)。

分布外（OOD）任務(wù)評(píng)估

在Reasoning Gym中選取了boxnet任務(wù)進(jìn)行評(píng)估，該任務(wù)在訓(xùn)練階段從未出現(xiàn)過，用于測試模型在完全陌生任務(wù)上的泛化能力。

如圖5所示：

基礎(chǔ)模型在該任務(wù)上完全無法作答，表現(xiàn)出明顯的能力缺失。
相比之下，經(jīng)過ProRL訓(xùn)練的模型展現(xiàn)出明顯的解題能力，說明其推理邊界得到了實(shí)質(zhì)性的擴(kuò)展，能夠推廣到訓(xùn)練中未見的分布外任務(wù)。

進(jìn)一步對(duì)比中期RL檢查點(diǎn)和最終延長訓(xùn)練后的模型，研究者發(fā)現(xiàn)隨著訓(xùn)練持續(xù)，模型在boxnet上的表現(xiàn)穩(wěn)步增強(qiáng)，且在所有pass@k值上均有提升。

這一結(jié)果強(qiáng)有力地支持了以下結(jié)論：ProRL不僅提升模型在已知任務(wù)上的表現(xiàn)，更促使模型內(nèi)化抽象的推理模式，具備超越具體訓(xùn)練數(shù)據(jù)與任務(wù)復(fù)雜度的泛化能力。

難度提升下的泛化能力評(píng)估

研究者進(jìn)一步在graph_color任務(wù)中評(píng)估模型在不同任務(wù)難度下的表現(xiàn)。

具體做法是通過生成不同節(jié)點(diǎn)數(shù)的圖結(jié)構(gòu)問題來調(diào)節(jié)任務(wù)難度：

訓(xùn)練數(shù)據(jù)僅包含10個(gè)節(jié)點(diǎn)的圖
測試數(shù)據(jù)則使用更大規(guī)模的圖，以評(píng)估模型在超出訓(xùn)練分布范圍下的泛化能力

圖6展示了不同模型在各個(gè)圖規(guī)模下的表現(xiàn)（pass@1為實(shí)線，pass@128為虛線）。結(jié)果顯示：

隨著圖規(guī)模增大，任務(wù)復(fù)雜度指數(shù)級(jí)上升，各模型性能均有一定下降，這是合理預(yù)期；
但延長ProRL訓(xùn)練的模型在所有圖規(guī)模上始終顯著優(yōu)于基礎(chǔ)模型與中間檢查點(diǎn)模型，無論是pass@1還是pass@128。

這一發(fā)現(xiàn)表明：

ProRL不僅提升了模型在訓(xùn)練分布內(nèi)的準(zhǔn)確率
更增強(qiáng)了模型對(duì)更復(fù)雜、未見任務(wù)的穩(wěn)健性與泛化能力，即便任務(wù)的結(jié)構(gòu)復(fù)雜度大大超出原始訓(xùn)練范圍，模型依然能保持較強(qiáng)表現(xiàn)。

訓(xùn)練過程中pass@1分布如何演化？

已有研究表明：

提高平均pass@1（期望值）可以提升pass@k上界
而更高的方差則會(huì)削弱這個(gè)上限

與已有研究中觀察到的「訓(xùn)練過程中pass@k隨時(shí)間下降」的現(xiàn)象不同，這次的實(shí)驗(yàn)結(jié)果（圖1）顯示：

pass@1和pass@16均隨著訓(xùn)練持續(xù)而持續(xù)提升;
這種趨勢(shì)重現(xiàn)了OpenAI o1的RL訓(xùn)練中報(bào)告的scaling law。

ProRL方法在多個(gè)任務(wù)上帶來了顯著的性能提升。

圖7(a)和圖7(b)展示了在代碼任務(wù)和邏輯謎題任務(wù)中的pass@1分布變化：

訓(xùn)練初期：模型輸出的pass@1分布主要集中在零附近，且呈現(xiàn)長尾分布
訓(xùn)練后期：分布明顯整體右移，表明模型在更多樣本上的首個(gè)解答成功率大幅提升

具體案例：

Codeforces題目：訓(xùn)練后分布更寬，準(zhǔn)確率覆蓋面顯著擴(kuò)大
family_relationships任務(wù)：作為一個(gè)新穎的推理任務(wù)，該任務(wù)最初幾乎全部為零準(zhǔn)確率，但訓(xùn)練后出現(xiàn)集中于滿分（100%）的顯著峰值，表明模型成功學(xué)會(huì)了解題思路，能夠在大多數(shù)提示下正確作答

這些明顯的分布變化由延長RL訓(xùn)練驅(qū)動(dòng)，說明：

ProRL不僅提高了平均pass@1，還足以彌補(bǔ)訓(xùn)練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動(dòng)推理能力的實(shí)質(zhì)躍升。

作者簡介

Mingjie Liu，現(xiàn)任英偉達(dá)研究科學(xué)家，專注于電子設(shè)計(jì)自動(dòng)化（EDA）領(lǐng)域的前沿研究。

他的研究領(lǐng)域主要涵蓋：人工智能與機(jī)器學(xué)習(xí)、模擬與混合信號(hào)集成電路。

他于2022年獲得德克薩斯大學(xué)奧斯汀分校UT-Austin電子與計(jì)算機(jī)工程博士學(xué)位。

在2018年，他獲得密歇根大學(xué)電子與計(jì)算機(jī)工程碩士學(xué)位。

2012年-2016年，他就讀于北京大學(xué)微電子專業(yè)。

參考資料：

https://x.com/_AndrewZhao/status/1929376147957076447

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.