網易首頁 > 網易號 > 正文申請入駐

MSRA清北推出強化預訓練！取代傳統自監督，14B模型媲美32B

2025-06-11 16:43:46　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

“預測下一個token”——這個支撐LLM的核心訓練機制，正在被強化學習顛覆。

微軟亞洲研究院（MSRA）聯合清華大學、北京大學提出全新預訓練范式RPT（強化預訓練），首次將強化學習深度融入預訓練階段，讓模型在預測每個token前都能先“動腦推理”，并根據推理正確性獲得獎勵。

傳統預訓練依賴海量文本進行自監督學習，模型通過簡單預測下一個token建立語言能力，作者將之比喻為一塊蛋糕胚，而RL只是作為上面點綴的一顆櫻桃。

現在RPT要做的就是用櫻桃直接做蛋糕，即將這一過程重構為推理任務，促進模型更深層次理解和提升下一個token的預測準確度。

那這塊櫻桃蛋糕到底怎么做？詳細烘焙流程我們接著往下看。

將強化學習引入預訓練

傳統的預訓練方法采用自監督的下一個token預測任務，而RL通常承擔微調LLM的功能，使其與人類偏好對齊或者增強復雜推理。

然而基于人類反饋的強化學習（RLHF）過度依賴昂貴數據，且模型容易受到獎勵破解；可驗證獎勵的強化學習（RLVR）也會受到數據稀缺的限制，只能應用于特定領域的微調。

為了讓強化學習更好地作用于LLM，團隊提出的全新范式強化預訓練RPT，激勵使用RL進行有效的Next-Token推理任務，將預訓練語料庫重構為推理問題集，推動預訓練從學習表面的token相關性轉為理解深層含義。

模型首先需要對多個token生成一個思維鏈推理序列，涉及多種推理模式（如頭腦風暴、自我批評和自我糾正），然后再為下一個token生成預測。

具體來說，RPT就是通過讓LLM同策略（on-policy）執行，以生成多條不同的思維軌跡，每條軌跡包含中間推理步驟和對下一個token的最終預測。

引入前綴匹配獎勵，驗證預測的正確性。如果預測與真實token匹配，則分配正獎勵1，反之為0。該獎勵信號將用于更新LLM，以鼓勵生成能準確延續上下文的軌跡。

團隊使用包含4428個競賽數學問題及答案的OmniMATH數據集，并通過計算下一token的熵和設定閾值，進行數據過濾，只保留更難預測的token參與訓練。

另外采用Deepseek-R1-Distill-Qwen-14B作為基礎模型，使用GRPO算法和8K的訓練長度，批大小為256個問題，每個問題采樣8個響應。

更深層次的推理

實驗表明，與R1-Distill-Queen-14B相比，RPT-14B在三種難度（簡單、中等、困難）上均實現了更高的下一個token預測準確率，優于標準下一token預測基線和使用推理的預測基線。

在性能上，也可與更大的模型R1-Distill-Queen-32B相媲美，說明RPT能有效捕捉token生成背后的復雜推理信號，并在提升LLM的語言建模能力方面擁有巨大潛力。

RPT在跨難度的訓練計算方面，也表現出清晰的冪律縮放（Power-law Scaling），預測準確性隨著計算的增加而不斷提高，并且與理論曲線緊密擬合。

與傳統的使用下一個token預測相比，在具有可驗證答案的問題（即Skywork-OR1）上，使用RL微調RPT模型顯示出更強的推理能力。

在數據有限的情況下，可以快速將從下一token推理中學習到的強化推理模式遷移至最終任務。

另外模型在SuperGPQA和MMLU-Pro基準測試上的零樣本評估表明，RPT-14B不僅優于R1-Distill-Queen-14B，還在推理模式中顯著超過了R1-Distill-Qwen-32B。

最后團隊還對推理軌跡進行分析，發現與顯式問題解決模型相比，RPT-14B采用了更多的假設生成、替代方案的考慮以及對結構線索甚至顆粒度token級細節的反思。

既包含高級語義理解，又包含低級文本特征，說明RPT在訓練過程中會培養更深層次的推理習慣。

One More Thing

這個著名的“蛋糕論”最早出自圖靈獎得主Yann LeCun在2016年的演講。

如果智能是一塊蛋糕，那么大部分蛋糕都是無監督學習，蛋糕上的裱花是監督學習，而蛋糕頂部的櫻桃則是強化學習。

而現在試圖用強化學習碾碎這塊蛋糕的，還有OpenAI。

在上個月紅杉組織的AI Ascent活動中，OpenAI科學家Dan Roberts就提及了他們在將RL置于模型預訓練過程中的轉變。

在GPT-4o中全是傳統預訓練計算，在o1中引入了一些強化學習運算并且取得了不錯的效果，在o3中則引入更多，他們預計在未來的某一代模型中，將會完全由RL計算主導。

有理由相信，未來RL或許將在LLM預訓練過程中掀起更大的風暴，且讓我們拭目以待。

論文鏈接：https://arxiv.org/abs/2506.08007

參考鏈接：
[1]https://x.com/omarsar0/status/1932522665182703664
[2]https://x.com/qx_dong/status/1932268949238067482
[3]https://www.youtube.com/watch?v=_rjD_2zn2JU

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.