新智元報道
編輯:Aeneas 定慧
【新智元導讀】清華與螞蟻聯合開源AReaL-boba2,實現全異步強化學習訓練系統,有效解耦模型生成與訓練流程,GPU利用率大幅提升。14B模型在多個代碼基準測試中達到SOTA,性能接近235B模型。異步RL訓練上大分!
還記得今年初DeepSeek?R1系列把純強化學習(RL)訓練開源,點燃社區對于RL的熱情嗎?
不久后,來自清華螞蟻聯合開源項目AReaL(v0.1)也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練,觀察到模型性能的持續提升。
AReaL(v0.1)在40小時內,使用RL訓練的一個1.5B參數模型,在數學推理方面就超越了o1-Preview版本。
研究人員發現,RL在構建大型推理模型(LRM)方面確實有「奇效」,但是傳統的同步RL卻有著「昂貴」的代價——效率很低,無法充分利用推理設備性能。
6月3日,清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2(即AReaL v0.3)正式開源,這是AReaL的第三個版本,也是其里程碑版本AReaL-boba的重磅升級,直指RL訓效提升靶心!
AReaL-boba2在經過兩個版本的迭代后,進化出多項重要能力:
全面實現了異步強化學習訓練,完全解耦模型生成與訓練,GPU資源利用率大幅優化。
性能效果不變的前提下,訓練速度對比AReaL-boba最高提升2.77倍,且沒有任何性能損失。
研究人員使用這一系統在Qwen3系列模型上做強化學習訓練,實現8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準。
AReaL-boba2還原生支持多輪智能體強化學習訓練,開發者可以根據自己的需求自由定制智能體和智能體環境,進行多輪交互智能體Agentic RL訓練。
完全開源:不僅開源代碼、腳本,還包括可復現結果的數據集、模型權重。
開源地址:https://github.com/inclusionAI/AReaL
技術論文:https://arxiv.org/pdf/2505.24298
模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5
尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業人員持續面臨的課題。
異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。這次清華和螞蟻聯合開源的AReaL-boba2以及一系列實驗效果,驗證了這方面的共識。
一舉達到SOTA性能
首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統在Qwen3系列模型上做強化學習訓練。
其中,AReaL-boba2-8B/14B-Open表示在開源數據上的訓練結果;AReaL-boba2-8B/14B模型則額外使用了少量內部數據進行訓練。
AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現了SOTA。
最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。
同時AReaL-boba2-8B模型的得分也有63分,已經接近DeepSeek-R1的水準!
異步強化學習系統的必要性
在傳統的強化學習訓練流程中,同步強化學習訓練每一個batch的數據都是由最新版本模型產生,因此模型參數更新需要等待batch中數據全部生成完成才能啟動。
由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待batch中最長的輸出生成完才能繼續進行訓練,以及進行下一個batch的數據收集,這樣,就會造成極大的GPU資源浪費。
左側為同步RL訓練的執行時間線:同batch輸出(藍色)需要等待其中最長的輸出生成完成,存在大量GPU空閑
DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來更新當前模型,從而在單步上重疊生成與訓練。然而,所有這些系統仍然遵循批量生成設置,在生成階段期間系統效率低下的問題仍未得到有效解決。
圖1右側為一步重疊RL系統的執行時間線,單模型訓練與單batch數據收集同時進行。同batch內依然存在大量GPU空閑。
完全異步RL訓練系統
實現高GPU利用率
為了從根本上解決以上這些系統設計中的問題,清華和螞蟻的聯合研究團隊開發了AReaL-boba2,一個面向大型推理模型(LRM)的完全異步強化學習訓練系統,它完全解耦了生成與訓練,在不影響最終性能的同時,實現大幅度加速。
而AReaL-boba2之所以能實現高GPU利用率,就是因為它以流式方式執行LRM生成,讓每個rollout worker能不斷生成新的輸出,無需等待。
同時,AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數據構成訓練batch,用來更新模型。一旦模型更新完成,新的模型權重會更新到每個rollout worker中。
值得注意的是,在這種異步設計中,AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中,訓練數據的陳舊性可能會導致RL算法訓練效果不佳,為此研究者們提出了算法改進以保證訓練效果。
結果顯示,完成數學推理和代碼任務時,在高達320億參數的模型上,AReaL-boba2的訓練吞吐量最高可提高2.77倍,訓練效率在512塊GPU上實現了線性擴展。
關鍵點在于,這種加速甚至還帶來了解題準確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!
系統架構
AReaL的架構與數據流
AReaL-boba2系統由四個核心組件組成:
1. 可中斷的采樣工作器(Interruptible Rollout Worker)
它負責處理兩類請求:
(1)generate請求:根據提示詞生成響應;
(2)update_weights請求:中斷當前所有生成任務,并加載新版本模型參數。
在權重更新時,采樣工作器會丟棄舊權重生成的KV緩存,并使用新權重重新計算。隨后,采樣工作器將繼續解碼未完成的序列,直到下一次中斷或任務終止。
這種在生成中途打斷并切換模型權重的機制,將導致一條軌跡由多個不同模型版本生成的片段組成。當然,這也帶來了新的算法挑戰。
2. 獎勵服務(Reward Service)
用于評估模型生成響應的準確性。
例如,在代碼任務中,該服務會提取生成的代碼并執行單元測試,以驗證其正確性。
3. 訓練工作器(Trainer Workers)
這個組件會持續地從重放緩存(replay buffer)中采樣數據,直到累積到訓練所需的batch大小為止。
隨后,它們將執行PPO更新,并將更新后的模型參數存儲到分布式存儲系統中。
4. 采樣控制器(Rollout Controller)
它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中,它從數據集中讀取數據,向采樣工作器發送generate 請求,獲取模型生成的結果。生成結果隨后會被發送至獎勵服務進行評估,以獲取對應的獎勵值。
包含獎勵的軌跡會被存入重放緩存,等待訓練工作器進行訓練。當訓練工作器更新完模型參數后,控制器會向采樣工作器發送update_weights請求,將最新權重加載至采樣工作器中。
AReaL的生成與訓練的管理流程
異步強化學習的算法挑戰與解決方案
雖然異步系統設計通過提高設備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術挑戰。
· 數據陳舊性
由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數據。數據陳舊性會導致訓練數據與最新模型的輸出之間出現分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。
· 策略版本不一致
如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設,即所有數據都由單一模型生成。
為了解決這兩個挑戰,AReaL-boba2提出了兩種關鍵解決方案:
1. 陳舊性控制
為了避免數據陳舊性問題帶來的負面影響,AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數η,用于表示允許的最大陳舊程度。當η=0,系統退化為同步強化學習設置,此時生成與訓練batch完全匹配。
2. 解耦的PPO目標
團隊應用了一個解耦的PPO目標,將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個近端策略,作為最近的目標,用于規范在線策略的更新。
效果顯著
首先在一個數學任務上評估異步AReaL-boba2,在之前發布的AReaL-boba(v0.2)基礎上,采用R1-Distill-Qwen作為基礎模型,并使用AReaL-boba-106k作為訓練數據集。
端到端性能對比
團隊比較了在1.5B和7B參數模型上的同步與異步訓練。
結果顯示,在資源限制和訓練步驟相同的情況下,異步系統速度是同步系統的兩倍多!
在AIME24上的評估,證實了這一加速并未影響性能。
可以看到,AReaL-boba2在性能上始終與基線持平甚至超過,并且訓練速度有顯著提升。
特別是在訓練吞吐量方面,AReaL-boba2相較于同步方法最高可實現2.77倍的提升,且幾乎無性能損失。
研究者在數學任務上基于一個1.5B的大型推理模型(LRM),開展了消融實驗,以驗證他們所提出算法創新。
他們調整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標函數的不同配置。結果表明,陳舊性控制有效地避免了過舊的數據帶來的負面影響,同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。
(a)和(b)分別為使用傳統PPO以及解耦PPO目標進行訓練的曲線
解耦PPO目標的消融實驗
推進先進AI推理平權
此前,聯合研究小組在3月開源的AReaL-boba項目,得到了來自海外開發者的高度認可,評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 」
而AReaL-boba2 延續了一貫的完全開源原則,代碼、數據集、腳本及 SOTA 級模型權重全部開源,團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。
AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。
AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優秀開源框架和模型的啟發。
最后,AReaL還給出了完善的訓練教程和開發指南,包括復現SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程,想體驗極速RL訓練的小伙伴可以跑起來了!
參考資料:
https://github.com/inclusionAI/AReaL
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.