機器之心發布
機器之心編輯部
想訓練屬于自己的高性能推理模型,卻被同步強化學習(RL)框架的低效率和高門檻勸退?AReaL 全面升級,更快,更強,更好用!
來自清華大學交叉信息院和螞蟻技術研究院的聯合團隊,正式開源全異步強化學習訓練系統 ——AReaL-boba2 (AReaL v0.3)
作為 AReaL 里程碑版本 AReaL-boba 的重磅升級,AReaL-boba2 (正式全名:A-ReaL-double-boba) 堅持 boba 系列 “全面開源、極速訓練、深度可定制” 的開發理念,再次加量:除了更全的功能和更詳細的文檔說明,更以全異步 RL 為核心,發布 SOTA 代碼模型,全面奔向 Agentic RL:
- 效率再突破: 全面實現異步 RL 訓練,完全解耦模型生成與訓練,效果不變的前提下訓練速度對比上一版本最高提升 2.77 倍,GPU 資源利用率大幅優化。
- 上手零門檻: 新增詳細教程 (Step-by-Step Tutorials) 和深度文檔 (Comprehensive Documentation),覆蓋安裝、核心概念、算法 / 模型定制化到問題排查,新手友好,老手高效。
- 代碼任務新 SOTA 誕生! 基于 Qwen3 系列模型 RL 訓練,8B/14B 模型在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達到 SOTA 水準!
- Agentic RL 支持:原生支持多輪智能體強化學習 (Multi-Turn Agentic RL) 訓練,擁抱 Agentic RL 浪潮。
- 開箱即用:開源代碼、數據集、腳本及 SOTA 級模型權重。
異步強化學習(Asynchronous RL)是一種重要的 RL 范式,它將數據生成與模型訓練完全解耦,以不間斷的流式生成和并行訓練,極大提高了資源使用率,天然適用于多輪次交互的 Agent 場景。
AReaL-boba2 通過強化學習算法和訓練系統的共同設計(co-design),在完全不影響模型效果的同時,實現了穩定高效的異步 RL 訓練,不斷朝全面支持 Agentic AI 的最終目標沖刺。
本次 AReaL 升級為用戶提供更完善的使用教程,涵蓋詳細的代碼框架解析、無需修改底層代碼即可自定義數據集/算法/Agent 邏輯的完整指南,以及高度簡化的環境配置與實驗啟動流程,如果你想要快速微調推理模型,快試試雙倍加量的 AReaL-boba2 吧!
- 立即體驗 AReaL-boba2 :https://github.com/inclusionAI/AReaL/ (包含教程/文檔/代碼)
- 下載 SOTA 代碼推理模型:https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5
- AReaL 技術論文: https://arxiv.org/pdf/2505.24298
- AReaL-boba 回顧: 200 美金,人人可手搓 QwQ,清華、螞蟻開源極速 RL 框架 AReaL-boba
最強最快 coding RL 訓練
AReaL-boba2 基于最新的 Qwen3 系列模型,針對 8B 和 14B 尺寸進行 coding RL 訓練,并在評測代碼能力的榜單 LiveCodeBench v5 (LCB),Codeforce (CF) 以及 Codecontests (CC) 上取得了開源 SOTA 的成績。
其中,基于部分內部數據的最強模型 AReaL-boba2-14B 在 LCB 榜單上取得了69.1分,CF rating 達到2044,CC 取得46.2分,大幅刷新 SOTA。
此外,AReaL 團隊還基于開源數據集發布了完全開源可復現的 AReaL-boba2-Open 系列模型,同樣能在 8B 和 14B 尺寸上大幅超過現有基線。
Table 1: AReaL-boba2-8B/14B 在 LiveCodeBench, Codeforce, Codecontest 等 benchmark 上達到同尺寸 SOTA 水準。
AReaL 團隊還在數學任務上進行了異步 RL 訓練的擴展性分析(scaling analysis):針對不同模型尺寸(1.5B,7B,32B)以及不同 GPU 數量,基于異步 RL 的 AReaL-boba2 系統的訓練效率都大幅超過了采用傳統同步 RL 的訓練系統。相比于共卡模式,AReaL-boba2 所采用的分卡模式顯存碎片更少,在更大模型尺寸下(32B)依然能夠保持良好的擴展性。
Fig. 1 異步 RL(藍色,AReaL 系統)和同步 RL(橘紅色,采用 verl 系統的官方實現)的訓練效率對比。采用異步 RL 的 AReaL 系統的訓練吞吐在不同模型尺寸(1.5B, 7B, 32B)下都有著更好的 GPU 擴展性(scaling)。
為何需要異步 RL 訓練?同步 RL 痛點剖析
在傳統同步 RL 訓練流程中,算法采用當前模型產生批量的輸出(batch output),然后用收集的輸出對當前模型計算損失函數并更新參數。同步 RL 訓練中每一個批次(batch)的數據都是由同一個模型版本產生,因此模型參數更新需要等待批次中數據全部生成完成才能啟動(Fig 2 左圖)。由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,RL 訓練必須等待批次中最長的輸出生成完才能繼續進行訓練,以及進行下一個批次的數據收集,造成極大 GPU 資源浪費
Fig. 2 左圖(示意圖):同步 RL 訓練的計算過程,同批次輸出(藍色)需要等待最長的輸出生成完成,存在大量 GPU 空閑;右圖(示意圖):采用 1 步重疊(1-step overlap)的 RL 訓練計算過程,單步模型訓練與單批次數據收集同時進行。同批次內依然存在大量 GPU 空閑。
上圖展示了幾種常見的 RL 訓練數據流。
左圖為傳統共卡同步 RL 系統計算模式,即 RL 生成和訓練階段分別使用全部 GPU 交替進行。由于訓練任務需要完全等待生成完成,而生成階段所花費的時間取決于最長的輸出所完成時間,很容易造成 GPU 空閑。
右圖為 1-step Overlap RL,是一種同步 RL 的常見改進,由 DeepCoder 和 INTELLECT-2 項目采用。Overlap RL 采用分卡模式,收集一批次輸出的同時在不同的 GPU 上進行模型訓練,平衡了生成和訓練所需要的計算資源并避免了切換成本。但是,在 Overlap RL 系統中,每一個批次的訓練數據依然要求全部由同一個版本模型生成,生成時間依然會被最長的輸出所阻塞,并不能解決同步 RL 訓練效率低的問題。
AReaL-boba2 的高效秘訣:完全異步 RL 訓練
AReaL-boba2 通過算法系統 co-design的方式實現了完全異步 RL 訓練(fully asynchronous RL),從根本上解決了同步 RL 的各種問題。在 AReaL-boba2 的異步訓練框架中,生成和訓練使用不同 GPU 并完全解耦。生成任務持續流式進行以保證 GPU 資源始終滿載運行,杜絕了 GPU 空閑。訓練任務持續接收生成完成的輸出,在訓練節點上并行更新參數,并將更新后的參數與推理節點同步。
AReaL-boba2 的系統設計可以在保證穩定 RL 訓練的同時,參數同步的通信和計算花銷僅占總訓練時間的 5% 以內。
此外,由于全異步 RL 中同批次數據可能由不同版本的模型產生,AReaL-boba2 也對 RL 算法進行了升級,在提速的同時確保模型效果。
Fig. 3 全異步 RL 系統 (fully asynchronous RL system) 的計算流程示意圖
使用 128 卡對 1.5B 模型在 32k 輸出長度、512 x 16 批大小設定下進行 RL 訓練,我們列出了每一個 RL 訓練步驟(模型參數更新)所需要的時間,異步 RL 相比同步 RL 相比,每個訓練步驟耗時減少 52%:
全異步 RL 訓練的系統架構:全面解耦生成與訓練
Fig. 4 AReaL-boba2 的異步 RL 系統架構。生成模塊(紫色)和訓練模塊(綠色)完全分離。
AReaL-boba2 系統架構的圍繞不同計算任務采取全面解耦的模塊化設計。對于模型輸出、模型訓練、和獎勵函數計算,采用不同計算資源徹底分離,實現全流水線異步執行。整體設計包含四個核心組件:
1.可中斷軌跡生成器(Interruptible Rollout Worker)
- 支持生成請求(generate request)和權重更新請求(update_weights request)。
- 收到權重更新請求時,會中斷正在進行的生成任務,丟棄舊權重計算的 KV 緩存。加載新權重后重新計算 KV 緩存并生成剩余軌跡。
2.獎勵服務(Reward Service)
- 負責評估生成軌跡的正確性(如:在代碼任務中提取代碼并執行單元測試以驗證其正確性)。
3.訓練器(Trainer Workers)
- 持續從回放緩沖區采樣訓練數據,隨后執行 RL 算法更新,并將最新模型參數存入分布式存儲。
4.生成控制器(Rollout Controller)
- 系統的 “指揮中樞”:控制器從數據集中讀取數據,向軌跡生成器發送生成請求,隨后將生成完整的軌跡發送至獎勵服務以獲取獎勵值。帶有獎勵值的軌跡數據會被存入回放緩沖區,等待訓練器進行訓練。當訓練器完成參數更新后,控制器會調用軌跡生成器的權重更新接口。
算法改進保障收斂性能
雖然異步系統設計通過提高設備利用率實現了顯著的加速,但也引入一些問題導致收斂性能不如同步系統:
- 數據陳舊性。由于訓練系統的異步特性,每個訓練批次包含來自多個歷史模型版本的數據。數據陳舊會導致訓練數據與最新模型的輸出之間存在分布差異,從而影響算法效果。
- 模型版本不一致。由于采用了可中斷軌跡生成,單個軌跡可能包含由不同模型版本產生的片段。這種不一致性從根本上違背了標準 on-policy RL 的設定前提 —— 即假定所有動作都由單一模型生成。
為了解決這些問題,團隊提出了兩項關鍵算法改進。
方法 1:數據陳舊度控制(Staleness Control)
對于異步 RL 算法,有一個重要的參數叫 staleness,可以用來衡量訓練數據的陳舊性。
staleness 表示當采用一個批次的數據進行模型訓練時,生成最舊的一條數據的模型版本和當前更新的模型版本之間的版本差(比如,一個批次中最舊的一條數據由 step 1 產生的模型輸出,當前模型由 step 5 產生,則該批次 staleness=4)。同步 RL 的批次 staleness 固定為 0。staleness 越大,則數據陳舊性越嚴重,對 RL 算法的穩定性挑戰也越大,模型效果也更難以保持。
為避免數據陳舊性帶來的負面影響,AReaL 在異步 RL 算法上設置超參數 max staleness ,即只在 staleness 不超過預設值 時,提交進行新的數據生成請求。
具體來說,軌跡生成器在每次提交新的請求時,都會通過生成控制器進行申請;控制器維護當前已經被提交的和正在運行的請求數量,只有當新的請求 staleness 不超過 限制時才允許被提交到生成引擎處。當 =0 時,系統等價于跟同步 RL 訓練,此時要求用于訓練的采樣軌跡一定是最新的模型生成的。
方法 2:解耦近端策略優化目標(Decoupled PPO Objective)
為了解決舊數據與最新模型之間的分布差異帶來的問題,團隊采用了解耦的近端策略優化目標(Decoupled PPO Objective),將行為策略(behavior policy)近端策略(proximal policy)分離。其中:
- 行為策略(behavior policy)表示用于軌跡采樣的策略
- 近端策略(proximal policy)作為一個臨近的策略目標,用來約束在線策略的更新
最終,可以得到一個在行為策略生成的數據上進行重要性采樣(importance sampling)的 PPO 目標函數:
其中,系數 起到了在 token 級別篩選有效訓練數據的作用。當 遠遠小于 1 時,對應數據能夠被最新策略采樣的概率極低,故而在訓練目標中只占據了可以忽略的比重。
效果驗證:速度 Max, 性能依舊強勁!
AReaL 團隊基于 1.5B 模型在數學任務上設置不同 max staleness 進行 Async RL 訓練,得到如下訓練曲線。在 AReaL 的訓練設定中,經典的 PPO 可以清晰看到隨著 staleness 增大效果下降,而采用 decoupled PPO objective 后,即使 增加到 8,算法依然能夠保持訓練效果好最終模型性能。
注:max staleness 的絕對值和具體實驗設定(learning rate,batch size 等)相關,這里僅比較 AReaL-boba2 系統改進所帶來的相對提升。
Fig. 5 針對不同 staleness 的算法穩定性結果。左圖:經典 PPO 算法在異步 RL 場景下模型效果很容易退化。右圖:采用 decoupled PPO objective,在 staleness=8 的情況下模型效果依然無損。
AReaL 團隊還把采用不同 max staleness 訓練的模型在 AIME24 和 AIME25 數據集上進行評測,采用 decoupled objective 的算法都能在 更大的情況下保持更好的模型效果。
Table 2: 在數學任務(AIME24 & AIME25)上對于不同 max stalness,采用經典 PPO 算法和 decoupled PPO 進行異步 RL 訓練最終產生的模型效果比較,decoupled PPO 始終有更好效果。
想深入了解算法原理與實驗細節?請訪問原論文查看更多算法細節:https://arxiv.org/pdf/2505.24298
開源助力:輕松復現 SOTA 代碼模型
除了強大的 AReaL-boba2 訓練系統,團隊也帶來了訓練數據、訓練腳本和評估腳本。團隊也提供了完整的技術報告,確保可以在 AReaL 上復現訓練結果以及進行后續開發。技術報告中呈現了豐富的技術細節,包括數據集構成、獎勵函數設置、模型生成方式、訓練過程中的動態數據篩選等等。
快來用 AReaL-boba2 訓練你自己的 SOTA 代碼模型吧!
彩蛋:擁抱 Agentic RL 浪潮
本次 AReaL-boba2 發布也支持多輪 Agentic RL 訓練!開發者可以根據自己的需求自由定制智能體和智能體環境,并進行 Agentic RL 訓練。目前,AReaL-boba2 提供了一個在數學推理任務上進行多輪推理的例子。
AReaL 團隊表示,Agentic RL 功能也正在持續更新中,未來會支持更多 Agentic RL 訓練的功能。
結語
AReaL 項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優秀開源框架和模型的啟發。
如同其代號 “boba” 所寓意,團隊希望 AReaL 能像一杯奶茶般 “delicious, customizable and affordable” —— 讓每個人都能便捷、靈活地搭建和訓練屬于自己的 AI 智能體。
AReaL 項目歡迎大家加入,也持續招募全職工程師和實習生,一起奔向 Agentic AI 的未來!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.