網易首頁 > 網易號 > 正文申請入駐

讓GPU不再摸魚！清華螞蟻聯合開源首個全異步RL，一夜擊穿14B SOTA

2025-06-05 15:05:34　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：Aeneas 定慧

　　【新智元導讀】清華與螞蟻聯合開源AReaL-boba2，實現全異步強化學習訓練系統，有效解耦模型生成與訓練流程，GPU利用率大幅提升。14B模型在多個代碼基準測試中達到SOTA，性能接近235B模型。異步RL訓練上大分！

　　還記得今年初DeepSeek?R1系列把純強化學習（RL）訓練開源，點燃社區對于RL的熱情嗎？

　　不久后，來自清華螞蟻聯合開源項目AReaL（v0.1）也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練，觀察到模型性能的持續提升。

　　AReaL（v0.1）在40小時內，使用RL訓練的一個1.5B參數模型，在數學推理方面就超越了o1-Preview版本。

　　研究人員發現，RL在構建大型推理模型（LRM）方面確實有「奇效」，但是傳統的同步RL卻有著「昂貴」的代價——效率很低，無法充分利用推理設備性能。

　　6月3日，清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2（即AReaL v0.3）正式開源，這是AReaL的第三個版本，也是其里程碑版本AReaL-boba的重磅升級，直指RL訓效提升靶心！

　　AReaL-boba2在經過兩個版本的迭代后，進化出多項重要能力：

　　全面實現了異步強化學習訓練，完全解耦模型生成與訓練，GPU資源利用率大幅優化。

　　性能效果不變的前提下，訓練速度對比AReaL-boba最高提升2.77倍，且沒有任何性能損失。

　　研究人員使用這一系統在Qwen3系列模型上做強化學習訓練，實現8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準。

　　AReaL-boba2還原生支持多輪智能體強化學習訓練，開發者可以根據自己的需求自由定制智能體和智能體環境，進行多輪交互智能體Agentic RL訓練。

　　完全開源：不僅開源代碼、腳本，還包括可復現結果的數據集、模型權重。

　　開源地址：https://github.com/inclusionAI/AReaL

　　技術論文：https://arxiv.org/pdf/2505.24298

　　模型下載：https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5

　　尋找兼顧高效能、高效率的強化學習訓練方式，一直是從業人員持續面臨的課題。

　　異步強化學習是一種重要的算法范式，將成為未來強化學習的重要方向之一。這次清華和螞蟻聯合開源的AReaL-boba2以及一系列實驗效果，驗證了這方面的共識。

　　一舉達到SOTA性能

　　首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統在Qwen3系列模型上做強化學習訓練。

　　其中，AReaL-boba2-8B/14B-Open表示在開源數據上的訓練結果；AReaL-boba2-8B/14B模型則額外使用了少量內部數據進行訓練。

　　AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現了SOTA。

　　最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型，已經接近Qwen3-235B的性能！要知道這可是14B VS 235B的較量。

　　同時AReaL-boba2-8B模型的得分也有63分，已經接近DeepSeek-R1的水準！

　　異步強化學習系統的必要性

　　在傳統的強化學習訓練流程中，同步強化學習訓練每一個batch的數據都是由最新版本模型產生，因此模型參數更新需要等待batch中數據全部生成完成才能啟動。

　　由于推理模型的輸出長短差異極大，在同樣的批大小（batch size）下，強化學習訓練必須等待batch中最長的輸出生成完才能繼續進行訓練，以及進行下一個batch的數據收集，這樣，就會造成極大的GPU資源浪費。

　　左側為同步RL訓練的執行時間線：同batch輸出（藍色）需要等待其中最長的輸出生成完成，存在大量GPU空閑

　　DeepCoder，Intellect-2等使用從前一模型版本生成的輸出來更新當前模型，從而在單步上重疊生成與訓練。然而，所有這些系統仍然遵循批量生成設置，在生成階段期間系統效率低下的問題仍未得到有效解決。

　　圖1右側為一步重疊RL系統的執行時間線，單模型訓練與單batch數據收集同時進行。同batch內依然存在大量GPU空閑。

　　完全異步RL訓練系統

　　實現高GPU利用率

　　為了從根本上解決以上這些系統設計中的問題，清華和螞蟻的聯合研究團隊開發了AReaL-boba2，一個面向大型推理模型（LRM）的完全異步強化學習訓練系統，它完全解耦了生成與訓練，在不影響最終性能的同時，實現大幅度加速。

　　而AReaL-boba2之所以能實現高GPU利用率，就是因為它以流式方式執行LRM生成，讓每個rollout worker能不斷生成新的輸出，無需等待。

　　同時，AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數據構成訓練batch，用來更新模型。一旦模型更新完成，新的模型權重會更新到每個rollout worker中。

　　值得注意的是，在這種異步設計中，AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中，訓練數據的陳舊性可能會導致RL算法訓練效果不佳，為此研究者們提出了算法改進以保證訓練效果。

　　結果顯示，完成數學推理和代碼任務時，在高達320億參數的模型上，AReaL-boba2的訓練吞吐量最高可提高2.77倍，訓練效率在512塊GPU上實現了線性擴展。

　　關鍵點在于，這種加速甚至還帶來了解題準確性的提升，這就表明，AReaL-boba2并不需要犧牲模型性能，就能顯著提升效率！

　　系統架構

　　AReaL的架構與數據流

　　AReaL-boba2系統由四個核心組件組成：

　　1. 可中斷的采樣工作器（Interruptible Rollout Worker）

　　它負責處理兩類請求：

　　（1）generate請求：根據提示詞生成響應；

　　（2）update_weights請求：中斷當前所有生成任務，并加載新版本模型參數。

　　在權重更新時，采樣工作器會丟棄舊權重生成的KV緩存，并使用新權重重新計算。隨后，采樣工作器將繼續解碼未完成的序列，直到下一次中斷或任務終止。

　　這種在生成中途打斷并切換模型權重的機制，將導致一條軌跡由多個不同模型版本生成的片段組成。當然，這也帶來了新的算法挑戰。

　　2. 獎勵服務（Reward Service）

　　用于評估模型生成響應的準確性。

　　例如，在代碼任務中，該服務會提取生成的代碼并執行單元測試，以驗證其正確性。

　　3. 訓練工作器（Trainer Workers）

　　這個組件會持續地從重放緩存（replay buffer）中采樣數據，直到累積到訓練所需的batch大小為止。

　　隨后，它們將執行PPO更新，并將更新后的模型參數存儲到分布式存儲系統中。

　　4. 采樣控制器（Rollout Controller）

　　它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中，它從數據集中讀取數據，向采樣工作器發送generate 請求，獲取模型生成的結果。生成結果隨后會被發送至獎勵服務進行評估，以獲取對應的獎勵值。

　　包含獎勵的軌跡會被存入重放緩存，等待訓練工作器進行訓練。當訓練工作器更新完模型參數后，控制器會向采樣工作器發送update_weights請求，將最新權重加載至采樣工作器中。

　　AReaL的生成與訓練的管理流程

　　異步強化學習的算法挑戰與解決方案

　　雖然異步系統設計通過提高設備利用率提供了顯著的加速效果，但它也引入了一些需要從算法層面考量的技術挑戰。

　　· 數據陳舊性

　　由于AReaL-boba2的異步特性，每個訓練batch都包含來自多個先前策略版本的數據。數據陳舊性會導致訓練數據與最新模型的輸出之間出現分布差距。在針對LRM的異步RL訓練中，由于解碼時間延長，此問題對于長軌跡可能會更加嚴重。

　　· 策略版本不一致

　　如上圖3所示，單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設，即所有數據都由單一模型生成。

　　為了解決這兩個挑戰，AReaL-boba2提出了兩種關鍵解決方案：

　　1. 陳舊性控制

　　為了避免數據陳舊性問題帶來的負面影響，AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數η，用于表示允許的最大陳舊程度。當η=0，系統退化為同步強化學習設置，此時生成與訓練batch完全匹配。

　　2. 解耦的PPO目標

　　團隊應用了一個解耦的PPO目標，將行為策略和代理策略分離，其中行為策略表示用于采樣軌跡的策略，而代理策略是一個近端策略，作為最近的目標，用于規范在線策略的更新。

　　效果顯著

　　首先在一個數學任務上評估異步AReaL-boba2，在之前發布的AReaL-boba（v0.2）基礎上，采用R1-Distill-Qwen作為基礎模型，并使用AReaL-boba-106k作為訓練數據集。

　　端到端性能對比

　　團隊比較了在1.5B和7B參數模型上的同步與異步訓練。

　　結果顯示，在資源限制和訓練步驟相同的情況下，異步系統速度是同步系統的兩倍多！

　　在AIME24上的評估，證實了這一加速并未影響性能。

　　可以看到，AReaL-boba2在性能上始終與基線持平甚至超過，并且訓練速度有顯著提升。

　　特別是在訓練吞吐量方面，AReaL-boba2相較于同步方法最高可實現2.77倍的提升，且幾乎無性能損失。

　　研究者在數學任務上基于一個1.5B的大型推理模型（LRM），開展了消融實驗，以驗證他們所提出算法創新。

　　他們調整了允許的最大staleness η，并比較使用和不使用解耦式PPO目標函數的不同配置。結果表明，陳舊性控制有效地避免了過舊的數據帶來的負面影響，同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。

　　(a)和(b)分別為使用傳統PPO以及解耦PPO目標進行訓練的曲線

　　解耦PPO目標的消融實驗

　　推進先進AI推理平權

　　此前，聯合研究小組在3月開源的AReaL-boba項目，得到了來自海外開發者的高度認可，評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式，讓先進的AI推理技術平權化，降低了研究的門檻。」

　　而AReaL-boba2 延續了一貫的完全開源原則，代碼、數據集、腳本及 SOTA 級模型權重全部開源，團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。

　　AReaL團隊在技術報告中表示，該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累，也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。

　　AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優秀開源框架和模型的啟發。

　　最后，AReaL還給出了完善的訓練教程和開發指南，包括復現SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程，想體驗極速RL訓練的小伙伴可以跑起來了！

　　參考資料：

　　https://github.com/inclusionAI/AReaL

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

影視級3D生成新王：Direct3D-S2全面開源！8塊GPU超越閉源登頂HF

新智元 2025-06-09 12:51:14
3 跟貼 3
Deepseek的隱喻：GPU失其鹿，ASIC、SOC們共逐之

鈦媒體APP 2025-02-06 16:19:11
1 跟貼 1

AI芯片“功耗懸崖”：大模型催生的冷卻技術革命

鈦媒體APP 2025-05-06 08:45:41
12 跟貼 12

AGI最后拼圖，一文看懂什么是強化學習？其護城河是什么？

華爾街見聞官方 2025-06-09 18:45:27
1 跟貼 1
華為昇騰萬卡集群揭秘：如何馴服AI算力「巨獸」？

機器之心Pro 2025-06-09 14:23:11
1 跟貼 1

質疑DeepSeek-R1、Claude Thinking不會推理！蘋果爭議論文翻車？

機器之心Pro 2025-06-09 15:10:27
36 跟貼 36

圖像分詞器造反了！華為 Selftok：自回歸內核完美統一擴散模型

機器之心Pro 2025-05-22 10:38:46
0 跟貼 0
火山引擎重磅大會將至！豆包迎來全線升級 Agent或成主角

財聯社 2025-06-09 15:13:20
0 跟貼 0

給大模型裝上「思維分段引擎」：浙大InftyThink解鎖無限深度推理

量子位 2025-06-09 23:15:37
0 跟貼 0
從IT模型驅動，到業務模型驅動，金融Agent如何落地？丨ToB產業觀察

鈦媒體APP 2025-06-09 14:56:32
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
AdaCM2：首個面向超長視頻理解的跨模態自適應記憶壓縮框架

機器之心Pro 2025-06-09 19:39:27
1 跟貼 1
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
無需SFT也不用RL，樣本級推理優化神器SLOT來了，準確率輕松+10%

機器之心Pro 2025-06-09 19:45:07
1 跟貼 1
苑舉正：央視爆料東風5導彈參數，美專家大放厥詞被打臉！

八顆奇異果 2025-06-06 08:37:47
0 跟貼 0
蘋果分析R1遇到復雜度閾值后準確率崩潰問題，Gary Marcus聲援

DeepTech深科技 2025-06-09 21:03:18
0 跟貼 0
追求概率質量的帕累托最優：廣義α-β散度引導知識蒸餾框架ABKD

機器之心Pro 2025-06-09 19:34:04
0 跟貼 0
牛彈琴：美國爆發激烈"內戰" 警察當街向抗議人群開槍

上觀新聞 2025-06-09 07:59:26
17834 跟貼 17834
美防長稱已做好與中國交戰準備，關鍵時刻，中方亮出東風-5參數

戰場科技館 2025-06-07 11:43:18
0 跟貼 0
巴基斯坦剛要買中國殲35，俄羅斯就向印度推銷蘇57，還送源代碼

熱心市民謠淼 2025-06-07 12:28:33
1 跟貼 1
美防長香會上明目張膽威脅中國，關鍵時刻，央視披露東風—5參數

春天來了啊 2025-06-08 01:30:10
0 跟貼 0
一條視頻漲粉2000萬，韋東奕為什么這么火？

首席品牌評論 2025-06-09 20:45:26
0 跟貼 0
最低門檻只要20萬！券商T0算法交易各有資產規模新要求，更名也出乎意料

財聯社 2025-06-09 21:17:10
0 跟貼 0
柳大華遭軟件殺招壓制，竟敗于智能算法之下！

象棋王闖 2025-06-05 14:54:43
0 跟貼 0
如何定位國產智駕芯片的終局價值？

鈦媒體APP 2025-05-16 10:46:22
0 跟貼 0
央媽曬東風-5參數：威懾的最高境界是 “不戰而屈人之兵”

鴻運金寶 2025-06-07 08:42:50
0 跟貼 0
打造你的數字分身：精準醫療背后的秘密武器

DeepTech深科技 2024-12-30 18:50:39
0 跟貼 0
火車經山西一隧道時吸入煤灰乘客變“煤蛋蛋”，鐵路部門：將加強粉塵整治

極目新聞 2025-06-08 21:49:31
10608 跟貼 10608
小鵬聯手華為打造的最強AR-HUD，“追光全景”真能重構駕駛交互？

智電汽車. 2025-06-09 21:57:14
0 跟貼 0
印度要有五代機了？大鵝同意開放蘇-57E完全源代碼

全球熱點大揭秘 2025-06-08 03:39:25
0 跟貼 0
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
百度生態環境監測智能體已在中國環境監測總站落地

智東西 2025-06-07 14:01:05
3 跟貼 3
金評天下｜Al寫高考作文個性化與人情味難以到位

金融投資報 2025-06-09 19:49:22
0 跟貼 0
完蛋，我被算法包圍了！

科技公元V 2025-06-06 21:26:02
0 跟貼 0
俄軍對烏軍工設施發動了集群打擊稱已吞并烏五個地區

新民周刊 2025-06-09 09:07:06
9281 跟貼 9281
央視公開東風5導彈參數，我國核戰略的起點，已是全球包郵的威力

今日軍迷 2025-06-07 21:50:05
0 跟貼 0
俄出售戰機源代碼

熱點風采 2025-06-08 08:58:55
14 跟貼 14
東風導彈參數公開展示！事實上，中國手中王牌遠比美國想象的多

現場直擊X 2025-06-09 19:37:42
0 跟貼 0
青海黃河源有重大發現

新民周刊 2025-06-09 09:06:24
1570 跟貼 1570

新智元

AI產業主平臺領航智能+時代

12848文章數 66061關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

親子

本地

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

讓GPU不再摸魚！清華螞蟻聯合開源首個全異步RL，一夜擊穿14B SOTA

中國汽車行業告別"內卷"，從"重慶論壇"開始？

洛杉磯已經失控 有人用可致命煙花攻擊警察

洛杉磯已經失控 有人用可致命煙花攻擊警察

雷霆55號秀，NBA第一“概念神”

劉品言閃婚閃孕官宣 崴腳時被照顧打動

重磅級民生文件公布 如何改變你我生活？

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

喜馬拉雅兒童1.2億條聲音，陪伴中國兒童成長

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

烏方稱俄發動沖突以來最大空襲

洛杉磯已經失控有人用可致命煙花攻擊警察

洛杉磯已經失控有人用可致命煙花攻擊警察

劉品言閃婚閃孕官宣崴腳時被照顧打動

重磅級民生文件公布如何改變你我生活？

首次搭載奧特能2.0平臺新別克E5即將煥新上市