網易首頁 > 網易號 > 正文申請入駐

效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

2025-06-05 20:02:52　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

一股強化學習（Reinforcement Learning）的浪潮，正席卷AI圈。

從OpenAI o1驗證強化學習在大語言模型上的巨大潛力，再到DeepSeek-R1對這項技術的性能與成本效益優化，理論、算力與數據的協同演進，正讓強化學習快速走向臺前，成為推動AI下一階段智能水平提升的引擎。

學術界也對強化學習的價值給出了極高評價。3月5日，對這項技術做出開創性貢獻的安德魯·巴托（Andrew Barto）和理查德·薩頓（Richard Sutton），獲得本年度的圖靈獎。

在國內，有不少團隊正在繼續探索強化學習未來的發展路徑。就在前天，清華大學交叉信息院和螞蟻技術研究院的聯合團隊，正式開源全異步強化學習訓練系統——AReaL-boba2。

AReaL-boba2最大的亮點是完全解耦了模型生成與訓練，實現了不間斷的流式數據生成和并行訓練。在效果不變的前提下，其訓練速度達到了上一版本的2.77倍。

研究團隊還在Qwen3系列模型的基礎上，使用AReaL-boba2進行強化學習訓練，并將相關模型開源。在多項編程領域權威基準測試上，強化學習后的8B和14B參數模型，實現了同尺寸模型中的SOTA水準。

難能可貴的是，AReaL-boba2在開源代碼、數據集、腳本及SOTA級模型權重的基礎上，新增了詳細教程與深度文檔，幫助開發者更便捷地使用與定制上述研究成果，并提供了對多輪智能體強化學習（Multi-Turn Agentic 強化學習）訓練的原生支持。

開源地址：
https://github.com/inclusionAI/AReaL/

論文鏈接：
https://arxiv.org/pdf/2505.24298

SOTA模型下載鏈接：
https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

一、RL訓練如何提效？訓推解耦成關鍵

為了更好地理解 AReaL-boba2，我們可以先了解幾個強化學習領域的基本概念。

簡而言之，強化學習是一種“試錯式學習”機制，類似于訓練寵物：當它做對了，就給予獎勵；做錯了，則不給獎勵，甚至懲罰。

強化學習的核心在于“動作—學習”的交替循環。以語言模型為例，這一過程表現為生成與訓練之間的不斷切換：模型根據提示生成內容，然后由特定算法對其進行評估，模型再依據這一評估結果進行調整，從而更傾向于生成高得分的內容。

在這一過程中，AI系統通過反復嘗試、觀察反饋、優化策略，逐步學會如何選擇能帶來更高長期回報的動作。這正是強化學習用于提升模型智能的基本原理。

強化學習在大語言模型的應用，催生了一種新的模型形態——大型推理模型（Large Reasoning Models）。推理模型能在給出最終結果之前，生成大量用于“思考”的token。產業界的實踐證明，讓模型推理（即測試時計算）對于提升模型解決數學、編程等問題的能力有顯著作用。

然而，在打造大推理模型的過程中，強化學習算法也展現出一定局限性。當下，大部分強化學習算法的生成與訓練階段按照嚴格的時序進行耦合，每一輪訓練必須等到當前一輪所有樣本的生成任務完成之后才能開始，即所謂的同步強化學習。

對于大型推理模型而言，輸出長度因提示（prompt）內容的不同而波動極大，導致有些樣本生成很快，而另一些則非常緩慢，從而造成硬件資源的空閑和浪費。AReaL-boba2的實驗中，如下圖所示，空白的部分就代表了同步強化學習訓練中可能出現的GPU閑置情況。

此外，主流強化學習算法（如PPO、GRPO）對“最新策略數據”的依賴也加劇了系統設計的復雜性。這類算法要求訓練樣本必須由當前模型版本生成，確保訓練數據具有良好的“策略一致性”。

這意味著系統必須頻繁地進行模型更新和推理，不僅提高了計算負載，還引入了版本管理和同步協調的額外開銷。

雖然近年來已有研究嘗試打破同步限制，通過將生成與訓練并行進行來提高效率，這些方法依舊受到“版本偏移”的限制，即訓練所用樣本與當前模型版本之間不能相差過遠。

為了避免模型性能下降，此類異步系統通常僅允許使用1個版本之前的樣本進行訓練，同時仍保留了統一版本的批量生成方式。這種批處理機制無法充分利用生成時間的碎片化空隙，依舊無法從根本上緩解生成階段的系統瓶頸。

因此，要實現高效、可擴展的大型推理模型強化學習系統，亟需一種更靈活的系統設計方案，能夠充分應對生成長度不一、策略更新頻繁等挑戰，從而實現更高的設備利用率和可擴展性。這正是AReaL-boba2所嘗試解決的核心問題。

二、四大組件實現全異步RL，仍存兩大算法挑戰

AReaL-boba2是一個專為高效大規模語言模型強化學習訓練而設計的異步強化學習系統，這一系統主要有四大部分。

首先是“可中斷軌跡生成器（Interruptible Rollout Worker）”，它負責生成模型的輸出，也可以一邊生成，一邊接收新的模型權重，一旦收到更新請求，會立刻中斷當前生成、丟掉舊緩存，然后加載新權重繼續生成。

其次是“獎勵服務（Reward Service）”，它的作用是判斷生成內容的好壞，比如在代碼任務中，它會提取代碼、運行測試，看看代碼是否正確。

“訓練器（Trainer Workers）”負責不斷地從以前生成的數據中抽樣，執行強化學習算法更新模型，并保存新模型參數。

最后是“生成控制器（Rollout Controller）”，可以將其看作是整個系統的大腦。它控制生成的流程：從數據集中讀取數據，讓生成器生成內容，把內容發送至獎勵服務打分，然后把帶分數的內容放進緩沖區，等待訓練器進行訓練。當訓練器更新完模型，控制器還會調用軌跡生成器的權重更新接口。

整體上，這種異步設計讓每個環節可以專注于自己的核心任務，互不干擾，又能協調配合，從而提升效率。不過，它也帶來了兩個算法問題。

在異步強化學習系統中，不同訓練批次的數據可能來自舊版本的模型，導致訓練數據與當前模型不匹配，即所謂的分布差異（distribution gap）。研究表明，這種數據陳舊性（Data Staleness）在人類反饋強化學習（RLHF）和游戲訓練中會降低訓練效果。

對語言模型（尤其是長文本）來說，這個問題可能更嚴重，因為生成過程耗時更長，導致使用的模型版本更加過時。

模型版本不一致（Inconsistent Policy Versions）本身，更是違背了傳統強化學習算法的根本性假設——即所有動作都來自同一個模型。

三、限制滯后提升穩定性，解耦策略保障效率

為了緩解數據滯后對訓練穩定性帶來的影響，AReaL-boba2團隊開發了多項創新算法。

該團隊先是引入了最大允許滯后值“η”，用以限制生成數據所使用的策略（模型）版本與當前訓練策略（模型）版本之間的差距。

η有效控制了訓練數據的陳舊程度。較小的η有助于提高訓練的穩定性，但也可能限制數據生成速度，尤其是在處理長上下文文本時，生成耗時更長，從而更容易出現版本滯后。

為了能夠在不犧牲訓練效率的前提下利用一定程度的滯后數據，AReaL-boba2采用了解耦版的 PPO（Proximal Policy Optimization）算法。

這種算法把生成數據的行為策略（有可能為舊策略）和用來約束當前模型的近端策略分開處理。OpenAI o1等模型使用的傳統PPO算法要求上述內容均為同一個策略，但這在異步訓練里不現實。

解耦PPO通過重要性采樣，可以在訓練時修正行為策略與近端策略之間的差異，從而保證訓練有效且穩定。

此外，盡管解耦PPO在理論上可以使用滑動平均等復雜方法構建近端策略，但考慮到大型語言模型的計算成本，AReaL-boba2采用了更為高效的做法——直接使用每次模型更新前的參數作為近端策略。該設計不僅簡化了實現，也滿足了訓練的精度要求。

通過限制數據滯后程度與采用解耦 PPO 的方式，系統實現了在提升異步訓練效率的同時，保持算法收斂性與訓練穩定性的目標。

四、訓練步驟耗時驟降52%，具備線性擴展能力

AReaL-boba2通過算法系統協同設計（co-design）的方式實現了完全異步強化學習訓練（fully asynchronous RL），生成和訓練使用不同GPU并完全解耦。

這一強化學習系統中，有一部分GPU持續進行生成任務，避免空閑。同時，訓練任務實時接收生成結果并在訓練節點上并行更新參數，再將更新后的參數同步至推理節點。該系統在保障穩定強化學習訓練的同時，將通信與計算的同步開銷控制在總訓練時間的5%以內。

AReaL-boba2在訓練速度上展現出明顯優勢。在使用128卡對1.5B模型在32k輸出長度、512 x 16批大小設定下進行強化學習訓練時，異步方法相比同步方法相比，每個訓練步驟耗時減少52%。

為了更全面地評估AReaL-boba2在數學推理和代碼生成任務中的性能，研究團隊使用了DeepSeek-R1 系列中蒸餾后的Qwen2模型，涵蓋從1.5B到32B不等的規模，并采用多種方式進行強化訓練。

訓練過程中，AReaL-boba2一共使用了512張H800 GPU，為了充分利用資源，團隊將四分之三的設備分配給推理任務，這一設備比例在早期實驗中表現出更高的訓練吞吐率。

實驗結果顯示，AReaL-boba2展現出與現有同步RL系統（如 VeRL 和 AReaL的早期sync版本）相當甚至更優的性能，同時在訓練速度上取得了最多2.77倍的提升。

具體而言，在AIME24和LiveCodeBench上，AReaL-boba2在各個模型規模下都保持較高的精度，并大幅縮短訓練時間。盡管某些任務上，AReaL-boba2的表現與已有系統相當，但憑借異步訓練框架，其整體吞吐和硬件利用率上實現了明顯優勢。

在可擴展性方面，AReaL-boba2展現了近似線性的擴展能力，隨著設備數量的增加，訓練吞吐量幾乎成比例增長。與之形成對比的是傳統同步系統，其擴展性在大模型和長上下文設置下表現不佳，甚至面臨顯存溢出的限制。

AReaL-boba2在長文本生成任務中的優勢尤為顯著，通過異步和可中斷生成機制，有效掩蓋生成時間，提高了整體效率。

為了進一步驗證系統設計的合理性，研究團隊還進行了詳盡的算法與系統消融實驗。結果表明，傳統的PPO算法在面對陳舊數據時訓練效果明顯降低，而通過引入解耦目標函數和陳舊性控制，AReaL-boba2不僅能保持訓練穩定性，還能在保證最終性能的前提下加速訓練過程。

此外，系統級設計如可中斷生成策略能顯著減少訓練等待時間，而動態微批次分配策略則在多個模型規模下帶來了約30%的吞吐提升。

結語：強化學習持續進化，賦能智能體未來

AReaL-boba2背后團隊已經多次迭代這一強化學習系統，他們一直堅持了“全面開源、極速訓練、深度可定制”的開發理念。本次，該團隊不僅擴展了訓練系統的能力邊界，還提供了更為全面的開發者支持。

在Agentic AI逐漸成為解決復雜任務和構建自主決策系統的重要路徑之際，類似AReaL-boba2這樣的異步強化學習系統，有望為多輪、長上下文、高復雜度的智能體任務提供更高效、更穩定的訓練機制。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

5年白領下崗，AGI靠RL一飛沖天？網友：這是讓狗學會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2
知識儲備≠模型能力！DeepMind強化學習微調：大幅縮小「知行差距」

新智元 2025-06-21 17:34:06
0 跟貼 0

突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0

28歲輟學生掌舵Meta超級AI！小扎擲千億，與奧特曼密謀，新「王」登頂

新智元 2025-06-23 16:49:53
0 跟貼 0
圖像分詞器造反了！華為 Selftok：自回歸內核完美統一擴散模型

機器之心Pro 2025-05-22 10:38:46
0 跟貼 0

舍棄CUDA編程!CMU等用代碼將LLM編譯成巨型內核,推理延遲降6.7倍

機器之心Pro 2025-06-23 10:41:12
11 跟貼 11

世界模型在機器人任務規劃中的全新范式：通用機器人規劃模型FLIP

機器之心Pro 2025-03-19 14:50:58
0 跟貼 0
AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」

機器之心Pro 2025-06-23 17:37:28
0 跟貼 0

我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0
具身智能創業來了位浙大博導，機器人會飛，VC搶著投

量子位 2025-06-23 20:25:19
0 跟貼 0
Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
0 跟貼 0
冠軍隊獨享200w？這波是沖大學生來的，超千支隊伍已組隊報名

量子位 2025-06-23 17:40:57
0 跟貼 0
把 AI 寫入操作系統，鴻蒙走出了不一樣的路

雷科技 2025-06-22 18:17:40
3 跟貼 3
技術產品“五連發” Minimax迎來“主場時刻”

每日經濟新聞 2025-06-23 19:48:12
0 跟貼 0
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
專訪奇富科技CEO吳海生：金融行業智能化轉型“再啟航” AI智能體重構信貸業務價值鏈

經濟觀察報 2025-06-23 19:34:05
0 跟貼 0
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
哪些人最易被AI淘汰

虎嗅APP 2025-06-05 00:37:12
0 跟貼 0
生成式AI的“安全溢價”與生態競爭專訪亞馬遜云科技陳曉建：我們不打極致的“價格戰”

每日經濟新聞 2025-06-23 21:04:17
0 跟貼 0
誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
直線拉升，漲超10%！特斯拉自動駕駛出租車上線：一口價4.2美元，設有安全員！馬斯克最新發文回應

每日經濟新聞 2025-06-24 00:37:20
0 跟貼 0
螞蟻開源輕量級推理模型Ring-lite，多項Benchmark達到SOTA

量子位 2025-06-23 21:18:50
2 跟貼 2
昆蟲學家為了拿獎，一輩子都在研究螞蟻，個個肚皮鼓成燈籠！

趣味搞笑菌 2025-06-22 16:54:00
0 跟貼 0
男生北大退學又考上清華：是否擠占名額？

弓立軍 2025-06-23 13:45:44
0 跟貼 0
元廷轉變剿匪策略，朱元璋抓住機會迅速發展壯大

天浩電影V 2025-06-20 09:56:16
1 跟貼 1
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環球網資訊 2025-06-23 11:56:50
29087 跟貼 29087
龐眾望亮相清華大學招生宣傳片，靠撿廢品考上清華并讀博

封面新聞 2025-06-23 16:36:54
22 跟貼 22
大山上風電葉片運輸，猶如螞蟻搬家，瞬間明白什么是專業

小強動物世界 2025-06-19 17:26:48
15 跟貼 15
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
253 跟貼 253
百戰百勝的杰克跳蟻比行軍蟻還要大的獠牙!比紅火蟻更強的毒素

未名書屋 2025-06-23 04:10:30
0 跟貼 0
KDD'25 | 生成式拍賣：感知排列外部性的整頁優化機制

量子位 2024-12-28 22:01:41
0 跟貼 0
當接過一個新業務/需求時，底層的思考框架都有什么

人人都是產品經理社區 2025-06-23 07:51:09
0 跟貼 0
無損減少80%激活值內存，提升5倍訓練序列長度，僅需兩行代碼

機器之心Pro 2025-06-23 15:55:45
0 跟貼 0
“酣暢淋漓的華僑vs清華第二個加時完整版”

籃球人物故事會 2025-06-23 11:04:50
3 跟貼 3
重磅發布會，明天上午10時舉行！

中國網 2025-06-23 13:39:24
13429 跟貼 13429
清華大學畢業典禮都是萬里挑一的人才

重慶城市TV 2025-06-23 14:02:16
5 跟貼 5

智東西

聚焦智能變革，服務產業升級。

10056文章數 116781關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

旅游

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

售出千萬臺！他卻說"只想做下一代AI終端"

玉淵譚天：美軍轟炸伊朗的武器僅美國有 但掏空了老本

玉淵譚天：美軍轟炸伊朗的武器僅美國有 但掏空了老本

比起雷霆三少，他才是真正隊魂

魏大勛和秦嵐沒分手！

以伊沖突升級，對經濟和股市影響有多大？

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

暴雪官宣國服登陸方式切換為網易賬號！6月25日開始

被貴妃帶火的“唐代頂流”，如今怎么不火了

熱聞|清明假期將至，熱門目的地有哪些?

“章子怡挨打”背后的她更令人驚心

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

真香價格+質保承諾別克E5很難讓人拒絕了