99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

讓GPU不再摸魚!清華螞蟻聯合開源首個全異步RL,一夜擊穿14B SOTA

0
分享至

  

  新智元報道

  編輯:Aeneas 定慧

  【新智元導讀】清華與螞蟻聯合開源AReaL-boba2,實現全異步強化學習訓練系統,有效解耦模型生成與訓練流程,GPU利用率大幅提升。14B模型在多個代碼基準測試中達到SOTA,性能接近235B模型。異步RL訓練上大分!

  還記得今年初DeepSeek?R1系列把純強化學習(RL)訓練開源,點燃社區對于RL的熱情嗎?

  不久后,來自清華螞蟻聯合開源項目AReaL(v0.1)也通過在DeepSeek-R1-Distill-Qwen-1.5B上進行RL訓練,觀察到模型性能的持續提升。

  AReaL(v0.1)在40小時內,使用RL訓練的一個1.5B參數模型,在數學推理方面就超越了o1-Preview版本。

  研究人員發現,RL在構建大型推理模型(LRM)方面確實有「奇效」,但是傳統的同步RL卻有著「昂貴」的代價——效率很低,無法充分利用推理設備性能。

  6月3日,清華螞蟻聯合研發的全異步強化學習訓練系統AReaL-boba2(即AReaL v0.3)正式開源,這是AReaL的第三個版本,也是其里程碑版本AReaL-boba的重磅升級,直指RL訓效提升靶心!

  AReaL-boba2在經過兩個版本的迭代后,進化出多項重要能力:

  全面實現了異步強化學習訓練,完全解耦模型生成與訓練,GPU資源利用率大幅優化。

  性能效果不變的前提下,訓練速度對比AReaL-boba最高提升2.77倍,且沒有任何性能損失。

  研究人員使用這一系統在Qwen3系列模型上做強化學習訓練,實現8B、14B模型在LiveCodeBench、Codeforce、Codecontest等benchmark上達到SOTA水準

  AReaL-boba2還原生支持多輪智能體強化學習訓練,開發者可以根據自己的需求自由定制智能體和智能體環境,進行多輪交互智能體Agentic RL訓練

  完全開源:不僅開源代碼、腳本,還包括可復現結果的數據集、模型權重。

  

  開源地址:https://github.com/inclusionAI/AReaL

  技術論文:https://arxiv.org/pdf/2505.24298

  模型下載:https://huggingface.co/collections/inclusionAI/AReaL-boba-2-683f0e819ccb7bb2e1b2f2d5

  尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業人員持續面臨的課題。

  異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。這次清華和螞蟻聯合開源的AReaL-boba2以及一系列實驗效果,驗證了這方面的共識。

  一舉達到SOTA性能

  首先來看AReaL-boba2在多個測試基準上的性能對比。研究人員使用這一系統在Qwen3系列模型上做強化學習訓練。

  

  其中,AReaL-boba2-8B/14B-Open表示在開源數據上的訓練結果;AReaL-boba2-8B/14B模型則額外使用了少量內部數據進行訓練。

  AReaL-boba2-8B/14B在LiveCodeBench、Codeforce和CodeContests上實現了SOTA。

  最厲害的是在LiveCodeBench-v5上得分為69.1的14B模型,已經接近Qwen3-235B的性能!要知道這可是14B VS 235B的較量。

  同時AReaL-boba2-8B模型的得分也有63分,已經接近DeepSeek-R1的水準!

  異步強化學習系統的必要性

  在傳統的強化學習訓練流程中,同步強化學習訓練每一個batch的數據都是由最新版本模型產生,因此模型參數更新需要等待batch中數據全部生成完成才能啟動。

  由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待batch中最長的輸出生成完才能繼續進行訓練,以及進行下一個batch的數據收集,這樣,就會造成極大的GPU資源浪費。

  

  左側為同步RL訓練的執行時間線:同batch輸出(藍色)需要等待其中最長的輸出生成完成,存在大量GPU空閑

  DeepCoder,Intellect-2等使用從前一模型版本生成的輸出來更新當前模型,從而在單步上重疊生成與訓練。然而,所有這些系統仍然遵循批量生成設置,在生成階段期間系統效率低下的問題仍未得到有效解決。

  圖1右側為一步重疊RL系統的執行時間線,單模型訓練與單batch數據收集同時進行。同batch內依然存在大量GPU空閑。

  完全異步RL訓練系統

  實現高GPU利用率

  為了從根本上解決以上這些系統設計中的問題,清華和螞蟻的聯合研究團隊開發了AReaL-boba2,一個面向大型推理模型(LRM)的完全異步強化學習訓練系統,它完全解耦了生成與訓練,在不影響最終性能的同時,實現大幅度加速。

  而AReaL-boba2之所以能實現高GPU利用率,就是因為它以流式方式執行LRM生成,讓每個rollout worker能不斷生成新的輸出,無需等待。

  同時,AReaL-boba2中的trainer worker會并行地在從rollout worker獲得生成完成的數據構成訓練batch,用來更新模型。一旦模型更新完成,新的模型權重會更新到每個rollout worker中。

  值得注意的是,在這種異步設計中,AReaL-boba2中的每個訓練batch可能包含由不同過去模型版本生成的樣本。在實踐中,訓練數據的陳舊性可能會導致RL算法訓練效果不佳,為此研究者們提出了算法改進以保證訓練效果。

  結果顯示,完成數學推理和代碼任務時,在高達320億參數的模型上,AReaL-boba2的訓練吞吐量最高可提高2.77倍,訓練效率在512塊GPU上實現了線性擴展。

  關鍵點在于,這種加速甚至還帶來了解題準確性的提升,這就表明,AReaL-boba2并不需要犧牲模型性能,就能顯著提升效率!

  系統架構

  

  AReaL的架構與數據流

  AReaL-boba2系統由四個核心組件組成:

  1. 可中斷的采樣工作器(Interruptible Rollout Worker)

  它負責處理兩類請求:

  (1)generate請求:根據提示詞生成響應;

  (2)update_weights請求:中斷當前所有生成任務,并加載新版本模型參數。

  在權重更新時,采樣工作器會丟棄舊權重生成的KV緩存,并使用新權重重新計算。隨后,采樣工作器將繼續解碼未完成的序列,直到下一次中斷或任務終止。

  這種在生成中途打斷并切換模型權重的機制,將導致一條軌跡由多個不同模型版本生成的片段組成。當然,這也帶來了新的算法挑戰。

  2. 獎勵服務(Reward Service)

  用于評估模型生成響應的準確性。

  例如,在代碼任務中,該服務會提取生成的代碼并執行單元測試,以驗證其正確性。

  3. 訓練工作器(Trainer Workers)

  這個組件會持續地從重放緩存(replay buffer)中采樣數據,直到累積到訓練所需的batch大小為止。

  隨后,它們將執行PPO更新,并將更新后的模型參數存儲到分布式存儲系統中。

  4. 采樣控制器(Rollout Controller)

  它是采樣工作器、獎勵服務與訓練工作器之間的重要橋梁。在訓練過程中,它從數據集中讀取數據,向采樣工作器發送generate 請求,獲取模型生成的結果。生成結果隨后會被發送至獎勵服務進行評估,以獲取對應的獎勵值。

  包含獎勵的軌跡會被存入重放緩存,等待訓練工作器進行訓練。當訓練工作器更新完模型參數后,控制器會向采樣工作器發送update_weights請求,將最新權重加載至采樣工作器中。

  

  AReaL的生成與訓練的管理流程

  異步強化學習的算法挑戰與解決方案

  雖然異步系統設計通過提高設備利用率提供了顯著的加速效果,但它也引入了一些需要從算法層面考量的技術挑戰。

  · 數據陳舊性

  由于AReaL-boba2的異步特性,每個訓練batch都包含來自多個先前策略版本的數據。數據陳舊性會導致訓練數據與最新模型的輸出之間出現分布差距。在針對LRM的異步RL訓練中,由于解碼時間延長,此問題對于長軌跡可能會更加嚴重。

  · 策略版本不一致

  如上圖3所示,單個生成的軌跡可能包含由不同模型版本生成的片段。這種不一致性從根本上違背了標準PPO的公式化假設,即所有數據都由單一模型生成。

  為了解決這兩個挑戰,AReaL-boba2提出了兩種關鍵解決方案:

  1. 陳舊性控制

  為了避免數據陳舊性問題帶來的負面影響,AReaL-boba2限制生成軌跡的策略版本與訓練策略之間的版本差異。AReaL引入了一個超參數η,用于表示允許的最大陳舊程度。當η=0,系統退化為同步強化學習設置,此時生成與訓練batch完全匹配。

  2. 解耦的PPO目標

  團隊應用了一個解耦的PPO目標,將行為策略和代理策略分離,其中行為策略表示用于采樣軌跡的策略,而代理策略是一個近端策略,作為最近的目標,用于規范在線策略的更新。

  

  效果顯著

  首先在一個數學任務上評估異步AReaL-boba2,在之前發布的AReaL-boba(v0.2)基礎上,采用R1-Distill-Qwen作為基礎模型,并使用AReaL-boba-106k作為訓練數據集。

  端到端性能對比

  團隊比較了在1.5B和7B參數模型上的同步與異步訓練。

  結果顯示,在資源限制和訓練步驟相同的情況下,異步系統速度是同步系統的兩倍多!

  在AIME24上的評估,證實了這一加速并未影響性能。

  

  可以看到,AReaL-boba2在性能上始終與基線持平甚至超過,并且訓練速度有顯著提升。

  特別是在訓練吞吐量方面,AReaL-boba2相較于同步方法最高可實現2.77倍的提升,且幾乎無性能損失。

  

  研究者在數學任務上基于一個1.5B的大型推理模型(LRM),開展了消融實驗,以驗證他們所提出算法創新。

  他們調整了允許的最大staleness η,并比較使用和不使用解耦式PPO目標函數的不同配置。結果表明,陳舊性控制有效地避免了過舊的數據帶來的負面影響,同時使用解耦PPO目標可以在陳舊程度大的情況下保持訓練效果。

  

  (a)和(b)分別為使用傳統PPO以及解耦PPO目標進行訓練的曲線

  

  解耦PPO目標的消融實驗

  推進先進AI推理平權

  此前,聯合研究小組在3月開源的AReaL-boba項目,得到了來自海外開發者的高度認可,評價「AReaL-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 」

  而AReaL-boba2 延續了一貫的完全開源原則,代碼、數據集、腳本及 SOTA 級模型權重全部開源,團隊希望 AReaL 能讓AI智能體搭建像制作一杯奶茶一樣便捷、靈活、可定制化。

  AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數據智能實驗室的幫助。

  AReaL的誕生離不開DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO等優秀開源框架和模型的啟發。

  最后,AReaL還給出了完善的訓練教程和開發指南,包括復現SOTA代碼模型訓練指南以及基于Async RL的智能體搭建教程,想體驗極速RL訓練的小伙伴可以跑起來了!

  

  參考資料:

  https://github.com/inclusionAI/AReaL

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“長沙腕豪大戰成都大母O并取得MVP”

“長沙腕豪大戰成都大母O并取得MVP”

一個島島
2025-06-09 15:11:06
92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

92年我在西北冒死救下一女軍官,回到單位之后,上級緊急傳喚我

紅豆講堂
2025-06-08 12:00:10
C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

直播吧
2025-06-09 08:22:11
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
百萬耳環小花移民跑路?井柏然劉雯領證?黃圣依追求賈乃亮?許嵩鬧分手?姨太問答

百萬耳環小花移民跑路?井柏然劉雯領證?黃圣依追求賈乃亮?許嵩鬧分手?姨太問答

毒舌扒姨太
2025-06-08 22:36:53
泡泡瑪特股價創新高!一娃難求的Labubu捧出河南新首富

泡泡瑪特股價創新高!一娃難求的Labubu捧出河南新首富

財聯社
2025-06-09 15:17:55
臺島以南發生激烈對峙,美軍剛發射反艦導彈,遼寧艦直接貼臉開大

臺島以南發生激烈對峙,美軍剛發射反艦導彈,遼寧艦直接貼臉開大

起喜電影
2025-06-09 05:15:46
中國稀土突發暴量10倍,股價大漲44%,核心邏輯有4個

中國稀土突發暴量10倍,股價大漲44%,核心邏輯有4個

鵬哥投研
2025-06-09 11:35:05
10歲女孩在濕地公園蕩網紅秋千墜河,十分鐘后才被發現不幸去世 家屬起訴索賠40余萬

10歲女孩在濕地公園蕩網紅秋千墜河,十分鐘后才被發現不幸去世 家屬起訴索賠40余萬

紅星新聞
2025-06-09 18:40:36
職工醫保個人賬戶余額可以轉賬啦!

職工醫保個人賬戶余額可以轉賬啦!

子長融媒體中心
2025-05-31 13:15:43
劉濤和王雷這么親密拍照, 王珂看到會不會吃醋呢

劉濤和王雷這么親密拍照, 王珂看到會不會吃醋呢

東方不敗然多多
2025-06-09 00:27:23
15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

老梁體育漫談
2025-06-10 00:33:27
馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

鑫鑫說說
2025-06-09 09:16:54
孫子高考只差1分考上清華,奶奶執意查卷,卷上一句話讓她癱軟在地

孫子高考只差1分考上清華,奶奶執意查卷,卷上一句話讓她癱軟在地

故事秘棧
2025-06-07 18:42:42
笑不活,網友與李雪琴合影,林更新成了背景墻,網友:太奢侈了!

笑不活,網友與李雪琴合影,林更新成了背景墻,網友:太奢侈了!

鄭丁嘉話
2025-06-09 10:37:41
美團閃購“突襲”酒水市場,飛天茅臺低至1988元!華致酒行、歌德老酒行等入駐

美團閃購“突襲”酒水市場,飛天茅臺低至1988元!華致酒行、歌德老酒行等入駐

紅星資本局
2025-06-09 20:27:02
中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

星宇共鳴
2025-05-21 18:05:05
爆了!央視新劇斬獲兩個第一!這次岳云鵬沒拉跨,雷佳音慫出高度

爆了!央視新劇斬獲兩個第一!這次岳云鵬沒拉跨,雷佳音慫出高度

一娛三分地
2025-06-10 00:00:03
飲料“殺精”實錘?每天1杯,精子濃度下降22%,Nutrients發文

飲料“殺精”實錘?每天1杯,精子濃度下降22%,Nutrients發文

醫脈通
2025-06-08 18:07:03
奇葩一幕!輸球后女排一人抱著主任哭,領導兩手插褲兜反應冷冰冰

奇葩一幕!輸球后女排一人抱著主任哭,領導兩手插褲兜反應冷冰冰

南海浪花
2025-06-09 07:19:04
2025-06-10 01:44:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12848文章數 66061關注度
往期回顧 全部

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

頭條要聞

洛杉磯已經失控 有人用可致命煙花攻擊警察

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

藝術
親子
本地
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

喜馬拉雅兒童1.2億條聲音,陪伴中國兒童成長

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏方稱俄發動沖突以來最大空襲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 依兰县| 晋中市| 大同县| 张家口市| 平原县| 海伦市| 峨边| 高陵县| 高碑店市| 永吉县| 兴国县| 通江县| 乌兰察布市| 白山市| 灵丘县| 古浪县| 札达县| 江口县| 徐水县| 长海县| 石柱| 鄂托克旗| 饶平县| 弋阳县| 牙克石市| 天镇县| 湛江市| 龙口市| 黑山县| 大足县| 旌德县| 邮箱| 青川县| 洞头县| 尉犁县| 平江县| 柳河县| 洞口县| 高平市| 普宁市| 中西区|