99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RL后訓(xùn)練步入超節(jié)點時代!華為黑科技榨干算力,一張卡干倆活

0
分享至


新智元報道

編輯:KingHZ 桃子

【新智元導(dǎo)讀】RL后訓(xùn)練已成為大模型性能突破的「殺手锏」,而算力浪費和集群效率低成為一大難題。這次,華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節(jié)點實現(xiàn)MoE大模型訓(xùn)推共卡,資源利用率翻倍,還打破了同步算法限制,讓訓(xùn)練速度再提升50%。

在大模型競賽白熱化的當(dāng)下,「強化學(xué)習(xí)后訓(xùn)練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓(xùn)練點石成金。

相較于預(yù)訓(xùn)練階段的「廣撒網(wǎng)」式知識獲取,RL 后訓(xùn)練通過驅(qū)動模型與外部環(huán)境進行動態(tài)交互,直接塑造了LLM在復(fù)雜任務(wù)中的推理效能。

當(dāng)前,RL后訓(xùn)練階段已經(jīng)吃掉了訓(xùn)練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。

在傳統(tǒng)RL后訓(xùn)練中,訓(xùn)練和推理得排隊干活,也就說大量算力都在「摸魚」。

對此,華為團隊拿出「RL Fusion訓(xùn)推共卡」和「StaleSync準(zhǔn)異步并行」兩大黑科技,把訓(xùn)練效率和資源利用率拉滿。

· RL Fusion: 讓一張卡同時兼顧訓(xùn)練和推理兩件事,資源利用率和吞吐翻倍。

· StaleSync:打破了同步限制,讓集群擴展效率超90%,訓(xùn)練吞吐再提50%。

CloudMatrix超節(jié)點,就像大模型的「超級加速器」,讓百億、甚至千億級模型訓(xùn)練更快更省。

至此,大模型強化學(xué)習(xí)訓(xùn)練正式邁入超節(jié)點時代!

RL后訓(xùn)練「算力黑洞」

如今,強化學(xué)習(xí),已成為激活大模型推理思考能力的關(guān)鍵buff。

不論是語言模型的對話優(yōu)化,還是多模態(tài)模型的復(fù)雜任務(wù)適配,RL后訓(xùn)練都在提升模型精度、泛化性、用戶體驗方面,發(fā)揮著不可替代的作用。

然而,這種性能提升的代價是巨大的算力需求。

尤其是在現(xiàn)有主流On-Policy算法下,訓(xùn)練與推理的嚴格交替導(dǎo)致了資源利用率低下。

總的來說,RL后訓(xùn)練作為大模型訓(xùn)練最后沖刺階段,面臨著兩大不容忽視的挑戰(zhàn)。

  • On-Policy算法的同步枷鎖

在大模型后訓(xùn)練過程中,Actor模型的訓(xùn)練與推理(生成)過程構(gòu)成主要負載。

在傳統(tǒng)「訓(xùn)推分離」架構(gòu)下,主流的On-Policy策略要求訓(xùn)練和推理任務(wù)交替執(zhí)行,互相等待,導(dǎo)致大量計算資源處于閑置狀態(tài)。

這種「輪流休息」的模式,在小規(guī)模集群場景下已然造成顯著浪費,若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓(xùn)練成本。

因此,訓(xùn)推共卡技術(shù),成為提升集群資源利用率的核心突破口。

  • 大規(guī)模集群的擴展困境

另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數(shù)據(jù)并行(DP)等多模型異構(gòu)并行策略組合,使得任務(wù)調(diào)度復(fù)雜度呈指數(shù)級增長。

而現(xiàn)有框架在大規(guī)模集群中,難以讓其實現(xiàn)高效協(xié)同,進而導(dǎo)致了擴展效率顯著下降。

如何通過軟硬協(xié)同打破資源瓶頸,釋放潛在的紅利,成為華為團隊聚焦突破的關(guān)鍵方向。

RL Fusion

一卡干倆活,利用率吞吐翻倍

針對RL后訓(xùn)練資源利用率低的問題,華為團隊深入剖析異構(gòu)模型和多任務(wù)場景的負載特點,提出了創(chuàng)新性的RL Fusion訓(xùn)推共卡技術(shù)

簡單來說,就是讓一張卡既做訓(xùn)練又做推理,效率直接翻倍。

RL Fusion支持訓(xùn)練推理共卡、全共卡等多種靈活部署模式(如圖1),可實現(xiàn)推理階段資源調(diào)度的精細化可控管理。

它還支持張量并行(TP)、數(shù)據(jù)并行(DP)、流水線并行(PP)等多維并行策略的動態(tài)無縫切換,實現(xiàn)計算資源「一箭雙雕」,即在同一計算資源上執(zhí)行Actor模型生成和訓(xùn)練2個任務(wù)。


圖1:訓(xùn)推分離、訓(xùn)推共卡、全共卡部署計算資源利用情況示意圖

值得一提的是,在小規(guī)模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進一步實現(xiàn)「一箭四雕」,效率直接拉滿。

此外,針對大規(guī)模高稀疏比MoE模型,華為通過對訓(xùn)推態(tài)內(nèi)存進行極致分析,首次提出了訓(xùn)推內(nèi)存0冗余切換實現(xiàn)訓(xùn)推EP動態(tài)切換如圖2所示。


圖2:MoE大模型訓(xùn)推EP動態(tài)變化示意圖

在訓(xùn)練態(tài)及推理態(tài)切換過程中,通過「分桶」管理參數(shù),可消除由于EP變化造成的冗余內(nèi)存。

同時,推理時把訓(xùn)練的優(yōu)化器及梯度,完全卸載到主機側(cè),盡可能將NPU內(nèi)存留給推理態(tài),保證長序列下推理階段吞吐(如圖3所示)。


圖3:MoE大模型訓(xùn)推訓(xùn)推內(nèi)存0冗余切換技術(shù)示意圖

不僅如此,通過對訓(xùn)推共卡中權(quán)重通信、內(nèi)存加卸載進行系統(tǒng)性優(yōu)化后,訓(xùn)推切換過程優(yōu)化到秒級,快如閃電。

由此,RL Fusion能讓強化學(xué)習(xí)后訓(xùn)練集群利用率倍增,成本省一大截。

StaleSync

水平擴展效率超90%,訓(xùn)練吞吐再提50%

針對大規(guī)模集群擴展性低的問題華為團隊摒棄全同步迭代方式,設(shè)計了準(zhǔn)異步機制StaleSync(如圖4所示)。

StaleSync機制能容忍梯度「陳舊性」,讓不同RL階段的任務(wù)在「陳舊度閾值」內(nèi)并行執(zhí)行。

這使得CloudMatrix 384超節(jié)點的水平擴展效率超90%。


圖4:StaleSync準(zhǔn)異步并行技術(shù)示意圖

這一創(chuàng)新得益于對RL計算任務(wù)的細致分析。

在RL訓(xùn)練中,研究團隊發(fā)現(xiàn),不同計算任務(wù)的算力需求各異。

基于這一特點,新的后訓(xùn)練系統(tǒng)結(jié)合了共置和分離架構(gòu)的優(yōu)勢,平衡了各個RL計算任務(wù)的資源需求,從而提高了整體硬件資源的利用率。


圖5:共置/分離架構(gòu)下同策訓(xùn)練方案示意圖和缺點

此外,在Actor Rollout過程中,長尾樣本的存在導(dǎo)致了效率的降低。

為了解決此問題,新系統(tǒng)引入了準(zhǔn)異步調(diào)度機制:

當(dāng)生成結(jié)束的樣本達到一定閾值時,數(shù)據(jù)立刻流向下一階段的計算任務(wù),允許未完成的推理樣本的訓(xùn)練存在一定滯后性,從而提高了整體后訓(xùn)練吞吐。

在保證模型精度的前提下,StaleSync方案使系統(tǒng)整體訓(xùn)練吞吐量提升了50%。

背后功臣:數(shù)據(jù)隊列DistQueue

為了滿足StaleSync的數(shù)據(jù)調(diào)度與管理要求,研究團隊專門設(shè)計了分布式數(shù)據(jù)隊列DistQueue。

DistQueue實現(xiàn)了不同計算任務(wù)之間數(shù)據(jù)的拆分、緩存與動態(tài)讀取。

為了提高通信效率,DistQueue采取了分層數(shù)據(jù)傳輸零冗余通信兩項技術(shù),緩解了數(shù)據(jù)系統(tǒng)壓力。

以Pangu 718B-MoE訓(xùn)練并行策略為例(TP8,EP4,PP16),引入分層數(shù)據(jù)傳輸可將DistQueue的負載降低為1/128,從而支持后訓(xùn)練規(guī)模的進一步擴展。


圖6:分層數(shù)據(jù)傳輸技術(shù)示意圖

在后訓(xùn)練中,傳統(tǒng)的樣本Padding補齊方案存在大量冗余通信,降低了通信效率。

對此,研究者引入零冗余通信技術(shù),如圖7所示:

首先將各個樣本在序列維度進行拼接;

在各個進程收到數(shù)據(jù)后,再根據(jù)原始序列長度進行恢復(fù)。

這避免了Padding帶來的額外通信,大大提升了通信效率。

在盤古長序列訓(xùn)練集實測,研究團隊發(fā)現(xiàn)上述優(yōu)化可降低80%以上的通信量,有效支撐大規(guī)模集群訓(xùn)練的擴展效率。


圖7:DistQueue零冗余數(shù)據(jù)傳輸

實測

昇騰超節(jié)點見證效率躍升

RL Fusion與StaleSync的協(xié)同優(yōu)化,形成了「資源復(fù)用+任務(wù)并行」的雙重保障體系,顯著提升了效率。

在RL后訓(xùn)練中,下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓(xùn)推共卡,能夠消除RL后訓(xùn)練中模型級空泡,提高資源利用率,單個超節(jié)點吞吐提升了78.5%。

再結(jié)合StaleSync準(zhǔn)異步技術(shù),可以實現(xiàn)35k token/s吞吐效率,整體可提升1.5倍性能。


表1:單超節(jié)點RL后訓(xùn)練性能分析

表2展示了StaleSync對集群擴展性的提升。

當(dāng)集群規(guī)模從1個超節(jié)點擴展至4個超節(jié)點時,StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴展線性度達91%;而全同步方案在同等規(guī)模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。


表2:RL后訓(xùn)練性能分析

結(jié)語

在AI風(fēng)起云涌的當(dāng)下,RL后訓(xùn)練正成為大模型突圍的關(guān)鍵,而效率是決勝的王牌。

昇騰超節(jié)點以RL Fusion和StaleSync兩大殺招,攻克算力浪費和集群擴展的瓶頸,帶來了高效、高擴展、高通用性的集群調(diào)度與融合方案。

一張卡干倆活、流水線永不停,單節(jié)點速度狂飆2.5倍,集群擴展效率突破90%。

它如同一臺「加速引擎」,正為百億、千億級大模型的后訓(xùn)練注入強勁動力,點燃下一代AI效率革命的火花。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
3年巨虧700多萬,15萬每平米到9萬,廣州天河第一豪宅也扛不住了

3年巨虧700多萬,15萬每平米到9萬,廣州天河第一豪宅也扛不住了

小人物看盡人間百態(tài)
2025-06-07 22:48:44
A股,兩個大利好來了!能助力周一的股市反彈大漲嗎?

A股,兩個大利好來了!能助力周一的股市反彈大漲嗎?

明心
2025-06-08 15:20:01
大學(xué)黨委副書記,任副廳長!

大學(xué)黨委副書記,任副廳長!

中國教育在線
2025-06-08 10:43:21
2025年全國高考統(tǒng)考科目考試今天結(jié)束 多地公布查分時間

2025年全國高考統(tǒng)考科目考試今天結(jié)束 多地公布查分時間

北青網(wǎng)-北京青年報
2025-06-08 14:07:06
特朗普威脅削減撥款?加州強硬表態(tài):“我們可以暫停上繳聯(lián)邦稅”

特朗普威脅削減撥款?加州強硬表態(tài):“我們可以暫停上繳聯(lián)邦稅”

財聯(lián)社
2025-06-08 04:27:08
許其亮同志生平照片

許其亮同志生平照片

新京報政事兒
2025-06-08 16:11:03
拔出蘿卜帶出泥!陳芋汐奪冠后的現(xiàn)狀,透露了一個圈子的“惡俗”

拔出蘿卜帶出泥!陳芋汐奪冠后的現(xiàn)狀,透露了一個圈子的“惡俗”

深析古今
2025-06-05 21:55:56
遭母親打罵、嫁中國8年不受歡迎,李在明當(dāng)選后,輪到46歲她火了

遭母親打罵、嫁中國8年不受歡迎,李在明當(dāng)選后,輪到46歲她火了

麥大人
2025-06-07 12:59:50
央視《長安的荔枝》首播!連追3集后,我想說:古裝劇就該這么拍

央視《長安的荔枝》首播!連追3集后,我想說:古裝劇就該這么拍

大笑江湖史
2025-06-07 21:35:27
DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復(fù)興之約

DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復(fù)興之約

麓谷隱士
2025-06-07 16:28:34
上海單身男女同去巴厘島花3萬,男子追求不成要女方還1.5萬!網(wǎng)友吵翻

上海單身男女同去巴厘島花3萬,男子追求不成要女方還1.5萬!網(wǎng)友吵翻

極目新聞
2025-06-07 22:21:55
黃圣依自曝初戀是賈乃亮,本人害羞承認,網(wǎng)友:希望他們在一起

黃圣依自曝初戀是賈乃亮,本人害羞承認,網(wǎng)友:希望他們在一起

小seven的囧囧啊
2025-06-08 15:56:23
汪小菲帶女兒去海邊散心,11歲玥兒穿白裙子像仙女,笑容酷似大S

汪小菲帶女兒去海邊散心,11歲玥兒穿白裙子像仙女,笑容酷似大S

凌風(fēng)的世界觀
2025-06-07 20:35:29
馬健:20歲時在球場不知什么叫累 體脂率只有5.3%&亞洲戰(zhàn)績?nèi)雺?>
    </a>
        <h3>
      <a href=直播吧
2025-06-08 10:03:23
加州州長回應(yīng)美防長威脅“動用海軍陸戰(zhàn)隊”應(yīng)對騷亂:簡直是瘋了

加州州長回應(yīng)美防長威脅“動用海軍陸戰(zhàn)隊”應(yīng)對騷亂:簡直是瘋了

財聯(lián)社
2025-06-08 13:54:00
黃圣依媽談外孫安迪寒心,嘆:只要跟保姆一起,就漠視我這個外婆

黃圣依媽談外孫安迪寒心,嘆:只要跟保姆一起,就漠視我這個外婆

深析古今
2025-06-08 14:31:46
C羅與亞馬爾年齡差有多離譜?亞馬爾出生時,C羅剛率領(lǐng)曼聯(lián)拿英超

C羅與亞馬爾年齡差有多離譜?亞馬爾出生時,C羅剛率領(lǐng)曼聯(lián)拿英超

雷速體育
2025-06-08 16:05:17
75歲劉曉慶首談“4婚3離”原因,比喻太真實!網(wǎng)友:慶奶人間清醒

75歲劉曉慶首談“4婚3離”原因,比喻太真實!網(wǎng)友:慶奶人間清醒

大笑江湖史
2025-06-08 09:39:11
印度學(xué)者警告莫迪,別招惹中國,人家只是欠缺一個收拾你的理由!

印度學(xué)者警告莫迪,別招惹中國,人家只是欠缺一個收拾你的理由!

近史閣
2025-06-06 14:39:49
又一考場被曝作弊!8000能買四科滿分,“內(nèi)鬼”是考場負責(zé)人

又一考場被曝作弊!8000能買四科滿分,“內(nèi)鬼”是考場負責(zé)人

滄海旅行家
2025-06-08 07:40:07
2025-06-08 18:04:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12841文章數(shù) 66061關(guān)注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

特朗普派國民警衛(wèi)隊前往洛杉磯后發(fā)文:加州州長無能

頭條要聞

特朗普派國民警衛(wèi)隊前往洛杉磯后發(fā)文:加州州長無能

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結(jié)婚15年紀(jì)念!孫儷發(fā)長文談夫妻感情

財經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

汽車要聞

復(fù)古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

健康
教育
時尚
家居
數(shù)碼

減重專家破解減肥九大謠言!

教育要聞

2025高考怕不是被資本做局了吧!

50+女人別再盲目跟風(fēng),掌握這凍齡3個秘籍,穿出時髦感不費力

家居要聞

現(xiàn)代風(fēng)格 意式奢華空間

數(shù)碼要聞

紅魔電競平板 3 Pro 預(yù)熱“超級工作臺”,支持分屏協(xié)作等

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 陆良县| 桂林市| 巴塘县| 修水县| 延边| 新竹县| 蓬溪县| 西贡区| 德惠市| 同心县| 青川县| 鹤壁市| 信宜市| 浏阳市| 县级市| 房产| 垣曲县| 昌黎县| 宜川县| 镇雄县| 昆明市| 大渡口区| 璧山县| 四平市| 南华县| 大关县| 崇明县| 泽州县| 同心县| 上思县| 潜山县| 乌兰察布市| 芜湖县| 城步| 临邑县| 苏尼特右旗| 淮滨县| 凤凰县| 石城县| 渝北区| 峨边|