RL后訓(xùn)練步入超節(jié)點時代！華為黑科技榨干算力，一張卡干倆活

2025-06-05 15:04:57　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ 桃子

【新智元導(dǎo)讀】RL后訓(xùn)練已成為大模型性能突破的「殺手锏」，而算力浪費和集群效率低成為一大難題。這次，華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節(jié)點實現(xiàn)MoE大模型訓(xùn)推共卡，資源利用率翻倍，還打破了同步算法限制，讓訓(xùn)練速度再提升50%。

在大模型競賽白熱化的當(dāng)下，「強化學(xué)習(xí)后訓(xùn)練」已成為突破LLM性能天花板的核心路徑。

爆火出圈的OpenAI o1、DeepSeek-R1等模型，背后都是依靠RL后訓(xùn)練點石成金。

相較于預(yù)訓(xùn)練階段的「廣撒網(wǎng)」式知識獲取，RL 后訓(xùn)練通過驅(qū)動模型與外部環(huán)境進行動態(tài)交互，直接塑造了LLM在復(fù)雜任務(wù)中的推理效能。

當(dāng)前，RL后訓(xùn)練階段已經(jīng)吃掉了訓(xùn)練全流程20%的算力，未來會飆升到50%，直接影響模型的性能和成本。

在傳統(tǒng)RL后訓(xùn)練中，訓(xùn)練和推理得排隊干活，也就說大量算力都在「摸魚」。

對此，華為團隊拿出「RL Fusion訓(xùn)推共卡」和「StaleSync準(zhǔn)異步并行」兩大黑科技，把訓(xùn)練效率和資源利用率拉滿。

· RL Fusion：讓一張卡同時兼顧訓(xùn)練和推理兩件事，資源利用率和吞吐翻倍。

· StaleSync：打破了同步限制，讓集群擴展效率超90%，訓(xùn)練吞吐再提50%。

CloudMatrix超節(jié)點，就像大模型的「超級加速器」，讓百億、甚至千億級模型訓(xùn)練更快更省。

至此，大模型強化學(xué)習(xí)訓(xùn)練正式邁入超節(jié)點時代！

RL后訓(xùn)練「算力黑洞」

如今，強化學(xué)習(xí)，已成為激活大模型推理思考能力的關(guān)鍵buff。

不論是語言模型的對話優(yōu)化，還是多模態(tài)模型的復(fù)雜任務(wù)適配，RL后訓(xùn)練都在提升模型精度、泛化性、用戶體驗方面，發(fā)揮著不可替代的作用。

然而，這種性能提升的代價是巨大的算力需求。

尤其是在現(xiàn)有主流On-Policy算法下，訓(xùn)練與推理的嚴格交替導(dǎo)致了資源利用率低下。

總的來說，RL后訓(xùn)練作為大模型訓(xùn)練最后沖刺階段，面臨著兩大不容忽視的挑戰(zhàn)。

On-Policy算法的同步枷鎖

在大模型后訓(xùn)練過程中，Actor模型的訓(xùn)練與推理（生成）過程構(gòu)成主要負載。

在傳統(tǒng)「訓(xùn)推分離」架構(gòu)下，主流的On-Policy策略要求訓(xùn)練和推理任務(wù)交替執(zhí)行，互相等待，導(dǎo)致大量計算資源處于閑置狀態(tài)。

這種「輪流休息」的模式，在小規(guī)模集群場景下已然造成顯著浪費，若在千卡/萬卡集群中更是放大為「算力黑洞」，推高了LLM后訓(xùn)練成本。

因此，訓(xùn)推共卡技術(shù)，成為提升集群資源利用率的核心突破口。

大規(guī)模集群的擴展困境

另一方面，隨著MoE模型普及，專家并行（EP）、張量并行（TP）、數(shù)據(jù)并行（DP）等多模型異構(gòu)并行策略組合，使得任務(wù)調(diào)度復(fù)雜度呈指數(shù)級增長。

而現(xiàn)有框架在大規(guī)模集群中，難以讓其實現(xiàn)高效協(xié)同，進而導(dǎo)致了擴展效率顯著下降。

如何通過軟硬協(xié)同打破資源瓶頸，釋放潛在的紅利，成為華為團隊聚焦突破的關(guān)鍵方向。

RL Fusion

一卡干倆活，利用率吞吐翻倍

針對RL后訓(xùn)練資源利用率低的問題，華為團隊深入剖析異構(gòu)模型和多任務(wù)場景的負載特點，提出了創(chuàng)新性的RL Fusion訓(xùn)推共卡技術(shù)。

簡單來說，就是讓一張卡既做訓(xùn)練又做推理，效率直接翻倍。

RL Fusion支持訓(xùn)練推理共卡、全共卡等多種靈活部署模式（如圖1），可實現(xiàn)推理階段資源調(diào)度的精細化可控管理。

它還支持張量并行（TP）、數(shù)據(jù)并行（DP）、流水線并行（PP）等多維并行策略的動態(tài)無縫切換，實現(xiàn)計算資源「一箭雙雕」，即在同一計算資源上執(zhí)行Actor模型生成和訓(xùn)練2個任務(wù)。

圖1：訓(xùn)推分離、訓(xùn)推共卡、全共卡部署計算資源利用情況示意圖

值得一提的是，在小規(guī)模場景下，RL Fusion還能把Reference及Reward模型的資源「榨干」，進一步實現(xiàn)「一箭四雕」，效率直接拉滿。

此外，針對大規(guī)模高稀疏比MoE模型，華為通過對訓(xùn)推態(tài)內(nèi)存進行極致分析，首次提出了訓(xùn)推內(nèi)存0冗余切換，實現(xiàn)訓(xùn)推EP動態(tài)切換，如圖2所示。

圖2：MoE大模型訓(xùn)推EP動態(tài)變化示意圖

在訓(xùn)練態(tài)及推理態(tài)切換過程中，通過「分桶」管理參數(shù)，可消除由于EP變化造成的冗余內(nèi)存。

同時，推理時把訓(xùn)練的優(yōu)化器及梯度，完全卸載到主機側(cè)，盡可能將NPU內(nèi)存留給推理態(tài)，保證長序列下推理階段吞吐（如圖3所示）。

圖3：MoE大模型訓(xùn)推訓(xùn)推內(nèi)存0冗余切換技術(shù)示意圖

不僅如此，通過對訓(xùn)推共卡中權(quán)重通信、內(nèi)存加卸載進行系統(tǒng)性優(yōu)化后，訓(xùn)推切換過程優(yōu)化到秒級，快如閃電。

由此，RL Fusion能讓強化學(xué)習(xí)后訓(xùn)練集群利用率倍增，成本省一大截。

StaleSync

水平擴展效率超90%，訓(xùn)練吞吐再提50%

針對大規(guī)模集群擴展性低的問題，華為團隊摒棄全同步迭代方式，設(shè)計了準(zhǔn)異步機制StaleSync（如圖4所示）。

StaleSync機制能容忍梯度「陳舊性」，讓不同RL階段的任務(wù)在「陳舊度閾值」內(nèi)并行執(zhí)行。

這使得CloudMatrix 384超節(jié)點的水平擴展效率超90%。

圖4：StaleSync準(zhǔn)異步并行技術(shù)示意圖

這一創(chuàng)新得益于對RL計算任務(wù)的細致分析。

在RL訓(xùn)練中，研究團隊發(fā)現(xiàn)，不同計算任務(wù)的算力需求各異。

基于這一特點，新的后訓(xùn)練系統(tǒng)結(jié)合了共置和分離架構(gòu)的優(yōu)勢，平衡了各個RL計算任務(wù)的資源需求，從而提高了整體硬件資源的利用率。

圖5：共置/分離架構(gòu)下同策訓(xùn)練方案示意圖和缺點

此外，在Actor Rollout過程中，長尾樣本的存在導(dǎo)致了效率的降低。

為了解決此問題，新系統(tǒng)引入了準(zhǔn)異步調(diào)度機制：

當(dāng)生成結(jié)束的樣本達到一定閾值時，數(shù)據(jù)立刻流向下一階段的計算任務(wù)，允許未完成的推理樣本的訓(xùn)練存在一定滯后性，從而提高了整體后訓(xùn)練吞吐。

在保證模型精度的前提下，StaleSync方案使系統(tǒng)整體訓(xùn)練吞吐量提升了50%。

背后功臣：數(shù)據(jù)隊列DistQueue

為了滿足StaleSync的數(shù)據(jù)調(diào)度與管理要求，研究團隊專門設(shè)計了分布式數(shù)據(jù)隊列DistQueue。

DistQueue實現(xiàn)了不同計算任務(wù)之間數(shù)據(jù)的拆分、緩存與動態(tài)讀取。

為了提高通信效率，DistQueue采取了分層數(shù)據(jù)傳輸與零冗余通信兩項技術(shù)，緩解了數(shù)據(jù)系統(tǒng)壓力。

以Pangu 718B-MoE訓(xùn)練并行策略為例（TP8，EP4，PP16），引入分層數(shù)據(jù)傳輸可將DistQueue的負載降低為1/128，從而支持后訓(xùn)練規(guī)模的進一步擴展。

圖6：分層數(shù)據(jù)傳輸技術(shù)示意圖

在后訓(xùn)練中，傳統(tǒng)的樣本Padding補齊方案存在大量冗余通信，降低了通信效率。

對此，研究者引入零冗余通信技術(shù)，如圖7所示：

首先將各個樣本在序列維度進行拼接；

在各個進程收到數(shù)據(jù)后，再根據(jù)原始序列長度進行恢復(fù)。

這避免了Padding帶來的額外通信，大大提升了通信效率。

在盤古長序列訓(xùn)練集實測，研究團隊發(fā)現(xiàn)上述優(yōu)化可降低80%以上的通信量，有效支撐大規(guī)模集群訓(xùn)練的擴展效率。

圖7：DistQueue零冗余數(shù)據(jù)傳輸

實測

昇騰超節(jié)點見證效率躍升

RL Fusion與StaleSync的協(xié)同優(yōu)化，形成了「資源復(fù)用+任務(wù)并行」的雙重保障體系，顯著提升了效率。

在RL后訓(xùn)練中，下表1展示了不同加速配置方案對整體性能提升情況。

RL Fusion訓(xùn)推共卡，能夠消除RL后訓(xùn)練中模型級空泡，提高資源利用率，單個超節(jié)點吞吐提升了78.5%。

再結(jié)合StaleSync準(zhǔn)異步技術(shù)，可以實現(xiàn)35k token/s吞吐效率，整體可提升1.5倍性能。

表1：單超節(jié)點RL后訓(xùn)練性能分析

表2展示了StaleSync對集群擴展性的提升。

當(dāng)集群規(guī)模從1個超節(jié)點擴展至4個超節(jié)點時，StaleSync 的吞吐從35k tokens/s提升至127k tokens/s，擴展線性度達91%；而全同步方案在同等規(guī)模下吞吐僅從25k tokens/s 增至 85k tokens/s，線性度約為85%。

表2：RL后訓(xùn)練性能分析

結(jié)語

在AI風(fēng)起云涌的當(dāng)下，RL后訓(xùn)練正成為大模型突圍的關(guān)鍵，而效率是決勝的王牌。

昇騰超節(jié)點以RL Fusion和StaleSync兩大殺招，攻克算力浪費和集群擴展的瓶頸，帶來了高效、高擴展、高通用性的集群調(diào)度與融合方案。

一張卡干倆活、流水線永不停，單節(jié)點速度狂飆2.5倍，集群擴展效率突破90%。

它如同一臺「加速引擎」，正為百億、千億級大模型的后訓(xùn)練注入強勁動力，點燃下一代AI效率革命的火花。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.