新智元報道
編輯:KingHZ 桃子
【新智元導(dǎo)讀】RL后訓(xùn)練已成為大模型性能突破的「殺手锏」,而算力浪費和集群效率低成為一大難題。這次,華為團隊祭出兩大黑科技直接破局。不僅在CloudMatrix 384超節(jié)點實現(xiàn)MoE大模型訓(xùn)推共卡,資源利用率翻倍,還打破了同步算法限制,讓訓(xùn)練速度再提升50%。
在大模型競賽白熱化的當(dāng)下,「強化學(xué)習(xí)后訓(xùn)練」已成為突破LLM性能天花板的核心路徑。
爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后訓(xùn)練點石成金。
相較于預(yù)訓(xùn)練階段的「廣撒網(wǎng)」式知識獲取,RL 后訓(xùn)練通過驅(qū)動模型與外部環(huán)境進行動態(tài)交互,直接塑造了LLM在復(fù)雜任務(wù)中的推理效能。
當(dāng)前,RL后訓(xùn)練階段已經(jīng)吃掉了訓(xùn)練全流程20%的算力,未來會飆升到50%,直接影響模型的性能和成本。
在傳統(tǒng)RL后訓(xùn)練中,訓(xùn)練和推理得排隊干活,也就說大量算力都在「摸魚」。
對此,華為團隊拿出「RL Fusion訓(xùn)推共卡」和「StaleSync準(zhǔn)異步并行」兩大黑科技,把訓(xùn)練效率和資源利用率拉滿。
· RL Fusion: 讓一張卡同時兼顧訓(xùn)練和推理兩件事,資源利用率和吞吐翻倍。
· StaleSync:打破了同步限制,讓集群擴展效率超90%,訓(xùn)練吞吐再提50%。
CloudMatrix超節(jié)點,就像大模型的「超級加速器」,讓百億、甚至千億級模型訓(xùn)練更快更省。
至此,大模型強化學(xué)習(xí)訓(xùn)練正式邁入超節(jié)點時代!
RL后訓(xùn)練「算力黑洞」
如今,強化學(xué)習(xí),已成為激活大模型推理思考能力的關(guān)鍵buff。
不論是語言模型的對話優(yōu)化,還是多模態(tài)模型的復(fù)雜任務(wù)適配,RL后訓(xùn)練都在提升模型精度、泛化性、用戶體驗方面,發(fā)揮著不可替代的作用。
然而,這種性能提升的代價是巨大的算力需求。
尤其是在現(xiàn)有主流On-Policy算法下,訓(xùn)練與推理的嚴格交替導(dǎo)致了資源利用率低下。
總的來說,RL后訓(xùn)練作為大模型訓(xùn)練最后沖刺階段,面臨著兩大不容忽視的挑戰(zhàn)。
On-Policy算法的同步枷鎖
在大模型后訓(xùn)練過程中,Actor模型的訓(xùn)練與推理(生成)過程構(gòu)成主要負載。
在傳統(tǒng)「訓(xùn)推分離」架構(gòu)下,主流的On-Policy策略要求訓(xùn)練和推理任務(wù)交替執(zhí)行,互相等待,導(dǎo)致大量計算資源處于閑置狀態(tài)。
這種「輪流休息」的模式,在小規(guī)模集群場景下已然造成顯著浪費,若在千卡/萬卡集群中更是放大為「算力黑洞」,推高了LLM后訓(xùn)練成本。
因此,訓(xùn)推共卡技術(shù),成為提升集群資源利用率的核心突破口。
大規(guī)模集群的擴展困境
另一方面,隨著MoE模型普及,專家并行(EP)、張量并行(TP)、數(shù)據(jù)并行(DP)等多模型異構(gòu)并行策略組合,使得任務(wù)調(diào)度復(fù)雜度呈指數(shù)級增長。
而現(xiàn)有框架在大規(guī)模集群中,難以讓其實現(xiàn)高效協(xié)同,進而導(dǎo)致了擴展效率顯著下降。
如何通過軟硬協(xié)同打破資源瓶頸,釋放潛在的紅利,成為華為團隊聚焦突破的關(guān)鍵方向。
RL Fusion
一卡干倆活,利用率吞吐翻倍
針對RL后訓(xùn)練資源利用率低的問題,華為團隊深入剖析異構(gòu)模型和多任務(wù)場景的負載特點,提出了創(chuàng)新性的RL Fusion訓(xùn)推共卡技術(shù)。
簡單來說,就是讓一張卡既做訓(xùn)練又做推理,效率直接翻倍。
RL Fusion支持訓(xùn)練推理共卡、全共卡等多種靈活部署模式(如圖1),可實現(xiàn)推理階段資源調(diào)度的精細化可控管理。
它還支持張量并行(TP)、數(shù)據(jù)并行(DP)、流水線并行(PP)等多維并行策略的動態(tài)無縫切換,實現(xiàn)計算資源「一箭雙雕」,即在同一計算資源上執(zhí)行Actor模型生成和訓(xùn)練2個任務(wù)。
圖1:訓(xùn)推分離、訓(xùn)推共卡、全共卡部署計算資源利用情況示意圖
值得一提的是,在小規(guī)模場景下,RL Fusion還能把Reference及Reward模型的資源「榨干」,進一步實現(xiàn)「一箭四雕」,效率直接拉滿。
此外,針對大規(guī)模高稀疏比MoE模型,華為通過對訓(xùn)推態(tài)內(nèi)存進行極致分析,首次提出了訓(xùn)推內(nèi)存0冗余切換,實現(xiàn)訓(xùn)推EP動態(tài)切換,如圖2所示。
圖2:MoE大模型訓(xùn)推EP動態(tài)變化示意圖
在訓(xùn)練態(tài)及推理態(tài)切換過程中,通過「分桶」管理參數(shù),可消除由于EP變化造成的冗余內(nèi)存。
同時,推理時把訓(xùn)練的優(yōu)化器及梯度,完全卸載到主機側(cè),盡可能將NPU內(nèi)存留給推理態(tài),保證長序列下推理階段吞吐(如圖3所示)。
圖3:MoE大模型訓(xùn)推訓(xùn)推內(nèi)存0冗余切換技術(shù)示意圖
不僅如此,通過對訓(xùn)推共卡中權(quán)重通信、內(nèi)存加卸載進行系統(tǒng)性優(yōu)化后,訓(xùn)推切換過程優(yōu)化到秒級,快如閃電。
由此,RL Fusion能讓強化學(xué)習(xí)后訓(xùn)練集群利用率倍增,成本省一大截。
StaleSync
水平擴展效率超90%,訓(xùn)練吞吐再提50%
針對大規(guī)模集群擴展性低的問題,華為團隊摒棄全同步迭代方式,設(shè)計了準(zhǔn)異步機制StaleSync(如圖4所示)。
StaleSync機制能容忍梯度「陳舊性」,讓不同RL階段的任務(wù)在「陳舊度閾值」內(nèi)并行執(zhí)行。
這使得CloudMatrix 384超節(jié)點的水平擴展效率超90%。
圖4:StaleSync準(zhǔn)異步并行技術(shù)示意圖
這一創(chuàng)新得益于對RL計算任務(wù)的細致分析。
在RL訓(xùn)練中,研究團隊發(fā)現(xiàn),不同計算任務(wù)的算力需求各異。
基于這一特點,新的后訓(xùn)練系統(tǒng)結(jié)合了共置和分離架構(gòu)的優(yōu)勢,平衡了各個RL計算任務(wù)的資源需求,從而提高了整體硬件資源的利用率。
圖5:共置/分離架構(gòu)下同策訓(xùn)練方案示意圖和缺點
此外,在Actor Rollout過程中,長尾樣本的存在導(dǎo)致了效率的降低。
為了解決此問題,新系統(tǒng)引入了準(zhǔn)異步調(diào)度機制:
當(dāng)生成結(jié)束的樣本達到一定閾值時,數(shù)據(jù)立刻流向下一階段的計算任務(wù),允許未完成的推理樣本的訓(xùn)練存在一定滯后性,從而提高了整體后訓(xùn)練吞吐。
在保證模型精度的前提下,StaleSync方案使系統(tǒng)整體訓(xùn)練吞吐量提升了50%。
背后功臣:數(shù)據(jù)隊列DistQueue
為了滿足StaleSync的數(shù)據(jù)調(diào)度與管理要求,研究團隊專門設(shè)計了分布式數(shù)據(jù)隊列DistQueue。
DistQueue實現(xiàn)了不同計算任務(wù)之間數(shù)據(jù)的拆分、緩存與動態(tài)讀取。
為了提高通信效率,DistQueue采取了分層數(shù)據(jù)傳輸與零冗余通信兩項技術(shù),緩解了數(shù)據(jù)系統(tǒng)壓力。
以Pangu 718B-MoE訓(xùn)練并行策略為例(TP8,EP4,PP16),引入分層數(shù)據(jù)傳輸可將DistQueue的負載降低為1/128,從而支持后訓(xùn)練規(guī)模的進一步擴展。
圖6:分層數(shù)據(jù)傳輸技術(shù)示意圖
在后訓(xùn)練中,傳統(tǒng)的樣本Padding補齊方案存在大量冗余通信,降低了通信效率。
對此,研究者引入零冗余通信技術(shù),如圖7所示:
首先將各個樣本在序列維度進行拼接;
在各個進程收到數(shù)據(jù)后,再根據(jù)原始序列長度進行恢復(fù)。
這避免了Padding帶來的額外通信,大大提升了通信效率。
在盤古長序列訓(xùn)練集實測,研究團隊發(fā)現(xiàn)上述優(yōu)化可降低80%以上的通信量,有效支撐大規(guī)模集群訓(xùn)練的擴展效率。
圖7:DistQueue零冗余數(shù)據(jù)傳輸
實測
昇騰超節(jié)點見證效率躍升
RL Fusion與StaleSync的協(xié)同優(yōu)化,形成了「資源復(fù)用+任務(wù)并行」的雙重保障體系,顯著提升了效率。
在RL后訓(xùn)練中,下表1展示了不同加速配置方案對整體性能提升情況。
RL Fusion訓(xùn)推共卡,能夠消除RL后訓(xùn)練中模型級空泡,提高資源利用率,單個超節(jié)點吞吐提升了78.5%。
再結(jié)合StaleSync準(zhǔn)異步技術(shù),可以實現(xiàn)35k token/s吞吐效率,整體可提升1.5倍性能。
表1:單超節(jié)點RL后訓(xùn)練性能分析
表2展示了StaleSync對集群擴展性的提升。
當(dāng)集群規(guī)模從1個超節(jié)點擴展至4個超節(jié)點時,StaleSync 的吞吐從35k tokens/s提升至127k tokens/s,擴展線性度達91%;而全同步方案在同等規(guī)模下吞吐僅從25k tokens/s 增至 85k tokens/s,線性度約為85%。
表2:RL后訓(xùn)練性能分析
結(jié)語
在AI風(fēng)起云涌的當(dāng)下,RL后訓(xùn)練正成為大模型突圍的關(guān)鍵,而效率是決勝的王牌。
昇騰超節(jié)點以RL Fusion和StaleSync兩大殺招,攻克算力浪費和集群擴展的瓶頸,帶來了高效、高擴展、高通用性的集群調(diào)度與融合方案。
一張卡干倆活、流水線永不停,單節(jié)點速度狂飆2.5倍,集群擴展效率突破90%。
它如同一臺「加速引擎」,正為百億、千億級大模型的后訓(xùn)練注入強勁動力,點燃下一代AI效率革命的火花。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.