近日,華為在MoE模型訓(xùn)練領(lǐng)域再進(jìn)一步,重磅推出參數(shù)規(guī)模高達(dá)7180億的全新模型——盤古Ultra MoE,這是一個(gè)全流程在昇騰AI計(jì)算平臺(tái)上訓(xùn)練的準(zhǔn)萬(wàn)億MoE模型。華為同時(shí)發(fā)布盤古Ultra MoE模型架構(gòu)和訓(xùn)練方法的技術(shù)報(bào)告,披露眾多技術(shù)細(xì)節(jié),充分體現(xiàn)了昇騰在超大規(guī)模MoE訓(xùn)練性能上的跨越。
訓(xùn)練超大規(guī)模和極高稀疏性的 MoE 模型極具挑戰(zhàn),訓(xùn)練過(guò)程中的穩(wěn)定性往往難以保障。針對(duì)這一難題,盤古團(tuán)隊(duì)在模型架構(gòu)和訓(xùn)練方法上進(jìn)行了創(chuàng)新性設(shè)計(jì),成功地在昇騰平臺(tái)上實(shí)現(xiàn)了準(zhǔn)萬(wàn)億 MoE 模型的全流程訓(xùn)練。
在模型架構(gòu)上,盤古團(tuán)隊(duì)提出Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺(tái)上實(shí)現(xiàn)了超過(guò)18TB數(shù)據(jù)的長(zhǎng)期穩(wěn)定訓(xùn)練。此外,他們還提出了 EP loss 負(fù)載優(yōu)化方法,這一設(shè)計(jì)不僅保證了各個(gè)專家之間的能保持較好的負(fù)載均衡,也提升了專家的領(lǐng)域特化能力。同時(shí),盤古Ultra MoE使用了業(yè)界先進(jìn)的MLA和MTP架構(gòu),在預(yù)訓(xùn)練和后訓(xùn)練階段都使用了Dropless訓(xùn)練策略,實(shí)現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的最佳平衡。
在訓(xùn)練方法上,華為團(tuán)隊(duì)首次披露在昇騰CloudMatrix 384超節(jié)點(diǎn)上,高效打通大稀疏比MoE強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù),使RL后訓(xùn)練進(jìn)入超節(jié)點(diǎn)集群時(shí)代。同時(shí),在5月初發(fā)布的預(yù)訓(xùn)練系統(tǒng)加速技術(shù)基礎(chǔ)上,在不到一個(gè)月的時(shí)間內(nèi),華為團(tuán)隊(duì)又完成了一輪迭代升級(jí),包括:適配昇騰硬件的自適應(yīng)流水掩蓋策略,進(jìn)一步優(yōu)化算子執(zhí)行序,進(jìn)一步降低Host-Bound以及提升EP通信的掩蓋;自適應(yīng)管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實(shí)現(xiàn)DP間Attention負(fù)載均衡;以及昇騰親和的算子優(yōu)化,這些技術(shù)實(shí)現(xiàn)萬(wàn)卡集群預(yù)訓(xùn)練MFU由30%大幅提升至 41%。
此外,近期發(fā)布的盤古Pro MoE大模型,在參數(shù)量?jī)H為720億,激活160億參數(shù)量的情況下,通過(guò)動(dòng)態(tài)激活專家網(wǎng)絡(luò)的創(chuàng)新設(shè)計(jì),實(shí)現(xiàn)了以小打大的優(yōu)異性能,甚至可以媲美千億級(jí)模型的性能表現(xiàn)。在業(yè)界權(quán)威大模型榜單SuperCLUE最新公布的2025年5月排行榜上,位居千億參數(shù)量以內(nèi)大模型排行并列國(guó)內(nèi)第一。
華為盤古Ultra MoE和盤古Pro MoE系列模型的發(fā)布,證明華為不僅完成了國(guó)產(chǎn)算力+國(guó)產(chǎn)模型的全流程自主可控的訓(xùn)練實(shí)踐,同時(shí)在集群訓(xùn)練系統(tǒng)的性能上也實(shí)現(xiàn)了業(yè)界領(lǐng)先。這意味著國(guó)產(chǎn)AI基礎(chǔ)設(shè)施的自主創(chuàng)新能力得到了進(jìn)一步驗(yàn)證,為中國(guó)人工智能產(chǎn)業(yè)的發(fā)展提供了一顆“定心丸”。(趙華)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.