文 | 智能相對論
作者 |葉遠風
大模型催生了無數的創新機會,而大模型應用要如何更好地實現落地、服務好企業和個人,就成為廣大開發者能否有效抓住這波時代紅利的關鍵。
于是,來自計算產業生態的支持動作,對開發者而言就變得尤為重要。
5月23-24日,鯤鵬昇騰開發者大會2025(KADC2025)將于北京中關村國際創新中心舉辦,作為華為面向開發者一年一度的技術盛典,大會在直接推動開發者技術能力提升、產業價值落地等方面有諸多布局。
而值得關注的是,19日鯤鵬昇騰創享周上,昇騰方面的首場直播,就聚焦在昇騰超節點計算集群硬件架構,顯示出昇騰對這一架構的重視。
對開發者而言,做好大模型,MoE已經必選項。現在,能夠更好支撐MoE架構的基礎設施方案“最優解”也已經出現。
MoE成必選項,但“作坊式”生產成隱憂
大模型領域,MoE架構的優勢已經十分明顯。
不同的任務分成一個個“專家”模型去處理,每個專家只需處理自己最擅長的領域,無論在效率還是專業能力,MoE架構都奠定了其作為下一階段大模型發展主要技術路線的地位。
而從MoE的技術特點可以粗略看出,這是一個需要“拆分”然后分工合作的架構,其技術演化路線,也基本沿著這個方向走——越拆越細。
比如最早的MoE架構,其專家數量可能只有十幾個,后來又進一步發展到幾十個、上百個,把更多的任務分配到更小的專家上去,“專才”越來越專,大模型的效果會變得更好,處理效率也會更高。
然而,雖然MoE架構的優化一直在提升,專家的數量不斷增加,例如DeepSeek的R1已經有288個專家,但這種增長也正在面臨額外的通信難題。
也即,當MoE架構中被安排的的專家越來越多,專家和專家之間的通信會越來越多,對計算協同能力的要求也越來越高。更多的計算卡集合到了一起形成大量節點,要實現有機整合、要把大量的專家分配到不同卡上來做好模型處理,都存在技術挑戰。
顯然,由服務器、存儲、網絡等設備堆疊而成的傳統集群,在這方面正面臨瓶頸,在大規模訓練時,資源利用率低、故障頻發,嚴重阻礙著AI發展和創新。
比如,傳統模式往往是在不同的節點之間進行互相通信,雖然最好的數據已經能夠做到雙向800Gb的帶寬傳輸,但在快速增加的專家數量面前,已經遠遠不夠看了。
這就好比,MoE架構不斷優化后已經能夠請來一大堆專家幫忙進行“生產”,但開發者能夠提供給它的生產環境,卻還只是個“小作坊”——協同差、流程效率低、擁擠不堪,顯然已經無法滿足時代的需要,除了限制既有MoE能力的發揮,在專家數量的進一步提升上也設置了無形的障礙。
這時候,昇騰超節點的出現,就帶來了“生產模式”的改變。
昇騰超節點,為MoE建設一座“超級工廠”
通過高速總線連接多顆 NPU,突破互聯瓶頸,卡和卡之間通過高速互聯實現了超高的互聯網通信,最終,一個多節點組成的集群能夠像一臺計算機一樣緊密協同工作,這就是昇騰超節點在做的。
需要說明的是,昇騰超節點是通用架構,只不過它很親和MoE的多專家模式。
目前,昇騰超節點解決方案已經推出了多款訓練和推理產品,基于架構創新來滿足模型訓練和推理對低時延,大帶寬,長穩可靠的要求。
這就好比,它為MoE的眾多專家們,建設了一座提供高效協同生產環境的超級工廠,再多的專家參與到大模型的“能力生產”中,也能在“超級工廠”健全的流程和生產設備支撐下,井然有序、高效率完成大模型能力的“生產作業”。
也由此,昇騰超節點正成為MoE模型的最佳選擇。
1、解決“生產過程”溝通協作難題
MoE的專家并行需頻繁執行機間all-to-all通信,導致網絡擁塞和延遲上升。例如,千億級MoE模型的訓練中,通信開銷占總耗時的40%以上。而昇騰超節點主要是通過架構創新來實現更高更大的帶寬、更高的性能,提升訓練效率、推理吞吐能力。
具體而言,超節點內的高速互聯能力讓跨節點通信帶寬提升15倍,通信時延從2μs降至0.2μs,下降10倍,大幅降低整體通信占比,讓計算少等待、不等待。有數據顯示,相較傳統集群,整體訓練效率、推理吞吐可提升3倍。
由此,再多的MoE專家細分也能夠支撐,像是提供了可以彈性容納更多專家的“流水線”。目前, Atlas 900昇騰384超節點可實現384顆NPU點到點超大帶寬互聯,成為業界唯一支持DeepSeek V3/R1在一個超節點域內即可完成所有的專家并行(EP)的方案。
2、提升“生產資源”利用率
超級工廠的流水線相對于小作坊生產的另一重價值是能夠實現更有效率的生產資源利用。
昇騰超節點相對于傳統集群的優勢之一也在于此,能夠依據MoE結構中專家分布以及每層的計算需求,精細地將模型切分至不同節點,更合理分配資源,提高整體資源利用率。
而且,當多個專家一起工作時,昇騰超節點同時可運行多種并行策略并動態調整,針對實時的負載情況精準分配計算資源,不堵塞、每個節點都被充分利用,加速訓練/推理進程。
不僅讓專家“人盡其用”,也讓節點資源“物盡其用”。
3、處理繁雜但重要的“瑣碎生產事項”
在分布式計算場景下,大模型訓練和推理過程存在大量并行計算,帶來頻繁的參數同步和梯度交換,需要傳輸大量小尺寸數據包。在MoE架構下,隨著模型參數量持續增長,小包通信需求將進一步加劇。
而偏偏,這類通信對網絡時延、抖動和丟包率極其敏感,直接影響訓練/推理效率。
對應實體世界,這就相當于生產過程中總是給出了大量非常瑣碎的溝通和任務,粗獷的“小作坊”生產顯然很難有效應對,時常“丟三落四”,必須依靠“超級工廠”的標準化流程與規則來托舉。
昇騰超節點做到了全局內存統一編址,具備更高效的內存語義通信能力,實現了更低時延指令級內存語義通信,從而能夠滿足大模型訓練/推理中的小包通信需求,提升專家網絡小包數據傳輸及離散隨機訪存通信效率。
規則、一體化平臺建立起來,就不怕工作碎而多了。
4、用減少“停機”來作為重要的生產效率來源
現實中的生產小作坊由于制度不完善,經常在運轉中碰到各種難題,停工停業。作為對比,超級工廠幾乎不“停機”就帶來的直接的生產效率。
誠然,大模型訓練或推理一定會面臨某些故障,這時候,能夠降低故障頻次、降低恢復時長,就成為訓練/推理效率的重要來源。昇騰超節點擁有多平面的鏈路設計、鏈路故障秒級切換、算子級重傳等可靠性能力,如Atlas 900昇騰384超節點產品的平均無故障運行時長從幾小時提升到幾天,讓大模型訓練變的更快、更簡單。
而且,在出現故障后,昇騰超節點也支持更敏捷的斷點續訓,故障恢復時長能從傳統集群的幾小時級降低至30分鐘。
“流水線”少停,停后快速啟動,這就是直接的效率。
一座“超級工廠”的建成,只能是“產業資源”的集中展現
現實中的超級工廠的建設對一個地方產業資源有著極高的要求,對應地,為MoE的專家們建設一座數字世界的超級工廠,也需要多方面技術力量的支撐。
昇騰超節點是整個架構層面的創新,其采用總線互聯的技術,實現了統一內存編輯、統一內存語義通信,不僅有高速通信,也有高速存儲讀取等,這些,都離不開華為在計算、存儲、網絡等方面長期以來優勢的集成,是優勢技術資源積淀與運用的結果。
所以,昇騰超節點不是簡單的集群模式創新就能實現的,與MoE架構的匹配親和,是這個時代最尖端的基礎設施與模型架構的碰撞、對話。
不僅如此,目前昇騰超節點還聯合昇騰其他解決方案進一步強化大模型支撐能力。
例如,隨著模型越來越大,并行的情況也會越來越多,把數據切分的越來越細、把整個模型切分的越來越細,除了通過超節點的架構訓練出更強性能的模型,昇騰還在通過大EP和集成部署的推理系統來滿足極致的工程創新、來滿足大模型所有節點的部署。
如此,這座為MoE專家們準備的“超級工廠”在生產調度能力上也正在變得越來越豐富。
結語
在復雜的形勢下,對多節點集群能力的挖掘,實際上也一定程度解決了算力供應鏈穩定性難題。畢竟,“立足中國,只有基于實際可獲得的基礎硬件制造工藝打造的算力才是長期可持續的,否則是不可持續的。”
很慶幸,有了昇騰超節點這類技術積淀之上的架構創新,可持續的基礎設施正在被有效建立起來,推動MoE在本土發展壯大,讓本土大模型獲得更大的話語權。
在全面智能化戰略(All Intelligence)下,華為正在進行著計算、存儲和網絡技術協同創新,昇騰超節點之外,本次鯤鵬昇騰開發者大會料將呈現更多計算產業趨勢、前沿技術、行業創新案例和優秀開發者實踐,值得關注與參與。
*本文圖片均來源于網絡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.