【環球網科技報道 記者 張陽】在人工智能加速滲透千行百業的今天,大模型的爆發式增長正推動算力需求進入新紀元。當大模型的參數量越來越大,傳統集群架構雖然可以通過不斷疊加來擴展算力,但是各集群之間卻受到通信效率的制約,成為大模型訓練效率的絆腳石。
一邊是各行各業對于AI算力的需求,另一方面在算力供給側遇到的通信延遲吞噬算力帶來的效率瓶頸、居高不下的模型訓練成本,
傳統集群的困局:從“算力堆砌”到“效率革命”的必然躍遷
回顧AI計算的演進歷程,傳統集群架構的局限性日益凸顯。由獨立服務器通過以太網堆疊而成的系統,在面對MoE(混合專家模型)等新型大模型時,暴露出三大核心痛點:
首先是通信瓶頸的指數級惡化。MoE模型將任務拆解為數百個專家并行處理,導致節點間通信量呈幾何級增長。傳統基于RoCE協議的400G網絡,在面對TB級數據傳輸需求時,時延高達2ms以上,成為制約訓練效率的最大短板。
其次是資源分配的粗放性。傳統架構無法感知模型層間計算特征,只能進行靜態資源劃分。當MoE模型中不同層的專家數量動態變化時,常出現部分節點過載、部分節點閑置的"冷熱不均"現象,導致整體訓練效率下降30%以上。
最后是可靠性的脆弱性。大規模集群中單個節點故障概率隨規模呈線性增長,但傳統系統故障恢復需數小時,期間所有訓練數據需重新計算,造成巨大資源浪費。某互聯網企業實測顯示,其萬卡集群平均每周因故障中斷訓練2-3次,每次損失超百萬美元。
這些痛點本質上是“以服務器為中心”的傳統架構,無法適應大模型時代“以數據流動為核心”的算力需求。正如華為昇騰計算業務總裁張迪煊所言:“當模型進化到千億參數級,算力架構必須完成從‘積木式堆疊’到‘有機生命體’的質變。”昇騰超節點的誕生,正是對這一命題的有力回應。
超節點架構:重新定義算力系統的“基因序列”
昇騰超節點的技術突破,體現在對算力架構的底層重構。其核心創新可概括為“三維一體”的技術架構:
硬件互聯的顛覆性突破:昇騰超節點通過高速總線連接多顆NPU,突破互聯瓶頸,讓集群像一臺計算機一樣工作。跨節點通信帶寬提升15倍;通信時延從2ms降至0.2ms,下降至十分之一。
全局內存統一編址通過虛擬化技術將分散在各節點的內存池虛擬為統一地址空間,支持跨節點直接內存訪問。這使得大模型訓練中頻繁的參數同步操作,無需經過傳統的“序列化-網絡傳輸-反序列化”流程,直接通過內存語義通信完成,可滿足大模型訓練/推理中的小包通信需求,提升專家網絡小包數據傳輸及離散隨機訪存通信效率。
資源調度的智能化升級:細粒度動態切分,基于對MoE模型結構的深度感知,超節點可將模型層間計算任務按專家分布動態切分至不同節點。例如對包含288個專家的模型,可將每個專家分配至獨立NPU,同時通過智能路由算法優化跨節點通信路徑,使計算與通信耗時比從傳統的1:1降至3:1。
系統可靠性的范式革新:昇騰超節點采用七平面的鏈路設計、鏈路故障秒級切換、算子級重傳等可靠性能力,確保大模型訓練不中斷,平均無故障運行時長從幾小時提升到幾天;同時支持更敏捷的斷點續訓,故障恢復時長從小時級降低至15分鐘。
算子級故障恢復,通過細粒度的計算狀態checkpoint技術,故障恢復范圍可精準定位至具體算子,恢復時間從傳統的小時級縮短至15分鐘。
技術落地的“實干密碼”:從實驗室到產業級的跨越
昇騰超節點架構以突破性創新打破集群互聯瓶頸,通過技術革新實現節點間高效協同,讓集群運行如同一臺強大計算機,大幅提升整體計算效率。其構建業界最大規模384卡高速總線互聯體系,相比傳統節點,訓練性能實現3倍飛躍,以強勁算力支撐大規模AI任務快速推進。同時,超節點架構深度適配MoE,充分釋放MoE模型潛力,為模型訓練與推理提供高效支持,使昇騰成為MoE模型開發與應用的最優選擇,在AI計算領域樹立新標桿。
全新發布的MindIE Motor在推理服務層加速,進一步提升了大規模專家并行的能力,單卡吞吐達4倍傳統服務器堆疊,超節點+大EP方案性能達業界4倍,更好的保護客戶投資。同時帶來了多模態理解SDK和昇騰推理微服務MIS,大幅簡化了應用的部署流程,更好的讓每位開發者聚焦應用的創新。
昇騰超節點的價值,不僅在于技術創新的前瞻性,更在于其產業落地的扎實推進。華為通過“三位一體”的實干策略,實現了從架構創新到生態繁榮的閉環:
早在2022年,華為就與DeepSeek等頭部AI企業建立聯合實驗室,針對MoE模型特性優化超節點架構,這種“需求驅動創新”的模式,確保超節點始終緊貼產業前沿。
這些探索背后,是華為“用架構創新釋放摩爾定律”的堅定信念。正如華為輪值董事長徐直軍所言:“當制程工藝逼近物理極限,架構創新就是新的摩爾定律。”
在AI算力的競技場上,從來不乏概念炒作與路徑依賴。但昇騰選擇了一條更艱難卻更堅實的道路,攻克高速互聯、動態調度、系統可靠性等世界級難題。這種“板凳要坐十年冷”的技術哲學,讓超節點成為天然適配MoE時代的算力標桿。當算力不再是創新的桎梏,當技術突破不再受制于他人,AI產業才能真正迎來“萬類霜天競自由”的繁榮景象。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.