智東西
編譯 王涵
編輯 漠影
智東西5月27日消息,據華為官方信息,近日在華為昇騰AI開發者峰會上,華為昇騰計算業務總裁張迪煊介紹了基于昇騰人工智能(AI)處理器的高性能計算架構“昇騰384超節點”,該架構號稱可媲美美國半導體公司英偉達NVL72系統的架構,能有效緩解數據中心瓶頸問題。
“隨著并行處理規模擴大,傳統服務器架構的跨機帶寬已成為訓練關鍵瓶頸?!睆埖响釉跁险f。他提到,滿足未來訓練需求需要昇騰384超節點等創新計算架構。
一、摒棄馮諾依曼架構,昇騰384超節點架構可連接數萬顆處理器
華為的超節點架構構成其此前公布的CloudMatrix 384系統基礎,該集群包含384顆昇騰AI處理器,由12個計算柜和4個總線柜組成,最大算力可達300 PFLOPS,48TB高速內存,(注:1 petaflop=每秒1千萬億次運算)。
基于超節點架構,華為打造了業界最大規模的昇騰384卡超節點,并已在安徽、內蒙古和貴州的數據中心部署。
華為稱,多個昇騰384超節點可以組成十萬卡級的Atlas 900 SuperCluster超節點集群,以支持更大規模的模型訓練需求,幫助更多行業更快實現智能化和高效化。
華為補充,超節點打破了以CPU為中心的馮諾依曼架構,創新提出了對等計算架構。在超節點范圍內,用高速總線互聯替代傳統以太,通信帶寬提升了15倍,單跳通信時延也從2微秒做到200納秒,降低了10倍。
▲華為昇騰計算業務總裁張迪軒在昇騰AI開發者峰會上演講
二、最適合MoE模型,單卡性能達到600至750TPS
目前,Mixture-of-Experts(MoE)模型憑借其模型效果成為了主要模型結構,然而MoE卻涉及最復雜的混合并行策略。其中,TP、SP、EP的通信量高達百GB的級別,且通常無法掩蓋。隨著并行規模的增長,傳統服務器的跨機帶寬成為訓練核心瓶頸,需要通過計算架構的創新,滿足未來訓練的需求。
據華為介紹,昇騰384超節點架構最適合MoE AI模型。華為公布的基準測試結果顯示,超節點384在處理Meta的LLama 3等密集型AI模型時,單卡性能達到132 tokens/秒(TPS),是傳統集群的2.5倍。對于Qwen以及DeepSeek等通信密集型多模態及MoE模型,華為架構的單卡性能達到600至750 TPS,可以達到3倍以上的提升。
雖然華為尚未確認其新計算架構下部署的是哪款昇騰芯片變體,但SemiAnalysis的一份報告稱CloudMatrix 384使用了最新的昇騰910C AI處理器,該處理器依靠規模優勢來抵消單個芯片性能較弱的不足。
結語:突破西方封鎖,華為或將重塑AI訓練底層邏輯
除了昇騰384超節點的技術分享外,華為在其昇騰AI開發者峰會上,還分享了CATLASS算子模板庫、MindIE Motor推理服務加速庫、持續升級分層開放CANN的能力等等內容。這一系列舉措旨在為開發者提供更便捷的開發環境,提升模型訓練與推理效率,從而推動產業生態共建。
“華為在芯片上落后一代,但其擴展解決方案可以說比英偉達和超微半導體(AMD)的當前市場產品領先一代?!盨emiAnalysis報告稱。
隨著全球AI算力競賽進入“白熱化”,華為的創新不僅為數據中心瓶頸問題提供了中國方案,更可能重塑下一代AI模型訓練的底層邏輯,在算力規模與能效比之間找到新的平衡點,推動AI技術從實驗室走向更廣泛的產業應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.