網易首頁 > 網易號 > 正文申請入駐

深度揭秘華為昇騰超節點！不盲目自信也不妄自菲薄

2025-06-20 16:50:50　來源: AI全球總部

北京舉報

分享至

剛剛，華為聯合硅基流動悄悄發了一篇論文，把自家的昇騰超節點CloudMatrix 384狠狠“安利”了一把。

這篇論文有兩大看點：

1、詳細介紹了CloudMatrix384超節點的硬件架構：910C芯片、節點板卡、尤其是UB架構。

2、針對像DeepSeek這樣數千億參數、MoE架構、超長上下文的推理需求，如何用軟硬協同的“菊花寶典”來搞定。

這份「菊花寶典」，包含CloudMatrix 384超節點硬件和CloudMatrix-Infer推理優化方案。

首先看硬件

華為 CloudMatrix 384 將 384 顆昇騰 910C NPU、192 顆鯤鵬 CPU 封裝進單一“超節點”，通過 UB（Unified Bus）高帶寬、低時延總線實現全互聯，使計算、內存、網絡資源可池化、等價訪問并獨立伸縮。

具體的架構長這樣↓

包含三個平面：①UB平面完成超節點Scale-up；②RDMA平面，提供多個超節點Scale-out；③VPC平面，南北向通信，連接到數據中心網絡。

1、昇騰910C芯片參數

910C為雙die封裝，每die算力達到376TFLOPS@FP16或1054TFLOPS@INT8。（比較遺憾的是，910系列不支持FP8，也不支持現在N卡和A卡都在狂帶節奏的FP4/FP6，期待下一代可以）

板載128GB HBM3顯存，帶寬3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道，既能 scale-up 又能 scale-out。

2、昇騰910C子節點

整個超節點由48個910C子節點組成。

每個子節點板載8張昇騰910C芯片+4張鯤鵬CPU+7張UB交換芯片，并集成一張擎天DPU卡，負責節點級資源管理和南北向網絡連接。

3、UB統一總線架構首次揭秘

超級節點橫跨了16個機架，其中12個計算機架（含48個昇騰910C節點）、4個通信機架，通信機架其實就是所謂的UB統一總線。

這很像典型的Spine-Leaf兩層脊葉架構，一層Leaf集成在每個910C節點機上，二層Spine擱在4個通信機架里面。

每個L1端口對應16條上行鏈路（16×28GB/s），確保整個超級節點網絡無阻塞。

UB 架構的本質，是把傳統“CPU-GPU-交換機多層異構系統”壓縮進一個機柜內部的單級互連域，交付“近芯片級帶寬 + 微秒級延遲 + 統一尋址”的算力池。

大家可以看看菊廠給出的節點內和跨節點通信的帶寬/時延對比：跨die帶寬接近die內帶寬，單跳時延接近1微秒。

菊廠不愧是做通信出身的，這UB做得真NB，大模型推理的三個主要瓶頸（帶寬、延遲、內存可用性），UB都提供了顯著改進。

正是因為UB的存在，CloudMartix才可以放棄傳統Scale out的做法，用Scale up的理念攢一臺大家伙，來搞定計算墻、顯存墻、通信墻。

當然，“一菊獨放不是春，百菊齊放春滿園”，就像下圖一樣，CloudMatrix的遠景是先Scale-UP，再Scale-Out，組成一片超級“大菊園”。

再看軟件部分

配套軟件上，華為有自己的“菊版CUDA”，這就是CANN，包括驅動、運行時和庫三層架構。

同時，為了實現在更大規模的云環境中部署 CloudMatrix384，菊廠提供了一套“Matrix全家桶”，包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下圖給出了一個16.5萬張卡組成的超大集群的示范，以及在這樣的云平臺上，全家桶各自的位置。

為了更好的跑DeepSeek這樣的大參數、MoE、長上下文模型，菊廠專門提出了CloudMartrix-Infer推理優化方案。

本質上講，這是一個多層級的軟件優化技術，簡要概括下。

1、PDC 解耦（Prefill-Decode-Caching）：
Prefill：16 × NPU 實例（EP32）專管長輸入串、首 token 生成。
Decode：160 × NPU 實例（EP320）追求極低 TPOT 的自回歸生成。
Caching：所有 NPU 通過 UB 總線直連一片分布式 DRAM 池，歷史 KV + 模型權重都放這兒，誰需要誰 DMA 取。
2、LEP 大規模專家并行
讓 DeepSeek-R1 的 320 個專家“一人一核”地攤到 320 個 NPU die 上，通信靠 UB，MoE 延遲不再是瓶頸。
3、硬件友好的優化包
Ascend-native算子 + 微批管線并發，通信與計算重疊。
INT8 五件套量化：混合精度、自適應尺度搜索、離群點抑制、高效INT8 GEMM、塊級剪裁與誤差補償。（彌補昇騰芯片不支持FP8的短板，）

所有這些優化手段，在論文中都有超長篇幅的圖文介紹，詳細到足以讓你相信，這是菊廠真干成了。

實戰效果如何

用這套軟硬協同的“菊花寶典”，進行滿血版DeepSeek推理實戰，是一種怎樣的體驗？

論文中給出了詳細的數據，以及與N記H100/H800對比。（注意不是比H200更不是B200）

1、Prefill預填充階段：

在同樣16384×4096 的重載場景里，華為單卡吞吐達到6688tps，并拿到全場最佳算力利用率（4.45tok/s/TPFOPS）。

2、Decode解碼階段：

在TPOT=50ms的級別下，華為吞吐達到每卡1943tps。同樣獲得了最高的算力利用率（1.29tok/s/TFlops）。

而且華為并沒有使用更大的Batch Size堆吞吐，仍然拿到了高效輸出。

總體來講，這波實戰華為客觀的展示了自身的能力，起到了雙重袪魅效果：

①昇騰的確很能打，在單卡通用硬件算力不如H100的前提下，憑超節點互聯 + 架構級優化，實現整體性能反超。

②昇騰沒有坊間吃瓜群眾吹得那么能打，一頓操作猛如虎，也只是能跟H100掰掰手腕。

華為通過這波操作，驗證了“超節點+軟硬協同”在 LLM 時代的工程可行性與性能上限，為后續萬億參數、大稀疏推理平臺提供了可實戰的“菊花寶典”。

總之，這篇論文來得非常及時，讓我們可以既不盲目自信，也不妄自菲薄。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.