機器之心報道
編輯:Panda
AI 領域最近盛行一個觀點:AI 下半場已經開始,評估將比訓練重要。而在硬件層級上,我們也正在開始進入一個新世代。
過去幾年,全球科技巨頭的 AI 競賽還聚焦于「芯片」本身 —— 比拼誰的計算核心更強大,就像 F1 賽場上對引擎馬力的極致追求。而今天,戰火已經蔓延到一個更宏大的新維度:系統架構。
當所有頂級玩家都擁有了性能強悍的「V12 引擎」后,人們痛苦地發現,真正的瓶頸已不再是單顆芯片的算力,而是如何將成百上千顆芯片連接起來,形成一個高效協同的整體。這就像將一千輛 F1 賽車同時塞進一條鄉間小路,再強的引擎也只能在無盡的「堵車」中怠速轟鳴。
這個「交通堵塞」,就是今天 AI 數據中心面臨的最致命瓶頸 —— 通信開銷。在大模型分布式訓練中,節點間的海量數據同步,常常導致算力利用率驟降。無數斥巨資采購的頂級芯片,大部分時間都在等待數據,而不是在計算。也就是說,AI 行業正面臨一場深刻的效率危機。
因此,一個根本性的問題擺在了所有人的面前:如何才能徹底拆除芯片之間的「圍墻」,構建一個真正沒有堵車的「算力高速公路網」?
面對這個 AI 下半場的終極考題,華為云給出了自己的答案:CloudMatrix384 超節點。它不是對現有架構的修修補補,而是一次從底層發起的體系重構。其性能強大 —— 配備了 384 個昇騰 NPU 和 192 個鯤鵬 CPU,還配備了全面的 LLM serving 解決方案華為云CloudMatrix-Infer,再搭配華為云專門為其開發的其它基礎設施軟件,就像是一套專為當今和未來的 AI 打造的「云上高速算力運輸系統」,其中不僅有性能強大的計算引擎,也有高速傳輸數據的通信網絡。
用于部署 CloudMatrix384 的云基礎設施軟件堆棧
CloudMatrix384 是什么?
從名稱也能看出來,CloudMatrix384 超節點中,Cloud(云)是其重要內核,它是基于華為云「下一代 AI 數據中心架構」CloudMatrix構建的。
CloudMatrix 采用了基于全對等高帶寬互聯(fully peer-to-peer high-bandwidth interconnectivity)和細粒度資源解耦(fine-grained resource disaggregation)的設計理念,實現「一切可池化、一切皆對等、一切可組合」的架構愿景。體現了華為云重塑 AI 基礎設施基礎架構的雄心。它的誕生是為了解決 AI 工作負載為數據中心基礎設施所帶來的一系列挑戰,而 CloudMatrix384 則代表了這一愿景和理念的首個生產級實現。
在 2024 年 9 月的第九屆華為全聯接大會上,華為云 CEO 張平安宣布正式發布 AI 原生云基礎設施架構 CloudMatrix
這些術語是什么意思?簡單打個比方,我們可以把 CloudMatrix384 看作一個精心設計、高度協同的「超級大腦」。這個大腦擁有 384 個專為 AI 任務設計的昇騰 NPU 以及 192 個處理通用任務的鯤鵬 CPU。NPU 擅長處理復雜的 AI 運算,而 CPU 則負責常規的調度和管理,兩者各司其職。
然而,擁有強大的核心只是第一步,另一大關鍵要讓這些核心順暢溝通。
為此,華為給 CloudMatrix384 引入了一套名為「統一總線(UB / Unified-Bus)」的革命性內部網絡。我們可以將其理解為一張遍布整個計算大腦且沒有紅綠燈的「全對等高速公路」。
相較之下,許多傳統架構的 AI 數據中心則更像是一個傳統的層級森嚴的大公司。如果市場部要和技術部溝通一個緊急項目,信息需要先上報給市場總監,再由市場總監傳遞給技術總監,最后才下達到具體執行人。這個過程充滿了延遲和瓶頸,就像是節點之間、芯片之間的通信帶寬不均衡,效率也就可想而知了。
而在 CloudMatrix384 中,任何一個處理器(NPU/CPU)都能與其他任意處理器進行直接、高速的對話,實現了真正的「全對等」。
這就像一個極度扁平化的精英團隊,所有專家圍坐在一張圓桌旁,可以隨時、無障礙地與任何人交流協作,信息傳遞幾乎沒有延遲。這種架構特性尤其適合需要大量「專家」緊密協作來完成一項任務的現代大模型(特別是混合專家 / MoE 模型),因為它從根本上解決了 AI 并行計算中最大的瓶頸——通信。
CloudMatrix384 超級節點的對等式硬件架構,具有一個超高帶寬的統一總線(UB)平面(用于超級節點內部擴展)、一個 RDMA 平面(用于超級節點間通信)以及一個虛擬私有云(VPC)平面(用于與數據中心網絡集成)。
當然,這些都還只是 CloudMatrix384 創新的一部分,其已經發布的技術報告中還有大量值得挖掘的技術細節。對此感興趣的讀者可千萬不要錯過:
- 論文標題:Serving Large Language Models on Huawei CloudMatrix384
- 論文地址:https://arxiv.org/pdf/2506.12708.pdf
在此技術報告中,與 CloudMatrix384 一道展示的還有CloudMatrix-Infer。這是一個全面的 LLM 推理解決方案,代表了部署大規模 MoE 模型(例如 DeepSeek-R1)的一個最佳實踐。
具體來說,CloudMatrix-Infer 引入了三大核心創新。
首先,他們設計了一種全新的對等式(peer-to-peer)推理架構,將 LLM 推斷系統分解為三個獨立的子系統:預填充(prefill)、解碼(decode)和緩存(caching)。
新提出的對等式 serving 架構可使所有 NPU 能夠通過超高帶寬 UB 網絡統一訪問由分解式內存池支持的共享緩存集群。
對等式意味著這三個子系統可作為平等且獨立的資源池運行,而無需圍繞一個中心化實體進行協調。這與傳統的以 KV cache 為中心的架構大不一樣,后者是將請求調度與緩存的 KV 塊的物理位置緊密耦合,增加了調度復雜性并限制了資源分配的靈活性。
通過利用高帶寬 UB 互連,華為構建了一個分離式內存池(disaggregated memory pool),可在整個系統中提供共享緩存服務。預填充和解碼子系統中的所有 NPU 都可以對等方式直接從該池訪問緩存的 KV 數據,并保持統一的帶寬和延遲,無論數據最初的計算或存儲位置如何。這種設計可將請求調度與數據本地性解耦,從而可以極大簡化任務調度邏輯、提高緩存效率、提升整體系統資源利用率。
其次,他們開發了一種專門針對 MoE 模型優化的大規模專家并行 (LEP) 策略。
(a) 是基本的 MoE 計算流,(b) 是新提出的 MoE 計算流
LEP 的核心原理是聚合大量 NPU 的計算能力和內存帶寬,以加速注意力和前饋網絡的計算。這種加速的代價是 Token 調度和專家輸出組合帶來的通信開銷增加。然而,CloudMatrix384 的超高帶寬 UB 互連可確保這種通信延遲保持在可控范圍內,不會成為主要的性能瓶頸。
此外,新提出的 LEP 策略支持極高的專家并行度,例如 EP320,這使得每個 NPU 芯片能夠恰好承載 DeepSeek-R1 的一個專家。此配置可最大限度地減少同等級專家之間的串行執行,從而降低了整體 MoE 執行延遲。
這些設計選擇共同實現了低解碼延遲,并為基于 MoE 的推理帶來了顯著的端到端性能提升。
最后,他們提出了一套專為 CloudMatrix384 量身定制的硬件感知型優化方案,包括高度優化的 Ascend 算子、基于微批次的 pipelining 和 INT8 量化。
- 經過優化的算子可加速端到端執行,并為 LEP 提供高效的支持。
- 基于微批次的 pipelining 設計可通過重疊兩個連續微批次的處理,提高資源利用率和系統吞吐量。
- INT8 量化可提高計算效率,并顯著降低內存帶寬消耗。
這些優化與 CloudMatrix384 超節點獨特的架構特性(包括 on-chip cube、向量和通信引擎以及高帶寬 UB 互連)協同設計,從而最大限度地提高了整體執行效率。
說到這里,就不得不贊嘆一番華為的前瞻性了。
其實早在 2022 年,當整個行業對大模型的未來還看法不一、ChatGPT 尚未問世時,華為就極富遠見地堅持并主導了這個 384 卡超大集群的架構愿景。要知道,在當時,還很少人能想象算力需求會爆炸到今天的程度。
其技術報告中寫到:「CloudMatrix384 的設計初衷是提升互連帶寬和通信效率—— 這些核心功能對于擴展大規模訓練和推理工作負載至關重要。DeepSeek-R1 等大規模 MoE 模型的出現驗證了這一架構遠見,凸顯了在現代 LLM 部署中,通信帶寬與計算和內存帶寬能力同等重要。」
正是這份對技術趨勢的深刻洞察和堅持,才造就了華為云 CloudMatrix384 超節點這個超級計算引擎。它就像六百多年前從南京龍江港出發的鄭和「寶船艦隊」,正航向 AI 的浩瀚大洋。
CloudMatrix384 超節點雖好
但在云上用它更好
如此強大的 AI 算力超級服務器,是否意味著只要買到手,就能在 AI 軍備競賽中無往不勝?
華為云 CloudMatrix384 超節點,圖源:華為開發者大會 2025
答案,可能恰恰相反。
對于絕大多數企業來說,直接購買并運營 CloudMatrix384,無異于一場充滿巨大風險和挑戰的豪賭。
資料顯示,下一代云計算體系架構將是矩陣式的,其核心是「一切皆對等、一切可池化、一切可組合」。本質是讓算力、內存、網絡像水一樣,可按需組成不同類型的資源池,并自由流動在集群內。而這種能力,只有在云上才能淋漓盡致地發揮。因為使用華為云,可以免除自己購買和部署的四大痛點:成本高、利用率不足、部署與調優困難、難以持續受益于新技術。
如何跨越門檻獲取全球最強超節點?
諸多黑科技加身的華為云 CloudMatrix384 超節點價格相當高 —— 約 800 萬美元,如此高的門檻,足以把絕大多數企業關在門外。而這還僅僅是初始成本,后續的機房、電力、散熱等一系列運營成本,更是一筆持續的巨大開銷。
而華為的昇騰 AI 云服務,巧妙打破了這個門檻。云上算力,可以讓企業根據自己的需求租用華為云 CloudMatrix384 超節點的一部分,并且能做到隨租隨用和按需付費。這能極大地降低使用門檻,讓任何規模的企業都有機會體驗到頂級 AI 算力的威力。
利用率不足:買船不如買船票
很多企業斥巨資購買高端算力,卻陷入了殘酷的效率陷阱。在大模型分布式訓練中,節點間的協作會產生通信瓶頸,導致算力利用率從 85% 驟降至 52 %。
更有甚者,受限于集群調度、網絡拓撲等能力,很多企業最終只能獲得 30% 的集群算力利用率。這意味著企業花重金買來的寶貴資源,在大部分時間里并沒有創造價值,如同停在港口「曬太陽」—— 技術人員戲稱其為「算力摸魚」 ,造成了巨大的浪費。
選擇云就不一樣了。云的本質是共享經濟,能實現資源利用率的最大化。華為云通過智能調度,創新地打造了基于訓推共池(節點在訓練和推理任務間切換 < 5 分鐘)方案的「朝推夜訓」模式:白天,算力可以服務于需要快速響應的在線推理業務;到了夜晚,閑置的算力則可以無縫切換,用于耗時較長的模型訓練任務,讓算力 24 小時連軸轉,將每一分錢都用在刀刃上。
另外,通過 MatrixCompute 這項黑科技,華為云還實現了資源的「柔性計算」。它就像拆除了資源倉庫間的圍墻,能將零散的「獨輪車」按需組裝成「超級集裝箱車」或「超跑」。系統會實時監測任務負載,動態調整資源配比,消除資源浪費或瓶頸,單任務資源利用率可提升 40% 至 100%。
華為云表示:「后續,我們還會提供更靈活的共享資源方案,持續幫助客戶提升算力資源利用率。」
部署與調優也是繞不過去的檻兒
其實,就算企業真的選擇了購買華為云 CloudMatrix384 超節點,要想真正將其用起來,也仍會面臨很多部署與調優方面的困難,包括適配合適的算子和推理框架、配置故障監控與恢復流程等等。此外,超節點自身的運維極其復雜,它采用了大量的光模塊,而這種部件故障率高,處理起來對客戶來說是個沉重的負擔。
為了開發和適配這套系統,華為內部頂級的技術團隊花費了整整兩年的時間。普通企業若要從零開始,其難度可想而知。
直接使用華為云,就可以直接享受其那套耗時兩年打磨的成熟方案。
通過一系列技術優化,華為云確定性運維服務可以保障超節點運行長穩快恢,包括軟硬件協同改進、程級重調度恢復和進程級在線恢復能力優化、訓練任務線性度提升、推理故障快恢、超平面故障診斷能力等。比如MatrixContainer可實現「應用 - 基礎設施」雙向智能協同,能為應用實時分配最優路徑,自動實現并行,并行效率業界領先 15% 以上。
這些技術累加下,華為云能做到光模塊業務故障影響降低 96%、通用硬件故障萬卡 10 分鐘級快速恢復、千億稀疏模型線性度優化達 95%+、千億 MoE 分布式推理分鐘級恢復、10 分鐘內恢復網絡故障。
此外,華為云還構建了昇騰云腦,其作用是扮演「AI 檢修員」。它采用「三層容錯」智能運維架構,能做到「1 分鐘發現,10 分鐘恢復」,將故障恢復時長縮短 50% ,為超節點運行提供長穩保障。
迭代速度那么快,買買買怎么才能跟得上這節奏?
答案就是:以租代買。
AI 領域的技術可謂日新月異,如果企業選擇自己購買和部署華為云 CloudMatrix384 超節點,那么得到的是交付那一刻的硬件和技術能力。隨著技術發展,硬件可能會慢慢落后于時代,無法享受到最新的技術紅利。
云服務最迷人的地方也恰恰在此 —— 它能為你持續提供最新的科技加成。
例如,華為云通過分布式QingTian這一架構底座,實現了 CloudMatrix 中的「一切可池化」。它通過創新的Memlink-direct技術,將內存跨主機直接共享,徹底打破「單機內存墻」,構建統一的邏輯內存池。這正是「以存強算」EMS 服務的技術核心,能將首個 token 時延降低 80%。
EMS 彈性內存服務,圖源:華為開發者大會 2025
再如,華為云通過MatrixLink實現了「一切皆對等」。它如同將只能行駛 1 輛車的鄉間小路,擴建成 10 車道的高速公路,并配上智能導航系統。通過對組網、協議、通信語義和調度的四層重構,將 NPU 卡間通信帶寬提升 32 倍,小包傳輸時延降低 100 倍,讓萬卡通信「0」沖突。
綜上所述,無論是從成本和利用率,還是從部署調優和技術升級來看,通過華為的昇騰云來獲取 CloudMatrix384都無疑是企業奔赴 AI 新大陸的「最優解」。
效果如何?用數字說話
為了展示真正的實力,華為云使用 CloudMatrix-Infer 基于 CloudMatrix384 上部署了參數量高達 671B 的大規模 MoE 模型 DeepSeek-R1。
針對 DeepSeek-R1 等大規模 MoE 模型的特有架構,華為還進行了一些針對性的設計,包括基于昇騰 NPU 的多 token 預測(MTP)優化、使用混合并行化的 MLA 流、基于 CloudMatrix384 的預填充 pipeline 和解碼 pipeline 以及 EMS(彈性內存服務)等。
基礎的 MLA(多頭隱注意力)流 vs. 華為提出的支持混合并行的 MLA 流
這里我們就不再過多關注技術細節了,直接來看實驗結果。可以說,實戰表現十分亮眼!
首先,我們可以把大模型的一次問答,簡單拆解為兩個關鍵階段來理解:
- 預填充: 好比是 AI 在閱讀和理解你的問題。無論你的問題有多長,它都需要盡快讀完并消化。
- 解碼: 這是 AI 寫出答案的過程,它會一個字一個字地生成回復內容。
在考驗「閱讀理解」能力的預填充階段,CloudMatrix-Infer 在處理一個 4K 長度的問題時,可實現每 NPU 6,688 個 token / 秒的吞吐量,相當于每 TFLOPS 4.45 個 token / 秒的計算效率。
使用不同加速器時,DeepSeek-R1 的總體預填充吞吐量
而在更關鍵的解碼階段,該系統在 4K KV cache 長度下能維持每 NPU 1,943 個 token / 秒的吞吐量,同時可將輸出每個 token 的時間(TPOT)始終保持在 50 毫秒以下,從而實現了每 TFLOPS 1.29 個 token / 秒的效率。
使用不同加速器時,DeepSeek-R1 的總體解碼吞吐量
值得注意的是,這兩個階段的計算效率指標均超越了業界的領先框架,比如在 NVIDIA H100 上運行的 SGLang 以及 DeepSeek 官方在 NVIDIA H800 上運行的結果。
這說明,CloudMatrix384 不僅「跑得快」,而且「更省油」,它能更高效地將每一份寶貴的算力都壓榨出來,用在刀刃上。
實驗還表明,CloudMatrix-Infer 還可以有效管理吞吐量與延遲之間的權衡。
此外,AI 服務也像貨運,有時追求「多拉快跑」(高吞吐),有時則需要「風馳電掣」(低延遲)。
實驗表明,CloudMatrix-Infer 可以輕松地在這種需求間權衡。當客戶需要極低的延遲,比如要求每個 token 的響應時間必須在 15 毫秒以內時,系統可以通過動態調整,實現每秒 538 個 token 的解碼吞吐量,展現了其在不同服務場景下的高度適應性和性能可預測性。
華為云 CloudMatrix384 超節點在不同 TPOT SLO 和提示詞 / 輸出長度下的解碼吞吐量。
此外,為了讓 DeepSeek-V3/R1 等大規模 MoE 模型實現高吞吐量、低延遲的推理,華為還設計并實現了一種用于模型權重和激活值的無訓練分層式 INT8 量化方案。該方案可在最大化計算效率和減少內存占用的同時,精細地控制準確度損失。
該優化方案的實驗表現也相當不錯。在 16 個代表性基準測試中,INT8 量化保持了與官方 DeepSeek-R1 API 相當的準確度。這表明,在昇騰 NPU 上部署的 INT8 量化可有效地保留模型在各種任務中的性能。
采用 INT8 量化時,在昇騰 NPU 上的 DeepSeek-R1 與 DeepSeekR1 官方 API 的準確度比較
華為也進行了消融實驗,驗證了各組件的有效性。
總體而言,這些結果表明:CloudMatrix384 與對等 serving 解決方案 CloudMatrix-Infer 相結合,可以成為一個可擴展、高吞吐量、生產級的大規模 LLM 部署平臺。
下一代 AI 算力
起錨揚帆
AI 時代的浪潮已至,其競爭的核心,早已超越了單純的芯片比拼,進入了系統架構、軟件生態和云服務協同的深水區。誰能率先實現計算、通信、存儲三位一體的系統級融合,誰就能定義下一階段 AI 基礎設施的范式。華為云 CloudMatrix384 的出現,正是對這一趨勢的最好回應,它所代表的或許正是下一代 AI 數據中心的形態。
在華為 CloudMatrix384 論文中,華為也透露了其更宏大的技術前瞻性,包括更近期的統一 VPC 和 RDMA 平面、擴展到更大的超節點、CPU 的資源分解和池化以及進一步改進 推理系統。這清晰地表明:今天的華為云 CloudMatrix384 超節點,才不過是個起點,前方還有廣闊天地,而它也將把百模千態載向廣闊天地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.