99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

黃仁勛夸爆的華為AI超節點,技術秘籍披露!昇騰910C跑DeepSeek,效率超英偉達

0
分享至


智東西
作者 李水青
編輯 心緣

智東西6月18日報道,6月15日,華為聯合硅基流動發布論文《在華為CloudMatrix384上提供大語言模型(Serving Large Language Models on Huawei CloudMatrix384)》。據論文報告,在DeepSeek-R1模型的評估中,應用于華為AI超級節點CloudMatrix384的昇騰910C NPU可實現趕超英偉達H800 GPU的計算效率。


▲論文截圖

論文地址:
https://arxiv.org/pdf/2506.12708

CloudMatrix384是華為于2025年4月發布的AI超級節點,是其下一代AI數據中心架構CloudMatrix的首次生產級落地。CloudMatrix384集成384顆昇騰910C NPU和192個鯤鵬CPU,通過超高帶寬、低延遲的統一總線(UB)網絡互連,從而有效解決傳統數據中心架構中常見的可擴展性和效率挑戰。

基于CloudMatrix384,華為推出了CloudMatrix-Infer服務解決方案。對DeepSeek-R1模型的廣泛評估表明,華為CloudMatrix-Infer的計算效率可超過英偉達H800的表現。

CloudMatrix-Infer在預填充階段為每顆NPU提供6688tokens/s吞吐,在解碼期間為每顆NPU提供1943tokens/s吞吐,同時始終保持每個輸出token低于50ms的低延遲。對應的預填充階段計算效率達4.45 tokens/s/TFLOPS,解碼階段1.29 tokens/s/TFLOPS,這超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領先框架的公布效率。


這樣的成績,也印證了前不久英偉達CEO黃仁勛的判斷:雖然(如任正非所說)美國芯片技術比華為領先一代,但人工智能是一個并行問題,如果每臺計算機的性能不夠強,那就用更多的計算機,華為可以滿足中國乃至更多市場的大模型需求。

華為的CloudMatrix架構愿景從零開始重新構想AI數據中心基礎設施。通過拆除傳統的孤立設計,它支持通過統一的超高性能網絡實現CPU、NPU、內存、NIC和其他資源的完全點對點分解和池化,從而為可擴展的AI原生數據中心奠定基礎。


▲華為CloudMatrix架構愿景概述

一、集群設計:統一總線直連所有NPU和CPU,高速互連

當下,傳統的AI集群越來越受到計算強度、內存帶寬限制、芯片間通信開銷和嚴格的延遲要求的限制。在實際部署中,人們需要處理各種突發工作負載、可變長度輸入和不平衡的專家激活,同時滿足嚴格的服務級別目標,從而進一步加劇了這些挑戰。

克服這些限制需要從根本上重新架構、共同設計的硬件和軟件堆棧。華為推出了下一代AI數據中心架構CloudMatrix為應對這些挑戰提供了解法。

CloudMatrix超越傳統的以CPU為中心的分層設計。它促進了所有異構系統組件之間的直接、高性能通信,包括NPU、CPU、DR、SDS、NIC和特定于域的加速器,特別是不需CPU中介。

此架構的核心是超高帶寬、低延遲的統一總線(UB)網絡,它促進了高效的系統范圍數據遷移和協調。CloudMatrix基于此互連基板構建,提供TP/EP的可擴展通信、適用于異構工作負載的靈活資源組合、適用于融合工作負載的統一基礎設施、通過分解內存池實現內存類存儲四項基本功能,共同定義了AI原生基礎設施的新范式。


▲CloudMatrix384超級節點的點對點硬件架構

CloudMatrix384將384顆昇騰910C NPU、192個鯤鵬CPU和其他硬件組件集成到一個統一的超級節點中,通過超高帶寬、低延遲的統一總線(UB)網絡互連,從而實現接近節點內水平的節點間通信性能。

與傳統的分層設計不同,這種架構支持通過UB進行直接的多對多通信,從而允許計算、內存和網絡資源動態池化、統一訪問和獨立擴展。這些架構特性特別有利于通信密集型作,例如大規模MoE專家并行和分布式鍵值(KV)緩存訪問,使CloudMatrix384成為下一代大語言模型服務的可擴展和高性能基礎。

為了支持不同的流量模式并保持與傳統數據中心網絡的兼容性,CloudMatrix384整合了三個不同但互補的網絡平面:UB平面、RDMA平面和VPC(虛擬私有云)平面。

但CloudMatrix的長期愿景是將RDMA和VPC平面融合到一個統一的平面中。當前的CloudMatrix384將它們分開,是為了確保與傳統數據中心基礎設施的向后兼容性。

二、384顆昇騰910C、48個節點,CANN軟件棧加持

在硬件組件方面,CloudMatrix384的核心是海思昇騰910C NPU。作為昇騰910B的后續產品,昇騰910C是一種雙die封裝:兩個相同的計算die被共同封裝,共享8個封裝上的內存堆棧,并通過高帶寬交叉die結構連接。


▲昇騰910C芯片的邏輯概述突出雙die架構

計算方面,每顆芯片可維持大約376TFLOPS的密集BF16/FP16吞吐量,每個封裝的總吞吐量為752TFLOPS;存儲方面,昇騰910C封裝集成了8個內存堆棧(每個堆棧16GB),提供總共128GB的封裝內存(每個芯片64GB)。網絡接口方面,每顆昇騰910C裸片與UB平面和DMA平面兩個不同的網絡平面接口。

聚焦計算節點,CloudMatrix384中的每個計算節點都集成了8個昇騰910C NPU、4個鯤鵬CPU和7個UB交換芯片。

如下圖所示,12個處理器(8個NPU和4個CPU)通過UB鏈路連接到這些板載交換機,在節點內創建一個單層UB平面。每個NPU配置高達392GB/s的單向UB帶寬,而每個鯤鵬CPU插槽提供大約160GB/s的單向UB帶寬。板載單個UB交換機芯片為超級節點結構中的下一個交換層提供448GB/s的上行鏈路容量。


▲CloudMatrix384中昇騰910C節點的邏輯概述

只有NPU參與輔助RDMA平面。每個NPU設備為橫向擴展RDMA流量提供額外的400Gbps單向鏈路,每個節點總共產生3.2Tbps的RDMA帶寬。

在CPU復合體中,四個鯤鵬CPU插槽通過全網狀NUMA拓撲互連,從而在所有CPU連接的DRAM上實現統一的內存訪問。其中一個CPU托管節點的擎天卡,這是一個專用的數據處理單元(DPU),不僅集成了高速網絡接口,還執行基本的節點級資源管理功能。此擎天卡用作節點的主要南北向出口點,與第三個不同的網絡平面(數據中心的VPC平面)接口。

再來看UB交換機系統,CloudMatrix384超級節點跨越16個機架:12個計算機機架,共同托管48個昇騰910C節點(共384個NPU)和4個通信機架。這些通信機架容納了第二層(L2)UB交換機,用于互連超級節點內的所有節點。

下圖說明了板載第一層(L1)UB交換機和機架級L2 UB交換機之間的拓撲結構。該網絡設計為無阻塞網絡,這意味著在L2交換層沒有帶寬超額訂閱。L2交換機分為7個獨立的子平面。每個子平面包含16個L2 UB交換機芯片,每個L2交換機芯片提供48×28GB/s端口。


▲CloudMatrix384中的UB交換機系統

在每個節點內部,7個板載L1 UB交換機芯片一對一映射到這7個L2子平面上。每個L1交換機芯片通過16個鏈路扇出(一個鏈路連接到其相應子平面中的每個L2交換機芯片)。此配置可確保節點到L2交換矩陣的聚合上行鏈路帶寬與其內部UB容量精確匹配,從而保持整個超級節點的無阻塞特性。

在軟件堆棧方面,華為為昇騰NPU開發了一個全面的軟件生態系統,稱為神經網絡計算架構(CANN)。CANN作為中間軟件層,實現了高級AI框架(如PyTorch和TensorFlow)與昇騰NPU的底層硬件接口之間的高效集成。通過將這些框架生成的抽象計算圖轉換為優化的硬件可執行指令,CANN簡化了開發人員與昇騰硬件的交互,促進了軟硬件協同設計,并旨在最大限度地提高昇騰架構上的應用程序性能。

CANN軟件堆棧由三個主要層組成:驅動程序、運行時和庫,這種架構類似于NVIDIA的CUDA生態系統。


▲華為昇騰NPU的CANN軟件棧

為了實現云環境中的CloudMatrix384部署,華為云提供了一套復雜的基礎設施軟件,包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer,旨在通過標準的云API抽象出硬件復雜性并實現無縫的資源編排。


▲用于部署CloudMatrix384的云基礎設施軟件堆棧

總之,CloudMatrix384專為提高互連帶寬和通信效率而構建,這是擴展大型訓練和推理工作負載所必需的核心功能。DeepSeek-R1等大規模MoE模型的出現驗證了這一點。

論文展示了DeepSeek模型的適用性分析,主要關注MoE通信、內存可擴展性、高速緩存重用和量化支持四個關鍵維度。

分析可得,CloudMatrix384的架構,包括其大規模NPU計算、廣泛的內存容量、高帶寬UB互連和基于DRAM池的緩存,與DeepSeek這樣的大語言模型服務的需求緊密結合。這些協同作用為后續部分中介紹的優化推理架構提供了堅實的基礎。

三、部署帶飛DeepSeek-R1,計算效率可超英偉達

為了充分利用CloudMatrix384的能力,華為提出了CloudMatrix-Infer,這是一個全面的大語言模型服務解決方案,為部署DeepSeek-R1等大規模MoE模型建立了實踐參考。


▲跨AI軟件堆棧的多個層提出的優化技術

CloudMatrix-Infer包含三項核心創新:

首先,華為設計了一個點對點服務架構,將預填充、解碼和緩存分解到獨立可擴展的資源池中。與現有的以KV cacheCentric架構不同,這種設計支持通過UB網絡對緩存數據進行高帶寬、統一訪問,從而減少數據局部性限制,簡化任務調度,并提高緩存效率。

其次,華為設計了一個大規模的專家并行(LEP)策略,利用UB網絡實現高效的token調度和專家輸出組合。該策略支持非常大的EP度數,例如EP320,使每個NPU芯片能夠只托管一名專家,從而實現低解碼延遲。

最后,華為提出了一套為CloudMatrix384量身定制的硬件感知優化,包括高度優化的算子、基于微批處理的流水線和INT8量化,以提高執行效率和資源利用率。

對DeepSeek-R1模型的廣泛評估表明,CloudMatrix-Infer實現了卓越的吞吐量。

其在預填充階段為每個NPU提供6688tokens/s,在解碼期間為每個NPU提供1943tokens/s,同時始終保持每個輸出token低于50ms的低延遲。這些結果對應的計算效率為:預填充階段計算效率達4.45 tokens/s/TFLOPS,解碼階段1.29 tokens/s/TFLOPS,這兩者都超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領先框架的公布效率。

此外,CloudMatrix-Infer有效地管理了吞吐量-延遲的權衡,即使在更嚴格的低于15ms的TPOT約束下,也能夠維持538tokens/s的吞吐量。


INT8量化策略在各種基準測試中進一步保持了與DeepSeek的官方API相當的準確性。


結語:部署大規模AI工作負載,樹立AI基礎設施新標桿

在參數規模增加、混合專家(MoE)架構采用和上下文長度擴展的推動下,大語言模型的快速發展對AI基礎設施提出了前所未有的要求。

作為一個高效、可擴展且性能優化的平臺,華為CloudMatrix可用于部署大規模AI工作負載。CloudMatrix384的一個根本性特征是其點對點、完全互連、超高帶寬網絡,通過UB協議連接所有NPU和CPU,為未來的AI數據中心基礎設施樹立了標桿。

展望未來,CloudMatrix384有幾個令人興奮的增強方向。未來的工作包括集成和統一VPC和RDMA網絡平面以實現更簡化的互連、擴展到更大的超級節點配置,以及追求更深入的CPU資源分解和池化。

此外,更精細的組件級分解和自適應部署策略為在AI數據中心基礎設施中實現更高的靈活性、效率和可擴展性提供了有前途的途徑。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
付政浩:比李夢更大腕的宮指導都開除過 說李夢因傷離隊已算體面

付政浩:比李夢更大腕的宮指導都開除過 說李夢因傷離隊已算體面

直播吧
2025-06-18 10:08:27
阿媒:浦和隊長賽前拒絕與河床球員握手,卻在比賽中失誤送禮

阿媒:浦和隊長賽前拒絕與河床球員握手,卻在比賽中失誤送禮

雷速體育
2025-06-18 07:00:19
圣彼得堡國際博覽會舉行中,本地移動互聯網被切斷

圣彼得堡國際博覽會舉行中,本地移動互聯網被切斷

仗劍看世界
2025-06-18 20:36:23
中國最“邪門”的綜藝節目,老板入獄、主持人被坑,連嘉賓都后怕

中國最“邪門”的綜藝節目,老板入獄、主持人被坑,連嘉賓都后怕

塞外書語
2025-06-14 12:29:31
安徽姐妹150萬購得合肥古居,正堂供桌下有滲液,挖開后眾人懵了

安徽姐妹150萬購得合肥古居,正堂供桌下有滲液,挖開后眾人懵了

雨仔講故事
2025-06-16 18:56:40
陳冠希被傳搭日航爆沖突,疑不滿VIP優先落機 糾紛錄音網絡瘋傳

陳冠希被傳搭日航爆沖突,疑不滿VIP優先落機 糾紛錄音網絡瘋傳

粵睇先生
2025-06-18 16:41:23
怪不得寧靜說張雨綺她全身散發著肉香!現實中遇見,真的很有魅力

怪不得寧靜說張雨綺她全身散發著肉香!現實中遇見,真的很有魅力

小椰的奶奶
2025-06-12 13:37:42
蘇超南通隊長,火上央視!家境曝光,身份不一般,美女排隊表白

蘇超南通隊長,火上央視!家境曝光,身份不一般,美女排隊表白

小柨拍客在北漂
2025-06-18 06:47:00
烏克蘭基輔遭大規模襲擊 已致23人死亡

烏克蘭基輔遭大規模襲擊 已致23人死亡

新京報
2025-06-18 15:30:01
被央視除名,179分考取上海戲劇學院,高考公平何在

被央視除名,179分考取上海戲劇學院,高考公平何在

平老師666
2025-06-18 22:51:15
突發!全國亞軍,國乒名將前往非洲打球,發文感乒協!原因曝光

突發!全國亞軍,國乒名將前往非洲打球,發文感乒協!原因曝光

老王大話體育
2025-06-19 01:15:13
特斯拉續航最長的乘用車來了!新款Model S/X美國上市

特斯拉續航最長的乘用車來了!新款Model S/X美國上市

特空間
2025-06-18 13:42:40
以色列稱打死伊朗最高軍事指揮官,沖突向何處去?

以色列稱打死伊朗最高軍事指揮官,沖突向何處去?

新民周刊
2025-06-18 09:15:18
一旦開戰,中國根本“不敢”出手反擊?專家直接把話挑明給出答案

一旦開戰,中國根本“不敢”出手反擊?專家直接把話挑明給出答案

健身狂人
2025-06-12 01:40:50
中美談完,民進黨想通了?賴清德“導師”率團赴京,風向變了

中美談完,民進黨想通了?賴清德“導師”率團赴京,風向變了

歷史求知所
2025-06-18 00:00:04
強者8大特質:丟得起面子、耐得住寂寞、扛得住壓力、受得住打擊

強者8大特質:丟得起面子、耐得住寂寞、扛得住壓力、受得住打擊

第一桶金學派
2025-06-18 09:26:26
07年我被辭退,問廠長:你認識我爸嗎?廠長:你爺來了我也不怕!

07年我被辭退,問廠長:你認識我爸嗎?廠長:你爺來了我也不怕!

磊子講史
2025-06-17 16:32:53
拉波爾塔:我們賽季收入將達9.5億歐&預算超10億,票房增加4400萬

拉波爾塔:我們賽季收入將達9.5億歐&預算超10億,票房增加4400萬

直播吧
2025-06-19 00:48:12
56歲伊能靜香港中環被偶遇,打扮時髦狀態超好,網友:像30歲!

56歲伊能靜香港中環被偶遇,打扮時髦狀態超好,網友:像30歲!

小咪侃娛圈
2025-06-17 11:11:30
伊朗:今天晚上會讓以色列發生讓人類銘記幾百年的大事!

伊朗:今天晚上會讓以色列發生讓人類銘記幾百年的大事!

金召點評
2025-06-18 21:57:14
2025-06-19 03:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10030文章數 116772關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

頭條要聞

男子4S店買法拉利3年提不了車 店方:想退款先幫忙賣車

體育要聞

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

房產
數碼
旅游
手機
教育

房產要聞

創紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

數碼要聞

盧偉冰:期待將來和海爾、美的成為大家電頭部企業,共推行業發展

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

榮耀Magic V5定檔,還有平板、手表一起發

教育要聞

AI填志愿神器來了!輕松打破信息差,填出你的專屬完美志愿

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 潞城市| 北宁市| 平舆县| 新郑市| 烟台市| 太和县| 上虞市| 淮滨县| 禄劝| 绩溪县| 贵港市| 南川市| 东辽县| 云阳县| 长武县| 沙雅县| 亚东县| 余干县| 汉寿县| 东乌珠穆沁旗| 阿瓦提县| 浏阳市| 土默特右旗| 湟中县| 浮梁县| 甘泉县| 璧山县| 福鼎市| 扬州市| 呼和浩特市| 布拖县| 宿迁市| 宁明县| 永春县| 石棉县| 汝城县| 扶绥县| 沾化县| 红河县| 杭锦后旗| 行唐县|