99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

黃仁勛夸爆的華為AI超節(jié)點,技術(shù)秘籍披露!昇騰910C跑DeepSeek,效率超英偉達

0
分享至


智東西
作者 李水青
編輯 心緣

智東西6月18日報道,6月15日,華為聯(lián)合硅基流動發(fā)布論文《在華為CloudMatrix384上提供大語言模型(Serving Large Language Models on Huawei CloudMatrix384)》。據(jù)論文報告,在DeepSeek-R1模型的評估中,應(yīng)用于華為AI超級節(jié)點CloudMatrix384的昇騰910C NPU可實現(xiàn)趕超英偉達H800 GPU的計算效率。


▲論文截圖

論文地址:
https://arxiv.org/pdf/2506.12708

CloudMatrix384是華為于2025年4月發(fā)布的AI超級節(jié)點,是其下一代AI數(shù)據(jù)中心架構(gòu)CloudMatrix的首次生產(chǎn)級落地。CloudMatrix384集成384顆昇騰910C NPU和192個鯤鵬CPU,通過超高帶寬、低延遲的統(tǒng)一總線(UB)網(wǎng)絡(luò)互連,從而有效解決傳統(tǒng)數(shù)據(jù)中心架構(gòu)中常見的可擴展性和效率挑戰(zhàn)。

基于CloudMatrix384,華為推出了CloudMatrix-Infer服務(wù)解決方案。對DeepSeek-R1模型的廣泛評估表明,華為CloudMatrix-Infer的計算效率可超過英偉達H800的表現(xiàn)。

CloudMatrix-Infer在預(yù)填充階段為每顆NPU提供6688tokens/s吞吐,在解碼期間為每顆NPU提供1943tokens/s吞吐,同時始終保持每個輸出token低于50ms的低延遲。對應(yīng)的預(yù)填充階段計算效率達4.45 tokens/s/TFLOPS,解碼階段1.29 tokens/s/TFLOPS,這超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領(lǐng)先框架的公布效率。


這樣的成績,也印證了前不久英偉達CEO黃仁勛的判斷:雖然(如任正非所說)美國芯片技術(shù)比華為領(lǐng)先一代,但人工智能是一個并行問題,如果每臺計算機的性能不夠強,那就用更多的計算機,華為可以滿足中國乃至更多市場的大模型需求。

華為的CloudMatrix架構(gòu)愿景從零開始重新構(gòu)想AI數(shù)據(jù)中心基礎(chǔ)設(shè)施。通過拆除傳統(tǒng)的孤立設(shè)計,它支持通過統(tǒng)一的超高性能網(wǎng)絡(luò)實現(xiàn)CPU、NPU、內(nèi)存、NIC和其他資源的完全點對點分解和池化,從而為可擴展的AI原生數(shù)據(jù)中心奠定基礎(chǔ)。


▲華為CloudMatrix架構(gòu)愿景概述

一、集群設(shè)計:統(tǒng)一總線直連所有NPU和CPU,高速互連

當下,傳統(tǒng)的AI集群越來越受到計算強度、內(nèi)存帶寬限制、芯片間通信開銷和嚴格的延遲要求的限制。在實際部署中,人們需要處理各種突發(fā)工作負載、可變長度輸入和不平衡的專家激活,同時滿足嚴格的服務(wù)級別目標,從而進一步加劇了這些挑戰(zhàn)。

克服這些限制需要從根本上重新架構(gòu)、共同設(shè)計的硬件和軟件堆棧。華為推出了下一代AI數(shù)據(jù)中心架構(gòu)CloudMatrix為應(yīng)對這些挑戰(zhàn)提供了解法。

CloudMatrix超越傳統(tǒng)的以CPU為中心的分層設(shè)計。它促進了所有異構(gòu)系統(tǒng)組件之間的直接、高性能通信,包括NPU、CPU、DR、SDS、NIC和特定于域的加速器,特別是不需CPU中介。

此架構(gòu)的核心是超高帶寬、低延遲的統(tǒng)一總線(UB)網(wǎng)絡(luò),它促進了高效的系統(tǒng)范圍數(shù)據(jù)遷移和協(xié)調(diào)。CloudMatrix基于此互連基板構(gòu)建,提供TP/EP的可擴展通信、適用于異構(gòu)工作負載的靈活資源組合、適用于融合工作負載的統(tǒng)一基礎(chǔ)設(shè)施、通過分解內(nèi)存池實現(xiàn)內(nèi)存類存儲四項基本功能,共同定義了AI原生基礎(chǔ)設(shè)施的新范式。


▲CloudMatrix384超級節(jié)點的點對點硬件架構(gòu)

CloudMatrix384將384顆昇騰910C NPU、192個鯤鵬CPU和其他硬件組件集成到一個統(tǒng)一的超級節(jié)點中,通過超高帶寬、低延遲的統(tǒng)一總線(UB)網(wǎng)絡(luò)互連,從而實現(xiàn)接近節(jié)點內(nèi)水平的節(jié)點間通信性能。

與傳統(tǒng)的分層設(shè)計不同,這種架構(gòu)支持通過UB進行直接的多對多通信,從而允許計算、內(nèi)存和網(wǎng)絡(luò)資源動態(tài)池化、統(tǒng)一訪問和獨立擴展。這些架構(gòu)特性特別有利于通信密集型作,例如大規(guī)模MoE專家并行和分布式鍵值(KV)緩存訪問,使CloudMatrix384成為下一代大語言模型服務(wù)的可擴展和高性能基礎(chǔ)。

為了支持不同的流量模式并保持與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)的兼容性,CloudMatrix384整合了三個不同但互補的網(wǎng)絡(luò)平面:UB平面、RDMA平面和VPC(虛擬私有云)平面。

但CloudMatrix的長期愿景是將RDMA和VPC平面融合到一個統(tǒng)一的平面中。當前的CloudMatrix384將它們分開,是為了確保與傳統(tǒng)數(shù)據(jù)中心基礎(chǔ)設(shè)施的向后兼容性。

二、384顆昇騰910C、48個節(jié)點,CANN軟件棧加持

在硬件組件方面,CloudMatrix384的核心是海思昇騰910C NPU。作為昇騰910B的后續(xù)產(chǎn)品,昇騰910C是一種雙die封裝:兩個相同的計算die被共同封裝,共享8個封裝上的內(nèi)存堆棧,并通過高帶寬交叉die結(jié)構(gòu)連接。


▲昇騰910C芯片的邏輯概述突出雙die架構(gòu)

計算方面,每顆芯片可維持大約376TFLOPS的密集BF16/FP16吞吐量,每個封裝的總吞吐量為752TFLOPS;存儲方面,昇騰910C封裝集成了8個內(nèi)存堆棧(每個堆棧16GB),提供總共128GB的封裝內(nèi)存(每個芯片64GB)。網(wǎng)絡(luò)接口方面,每顆昇騰910C裸片與UB平面和DMA平面兩個不同的網(wǎng)絡(luò)平面接口。

聚焦計算節(jié)點,CloudMatrix384中的每個計算節(jié)點都集成了8個昇騰910C NPU、4個鯤鵬CPU和7個UB交換芯片。

如下圖所示,12個處理器(8個NPU和4個CPU)通過UB鏈路連接到這些板載交換機,在節(jié)點內(nèi)創(chuàng)建一個單層UB平面。每個NPU配置高達392GB/s的單向UB帶寬,而每個鯤鵬CPU插槽提供大約160GB/s的單向UB帶寬。板載單個UB交換機芯片為超級節(jié)點結(jié)構(gòu)中的下一個交換層提供448GB/s的上行鏈路容量。


▲CloudMatrix384中昇騰910C節(jié)點的邏輯概述

只有NPU參與輔助RDMA平面。每個NPU設(shè)備為橫向擴展RDMA流量提供額外的400Gbps單向鏈路,每個節(jié)點總共產(chǎn)生3.2Tbps的RDMA帶寬。

在CPU復(fù)合體中,四個鯤鵬CPU插槽通過全網(wǎng)狀NUMA拓撲互連,從而在所有CPU連接的DRAM上實現(xiàn)統(tǒng)一的內(nèi)存訪問。其中一個CPU托管節(jié)點的擎天卡,這是一個專用的數(shù)據(jù)處理單元(DPU),不僅集成了高速網(wǎng)絡(luò)接口,還執(zhí)行基本的節(jié)點級資源管理功能。此擎天卡用作節(jié)點的主要南北向出口點,與第三個不同的網(wǎng)絡(luò)平面(數(shù)據(jù)中心的VPC平面)接口。

再來看UB交換機系統(tǒng),CloudMatrix384超級節(jié)點跨越16個機架:12個計算機機架,共同托管48個昇騰910C節(jié)點(共384個NPU)和4個通信機架。這些通信機架容納了第二層(L2)UB交換機,用于互連超級節(jié)點內(nèi)的所有節(jié)點。

下圖說明了板載第一層(L1)UB交換機和機架級L2 UB交換機之間的拓撲結(jié)構(gòu)。該網(wǎng)絡(luò)設(shè)計為無阻塞網(wǎng)絡(luò),這意味著在L2交換層沒有帶寬超額訂閱。L2交換機分為7個獨立的子平面。每個子平面包含16個L2 UB交換機芯片,每個L2交換機芯片提供48×28GB/s端口。


▲CloudMatrix384中的UB交換機系統(tǒng)

在每個節(jié)點內(nèi)部,7個板載L1 UB交換機芯片一對一映射到這7個L2子平面上。每個L1交換機芯片通過16個鏈路扇出(一個鏈路連接到其相應(yīng)子平面中的每個L2交換機芯片)。此配置可確保節(jié)點到L2交換矩陣的聚合上行鏈路帶寬與其內(nèi)部UB容量精確匹配,從而保持整個超級節(jié)點的無阻塞特性。

在軟件堆棧方面,華為為昇騰NPU開發(fā)了一個全面的軟件生態(tài)系統(tǒng),稱為神經(jīng)網(wǎng)絡(luò)計算架構(gòu)(CANN)。CANN作為中間軟件層,實現(xiàn)了高級AI框架(如PyTorch和TensorFlow)與昇騰NPU的底層硬件接口之間的高效集成。通過將這些框架生成的抽象計算圖轉(zhuǎn)換為優(yōu)化的硬件可執(zhí)行指令,CANN簡化了開發(fā)人員與昇騰硬件的交互,促進了軟硬件協(xié)同設(shè)計,并旨在最大限度地提高昇騰架構(gòu)上的應(yīng)用程序性能。

CANN軟件堆棧由三個主要層組成:驅(qū)動程序、運行時和庫,這種架構(gòu)類似于NVIDIA的CUDA生態(tài)系統(tǒng)。


▲華為昇騰NPU的CANN軟件棧

為了實現(xiàn)云環(huán)境中的CloudMatrix384部署,華為云提供了一套復(fù)雜的基礎(chǔ)設(shè)施軟件,包括MatrixResource、MatrixLink、MatrixCompute和MatrixContainer,旨在通過標準的云API抽象出硬件復(fù)雜性并實現(xiàn)無縫的資源編排。


▲用于部署CloudMatrix384的云基礎(chǔ)設(shè)施軟件堆棧

總之,CloudMatrix384專為提高互連帶寬和通信效率而構(gòu)建,這是擴展大型訓(xùn)練和推理工作負載所必需的核心功能。DeepSeek-R1等大規(guī)模MoE模型的出現(xiàn)驗證了這一點。

論文展示了DeepSeek模型的適用性分析,主要關(guān)注MoE通信、內(nèi)存可擴展性、高速緩存重用和量化支持四個關(guān)鍵維度。

分析可得,CloudMatrix384的架構(gòu),包括其大規(guī)模NPU計算、廣泛的內(nèi)存容量、高帶寬UB互連和基于DRAM池的緩存,與DeepSeek這樣的大語言模型服務(wù)的需求緊密結(jié)合。這些協(xié)同作用為后續(xù)部分中介紹的優(yōu)化推理架構(gòu)提供了堅實的基礎(chǔ)。

三、部署帶飛DeepSeek-R1,計算效率可超英偉達

為了充分利用CloudMatrix384的能力,華為提出了CloudMatrix-Infer,這是一個全面的大語言模型服務(wù)解決方案,為部署DeepSeek-R1等大規(guī)模MoE模型建立了實踐參考。


▲跨AI軟件堆棧的多個層提出的優(yōu)化技術(shù)

CloudMatrix-Infer包含三項核心創(chuàng)新:

首先,華為設(shè)計了一個點對點服務(wù)架構(gòu),將預(yù)填充、解碼和緩存分解到獨立可擴展的資源池中。與現(xiàn)有的以KV cacheCentric架構(gòu)不同,這種設(shè)計支持通過UB網(wǎng)絡(luò)對緩存數(shù)據(jù)進行高帶寬、統(tǒng)一訪問,從而減少數(shù)據(jù)局部性限制,簡化任務(wù)調(diào)度,并提高緩存效率。

其次,華為設(shè)計了一個大規(guī)模的專家并行(LEP)策略,利用UB網(wǎng)絡(luò)實現(xiàn)高效的token調(diào)度和專家輸出組合。該策略支持非常大的EP度數(shù),例如EP320,使每個NPU芯片能夠只托管一名專家,從而實現(xiàn)低解碼延遲。

最后,華為提出了一套為CloudMatrix384量身定制的硬件感知優(yōu)化,包括高度優(yōu)化的算子、基于微批處理的流水線和INT8量化,以提高執(zhí)行效率和資源利用率。

對DeepSeek-R1模型的廣泛評估表明,CloudMatrix-Infer實現(xiàn)了卓越的吞吐量。

其在預(yù)填充階段為每個NPU提供6688tokens/s,在解碼期間為每個NPU提供1943tokens/s,同時始終保持每個輸出token低于50ms的低延遲。這些結(jié)果對應(yīng)的計算效率為:預(yù)填充階段計算效率達4.45 tokens/s/TFLOPS,解碼階段1.29 tokens/s/TFLOPS,這兩者都超過了NVIDIA H100上的SGLang和H800上的DeepSeek等領(lǐng)先框架的公布效率。

此外,CloudMatrix-Infer有效地管理了吞吐量-延遲的權(quán)衡,即使在更嚴格的低于15ms的TPOT約束下,也能夠維持538tokens/s的吞吐量。


INT8量化策略在各種基準測試中進一步保持了與DeepSeek的官方API相當?shù)臏蚀_性。


結(jié)語:部署大規(guī)模AI工作負載,樹立AI基礎(chǔ)設(shè)施新標桿

在參數(shù)規(guī)模增加、混合專家(MoE)架構(gòu)采用和上下文長度擴展的推動下,大語言模型的快速發(fā)展對AI基礎(chǔ)設(shè)施提出了前所未有的要求。

作為一個高效、可擴展且性能優(yōu)化的平臺,華為CloudMatrix可用于部署大規(guī)模AI工作負載。CloudMatrix384的一個根本性特征是其點對點、完全互連、超高帶寬網(wǎng)絡(luò),通過UB協(xié)議連接所有NPU和CPU,為未來的AI數(shù)據(jù)中心基礎(chǔ)設(shè)施樹立了標桿。

展望未來,CloudMatrix384有幾個令人興奮的增強方向。未來的工作包括集成和統(tǒng)一VPC和RDMA網(wǎng)絡(luò)平面以實現(xiàn)更簡化的互連、擴展到更大的超級節(jié)點配置,以及追求更深入的CPU資源分解和池化。

此外,更精細的組件級分解和自適應(yīng)部署策略為在AI數(shù)據(jù)中心基礎(chǔ)設(shè)施中實現(xiàn)更高的靈活性、效率和可擴展性提供了有前途的途徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
遭伊朗導(dǎo)彈密集攻擊后,以色列對伊朗進行新一輪打擊

遭伊朗導(dǎo)彈密集攻擊后,以色列對伊朗進行新一輪打擊

環(huán)球網(wǎng)資訊
2025-06-22 15:03:05
美襲擊伊朗后,伊朗外長最新表態(tài):特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰(zhàn)爭”

美襲擊伊朗后,伊朗外長最新表態(tài):特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰(zhàn)爭”

環(huán)球網(wǎng)資訊
2025-06-22 18:05:59
突發(fā)!武術(shù)導(dǎo)演唐佳墜樓身亡,當場頭身分離,死因曝光,家有遺囑

突發(fā)!武術(shù)導(dǎo)演唐佳墜樓身亡,當場頭身分離,死因曝光,家有遺囑

草莓解說體育
2025-06-24 00:43:54
又一男網(wǎng)紅塌房!約網(wǎng)友開房不洗澡就要吃,被保留證據(jù)花錢消災(zāi)

又一男網(wǎng)紅塌房!約網(wǎng)友開房不洗澡就要吃,被保留證據(jù)花錢消災(zāi)

社會醬
2025-06-23 18:00:19
雷軍回應(yīng)何時造油車

雷軍回應(yīng)何時造油車

環(huán)球Tech
2025-06-23 16:50:52
江蘇美女高娟去世,年僅48歲,開3家公司身家千萬,臨終畫面曝光

江蘇美女高娟去世,年僅48歲,開3家公司身家千萬,臨終畫面曝光

180視角
2025-06-23 18:27:55
緊急尋人!海南一17歲高中女生失聯(lián),人很漂亮,手機已關(guān)機

緊急尋人!海南一17歲高中女生失聯(lián),人很漂亮,手機已關(guān)機

小人物看盡人間百態(tài)
2025-06-23 15:18:40
賴清德直接宣布:臺灣是一個國家,中華人民共和國從未擁有過臺灣

賴清德直接宣布:臺灣是一個國家,中華人民共和國從未擁有過臺灣

李昕言溫度空間
2025-06-23 14:58:27
“清華大學(xué)經(jīng)管學(xué)院院長曹某磊”被打假,本人回應(yīng):從未在清華上學(xué)和任職,以“清大經(jīng)管院長”身份公開活動近10年

“清華大學(xué)經(jīng)管學(xué)院院長曹某磊”被打假,本人回應(yīng):從未在清華上學(xué)和任職,以“清大經(jīng)管院長”身份公開活動近10年

極目新聞
2025-06-23 18:51:46
島內(nèi)民調(diào)顯示:94%網(wǎng)友將投“不同意罷免”

島內(nèi)民調(diào)顯示:94%網(wǎng)友將投“不同意罷免”

參考消息
2025-06-23 11:45:25
已確認!是知名演員劉浩存

已確認!是知名演員劉浩存

魯中晨報
2025-06-23 15:15:24
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
宣揚西方偽史論的大V集體被封,傻子們的天塌了一半

宣揚西方偽史論的大V集體被封,傻子們的天塌了一半

歷史總在押韻
2025-06-24 00:38:03
虧到姥姥家了!從單價26179元跌至8694元,南京這個樓盤縮水68%…

虧到姥姥家了!從單價26179元跌至8694元,南京這個樓盤縮水68%…

火山詩話
2025-06-23 18:25:28
梅德韋杰夫稱“一些國家準備直接向伊朗提供自己的核彈頭”,萬斯回應(yīng)

梅德韋杰夫稱“一些國家準備直接向伊朗提供自己的核彈頭”,萬斯回應(yīng)

環(huán)球網(wǎng)資訊
2025-06-23 11:56:50
每輛車虧10萬!知名汽車巨頭崩盤,銷量暴跌90%,負債高達近600億

每輛車虧10萬!知名汽車巨頭崩盤,銷量暴跌90%,負債高達近600億

米果說識
2025-06-22 23:20:03
伊朗襲擊卡塔爾美軍基地后發(fā)聲明

伊朗襲擊卡塔爾美軍基地后發(fā)聲明

財聯(lián)社
2025-06-24 01:30:11
國家稅務(wù)總局:7月1日起實施!社保繳費大變化!企業(yè)納稅信用等級評價新變化!

國家稅務(wù)總局:7月1日起實施!社保繳費大變化!企業(yè)納稅信用等級評價新變化!

會計人
2025-06-23 22:05:26
8100萬豪賭成功,卡魯索創(chuàng)造NBA歷史紀錄,女友絕美,人生贏家

8100萬豪賭成功,卡魯索創(chuàng)造NBA歷史紀錄,女友絕美,人生贏家

大西體育
2025-06-23 16:14:53
這幅諷刺漫畫是八年前畫的

這幅諷刺漫畫是八年前畫的

孫曉宇
2025-06-23 17:07:13
2025-06-24 03:15:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10056文章數(shù) 116781關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

以伊沖突升級,對經(jīng)濟和股市影響有多大?

汽車要聞

真香價格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
家居
游戲
軍事航空

數(shù)碼要聞

小米 REDMI K Pad 平板游戲視野拓展功能曝光

房產(chǎn)要聞

3天,75億!海南賣地殺瘋了!

家居要聞

山水之間 墨染風雨云間

《星鳴特攻》開發(fā)者版本流出:發(fā)售前9個月的樣子

軍事要聞

伊朗:即便核設(shè)施被毀 游戲也遠未結(jié)束

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 蒲城县| 万宁市| 财经| 金寨县| 贵港市| 玛曲县| 墨玉县| 石棉县| 水富县| 民和| 郧西县| 桐庐县| 秭归县| 新巴尔虎左旗| 宜君县| 青铜峡市| 旬邑县| 华阴市| 布尔津县| 科技| 和顺县| 茌平县| 乐业县| 岑巩县| 岳阳市| 东宁县| 上杭县| 望谟县| 株洲市| 堆龙德庆县| 上杭县| 称多县| 三穗县| 长沙县| 尉氏县| 洪洞县| 平罗县| 天全县| 车致| 龙门县| 吉水县|