99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

深度揭秘華為昇騰超節點!不盲目自信也不妄自菲薄

0
分享至

剛剛,華為聯合硅基流動悄悄發了一篇論文,把自家的昇騰超節點CloudMatrix 384狠狠“安利”了一把。

這篇論文有兩大看點:

1、詳細介紹了CloudMatrix384超節點的硬件架構:910C芯片、節點板卡、尤其是UB架構。

2、針對像DeepSeek這樣數千億參數、MoE架構、超長上下文的推理需求,如何用軟硬協同的“菊花寶典”來搞定。

這份「菊花寶典」,包含CloudMatrix 384超節點硬件和CloudMatrix-Infer推理優化方案。



首先看硬件

華為 CloudMatrix 384 將 384 顆 昇騰 910C NPU、192 顆鯤鵬 CPU 封裝進單一“超節點”,通過 UB(Unified Bus)高帶寬、低時延總線實現全互聯,使計算、內存、網絡資源可池化、等價訪問并獨立伸縮。

具體的架構長這樣↓

包含三個平面:①UB平面完成超節點Scale-up;②RDMA平面,提供多個超節點Scale-out;③VPC平面,南北向通信,連接到數據中心網絡。



1、昇騰910C芯片參數

910C為雙die封裝,每die算力達到376TFLOPS@FP16或1054TFLOPS@INT8。(比較遺憾的是,910系列不支持FP8,也不支持現在N卡和A卡都在狂帶節奏的FP4/FP6,期待下一代可以)

板載128GB HBM3顯存,帶寬3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道,既能 scale-up 又能 scale-out。



2、昇騰910C子節點

整個超節點由48個910C子節點組成。

每個子節點板載8張昇騰910C芯片+4張鯤鵬CPU+7張UB交換芯片,并集成一張擎天DPU卡,負責節點級資源管理和南北向網絡連接。



3、UB統一總線架構首次揭秘

超級節點橫跨了16個機架,其中12個計算機架(含48個昇騰910C節點)、4個通信機架,通信機架其實就是所謂的UB統一總線。

這很像典型的Spine-Leaf兩層脊葉架構,一層Leaf集成在每個910C節點機上,二層Spine擱在4個通信機架里面。

每個L1端口對應16條上行鏈路(16×28GB/s),確保整個超級節點網絡無阻塞。



UB 架構的本質,是把傳統“CPU-GPU-交換機多層異構系統”壓縮進一個機柜內部的單級互連域,交付“近芯片級帶寬 + 微秒級延遲 + 統一尋址”的算力池。

大家可以看看菊廠給出的節點內和跨節點通信的帶寬/時延對比:跨die帶寬接近die內帶寬,單跳時延接近1微秒。



菊廠不愧是做通信出身的,這UB做得真NB,大模型推理的三個主要瓶頸(帶寬、延遲、內存可用性),UB都提供了顯著改進。

正是因為UB的存在,CloudMartix才可以放棄傳統Scale out的做法,用Scale up的理念攢一臺大家伙,來搞定計算墻、顯存墻、通信墻。

當然,“一菊獨放不是春,百菊齊放春滿園”,就像下圖一樣,CloudMatrix的遠景是先Scale-UP,再Scale-Out,組成一片超級“大菊園”。



再看軟件部分

配套軟件上,華為有自己的“菊版CUDA”,這就是CANN,包括驅動、運行時和庫三層架構。



同時,為了實現在更大規模的云環境中部署 CloudMatrix384,菊廠提供了一套“Matrix全家桶”,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下圖給出了一個16.5萬張卡組成的超大集群的示范,以及在這樣的云平臺上,全家桶各自的位置。



為了更好的跑DeepSeek這樣的大參數、MoE、長上下文模型,菊廠專門提出了CloudMartrix-Infer推理優化方案。

本質上講,這是一個多層級的軟件優化技術,簡要概括下。



1、PDC 解耦(Prefill-Decode-Caching):
Prefill:16 × NPU 實例(EP32)專管長輸入串、首 token 生成。
Decode:160 × NPU 實例(EP320)追求極低 TPOT 的自回歸生成。
Caching:所有 NPU 通過 UB 總線直連一片分布式 DRAM 池,歷史 KV + 模型權重都放這兒,誰需要誰 DMA 取。
2、LEP 大規模專家并行
讓 DeepSeek-R1 的 320 個專家“一人一核”地攤到 320 個 NPU die 上,通信靠 UB,MoE 延遲不再是瓶頸。
3、硬件友好的優化包
Ascend-native算子 + 微批管線并發,通信與計算重疊。
INT8 五件套量化:混合精度、自適應尺度搜索、離群點抑制、高效INT8 GEMM、塊級剪裁與誤差補償。(彌補昇騰芯片不支持FP8的短板,)

所有這些優化手段,在論文中都有超長篇幅的圖文介紹,詳細到足以讓你相信,這是菊廠真干成了。

實戰效果如何

用這套軟硬協同的“菊花寶典”,進行滿血版DeepSeek推理實戰,是一種怎樣的體驗?

論文中給出了詳細的數據,以及與N記H100/H800對比。(注意不是比H200更不是B200)

1、Prefill預填充階段:

在同樣16384×4096 的重載場景里,華為單卡吞吐達到6688tps,并拿到全場最佳算力利用率(4.45tok/s/TPFOPS)。



2、Decode解碼階段:

在TPOT=50ms的級別下,華為吞吐達到每卡1943tps。同樣獲得了最高的算力利用率(1.29tok/s/TFlops)。

而且華為并沒有使用更大的Batch Size堆吞吐,仍然拿到了高效輸出。



總體來講,這波實戰華為客觀的展示了自身的能力,起到了雙重袪魅效果:

①昇騰的確很能打,在單卡通用硬件算力不如H100的前提下,憑超節點互聯 + 架構級優化,實現整體性能反超。

②昇騰沒有坊間吃瓜群眾吹得那么能打,一頓操作猛如虎,也只是能跟H100掰掰手腕。

華為通過這波操作,驗證了“超節點+軟硬協同”在 LLM 時代的工程可行性與性能上限,為后續萬億參數、大稀疏推理平臺提供了可實戰的“菊花寶典”。

總之,這篇論文來得非常及時,讓我們可以既不盲目自信,也不妄自菲薄。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海最貴?一碗面1588元,另收10%服務費,網友直呼:太瘋狂

上海最貴?一碗面1588元,另收10%服務費,網友直呼:太瘋狂

環球網資訊
2025-07-16 09:10:08
浙大研究:一旦空腹血糖超過7或餐后血糖超過10,少碰這5類食物!

浙大研究:一旦空腹血糖超過7或餐后血糖超過10,少碰這5類食物!

墜入二次元的海洋
2025-07-16 15:13:51
劉平燕,被查

劉平燕,被查

新京報政事兒
2025-07-17 12:25:54
71年,劉思齊夫婦被投入監獄,寫信找毛主席求救,毛:娃娃們無罪

71年,劉思齊夫婦被投入監獄,寫信找毛主席求救,毛:娃娃們無罪

文史江湖
2025-07-17 10:51:39
鹿晗40℃天氣踢球上熱搜 專家:夏日戶外運動需防中暑

鹿晗40℃天氣踢球上熱搜 專家:夏日戶外運動需防中暑

封面新聞
2025-07-17 18:07:03
外交部:中歐決定同步全面取消對相互交往的限制

外交部:中歐決定同步全面取消對相互交往的限制

新京報
2025-07-16 16:44:03
瘋傳東莞中考喜報!中考狀元還是東華的

瘋傳東莞中考喜報!中考狀元還是東華的

東莞房視
2025-07-17 19:13:19
董璇張維伊再婚后,疑因高云翔爆發爭吵,女兒酒窩不想和爸爸分開

董璇張維伊再婚后,疑因高云翔爆發爭吵,女兒酒窩不想和爸爸分開

素衣讀史
2025-07-17 17:19:13
中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺表述大變

中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺表述大變

起喜電影
2025-07-14 03:01:48
說普通話被歧視后續:工作人員態度傲慢,男子回應,不止一次

說普通話被歧視后續:工作人員態度傲慢,男子回應,不止一次

青梅侃史啊
2025-07-16 16:46:53
大局已定,房地產即將變天,影響所有買房賣房的人

大局已定,房地產即將變天,影響所有買房賣房的人

光宇吐樓市
2025-07-17 13:46:22
中國的征信,已經到了不能不管的地步了

中國的征信,已經到了不能不管的地步了

墜入二次元的海洋
2025-07-14 02:53:25
中國需準備應對俄羅斯解體,確保700萬土地安全

中國需準備應對俄羅斯解體,確保700萬土地安全

阿釗是個小小評論員
2025-07-09 17:34:00
9歲男童與生父繼母出行1000公里,被安排蜷縮在后備箱,父親稱征求了孩子意愿,不會道歉;生母發聲

9歲男童與生父繼母出行1000公里,被安排蜷縮在后備箱,父親稱征求了孩子意愿,不會道歉;生母發聲

極目新聞
2025-07-16 15:42:55
有媒體爆料:宗慶后至少有7個孩子,為不同女人所生,網友爆評

有媒體爆料:宗慶后至少有7個孩子,為不同女人所生,網友爆評

胡侃社會百態
2025-07-17 09:54:07
特朗普:準備向150國征收10%至15%關稅

特朗普:準備向150國征收10%至15%關稅

參考消息
2025-07-17 10:40:16
川西6人墜河事件,大明玉疑似不幸福,老公常不回家,曾公開吐槽

川西6人墜河事件,大明玉疑似不幸福,老公常不回家,曾公開吐槽

魔都姐姐雜談
2025-07-13 09:42:49
汪小菲無視S媽囑托,曝光倆孩子正面照,玥兒太像大S、霖兒很清秀

汪小菲無視S媽囑托,曝光倆孩子正面照,玥兒太像大S、霖兒很清秀

探源歷史
2025-07-15 11:25:38
三次上門挑釁:我要睡你老婆!被丈夫連捅38刀,不要欺負老實人!

三次上門挑釁:我要睡你老婆!被丈夫連捅38刀,不要欺負老實人!

談史論天地
2025-07-15 14:20:03
李在明:我謹代表政府,正式道歉

李在明:我謹代表政府,正式道歉

政知新媒體
2025-07-17 15:27:18
2025-07-17 21:51:00
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1029文章數 716關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

宗慶后弟弟吐槽宗馥莉:要那么多錢干嘛 天堂又不能用

頭條要聞

宗慶后弟弟吐槽宗馥莉:要那么多錢干嘛 天堂又不能用

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

房產
時尚
本地
教育
游戲

房產要聞

突發!海航陳峰被判12年,罰2.2億!

江一燕:劍破墨魂

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

教育要聞

高考從620+到670+,從這里走出來的學生做對了什么?

受《生化危機》啟發:生存恐怖新游EA版發布!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 福贡县| 富源县| 开江县| 博乐市| 德昌县| 稻城县| 左贡县| 南投县| 清镇市| 昭通市| 喜德县| 蛟河市| 宜川县| 吉首市| 丹巴县| 萍乡市| 庆城县| 思茅市| 宜州市| 肃宁县| 嘉善县| 岢岚县| 镇雄县| 昌乐县| 垦利县| 依兰县| 嘉兴市| 潮州市| 滕州市| 民勤县| 凤阳县| 华蓥市| 奇台县| 建水县| 丹东市| 三门峡市| 九龙城区| 滦平县| 杭锦后旗| 阜新市| 抚顺县|