99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

深度揭秘華為昇騰超節點!不盲目自信也不妄自菲薄

0
分享至

剛剛,華為聯合硅基流動悄悄發了一篇論文,把自家的昇騰超節點CloudMatrix 384狠狠“安利”了一把。

這篇論文有兩大看點:

1、詳細介紹了CloudMatrix384超節點的硬件架構:910C芯片、節點板卡、尤其是UB架構。

2、針對像DeepSeek這樣數千億參數、MoE架構、超長上下文的推理需求,如何用軟硬協同的“菊花寶典”來搞定。

這份「菊花寶典」,包含CloudMatrix 384超節點硬件和CloudMatrix-Infer推理優化方案。



首先看硬件

華為 CloudMatrix 384 將 384 顆 昇騰 910C NPU、192 顆鯤鵬 CPU 封裝進單一“超節點”,通過 UB(Unified Bus)高帶寬、低時延總線實現全互聯,使計算、內存、網絡資源可池化、等價訪問并獨立伸縮。

具體的架構長這樣↓

包含三個平面:①UB平面完成超節點Scale-up;②RDMA平面,提供多個超節點Scale-out;③VPC平面,南北向通信,連接到數據中心網絡。



1、昇騰910C芯片參數

910C為雙die封裝,每die算力達到376TFLOPS@FP16或1054TFLOPS@INT8。(比較遺憾的是,910系列不支持FP8,也不支持現在N卡和A卡都在狂帶節奏的FP4/FP6,期待下一代可以)

板載128GB HBM3顯存,帶寬3.2TB/s。

每die提供7 × 224 Gbps UB 通道 + 200 Gbps RDMA 通道,既能 scale-up 又能 scale-out。



2、昇騰910C子節點

整個超節點由48個910C子節點組成。

每個子節點板載8張昇騰910C芯片+4張鯤鵬CPU+7張UB交換芯片,并集成一張擎天DPU卡,負責節點級資源管理和南北向網絡連接。



3、UB統一總線架構首次揭秘

超級節點橫跨了16個機架,其中12個計算機架(含48個昇騰910C節點)、4個通信機架,通信機架其實就是所謂的UB統一總線。

這很像典型的Spine-Leaf兩層脊葉架構,一層Leaf集成在每個910C節點機上,二層Spine擱在4個通信機架里面。

每個L1端口對應16條上行鏈路(16×28GB/s),確保整個超級節點網絡無阻塞。



UB 架構的本質,是把傳統“CPU-GPU-交換機多層異構系統”壓縮進一個機柜內部的單級互連域,交付“近芯片級帶寬 + 微秒級延遲 + 統一尋址”的算力池。

大家可以看看菊廠給出的節點內和跨節點通信的帶寬/時延對比:跨die帶寬接近die內帶寬,單跳時延接近1微秒。



菊廠不愧是做通信出身的,這UB做得真NB,大模型推理的三個主要瓶頸(帶寬、延遲、內存可用性),UB都提供了顯著改進。

正是因為UB的存在,CloudMartix才可以放棄傳統Scale out的做法,用Scale up的理念攢一臺大家伙,來搞定計算墻、顯存墻、通信墻。

當然,“一菊獨放不是春,百菊齊放春滿園”,就像下圖一樣,CloudMatrix的遠景是先Scale-UP,再Scale-Out,組成一片超級“大菊園”。



再看軟件部分

配套軟件上,華為有自己的“菊版CUDA”,這就是CANN,包括驅動、運行時和庫三層架構。



同時,為了實現在更大規模的云環境中部署 CloudMatrix384,菊廠提供了一套“Matrix全家桶”,包括 MatrixResource、MatrixLink、MatrixCompute 和 MatrixContainer。

下圖給出了一個16.5萬張卡組成的超大集群的示范,以及在這樣的云平臺上,全家桶各自的位置。



為了更好的跑DeepSeek這樣的大參數、MoE、長上下文模型,菊廠專門提出了CloudMartrix-Infer推理優化方案。

本質上講,這是一個多層級的軟件優化技術,簡要概括下。



1、PDC 解耦(Prefill-Decode-Caching):
Prefill:16 × NPU 實例(EP32)專管長輸入串、首 token 生成。
Decode:160 × NPU 實例(EP320)追求極低 TPOT 的自回歸生成。
Caching:所有 NPU 通過 UB 總線直連一片分布式 DRAM 池,歷史 KV + 模型權重都放這兒,誰需要誰 DMA 取。
2、LEP 大規模專家并行
讓 DeepSeek-R1 的 320 個專家“一人一核”地攤到 320 個 NPU die 上,通信靠 UB,MoE 延遲不再是瓶頸。
3、硬件友好的優化包
Ascend-native算子 + 微批管線并發,通信與計算重疊。
INT8 五件套量化:混合精度、自適應尺度搜索、離群點抑制、高效INT8 GEMM、塊級剪裁與誤差補償。(彌補昇騰芯片不支持FP8的短板,)

所有這些優化手段,在論文中都有超長篇幅的圖文介紹,詳細到足以讓你相信,這是菊廠真干成了。

實戰效果如何

用這套軟硬協同的“菊花寶典”,進行滿血版DeepSeek推理實戰,是一種怎樣的體驗?

論文中給出了詳細的數據,以及與N記H100/H800對比。(注意不是比H200更不是B200)

1、Prefill預填充階段:

在同樣16384×4096 的重載場景里,華為單卡吞吐達到6688tps,并拿到全場最佳算力利用率(4.45tok/s/TPFOPS)。



2、Decode解碼階段:

在TPOT=50ms的級別下,華為吞吐達到每卡1943tps。同樣獲得了最高的算力利用率(1.29tok/s/TFlops)。

而且華為并沒有使用更大的Batch Size堆吞吐,仍然拿到了高效輸出。



總體來講,這波實戰華為客觀的展示了自身的能力,起到了雙重袪魅效果:

①昇騰的確很能打,在單卡通用硬件算力不如H100的前提下,憑超節點互聯 + 架構級優化,實現整體性能反超。

②昇騰沒有坊間吃瓜群眾吹得那么能打,一頓操作猛如虎,也只是能跟H100掰掰手腕。

華為通過這波操作,驗證了“超節點+軟硬協同”在 LLM 時代的工程可行性與性能上限,為后續萬億參數、大稀疏推理平臺提供了可實戰的“菊花寶典”。

總之,這篇論文來得非常及時,讓我們可以既不盲目自信,也不妄自菲薄。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
工行高管舉報妻子出軌健身房教練后續:聊天記錄曝光!工行回應!

工行高管舉報妻子出軌健身房教練后續:聊天記錄曝光!工行回應!

風云觀察者
2025-07-17 07:05:02
砸碎“鐵飯碗”,北上廣開始動真格的了!政策頻出,釋放啥信號?

砸碎“鐵飯碗”,北上廣開始動真格的了!政策頻出,釋放啥信號?

小談食刻美食
2025-07-15 21:29:31
高鐵一漂亮媽媽讓孩子“霸座”,自己站4小時!網友:沒苦硬吃吧

高鐵一漂亮媽媽讓孩子“霸座”,自己站4小時!網友:沒苦硬吃吧

明月雜談
2025-07-16 09:04:34
不顧中國,印尼跟美國簽了,轉頭發現美財長喊話:中國有美國要的

不顧中國,印尼跟美國簽了,轉頭發現美財長喊話:中國有美國要的

掌青說歷史
2025-07-16 15:30:13
考慮了13天,李在明決定不參加中國閱兵,韓方給出了兩個理由

考慮了13天,李在明決定不參加中國閱兵,韓方給出了兩個理由

界史
2025-07-16 14:42:23
宗慶后3個私生子真實年齡曝光!老三宗繼盛22歲,生母并非小保姆

宗慶后3個私生子真實年齡曝光!老三宗繼盛22歲,生母并非小保姆

葉公子
2025-07-16 17:09:47
女教師稱調崗一年后發現被降級,校方承認未履行告知義務,曾承諾將補發工資 當地教體局回應

女教師稱調崗一年后發現被降級,校方承認未履行告知義務,曾承諾將補發工資 當地教體局回應

紅星新聞
2025-07-17 00:03:09
“戀愛腦”女孩看婦科火了,讓醫生三觀盡毀,網友:被PUA

“戀愛腦”女孩看婦科火了,讓醫生三觀盡毀,網友:被PUA

菁媽育兒
2025-07-15 12:30:47
男子曝妻子出軌健身教練,兩人運動被拍,抓奸畫面炸裂,原配發聲

男子曝妻子出軌健身教練,兩人運動被拍,抓奸畫面炸裂,原配發聲

奇思妙想草葉君
2025-07-16 11:40:51
2年1100萬!比爾買斷+正式加盟快船,超級四巨頭出爐,新賽季沖冠

2年1100萬!比爾買斷+正式加盟快船,超級四巨頭出爐,新賽季沖冠

老梁體育漫談
2025-07-17 02:13:56
曝宗慶后有7個孩子,與杜建英已離婚,宗馥莉曾絕食逼迫父親

曝宗慶后有7個孩子,與杜建英已離婚,宗馥莉曾絕食逼迫父親

180視角
2025-07-17 00:25:19
有重大立功表現,西藏自治區原黨委書記吳英杰賄受賄3.43億被判死緩

有重大立功表現,西藏自治區原黨委書記吳英杰賄受賄3.43億被判死緩

界面新聞
2025-07-16 17:09:21
上海最貴?一碗面1588元,另收10%服務費,網友直呼:太瘋狂

上海最貴?一碗面1588元,另收10%服務費,網友直呼:太瘋狂

環球網資訊
2025-07-16 09:10:08
山東將再添一機場!位置確定

山東將再添一機場!位置確定

魯中晨報
2025-07-16 20:41:32
9歲男童與生父繼母出行1000公里,被安排蜷縮在后備箱,父親稱征求了孩子意愿,不會道歉;生母發聲

9歲男童與生父繼母出行1000公里,被安排蜷縮在后備箱,父親稱征求了孩子意愿,不會道歉;生母發聲

極目新聞
2025-07-16 15:42:55
吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕上演

吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕上演

查爾菲的筆記
2025-07-17 00:35:02
來真的!利物浦殺瘋了:已正式與皇馬談判 報價1億歐求購24歲巨星

來真的!利物浦殺瘋了:已正式與皇馬談判 報價1億歐求購24歲巨星

風過鄉
2025-07-17 07:53:34
宗氏三兄妹在港起訴宗馥莉文書曝光 法院指令:被告需說明轉出的108.5萬美元下落

宗氏三兄妹在港起訴宗馥莉文書曝光 法院指令:被告需說明轉出的108.5萬美元下落

每日經濟新聞
2025-07-17 08:19:15
工資單被瘋傳,月薪最高13.5萬元、年終獎610萬元?基金公司:已報警

工資單被瘋傳,月薪最高13.5萬元、年終獎610萬元?基金公司:已報警

北京商報
2025-07-16 16:30:07
廣東16歲男孩被騙至緬甸失聯33天!爸爸每天靠安眠藥入睡,“希望園區不要傷害他”

廣東16歲男孩被騙至緬甸失聯33天!爸爸每天靠安眠藥入睡,“希望園區不要傷害他”

都市快報橙柿互動
2025-07-16 22:52:40
2025-07-17 09:48:49
AI全球總部
AI全球總部
全球最新、最酷AI解決方案
1027文章數 716關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

宗馥莉的繼承之戰 會把娃哈哈打散嗎?

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

本地
教育
旅游
公開課
軍事航空

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

教育要聞

高中數學求函數值基礎題目,這道題你有思路嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

胡塞武裝稱襲擊以色列多處目標 致其“航班中斷”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大新县| 边坝县| 钦州市| 万州区| 汾西县| 辉县市| 英吉沙县| 宁蒗| 海口市| 楚雄市| 阜新| 呼伦贝尔市| 汕尾市| 琼海市| 丹江口市| 垫江县| 小金县| 大渡口区| 特克斯县| 沙雅县| 阆中市| 天全县| 仙桃市| 罗源县| 耒阳市| 静安区| 景东| 九寨沟县| 安塞县| 阳谷县| 建德市| 长阳| 湖北省| 中阳县| 霍城县| 凤凰县| 图片| 白河县| 玛多县| 大连市| 庆元县|