從 2023 年 AMD 把 MI300 系列擺上牌桌開始,「紅綠大戰」的戰火,就燒得更猛了。
昨夜凌晨的 Advancing AI 2025現場,蘇媽直接掏出 CDNA 4 架構 MI350X/ MI355X——
再順帶放出 MI400、Helios 機架、ROCm 7 全家桶,算是把“再戰英偉達”五個字寫得明明白白。
下面我按“性能、內存、成本、生態、路線圖”五個維度,給大家簡單梳一遍核心看點。
01、性能:算力拳拳到肉
推理側,在vLLM / SGLang 跑分里,MI355X 對DeepSeek R1、Llama 3 70B推理吞吐量比 B200 高約 20–30 % 。
訓練側,MI355X 預訓練 Llama 3 70B(FP8)可跑出 MI300X 的2.5–3.5 ×,與 B200/GB200 打成五五開 。
其實,看到“老外”測試舉例采用DeepSeek,內心中還是有一些小觸動。畢竟「國貨」能被當成測試例的機會不多。
一句話:在當下流行的低精度 (FP8 以下)推理場景里,MI355X“更能打”。
02、內存:容量激增,帶寬飆升
MI350系列內存容量 +60 %,內存帶寬直上 8 TB/s。
HBM3E 288 GB 、8 TB/s,單卡就敢裝下 520 B 模型,B200 只有 192 GB、6.1 TB/s。
卡間互聯IF Link 1075 GB/s(8 卡互聯),再次把 NVL4 的900 GB/s 刷到身后。
對超大模型/多實例推理來說,“HBM 多、帶寬大”就是首要生產力。
03、成本&能耗:按摩店老招牌
AMD 宣稱“每刀 token 數量”比 B200 多 40 %,理由簡單粗暴:
GPU 單卡價更低,同時288 GB HBM3E大顯存,節約分片/分卡切分開銷。
另外采用FP4/FP6 能讓推理更高效,算力密度更好。
接著看能耗,而在 Perf/W 上,MI350X 相比 MI300X 又提升 30 % 。
換句話說,AMD 用“1000–1400W”功耗,跑出了與英偉達“GB200 2×1150W”同量級的推理成績。
這對大規模集群的 TCO 影響,肉眼可見。
04、生態:開源AMD vs 閉源英偉達
CUDA讓人又恨又愛,你討厭它卻又不得不和它一起建設“社會主義”。
這就是閉源的痛,但AMD主導的ROCm是開源的——
ROCm 7推理性能相對 ROCm 6 提升 3.5×,訓練提速 3×;
Day-0 支持 Llama4、DeepSeek、Grok、Qwen 等主流模型(千問也被發了“好人卡”);
Windows 端和 Ryzen AI 本地開發也全家桶加持。
開源框架 vLLM / SGLang 與 AMD 同步聯調,DeepSeek R1 的 FP8 推理,NVIDIA TensorRT-LLM 還不支持,AMD 先落地了。
這么說吧,“開源快過封閉”是 AMD 給開發者的最大籌碼。
05、路線圖、大機架PK
主卡一年一代,一代更比一代強,MI400已經在路上了。
當然,“大機架”更能體現一個廠商的整體能力,這方面,AMD與英偉達可以一戰,而老燈已經落伍了。
Helios 把 UALink + Ultra Ethernet 搭起來,號稱橫向帶寬 260 TB/s,HBM4 容量比N家 Rubin 機架多 50 % 。
如今,AMD 把「CPU-GPU-DPU」全棧都握在自己手里,開始正面硬杠 NVIDIA 的 DGX 宇宙。
06、流水不爭先,爭的是滔滔不絕
短期看,英偉達依舊握著整體性能優勢、市場份額和CUDA護城河。
但 AMD 這次把“更高性價比的算力+更大的顯存+更開放的軟件”三張牌同步打出。
再加上 EPYC、Pensando、UALink 全家桶,MI350/400 顯然有機會成為AI基建團隊的新鏟子。
接下來一年里,如果你在甲方采購需求里,看到 “288 GB HBM3E / FP4 20 PFLOPS” 字樣,不用太驚訝——
那大概率是 AMD 再次把綠廠逼到了賽點。
“那個男人”壓軸來捧場了,蘇媽笑開了花。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.