AMD MI350系列解析：推理性能提升35倍，超英偉達(dá)B200！MI400曝光

2025-06-13 07:24:23　來源: 芯智訊

美國,加利福尼亞州舉報

分享至

當(dāng)?shù)貢r間2025年6月12日，AMD在美國加州圣何塞召開“Advancing AI 2025”大會，正式發(fā)布了Instinct MI350系列GPU加速器及全面的端到端集成人工智能（AI）平臺愿景，并推出了基于行業(yè)標(biāo)準(zhǔn)的開放、可擴(kuò)展的機(jī)架級人工智能基礎(chǔ)設(shè)施。此外，AMD還披露了下一代AI加速器MI400、代號為Venice的服務(wù)器CPU的部分信息。

一、MI350系列：AI計算性能提升4倍，推理能力提升35倍

作為MI325系列的迭代產(chǎn)品，全新發(fā)布的MI350系列GPU，擁有MI350X和MI355X兩個版本。這兩個版本均基于最新的CDNA4架構(gòu)，加入了對于FP4/FP6數(shù)據(jù)格式的支持，并且采用了臺積電第二代3nm（N3P）制程工藝，晶體管數(shù)量達(dá)到了1850億顆，同時還集成了288GB HBM3e 12Hi，帶寬提升到了8 TB/s（MI325X 為6TB/s ）。根據(jù)AMD的介紹稱，MI350系列的AI計算性能相比MI300系列提升了4倍，推理能力提升了35倍。

1、N3P制程，全新CNDA4架構(gòu)

具體來說，最新的CDNA4架構(gòu)采用了針對生成式AI和大語言模型的增強(qiáng)型矩陣計算引擎；在支持 FP8 和 FP16之外，還支持 FP4 和 FP6 這類適合推理的低精度格式，并且還支持混合精度算法。CDNA4還增強(qiáng)了Infinity Fabric和先進(jìn)封裝連接，并針對能效進(jìn)行了提升。

作為最早采用Chiplet和先進(jìn)封裝技術(shù)的處理器廠商，AMD MI350系列也延續(xù)了這方面的設(shè)計，其基于N3P制程的加速器復(fù)合裸片（XCD）堆疊在N6制程的I/O基礎(chǔ)裸片（IOD）上，這種3D混合架構(gòu)也有助于整體計算密度和每瓦性能的提升。而IOD-IOD和HBM3E集成則采用了臺積電目前成熟度最高的CoWoS-S封裝技術(shù)整合在一起。

MI350系列擁有兩個N6制程的IOD，每個IOD上整合了4個XCD和L2緩存，而每個XCD則擁有4個基于臺積電第二代3nm（N3P）制程的著色器引擎和4MB的L2緩存。兩個IOD之間則是通過AMD Infinity Fabric AP互連技術(shù)整合在一起，通信速率高達(dá)5.5 TB/s。

具體到單個XCD內(nèi)部的4個著色器引擎，每個著色器引擎當(dāng)中擁有8個CU（Compute Units，還有一個是冗余的），單個CU當(dāng)中擁有4個Matrix Cores。

因此，MI350系列共計擁有256個CU、1024個Matrix Cores、32MB L2緩存，同時還通過 7x16 Infinity Fabric互聯(lián)鏈路整合了256MB Infinity Cache 和8個36GB 12Hi HBM3E。在外部接口方面，MI350系列還支持128 GB/s的PCIe 5.0互聯(lián)。

△AMD M350系列GPU現(xiàn)場實拍

2、低精度性能暴漲90%，優(yōu)于英偉達(dá)B200

在具體的AI性能表現(xiàn)方面，根據(jù)AMD公布的數(shù)據(jù)顯示，MI350系列當(dāng)中最強(qiáng)的MI355X雖然在Vector FP64/32/64、Matrix FP32/64等數(shù)據(jù)類型計算當(dāng)中，理論峰值性能和 FLOPS/clock/CU 性能都與MI300X相當(dāng)或略低（Matrix FP64計算性能僅為一半），但是在Matrix FP16/BF16、FP16/BF16 Sparsity（稀疏性）、Matrix FP8、FP8 Sparsity、Matrix INT8/INT4、INT8/INT4 Sparsity等數(shù)據(jù)類型的計算當(dāng)中，MI355X的理論峰值性能都實現(xiàn)了高達(dá)90%的提升。

此外，MI300X并不支持FP6/FP4，而MI355X的在Matrix FP6/FP4、FP6/FP4 Sparsity的計算當(dāng)中，性能則分別達(dá)到了10 PFLOPs和20 PFLOPs。另一款MI350X 的Matrix FP4/FP6 性能最高也達(dá)到了18.45 PFLOPS。

作為對比，英偉達(dá)的 B300 (Blackwell Ultra) 的Matrix FP4性能為最高為15 PFLOPS。

與上一代產(chǎn)品相比，MI350X 的Matrix FP8 計算吞吐量約為Matrix 9.3 PFLOPS，而速度更快的 MI355X 則為 10.1 PFLOPS，遠(yuǎn)高于MI325X的Matrix FP8的2.61 PFLPOS和FP8 Sparsity的5.22 PFLOPS性能。同時，MI355X 的Matrix FP8 性能也比英偉達(dá)B300 高出 0.1 PFLOPS。

從具體的大模型中的性能表現(xiàn)來看，AMD表示，MI350X在Llama 3.1 405B模型上的FP4性能達(dá)到了MI300 FP8性能的35倍。

在其他一些熱門的AI大模型上，MI355X的性能表現(xiàn)也平均達(dá)到了MI300X的3倍以上。

MI355X在推理性能上相比英偉達(dá)B200也具有領(lǐng)先優(yōu)勢。比如MI355X的DeepSeek R1的FP4性能相比英偉達(dá)B200提升了20%；MI355X在Llama 3.1 405B模型的FP4性能也相比英偉達(dá)B200提升了30%，達(dá)到了與英偉達(dá)GB200相當(dāng)?shù)乃健?/p>

如果以經(jīng)濟(jì)效益來看，AMD表示，MI355X相比英偉達(dá)B200在同樣成本下可以獲得多出40%的Token收益。

AMD表示，MI350系列超過了AMD的五年目標(biāo)，將人工智能訓(xùn)練和高性能計算節(jié)點(diǎn)的能效提高了30倍，最終提高了38倍。

3、AI工作負(fù)載能效提升30%

作為一款A(yù)I加速器，MI350系列為了提高AI工作負(fù)載的性能目標(biāo)進(jìn)行了非常的多的升級和優(yōu)化。

比如，MI350系列可以支持在功耗不倍增的情況下實現(xiàn)雙倍的計算吞吐量，主要是通過增強(qiáng)內(nèi)存帶寬和本地數(shù)據(jù)共享來實現(xiàn)提高計算吞吐量；在數(shù)據(jù)量化方面，MI350系列還提供對FP8（縮放和非縮放）的全面訪問、以及FP6和FP4這類適合推理的低精度格式的支持，可以降低非核心功耗以提高計算性能。

另外，對于GenAl/LLM等AI工作負(fù)載來說，HBM的容量和帶寬至關(guān)重要。對此MI350系列整合了總共288GB容量的HBM3E，讀取帶寬高達(dá)8TB/s，相比上代的MI300系列單個CU的HBM讀取帶寬提升了50%。同時，得益于N3P制程對于XCD功耗帶來的壓制、更寬的HBM內(nèi)存管道所帶來的較低的頻率實現(xiàn)全帶寬、通過設(shè)計優(yōu)化以降低全帶寬下的電壓等措施，使得MI350系列HBM讀取帶寬的功耗降低了30%。

4、MI350系列服務(wù)器平臺及機(jī)架設(shè)計

由于MI350系列此次專門加入了對于 FP4 和 FP6 低精度格式的支持，這也使得其在AI推理任務(wù)當(dāng)中的性能表現(xiàn)尤為突出，導(dǎo)致其定位也主要面向推理。因此，其橫向擴(kuò)展規(guī)模也限制在了最多8個GPU互聯(lián)。

AMD為MI350系列帶來了4種分區(qū)選項，包括：單個分區(qū)（SPX+NPS1）、兩個分區(qū)（DPX+NPS2）、四個分區(qū)（QPX+NPS2）、8個分區(qū)（CPX+NPS2）。

其中，單個分區(qū)（SPX+NPS1）方案可以支持高達(dá)520B參數(shù)的AI模型，8個分區(qū)（CPX+NPS2）方案可以支持最多8個Llama 3.1 70B實例的部署。

在基于MI350系列的服務(wù)器平臺設(shè)計方面，AMD帶來 MI350X 模塊，其功耗為1000W，采用風(fēng)冷方案；性能更高的MI355X模塊，功耗高達(dá)1400W，主要采用液體冷卻方案。

戴爾、Supermicro、華碩、Gigabyte等眾多服務(wù)器廠商在現(xiàn)場也展示了基于AMD MI350系列GPU的服務(wù)器。

△戴爾展示的8*MI350 AI服務(wù)器液冷方案

在基于MI350系列的AI服務(wù)器的機(jī)架設(shè)計方面，AMD推出了MI355 DLC解決方案和MI350X AC解決方案。

其中，MI355 DLC解決方案，整合了128顆MI355X GPU，36TB HBM3E，F(xiàn)P16/BF16性能達(dá)644PFLOPS，F(xiàn)P8性能達(dá)1.28EFLOPS，F(xiàn)P6/FP4性能達(dá)2.57EFLOPS。

MI350X AC解決方案整合了64顆MI355X GPU，18TB HBM3E，F(xiàn)P16/BF16性能達(dá)295PFLOPS，F(xiàn)P8性能達(dá)590PFLOPS，F(xiàn)P6/FP4性能達(dá)1.18EFLOPS。

值得一提的是，在此次會議上，AMD還公布了一項新的2030年目標(biāo)，即在2024年的基礎(chǔ)上將機(jī)架級能效提高20倍，到2030年，典型的人工智能模型需要在不到一個充分利用的機(jī)架上訓(xùn)練超過275個機(jī)架，從而減少95%的電力消耗。

5、三季度上市

AMD表示，MI350系列即將于今年三季度上市，并且將獲得甲骨文（Oracle）、戴爾、Supermicro、HPE、思科等數(shù)十家廠商的采用。

之前的傳聞就顯示，甲骨文公司向AMD下了數(shù)十億美元的 MI355系列GPU 訂單，“第一批3萬顆MI355X GPU，將用于構(gòu)建一個針對訓(xùn)練和推理工作負(fù)載的集群”。

二、MI400、Venice CPU曝光

在MI350系列發(fā)布的同時，AMD還首次披露了即將于2026年推出下一代的MI400系列加速器、基于“Zen 6”的AMD EPYC “Venice” CPU和 Pensando“Vulcano”NIC的部分細(xì)節(jié)。

其中，MI400系列GPU加速器將基于2nm制程，集成432GB的HBM4內(nèi)存，內(nèi)存帶寬將達(dá)19.6TB/s，單個GPU的橫向擴(kuò)展帶寬也將高達(dá)300GB/s，而MI400 GPU的算力將高達(dá)FP4數(shù)據(jù)格式下40PFLOPS、FP8格式下20PFLOPS。

AMD董事會主席兼首席執(zhí)行官蘇姿豐表示，“MI400系列真正匯集了我們在硅、軟件和系統(tǒng)方面學(xué)到的一切，以交付一個完全集成AI的平臺，這是從頭開始構(gòu)建的。這也使得MI400的AI計算能力相比MI355X系列高出2倍，HBM4帶寬增加近2.5 倍，推理性能增加10倍。”

基于“Zen 6”的AMD EPYC“Venice”CPU將基于2nm制程，擁有多達(dá)256個內(nèi)核，CPU到GPU的互聯(lián)帶寬將達(dá)到上一代的兩倍，CPU性能將提升70%，內(nèi)存帶寬也將高達(dá)1.6TB/s。

AMD Pensando“Vulcano”NIC則將基于3nm制程，網(wǎng)絡(luò)吞吐量將達(dá)到800G，單個GPU的橫向擴(kuò)展帶寬將達(dá)到上代的8倍，并且也支持UA-Link和PCIe。

AMD還預(yù)覽了其名為“Helios”的下一代AI機(jī)架。它將基于下一代AMD Instinct MI400系列GPU、“Zen 6”的AMD EPYC“Venice”CPU和AMD Pensando“Vulcano”NIC。

根據(jù)AMD披露的數(shù)據(jù)顯示，“Helios” AI機(jī)架(整合了72個MI400 GPU)在GPU整體性能上將達(dá)到與英偉達(dá)將于2026年推出的Vera Rubin相當(dāng)?shù)乃剑窃贖BM4容量和帶寬等方面將達(dá)到英偉達(dá)Vera Rubin的1.5倍。(Vera Rubin NVL144集成了72顆Vera CPU+144顆 Rubin GPU，采用288GB顯存的HBM4芯片，顯存帶寬13TB/s，搭配第六代NVLink和CX9網(wǎng)卡。FP4精度的推理算力達(dá)到了3.6ExaFLOPS，F(xiàn)P8精度的訓(xùn)練算力也達(dá)到了1.2ExaFlOPS。)

AMD還將會在2027年推出全新一代的AI機(jī)架，屆時將會搭載代號為“VERANO”的EPYC CPU和MI500系列GPU加速器。

蘇姿豐表示，客戶對 MI400 系列GPU和 Helios 的熱情非常高。我們已經(jīng)深入開發(fā)2027年的下一代AI機(jī)架，它將通過我們的下一代 Verano CPU和MI500 GPU在性能、效率和可擴(kuò)展性方面進(jìn)一步突破極限。

三、全新ROCm 7帶來強(qiáng)大的AI生態(tài)支持

眾所周知，英偉達(dá)目前在AI市場強(qiáng)大的市場地位，除了得益于其強(qiáng)大的GPU性能之外，CUDA軟件生態(tài)優(yōu)勢則其更為強(qiáng)大的護(hù)城河。對此，其他的競爭對手要想與之競爭，也不得不考慮對于CUDA進(jìn)行兼容。

AMD最新推出的開源人工智能軟件棧ROCm 7 旨在滿足生成式人工智能和高性能計算工作負(fù)載日益增長的需求，同時全面顯著改善開發(fā)人員體驗。ROCm 7 改進(jìn)了對行業(yè)標(biāo)準(zhǔn)框架的支持，擴(kuò)展了硬件兼容性，并提供了新的開發(fā)工具、驅(qū)動程序、API和庫，以加速人工智能的開發(fā)和部署。

其中一項關(guān)鍵舉措就是集成了最新的HIP 7.0 接口，使得AMD的自動 HIPIFY 轉(zhuǎn)換工具與 HIP 運(yùn)行時和編譯器緊密集成，用戶可以使用 HIPIFY 快速將 CUDA 代碼移植到 HIP C++ 中，以支持 AMD GPU。

此外，AMD通過ROCm軟件繼續(xù)深化Instinct GPU對前沿AI模型的支持，為最新AI模型Meta Llama 4和谷歌Gemma 3、DeepSeek-R1提供全面的支持。

根據(jù)AMD披露的數(shù)據(jù)顯示，得益于ROCm 7的加持，相比于上一代的ROCm 6，Llama 3.1 70B的推理性能提升到了原來的3.2倍，Qwen 2-72B的推理性能提升到了原來的3.4倍，DeepSeek R1的推理性能提升了到了原來的3.8倍。

同樣，在訓(xùn)練性能方面，得益于ROCm 7的加持，相比于上一代的ROCm 6，Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B的性能也平均提升了3倍。

即便是對比基于CUDA的英偉達(dá)B200 GPU，在開源的ROCm 7的加持下，AMD MI355X的FP8吞吐量也取得了30%的優(yōu)勢。

為了進(jìn)一步豐富基于AMD AI解決方案的軟件生態(tài)系統(tǒng)，AMD還宣布向全球開發(fā)者和開源社區(qū)廣泛提供AMD開發(fā)者云。專為快速、高性能的人工智能開發(fā)而構(gòu)建，用戶將可以訪問一個完全托管的云環(huán)境，該環(huán)境具有工具和靈活性，可以開始人工智能項目，并無限增長。

憑借ROCm 7和AMD開發(fā)者云，AMD正在降低障礙，擴(kuò)大對下一代計算的訪問。與Hugging Face、OpenAI和Grok等領(lǐng)導(dǎo)者的戰(zhàn)略合作正在證明共同開發(fā)的開放解決方案的力量。

四、Pollara NIC+Instinct GPU+EPYC CPU，打造AI系統(tǒng)級解決方案

隨著生成式人工智能和大型語言模型的出現(xiàn)，對于AI集群中的傳統(tǒng)以太網(wǎng)絡(luò)帶來了前所未有的挑戰(zhàn)。這些先進(jìn)的AI/ML模型需要強(qiáng)大的通信能力，包括緊密耦合的并行處理、快速的數(shù)據(jù)傳輸和低延遲通信——而這些要求是專為通用計算而設(shè)計的傳統(tǒng)以太網(wǎng)一直以來難以滿足的。盡管面臨這些挑戰(zhàn)，以太網(wǎng)憑借其廣泛的應(yīng)用和豐富的運(yùn)營經(jīng)驗，仍然是人工智能集群網(wǎng)絡(luò)技術(shù)的首選。然而，傳統(tǒng)以太網(wǎng)在支持專用人工智能工作負(fù)載方面的局限性也日益凸顯。

對此，AMD在2024年10月推出了業(yè)界首款UEC 1.0規(guī)范的網(wǎng)卡——Pensando Pollara 400 AI NIC，它提供完全可編程的 400 千兆每秒 (Gbps) RDMA 以太網(wǎng)網(wǎng)絡(luò)接口卡 (NIC)，旨在優(yōu)化HPC和AI數(shù)據(jù)中心網(wǎng)絡(luò)，具有可編程硬件管道、可編程RDMA傳輸、可編程擁塞控制和通信庫加速功能，最大限度地利用AI集群并減少延遲，保持CPU與GPU之間不間斷的通信。

官方表示，Pensando Pollara 400 AI NIC在性能上超越了此前的 RoCEv2，其有望為AI工作負(fù)載帶來6倍的性能提升，同時有望增強(qiáng)人工智能基礎(chǔ)設(shè)施的可擴(kuò)展性和可靠性，使其更適合大規(guī)模部署。

今年4月，AMD Pensando Pollara 400 AI NIC已經(jīng)正式上市，并向客戶發(fā)貨。AMD表示，相信通過為客戶提供易于擴(kuò)展的解決方案來保留客戶的選擇權(quán)，在開放式生態(tài)系統(tǒng)中，以不犧牲性能的前提下降低總擁有成本。

在AMD看來，其Pollara NIC+Instinct GPU+EPYC CPU產(chǎn)品組合，構(gòu)建了AMD完整的面向數(shù)據(jù)中心的先進(jìn)的AI硬件解決方案，再加上配套的ROCm等相關(guān)軟件以及UA-LINK（通過縱向擴(kuò)展互連技術(shù)實現(xiàn)對1024個加速器的超大規(guī)模集群支持，直接對標(biāo)英偉達(dá)NVLink技術(shù)體系），則構(gòu)成了完整的AI系統(tǒng)級解決方案。

小結(jié)：

在2024財年，AMD營收達(dá)到了創(chuàng)紀(jì)錄的258億美元。特別是數(shù)據(jù)中心業(yè)務(wù)收入創(chuàng)新高至126億美元，同比暴漲94%，在總營收當(dāng)中的占比幾乎達(dá)到了一半。其中，AMD Instinct加速器實現(xiàn)了超過50億美元的收入。得益于AMD EPYC CPU和Instinct GPU強(qiáng)勁的銷售增長，今年一季度，AMD數(shù)據(jù)中心業(yè)務(wù)營收達(dá)37億美元，同比增長57%。

對于此次發(fā)布的MI350系列，此前摩根大通分析師Harlan Sur在與AMD首席執(zhí)行官蘇姿豐舉行了投資者會議之后就曾發(fā)布預(yù)測報告稱，AMD“下一代 MI350 加速器平臺將為其2025年下半年帶來強(qiáng)勁增長”，預(yù)計AMD 的 AI GPU 業(yè)務(wù)2025年將達(dá)到60%以上的同比增長。

值得注意的，在今天的AMD先進(jìn)AI發(fā)布會上，蘇姿豐還邀請到了Open AI 創(chuàng)始人兼CEO Sam Altman到場助陣，這似乎也預(yù)示著OpenAI接下來可能將會考慮采用AMD下一代的AI加速芯片。

此外，AMD的增長并不僅僅依賴于來自云端AI對其EPYC CPU和Instinct GPU需求的增長，憑借自身的AI技術(shù)能力，AMD在PC市場也是高歌猛進(jìn)，市場份額也是持續(xù)提升。

根據(jù)AMD最新公布的數(shù)據(jù)顯示，截至目前AMD Ryzen AI 300系列已有23家客戶采用，Ryzen AI Max已有70家客戶采用Threadripper+Radeon AI。

除了在自身產(chǎn)品端的持續(xù)發(fā)力之外，AMD也在持續(xù)通過并購來加速自身AI實力的壯大。

近期，AMD已經(jīng)完成對ZT Systems的收購，將領(lǐng)先的系統(tǒng)級及機(jī)架級專業(yè)技術(shù)與AMD GPU、CPU、網(wǎng)絡(luò)芯片和開源軟件結(jié)合起來。

今年5月底，AMD宣布收購了硅光子領(lǐng)域新創(chuàng)公司Enosemi，進(jìn)一步擴(kuò)大在共同封裝光學(xué)（CPO）領(lǐng)域的實力，強(qiáng)化AMD全方位AI 解決方案供應(yīng)商的地位。這也使得AMD在下一代人工智能系統(tǒng)中支持和開發(fā)各種光子學(xué)和聯(lián)合封裝光學(xué)解決方案。

今年6月5日，AMD又宣布從 Untether AI 收購一支由人工智能硬件和軟件工程師組成的才華橫溢的團(tuán)隊，并表示這有助于AMD提升公司的 AI 編譯器和內(nèi)核開發(fā)能力，并增強(qiáng)其數(shù)字和 SoC 設(shè)計、設(shè)計驗證和產(chǎn)品集成能力。

顯然，這一系列的收購也將有助于AMD更好的與英偉達(dá)進(jìn)行競爭，以把握2028年數(shù)據(jù)中心AI加速器市場5000億美元的市場機(jī)遇。

編輯：芯智訊-浪客劍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.