網易首頁 > 網易號 > 正文申請入駐

AMD Ryzen AI 300與Ryzen 9000淺析：AI PC的進階形態

2024-08-07 15:40:22　來源: 愛極物

上海舉報

分享至

接下來的兩周，AMD Ryzen AI 300筆記本與Ryzen 9000臺式機CPU會相繼發售，為了狙擊Intel Lunar Lake，AMD特意將筆記本端的命名修改成300起步，以此暗示要比9月初發布的Core Ultra 200系列強一點。

從參數來看，Ryzen AI 300（代號Strix Point）已經表現出了強勁的開局，Zen 5 微架構、圖形、AI性能表現都將定義未來近一年的臺式機和筆記本競爭格局，50 TOPS的XDNA 2 NPU和RDNA 3.5 iGPU也將幫助Ryzen AI 300進一步搶占市場，對英特爾造成更大的壓力。

那么Ryzen AI 300和Ryzen 9000應該有什么值得期待的，未來一年臺式機、筆記本、Windows掌機還會發生什么變化，不妨讓我們稍微進行展開。

提升的IPC

每周期指令數IPC（Instructions Per Cycle）是衡量CPU性能的重要指標之一，IPC越高，意味著CPU可以在每個時鐘周期內執行更多指令，尤其是在比較不同架構、型號處理器時，IPC可以作為很好的參考。

提升IPC的方式有很多，包括改進微架構、增加流水線、提升指令集并行度等。Zen 5微架構中使用了雙管取指（Dual-pipe Fetch）的方式，即使用兩個取指管道并行從內存中獲取指令，并行執行，以提高執行效率。與此同時，這項技術與AMD的高階分支預測結合，以減少延遲并提升準確性和吞吐量。這樣通過降低指令緩存延遲和帶寬優化的方式，可以在不犧牲準確性的情況下進一步提高數據流和數據處理速度。

Zen 5整數執行能力在Zen 4的基礎上也進行了提升，Zen 5使用了8寬的調度與退役系統，（8-wide Dispatch/Retire），即可以同時調度和退役最多8個整數指令。在邏輯單元部分，提供了6個計算邏輯單元ALU和3個乘法器，均通過ALU調度器進行控制，以此來適應更復雜的工作負載。

與此同時，Zen 5相對Zen 4提供了更多數據帶寬，包括48KB的12路 L1數據緩存，可以滿足4個周期的負載，可看到的是L1緩存的帶寬增加了一倍，浮點單元也相當于Zen 4增加了一倍，Zen 5還改進了數據預取器，以保證更快、更可靠的數據訪問和處理。

在Zen 4時代，AVX-512指令集使用的是兩個256bit的數據路徑（data paths），可以同時處理兩個 256 位的數據，但每個數據路徑只有256bit寬度，在處理 AVX-512指令時，需要使用兩個數據路徑來完成。而Zen 5還引入了完整的512bit AI數據路徑，這個數據路徑包含了6個流水線，并且在FADD（浮點加法）操作上具有兩個周期的延遲。因此Zen 5能夠一次性處理AVX-512指令所需的全部數據，是一個很明顯的進步。

而對于玩家而言，IPC的直觀提升更為重要。AMD表示Zen 5相對Zen 4的IPC平均提升達到了16%，在對比的數據中包括《孤島驚魂6》提升了10%，《英雄聯盟》提升了21%，Geekbench 5.4 AES-XTS提升了35%。

落實到具體產品上，基于Zen 5的Ryzen AI 300頂配是Ryzen AI 9 HX 370，配備12個Zen 5核心，最高頻率5.1GHz，擁有24MB L3緩存。向下一級是Ryzen AI 9 365，配備10個Zen 5核心，5.0GHz頻率，具備和HX 370相同的24MB L3緩存，僅僅在核心數量上有所減少。

AMD還會再晚些時候公布更多的SKU，但基本上已經定局HX和標準版兩個產品線，具備TDP 15W到54W的性能釋放，可以應用在輕薄本乃至游戲本中。基本上通過調整全尺寸Zen 5核心與緊湊Zen 5c核心數量，達到性能釋放與續航的目的。

在iGPU上，兩款產品都會推出基于RDNA 3.5的Radeon 890M的集成顯卡，其中Ryzen AI 9 HX 370最高配置16個圖形計算單元，Ryzen AI 9 365配備的是12個。

近期延期的臺式機版本Ryzen 9000系列包含了4個SKU，均是不鎖倍頻的X結尾版本。旗艦Ryzen 9 9950X配備16個核心，最高增頻可達5.7GHz，緩存總量為80 MB，其中包括64 MB L3緩存和16MB L2緩存（每個核心1MB L2緩存），熱設計功耗TDP為170W。而Ryzen 9 9900X則提供了12個核心，最高頻率可達5.6 GHz，64MB L3緩存，熱設計功耗120W。

再往下還包括了8個核心的Ryzen 7 9700X和入門版的Ryzen 5 9600X。

在接口上，Ryzen 9000和Ryzen 7000沒有太大區別，都使用的是LGA1718插槽，使用的是臺積電6nm制造，不過只有Ryzen 9000使用的是Zen 5核心，Ryzen 7000依然是Zen 4。

另外針對Ryzen 9000還加入全新的超頻功能Curve Shaper，本質上是Curve Optimizer的增強版本，允許用戶進行3個溫度和5個頻率，共計15個方案的頻率和電壓曲線調整。

在性能上，AMD自然也不忘與Intel Core i9-14900K、Core i7-14700K以及Core i5-14600K進行對比。AMD Ryzen 9 9900X相對Core i9-14900K在UL Procyon Office中提升了2%，但在利用AVX-512指令的HandBrake負載中擁有41%的提升。

Ryzen 7 9700X相對Core i7-14700K提升幅度相當明顯，包括7-Zip，UL Procyon Office和HandBrake全方位的提升。同時游戲上也有4%到31%提升的收益。

Ryzen 5 9600X相對Core i5-14600K也是類似的情況，包括HandBrake性能提升94%，主要利用了AVX-512性能。游戲測試中提升達到5%到29%。

AMD表示他們提升了CPU的整體熱阻，相對Ryzen 7000系列提升了15%，并降低了Ryzen 9000系列的工作溫度。在相同TDP下，平均工作溫度降低7%。因此除了Ryzen 9 9950X，新系列所有產品均降低了TDP，例如Ryzen 9 7900X僅為170W TDP，Ryzen 9 9900X 120W TDP，Ryzen 7和Ryzen 5 65W TDP。

與此同時，Zen 5同樣支持AM5平臺，包括X670E、X670、B650E和B650主板，雖然新一波的AM5主板對應X870E、X870、B850、B840蓄勢待發，如果想第一時間入手，600系列仍然是第一選擇。

讓NPU達到50 TOPS

AMD Ryzen AI 300 Strix Point與之前Ryzen 8040 Hawk Point相比，最大的進步增強了NPU。在2020年，AMD收購了賽靈思Xilinx，通過整合Xilinx技術從而啟動了NPU開發，形成了最初的AMD XDNA架構。AMD Ryzen AI 300則為XDNA 2，進一步增強了擴展和性能，包括引入對塊浮點16bit算法（Block FP16），通常情況下，半精度浮點數（FP16）用于減少存儲和處理需求，但可能犧牲了一定的數值精度。塊浮點16bit方法通過提升數據結構，以實現更好的性能和更接近完整精度的數值表現。同時，AMD表示這種方法結合了8bit的性能和16bit精確性。

與其他神經網絡精度優化類似，Block FP16的目的是減少所需的計算工作量，在處理INT8數據時可以通過原生的方式應對，而非通過FP16兼容實現，從而提升速率和優化性能。當然，Block FP16本身不是一項新技術，只是AMD成為第一個將其納入NPU范疇的廠商，未來英特爾Lunar Lake也會使用類似的設計。

AMD XDNA架構與多核處理器典型設計其實不太一樣，XDNA必須將靈活計算與自適應內存層次結構結合，與固定計算模型或者靜態內存層次結構模型相比，Ryzen AI XDNA引入了AIE（AI Engine，AI引擎）網絡進行互聯，每個引擎都能動態適應手頭的任務，包括分配計算資源和內存資源，從而實現資源分配的效率和擴展性。

AMD將這套AIE連接方式稱為空間架構（Spatial Architecture），它的設計具有很強的靈活性，同時將平鋪數據流結構與可編程互聯、靈活分區想結合，平鋪數據流結構可以實現確定性性能，避免了緩存未命中帶來的性能波動。這是因為每個任務的數據和計算可以在預定義的貼片（Tile）內完全控制和處理，不依賴于緩存。

此外，空間架構還有助于優化內存管理，減少對內存帶寬需求，滿足AI推理任務，包括實時視頻和音頻處理，內容創作工作流的不同要求。

XDNA 2架構可以理解為基于XDNA的升級版本，并增加了更多AI引擎以提升吞吐量。AMD Ryzen AI 300 Strix Point的XDNA 2中可包含32個AI引擎貼片Tile，必上一代多了12個，并且每個Tile的乘法累加器（Multiply-Accumulate，MAC）數量提升了一倍，片上內存提升了1.6倍。最終讓NPU的性能達到50 TOPS，超過目前英特爾和高通的產品，同時符合微軟對Copilot+設定的40 TOPS的標準。

XDNA 2除了提升TOPS，在電源效率上也有顯著提升。AMD表示相對于Ryzen 7040中的NPU，XDNA 2 NPU可以用2倍的能效獲得5倍的計算性能，能夠幫助筆記本獲得更長的電池續航，也能夠在多任務處理時最多實現8個并發空間流。

簡單的說，Ryzen AI 300中的XDNA 2 NPU實際上是通過分配AI工作負載，以更節能的方式運行微軟Copilot+等離線AI功能，并且由于同時提供INT8和FP16的計算支持，也給了開發人員更多的調用硬件空間，從而發揮最高50 TOPS的NPU性能。從而也進一步確保AMD作為第一家在x86上使用NPU的廠商的領先地位。

核顯的進階

Ryzen AI 300的另一個進階就是RDNA 3.5的核顯圖形架構。RDNA 3.5相對RDNA 3有著顯著升級，一方面是AMD與ISV開發人員密切合作，以提高RDNA 3.5在游戲中的每瓦性能。其中包括改善常規圖形著色器，減少內存訪問時間，同時也確保在離電環境下進一步延長移動設備的續航時間。

與RDNA 3相比，RDNA 3.5著重針對了移動平臺優化，確保了Ryzen AI 300中Radeon 890M在能效和性能上有長足的進步，包括RDNA 3.5的插值和比較率提高了兩倍，這對于處理高質量圖形非常重要。插值操作能夠平滑地處理圖像中的細節和過渡效果，而比較率則影響到處理復雜圖像算法時的效率和精度。同時也優化向量指令集架構（ISA），以獲得進一步的圖形展現能力。

RDNA 3.5還優化了LPDDR5內存訪問的頻率，讓其在整體上更節能。在最終工作負載體現上，RDNA 3.5有著更強的表現，相比Ryzen 8040核顯每瓦性能提升了32%，特別是在15W功耗下，3DMark Timespy和3DMark Night Raid提升達到了19%到32%。

目前Ryzen AI 300系列的筆記本已經開賣，相比驍龍X Elite搭配Windows on Arm被限制應用場景，基于x86平臺的Ryzen AI 300和即將到來的臺式機CPU Ryzen 9000系列，會幫助我們進一步加速進入AI PC時代。特別是對于依賴iGPU和NPU的輕薄型筆記本和游戲掌機而言，能在移動端獲得更強的的性能無疑是讓人振奮的。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.