接下來的兩周,AMD Ryzen AI 300筆記本與Ryzen 9000臺式機CPU會相繼發售,為了狙擊Intel Lunar Lake,AMD特意將筆記本端的命名修改成300起步,以此暗示要比9月初發布的Core Ultra 200系列強一點。
從參數來看,Ryzen AI 300(代號Strix Point)已經表現出了強勁的開局,Zen 5 微架構、圖形、AI性能表現都將定義未來近一年的臺式機和筆記本競爭格局,50 TOPS的XDNA 2 NPU和RDNA 3.5 iGPU也將幫助Ryzen AI 300進一步搶占市場,對英特爾造成更大的壓力。
那么Ryzen AI 300和Ryzen 9000應該有什么值得期待的,未來一年臺式機、筆記本、Windows掌機還會發生什么變化,不妨讓我們稍微進行展開。
提升的IPC
每周期指令數IPC(Instructions Per Cycle)是衡量CPU性能的重要指標之一,IPC越高,意味著CPU可以在每個時鐘周期內執行更多指令,尤其是在比較不同架構、型號處理器時,IPC可以作為很好的參考。
提升IPC的方式有很多,包括改進微架構、增加流水線、提升指令集并行度等。Zen 5微架構中使用了雙管取指(Dual-pipe Fetch)的方式,即使用兩個取指管道并行從內存中獲取指令,并行執行,以提高執行效率。與此同時,這項技術與AMD的高階分支預測結合,以減少延遲并提升準確性和吞吐量。這樣通過降低指令緩存延遲和帶寬優化的方式,可以在不犧牲準確性的情況下進一步提高數據流和數據處理速度。
Zen 5整數執行能力在Zen 4的基礎上也進行了提升,Zen 5使用了8寬的調度與退役系統,(8-wide Dispatch/Retire),即可以同時調度和退役最多8個整數指令。在邏輯單元部分,提供了6個計算邏輯單元ALU和3個乘法器,均通過ALU調度器進行控制,以此來適應更復雜的工作負載。
與此同時,Zen 5相對Zen 4提供了更多數據帶寬,包括48KB的12路 L1數據緩存,可以滿足4個周期的負載,可看到的是L1緩存的帶寬增加了一倍,浮點單元也相當于Zen 4增加了一倍,Zen 5還改進了數據預取器,以保證更快、更可靠的數據訪問和處理。
在Zen 4時代,AVX-512指令集使用的是兩個256bit的數據路徑(data paths),可以同時處理兩個 256 位的數據,但每個數據路徑只有256bit寬度,在處理 AVX-512指令時,需要使用兩個數據路徑來完成。而Zen 5還引入了完整的512bit AI數據路徑,這個數據路徑包含了6個流水線,并且在FADD(浮點加法)操作上具有兩個周期的延遲。因此Zen 5能夠一次性處理AVX-512指令所需的全部數據,是一個很明顯的進步。
而對于玩家而言,IPC的直觀提升更為重要。AMD表示Zen 5相對Zen 4的IPC平均提升達到了16%,在對比的數據中包括《孤島驚魂6》提升了10%,《英雄聯盟》提升了21%,Geekbench 5.4 AES-XTS提升了35%。
落實到具體產品上,基于Zen 5的Ryzen AI 300頂配是Ryzen AI 9 HX 370,配備12個Zen 5核心,最高頻率5.1GHz,擁有24MB L3緩存。向下一級是Ryzen AI 9 365,配備10個Zen 5核心,5.0GHz頻率,具備和HX 370相同的24MB L3緩存,僅僅在核心數量上有所減少。
AMD還會再晚些時候公布更多的SKU,但基本上已經定局HX和標準版兩個產品線,具備TDP 15W到54W的性能釋放,可以應用在輕薄本乃至游戲本中。基本上通過調整全尺寸Zen 5核心與緊湊Zen 5c核心數量,達到性能釋放與續航的目的。
在iGPU上,兩款產品都會推出基于RDNA 3.5的Radeon 890M的集成顯卡,其中Ryzen AI 9 HX 370最高配置16個圖形計算單元,Ryzen AI 9 365配備的是12個。
近期延期的臺式機版本Ryzen 9000系列包含了4個SKU,均是不鎖倍頻的X結尾版本。旗艦Ryzen 9 9950X配備16個核心,最高增頻可達5.7GHz,緩存總量為80 MB,其中包括64 MB L3緩存和16MB L2緩存(每個核心1MB L2緩存),熱設計功耗TDP為170W。而Ryzen 9 9900X則提供了12個核心,最高頻率可達5.6 GHz,64MB L3緩存,熱設計功耗120W。
再往下還包括了8個核心的Ryzen 7 9700X和入門版的Ryzen 5 9600X。
在接口上,Ryzen 9000和Ryzen 7000沒有太大區別,都使用的是LGA1718插槽,使用的是臺積電6nm制造,不過只有Ryzen 9000使用的是Zen 5核心,Ryzen 7000依然是Zen 4。
另外針對Ryzen 9000還加入全新的超頻功能Curve Shaper,本質上是Curve Optimizer的增強版本,允許用戶進行3個溫度和5個頻率,共計15個方案的頻率和電壓曲線調整。
在性能上,AMD自然也不忘與Intel Core i9-14900K、Core i7-14700K以及Core i5-14600K進行對比。AMD Ryzen 9 9900X相對Core i9-14900K在UL Procyon Office中提升了2%,但在利用AVX-512指令的HandBrake負載中擁有41%的提升。
Ryzen 7 9700X相對Core i7-14700K提升幅度相當明顯,包括7-Zip,UL Procyon Office和HandBrake全方位的提升。同時游戲上也有4%到31%提升的收益。
Ryzen 5 9600X相對Core i5-14600K也是類似的情況,包括HandBrake性能提升94%,主要利用了AVX-512性能。游戲測試中提升達到5%到29%。
AMD表示他們提升了CPU的整體熱阻,相對Ryzen 7000系列提升了15%,并降低了Ryzen 9000系列的工作溫度。在相同TDP下,平均工作溫度降低7%。因此除了Ryzen 9 9950X,新系列所有產品均降低了TDP,例如Ryzen 9 7900X僅為170W TDP,Ryzen 9 9900X 120W TDP,Ryzen 7和Ryzen 5 65W TDP。
與此同時,Zen 5同樣支持AM5平臺,包括X670E、X670、B650E和B650主板,雖然新一波的AM5主板對應X870E、X870、B850、B840蓄勢待發,如果想第一時間入手,600系列仍然是第一選擇。
讓NPU達到50 TOPS
AMD Ryzen AI 300 Strix Point與之前Ryzen 8040 Hawk Point相比,最大的進步增強了NPU。在2020年,AMD收購了賽靈思Xilinx,通過整合Xilinx技術從而啟動了NPU開發,形成了最初的AMD XDNA架構。AMD Ryzen AI 300則為XDNA 2,進一步增強了擴展和性能,包括引入對塊浮點16bit算法(Block FP16),通常情況下,半精度浮點數(FP16)用于減少存儲和處理需求,但可能犧牲了一定的數值精度。塊浮點16bit方法通過提升數據結構,以實現更好的性能和更接近完整精度的數值表現。同時,AMD表示這種方法結合了8bit的性能和16bit精確性。
與其他神經網絡精度優化類似,Block FP16的目的是減少所需的計算工作量,在處理INT8數據時可以通過原生的方式應對,而非通過FP16兼容實現,從而提升速率和優化性能。當然,Block FP16本身不是一項新技術,只是AMD成為第一個將其納入NPU范疇的廠商,未來英特爾Lunar Lake也會使用類似的設計。
AMD XDNA架構與多核處理器典型設計其實不太一樣,XDNA必須將靈活計算與自適應內存層次結構結合,與固定計算模型或者靜態內存層次結構模型相比,Ryzen AI XDNA引入了AIE(AI Engine,AI引擎)網絡進行互聯,每個引擎都能動態適應手頭的任務,包括分配計算資源和內存資源,從而實現資源分配的效率和擴展性。
AMD將這套AIE連接方式稱為空間架構(Spatial Architecture),它的設計具有很強的靈活性,同時將平鋪數據流結構與可編程互聯、靈活分區想結合,平鋪數據流結構可以實現確定性性能,避免了緩存未命中帶來的性能波動。這是因為每個任務的數據和計算可以在預定義的貼片(Tile)內完全控制和處理,不依賴于緩存。
此外,空間架構還有助于優化內存管理,減少對內存帶寬需求,滿足AI推理任務,包括實時視頻和音頻處理,內容創作工作流的不同要求。
XDNA 2架構可以理解為基于XDNA的升級版本,并增加了更多AI引擎以提升吞吐量。AMD Ryzen AI 300 Strix Point的XDNA 2中可包含32個AI引擎貼片Tile,必上一代多了12個,并且每個Tile的乘法累加器(Multiply-Accumulate,MAC)數量提升了一倍,片上內存提升了1.6倍。最終讓NPU的性能達到50 TOPS,超過目前英特爾和高通的產品,同時符合微軟對Copilot+設定的40 TOPS的標準。
XDNA 2除了提升TOPS,在電源效率上也有顯著提升。AMD表示相對于Ryzen 7040中的NPU,XDNA 2 NPU可以用2倍的能效獲得5倍的計算性能,能夠幫助筆記本獲得更長的電池續航,也能夠在多任務處理時最多實現8個并發空間流。
簡單的說,Ryzen AI 300中的XDNA 2 NPU實際上是通過分配AI工作負載,以更節能的方式運行微軟Copilot+等離線AI功能,并且由于同時提供INT8和FP16的計算支持,也給了開發人員更多的調用硬件空間,從而發揮最高50 TOPS的NPU性能。從而也進一步確保AMD作為第一家在x86上使用NPU的廠商的領先地位。
核顯的進階
Ryzen AI 300的另一個進階就是RDNA 3.5的核顯圖形架構。RDNA 3.5相對RDNA 3有著顯著升級,一方面是AMD與ISV開發人員密切合作,以提高RDNA 3.5在游戲中的每瓦性能。其中包括改善常規圖形著色器,減少內存訪問時間,同時也確保在離電環境下進一步延長移動設備的續航時間。
與RDNA 3相比,RDNA 3.5著重針對了移動平臺優化,確保了Ryzen AI 300中Radeon 890M在能效和性能上有長足的進步,包括RDNA 3.5的插值和比較率提高了兩倍,這對于處理高質量圖形非常重要。插值操作能夠平滑地處理圖像中的細節和過渡效果,而比較率則影響到處理復雜圖像算法時的效率和精度。同時也優化向量指令集架構(ISA),以獲得進一步的圖形展現能力。
RDNA 3.5還優化了LPDDR5內存訪問的頻率,讓其在整體上更節能。在最終工作負載體現上,RDNA 3.5有著更強的表現,相比Ryzen 8040核顯每瓦性能提升了32%,特別是在15W功耗下,3DMark Timespy和3DMark Night Raid提升達到了19%到32%。
目前Ryzen AI 300系列的筆記本已經開賣,相比驍龍X Elite搭配Windows on Arm被限制應用場景,基于x86平臺的Ryzen AI 300和即將到來的臺式機CPU Ryzen 9000系列,會幫助我們進一步加速進入AI PC時代。特別是對于依賴iGPU和NPU的輕薄型筆記本和游戲掌機而言,能在移動端獲得更強的的性能無疑是讓人振奮的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.