在歷經(jīng)PC行情反復(fù),ARM陣營(yíng)異軍突起之后,COMPUTEX 2024成為了一個(gè)很有意思的節(jié)點(diǎn),前有Windows on ARM和高通驍龍X Elite蓄勢(shì)待發(fā),后有AMD啟勢(shì)搶占市場(chǎng)份額,英特爾當(dāng)下在消費(fèi)級(jí)市場(chǎng)已經(jīng)開(kāi)始面對(duì)來(lái)自多方面壓力。好在帕特·基辛格在掌舵之時(shí)很早意識(shí)到了這一點(diǎn),四年五個(gè)節(jié)點(diǎn)制程計(jì)劃和引入臺(tái)積電代工,讓英特爾重新開(kāi)啟追擊的態(tài)勢(shì),第二代酷睿Ultra,Lunar Lake正是在這樣的環(huán)境下誕生。
如果說(shuō)第一代酷睿Ultra Meteor Lake是對(duì)CPU架構(gòu)的大改,那么Lunar Lake幾乎是推倒重來(lái)的,無(wú)論是P-Core的Lion Cove,E-Core的Skymont,與獨(dú)顯架構(gòu)看齊的Xe2核顯,NPU 4,臺(tái)積電N3B+N6工藝,還是首次將LPDDR5X內(nèi)存放在封裝內(nèi),所有的設(shè)計(jì)與以往大相徑庭。
Lunar Lake也被英特爾寄予厚望,比如它繼續(xù)英特爾推進(jìn)AI PC輕薄型筆記本的AI性能表現(xiàn),特別是集成的NPU 4達(dá)到了48 TOPS,是Meteor Lake NPU 3的11.5 TOPS的4倍左右。
在這個(gè)看中AI性能、續(xù)航、媒體性能的大趨勢(shì)下,Lunar Lake應(yīng)該可以有什么樣期待,它會(huì)對(duì)今年第三季度以后發(fā)布的筆記本產(chǎn)生什么樣的影響,筆記本電腦格局還會(huì)發(fā)生什么改變?趁著技術(shù)解禁,不妨讓我們一窺Lunar Lake的架構(gòu)。
為了方便閱讀,我們將Lunar Lake的大致變化和特點(diǎn)放在第一章節(jié),如果你時(shí)間有限,看完第一章概覽即可,如果感興趣,文章其余的章節(jié)可以給你提供更詳盡的細(xì)節(jié)。
概覽:英特爾設(shè)計(jì),臺(tái)積電立功
Lunar Lake的設(shè)計(jì)和制造是一個(gè)很有意思的組合,英特爾讓芯片設(shè)計(jì)團(tuán)隊(duì)自主選擇他們覺(jué)得最好的生產(chǎn)方案,放飛的Lunar Lake選擇了分別使用臺(tái)積電N3B和N6工藝生產(chǎn)兩個(gè)模塊(Tile),即臺(tái)積電N3B負(fù)責(zé)計(jì)算模塊(Compute tile),臺(tái)積電N6負(fù)責(zé)平臺(tái)控制模塊(Platform Controller tile)。
同時(shí)放飛的還有超線程技術(shù),是的,Lunar Lake不支持超線程,多少個(gè)核心即為多少個(gè)線程,第9代酷睿的時(shí)候,英特爾也曾經(jīng)嘗試在桌面端取消了Core i9-9900K之外的超線程技術(shù),達(dá)到產(chǎn)品區(qū)分的目的。但在Lunar Lake上,設(shè)計(jì)團(tuán)隊(duì)主要出于執(zhí)行效率和能耗考慮而取消,英特爾認(rèn)為能耗翻倍換取多30%線程性能增加,遠(yuǎn)沒(méi)有提升E-Core性能來(lái)得直接,這里后續(xù)我們會(huì)進(jìn)行詳細(xì)說(shuō)明。
Lunar Lake將擁有4個(gè)P-Core,4個(gè)E-Core,共計(jì)8線程,即4P+4E/8T。在計(jì)算核心架構(gòu)上,P-Core和E-Core都發(fā)生了巨大的變化,其中P-Core采用了全新的Lion Cove架構(gòu),E-Core則使用了Skymont架構(gòu),不僅代替了原來(lái)的Cresmont,還放棄了Core Ultra上出現(xiàn)的LP E-Core設(shè)計(jì)。重點(diǎn)是,E-Core之間也不像P-Core那般使用Ring總線連接,而是讓其具備LP E-Core的特性,并配合臺(tái)積電N3B制程效率和新架構(gòu)設(shè)計(jì)下每周期指令數(shù)(Instructions Per Cycle,IPC)提升,從而獲得顯著的增益效果。
連接計(jì)算模塊(Compute tile)和平臺(tái)控制模塊(Platform Controller tile)的部分則使用了英特爾引以為傲的Foveros封裝技術(shù),并將兩個(gè)模塊連接到一個(gè)基礎(chǔ)模塊(Base tile)上,完成更高效和更節(jié)能的連接方式。
不僅如此,內(nèi)存也首次直接被封裝到Lunar Lake中,在CPU上半部分包含了2個(gè)64bit 32GB LPDDR5X內(nèi)存,總共128bit 32GB,這樣的變化意味著未來(lái)輕薄本的用戶(hù)不再能自行添加內(nèi)存。
在AI方面,英特爾啟用了全新的NPU 4,在INT 8上的性能可以達(dá)到48 TOPS,以實(shí)現(xiàn)微軟的Copilot+ AI PC標(biāo)準(zhǔn),從而滿(mǎn)足未來(lái)的AI PC性能。但Lunar Lake也并非只有NPU提供AI計(jì)算性能,核顯Arc Xe2-LPG也帶來(lái)了更強(qiáng)的AI算力,總計(jì)達(dá)到120 TOPS,但全負(fù)荷運(yùn)行耗電量會(huì)增多,在輕薄本使用過(guò)程中,通常會(huì)根據(jù)實(shí)際負(fù)載進(jìn)行取舍。
與此同時(shí),英特爾與微軟合作將英特爾硬件線程調(diào)度器(Intel Thread Director,ITD)進(jìn)行了增強(qiáng),旨在與微軟Windows Copilot以及其他AI助手進(jìn)行針對(duì)性?xún)?yōu)化,考慮到Lunar Lake推出時(shí)間在今年第三季度,現(xiàn)在硬件和軟件廠商已經(jīng)在優(yōu)化和調(diào)用上著手準(zhǔn)備起來(lái)了。
英特爾硬件線程調(diào)度器(Intel Thread Director,ITD)承擔(dān)著更重要的電源管理和能耗控制工作。因?yàn)樵谶^(guò)去幾年中,AMD在PC領(lǐng)域的施壓只是其次,更大的壓力其實(shí)來(lái)自于Arm、蘋(píng)果M系列芯片對(duì)傳統(tǒng)筆記本體驗(yàn)和續(xù)航的顛覆,在COMPUTEX 2024上,Arm CEO雷內(nèi)·哈斯(Rene Haas)已經(jīng)放出豪言,目標(biāo)是在五年之內(nèi)拿下Windows PC市場(chǎng)超過(guò)50%的份額。同時(shí)高通驍龍X Elite已經(jīng)開(kāi)始實(shí)裝微軟Surface Pro 11,未來(lái)更多品牌的高通驍龍X Elite筆記本也開(kāi)始蓄勢(shì)待發(fā)。
這時(shí)候Lunar Lake的電源管理和能耗表現(xiàn)就顯得非常重要了。在分配策略上,由于流程比Meteor Lake更為直接,Lunar Lake只需要調(diào)用E-Core和P-Core即可,即最初任務(wù)都會(huì)先分配給E-Core,在根據(jù)需要的時(shí)候分配給E-Core和P-Core。同時(shí)系統(tǒng)也會(huì)對(duì)某些特定任務(wù)指定內(nèi)核工作,配合Windows 11實(shí)現(xiàn)以最小功耗完成最高效率的目的。
例如當(dāng)視頻會(huì)議結(jié)束進(jìn)入視頻保存環(huán)節(jié),這個(gè)過(guò)程無(wú)需P-Core參與,E-Core就能在后臺(tái)實(shí)現(xiàn),從而達(dá)到能耗節(jié)省的目的,這個(gè)操作需要操作系統(tǒng)、應(yīng)用、調(diào)度器共同完成。
Lunar Lake還擁有著一套電源管理系統(tǒng)(Internal Power Managemant),用來(lái)平衡效率、性能模式,與前面提到的硬件性能調(diào)度器ITD一起,共同實(shí)現(xiàn)能效平衡。同時(shí)在調(diào)度中,英特爾也進(jìn)一步增加應(yīng)用場(chǎng)景的顆粒度,通過(guò)AI調(diào)度提示和Windows 11跨內(nèi)核IP調(diào)度完成更靈活多變的工作負(fù)載。
可以這么理解,Lunar Lake是英特爾架構(gòu)設(shè)計(jì)團(tuán)隊(duì)與臺(tái)積電制造工藝合作下產(chǎn)生的一款令人興奮的產(chǎn)品,在接下來(lái)幾個(gè)章節(jié)中,我們會(huì)逐一對(duì)P-Core、E-Core、NPU、Are Xe2-LPG核顯進(jìn)行逐一介紹。
P-Core:進(jìn)擊的Lion Cove
P-Core的性能提升來(lái)自于全新的Lion Cove架構(gòu)做出的重大改變。Lion Cove使用了全新的多層數(shù)據(jù)緩存設(shè)計(jì),包含1個(gè)具備4周期延遲的48KB L0D緩存,1個(gè)9周期延遲的192KB L1D緩存,以及1個(gè)17周期的3MB L2緩存。這意味著在9個(gè)時(shí)鐘周期內(nèi),可以獲得L0D+L1D的240KB緩存。相比上一代Meteor Lake P-Core的Redwood Cove架構(gòu),9個(gè)時(shí)鐘周期內(nèi)只能有48KB緩存。不僅如此,數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū)(DTLB)也進(jìn)行了修訂,其深度從96頁(yè)增加到128頁(yè),以提高其命中率。
與此同時(shí),英特爾還增加了第三個(gè)地址生成單元(Address Generation Unit,AGU)以進(jìn)一步提升存儲(chǔ)性能。負(fù)載單元和存儲(chǔ)單元管道數(shù)量均達(dá)到3個(gè),在英特爾大部分架構(gòu)中,負(fù)載單元通常多于存儲(chǔ)單元。
可以看到英特爾正在嘗試在CPU設(shè)計(jì)中投入更多的緩存設(shè)計(jì)來(lái)解決性能問(wèn)題,特別是隨著CPU系統(tǒng)設(shè)計(jì)愈發(fā)復(fù)雜,緩存子系統(tǒng)有必要跟進(jìn)增加,以保持其正常運(yùn)行,從而成為提升性能與執(zhí)行效率的關(guān)鍵。
P-Core Lion Cove架構(gòu)還采用了一種全新的前端方式來(lái)處理指令,包括預(yù)測(cè)塊的大小增加了8倍,擁有更廣泛的提取和更大的解碼帶寬,Uops緩存容量(Micro-operations,存儲(chǔ)微操作,Uops)和讀取帶寬大幅增加,UOP隊(duì)列(UOP queue)也對(duì)等增加,從而提高了整體執(zhí)行吞吐量。
在執(zhí)行過(guò)程中,Lion Cove的亂序引擎被劃分成了整數(shù)(INT)和矢量(VEC)兩個(gè)域,均具備獨(dú)立的重命名和調(diào)度功能。這種劃分方式能讓每個(gè)域可以獨(dú)立增長(zhǎng),并且對(duì)于特定領(lǐng)域的工作負(fù)載有助于減少功耗。
亂序引擎從6寬度分配/重命名(Allocation/Rename)增加到8寬度,由于處理器流水線中,指令的執(zhí)行是一個(gè)多階段的過(guò)程,當(dāng)一條指令完成了其所需的所有操作后,它就會(huì)從亂序引擎中退役(Retirement),以便為下一條指令騰出空間,從而實(shí)現(xiàn)更高的并行度和效率。這里英特爾將8寬度退役增加到12寬度,確保更多的指令可以在同一時(shí)間段內(nèi)完成執(zhí)行并離開(kāi)亂序引擎,進(jìn)一步提高了處理器的性能。
同時(shí)深度指令窗口(Deep Instruction Window)從512條增加到576條,執(zhí)行端口從12增加到18個(gè)。這些變化使得流水線更加穩(wěn)定和靈活。
然后是整數(shù)ALU單元(Arithmetic Logic Unit)。Lion Cove整數(shù)ALU單元的數(shù)量從5個(gè)增加到了6個(gè),跳轉(zhuǎn)單元(Jump Units)從2個(gè)增加到了3個(gè),移位單元(Shift Units)也從2個(gè)增加到了3個(gè)。乘法單元從64x64提升到了64,數(shù)量從1個(gè)增加到了3個(gè)。
更厲害的是,P-Core數(shù)據(jù)庫(kù)做了重大調(diào)整,英特爾將其稱(chēng)為芯片設(shè)計(jì)的重大變革,甚至?xí)钸h(yuǎn)影響到未來(lái)的迭代。這屬于分區(qū)(Partition)定義上的重大變化,在以往,英特爾把分區(qū)(Partition)切分得很零散,每個(gè)小分區(qū)(small partition)可能包含成千上萬(wàn)個(gè)單元(cell),這導(dǎo)致了分區(qū)之間的關(guān)聯(lián)性較弱,以及分區(qū)內(nèi)部的單元數(shù)量過(guò)多,可能會(huì)增加設(shè)計(jì)的復(fù)雜性和管理難度。
在Lion Cove中,英特爾將設(shè)計(jì)重心放在創(chuàng)建更大規(guī)模的分區(qū)(Partition)。每個(gè)大模塊分區(qū)都包含數(shù)十萬(wàn)甚至數(shù)百萬(wàn)個(gè)單元(Cell),這時(shí)候,處理器設(shè)計(jì)中的物理邊界減少了。換句話(huà)說(shuō),現(xiàn)在每個(gè)分區(qū)內(nèi)部的連接線路,都代表著一個(gè)物理邊界。
這樣的大模塊設(shè)計(jì)的工具和理念引入后,物理邊界減少帶來(lái)利用率和硅片面積效率的提升,設(shè)計(jì)團(tuán)隊(duì)可以更輕松地進(jìn)行處理器的集成整合,降低了整體的設(shè)計(jì)成本和復(fù)雜度。不僅如此,減少了物理邊界也使得處理器設(shè)計(jì)的迭代變得更加容易。因?yàn)槟K之間的耦合性降低,修改或調(diào)整一個(gè)模塊不太可能對(duì)其他模塊產(chǎn)生重大影響,這使得設(shè)計(jì)團(tuán)隊(duì)可以更快地進(jìn)行迭代和優(yōu)化,從而讓未來(lái)的迭代升級(jí)變得更為容易。
Lion Cove在架構(gòu)上的變化讓Lunar Lake P-Core的IPC(Instructions Per Cycle,每個(gè)時(shí)鐘周期指令數(shù))提升幅度達(dá)到了30%,動(dòng)態(tài)電源效率提升了20%。換而言之,在不增加核心面的前提下,就能獲得更好的效能平衡,可以讓英特爾在現(xiàn)有的物理約束條件下獲得更好的性能表現(xiàn)。
不僅如此,Lion Cove的功耗管理也引入了人工智能(AI)調(diào)節(jié)控制器用來(lái)代替原來(lái)的固定檔位調(diào)節(jié)。AI能夠以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)操作條件,以實(shí)現(xiàn)更高的持續(xù)性能。以往的固定檔位調(diào)節(jié)只能以100MHz進(jìn)行調(diào)整,現(xiàn)在更細(xì)的時(shí)鐘粒度可以做到16.67MHz為一個(gè)間隔,從而獲得更好的功耗管理。
從直面上看,Lion Cove所打造的P-Core無(wú)疑有明顯的進(jìn)步,無(wú)論是緩存系統(tǒng)還是功耗管理設(shè)計(jì),可以在不提升頻率的前提下,給IPC帶來(lái)了顯著提升。但不提升頻率使得這一代P-Core增加超線程技術(shù)的收益遞減,同時(shí)耗電量會(huì)增加。正因?yàn)槿绱?,我們?cè)贚unar Lake上會(huì)暫別超線程技術(shù)。
E-Core:比上一代P-Core還強(qiáng)的Skymont
按照英特爾的說(shuō)法,Skymont架構(gòu)打造的E-Core能夠與上一代P-Core性能持平,甚至在部分工作場(chǎng)景下戰(zhàn)斗力更勝一籌。
同樣,Skymont也使用了全新的設(shè)計(jì)。包括在一個(gè)時(shí)鐘周期內(nèi)同時(shí)解碼并執(zhí)行9條指令,也就是9寬解碼,比上一代E-Core的Crestmont架構(gòu)增加了50%。通常而已,解碼階段的寬度越大,處理器的性能越高,可以更有效地利用其資源,加快指令的執(zhí)行速度。
9寬解碼是由一套更大的微操作隊(duì)列提供支持的。每個(gè)微操作代表處理器內(nèi)部的一條指令或操作,微操作隊(duì)列的容量代表可以同時(shí)存儲(chǔ)和處理的微操作數(shù)量。Skymont的9寬解碼微操作隊(duì)列數(shù)量達(dá)到了96個(gè)條目,對(duì)比之下,上一代Crestmont只有64個(gè)條目。與此同時(shí),英特爾還使用了Nanocode方案讓每個(gè)解碼集群獲得更多的微碼并行性,使其能夠更有效地執(zhí)行指令流。
然后是亂序執(zhí)行引擎。Skymont的亂序執(zhí)行發(fā)生了重大變化,分派給執(zhí)行單元的指令數(shù)量增加至8條,即分配寬度增加至8寬,退役(Retirement)擴(kuò)展至16寬,意味著可以最多16條指令并行完成執(zhí)行。
這樣的設(shè)計(jì)讓Skymont可以更有效地同時(shí)發(fā)布和執(zhí)行多個(gè)指令,可以不依賴(lài)先前的指令結(jié)果執(zhí)行后續(xù)指令,從而減少由指令之間的依賴(lài)關(guān)系導(dǎo)致的延遲。
此外,Skymont將在排隊(duì)和緩沖能力方面將重新排序緩沖區(qū)加深至416個(gè)條目,而之前的版本為256個(gè)。此外,物理寄存器文件(PRF)和預(yù)約站(Reservation Station)的大小也已經(jīng)增加,這使得核心能夠處理更多正在執(zhí)行的指令,從而提高指令執(zhí)行的并行性。
與此同時(shí),Skymont的用于向執(zhí)行單元發(fā)送指令的分派端口(Dispatch Ports)增加到26個(gè),其中有8個(gè)用于整數(shù)算術(shù)邏輯(ALU),3個(gè)用于跳轉(zhuǎn)操作,3個(gè)用于每周期加載操作,確保資源可以靈活分配。
還有4個(gè)128bit的FP(Floating Point,浮點(diǎn)數(shù))和SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù)流)向量操作,使得每秒浮點(diǎn)操作次數(shù)翻倍,并減少了浮點(diǎn)操作的延遲。
英特爾還重新設(shè)計(jì)了緩存系統(tǒng),一組4MB L2緩存提供給4個(gè)核心共享,L2緩存帶寬增加到每個(gè)周期128B,進(jìn)而降低訪問(wèn)延遲,提升數(shù)據(jù)吞吐量。
這里英特爾展示了架構(gòu)修改后的效果。其中功耗效率得到了明顯提升,單線程性能提升1.7倍的情況下,功耗僅為Meteor Lake LP E-Core的三分之一。
如果用Skymont E-Core集群與Meteor Lake以及LP E-Core同時(shí)比較,功耗相同的情況下,多線程性能提升2.9倍。
這樣的設(shè)計(jì)無(wú)論移動(dòng)端還是桌面端都奏效。Skymont E-Core配置非常靈活,不僅可以在移動(dòng)端方案中降低能耗,也可以在桌面端提升多線程吞吐量。
如果與上一代的Raptor Cove P-Core相比,Skymont E-Core的單線程工作負(fù)載中,整數(shù)和浮點(diǎn)計(jì)算性能提高了2%,但功耗和發(fā)熱與之前相同,實(shí)打?qū)嵉倪@一代E-Core打上一代P-Core。
Skymont架構(gòu)的變化接下來(lái)移動(dòng)端和桌面端升級(jí)都做好了鋪墊,特別是解碼、執(zhí)行、內(nèi)存子系統(tǒng)和功耗效率的明顯提升,以及更高的IPC收益,都給后續(xù)的產(chǎn)品提升提供了廣闊空間。
NPU 4:翻了4倍AI性能
NPU是英特爾近段時(shí)間推廣的重點(diǎn)。Lunar Lake上NPU也取得了明顯提升,因此取名NPU 4,性能相當(dāng)于Meteor Lake NPU 3的4倍,達(dá)到48 TOPS。而NPU 4提升的重點(diǎn)在于相對(duì)NPU 3在神經(jīng)處理能力、效率、頻率、功耗架構(gòu)和引擎上的全面提升,進(jìn)步也相當(dāng)明顯。
NPU 4矢量性能本質(zhì)上利用更多計(jì)算模塊來(lái)實(shí)現(xiàn)。新架構(gòu)下,NPU 4支持INT 8每個(gè)周期2048個(gè)MAC(Multiply-Accumulate,乘法累加)計(jì)算,F(xiàn)P16每個(gè)周期1024個(gè)MAC計(jì)算,效率顯著提升。
同時(shí)NPU 4中的分層也有所增加。每個(gè)神經(jīng)計(jì)算引擎中都嵌入了推理管道,包括MAC陣列和用于不同類(lèi)型計(jì)算的專(zhuān)屬DSP(Digital Signal Processor),并且是為多并行操作而構(gòu)建的。針對(duì)矢量計(jì)算優(yōu)化的SHAVE DSP在NPU 4中起到了至關(guān)重要的作用,讓NPU 4矢量計(jì)算性能相比NPU 3提升4倍,能夠處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
不僅如此,NPU 4提升了時(shí)鐘頻率,并引入了一個(gè)新的節(jié)點(diǎn),讓NPU 4在與NPU 3相同的功率下性能提升了1倍,峰值性能提升2倍。MAC陣列還具有更高效的數(shù)據(jù)轉(zhuǎn)換功能,能夠?qū)崿F(xiàn)動(dòng)態(tài)數(shù)據(jù)類(lèi)型轉(zhuǎn)換、融合操作、輸出數(shù)據(jù)布局,以最小的延遲實(shí)現(xiàn)數(shù)據(jù)流的最佳效果。
另外NPU 4的帶寬改進(jìn)對(duì)于更大規(guī)模的模型和數(shù)據(jù)集處理更為重要,特別是在基于Transformer語(yǔ)言模型應(yīng)用中,NPU 4通過(guò)更高的數(shù)據(jù)流降低數(shù)據(jù)瓶頸進(jìn)而實(shí)現(xiàn)平穩(wěn)運(yùn)行。NPU 4的DMA(Direct Memory Access,直接訪問(wèn)內(nèi)存)引擎帶寬翻倍,也讓其對(duì)大模型處理更為有效。此外,NPU 4還加入了嵌入標(biāo)記等功能,并支持激活函數(shù),可選擇精度來(lái)實(shí)現(xiàn)不同的浮點(diǎn)計(jì)算,應(yīng)對(duì)更復(fù)雜的神經(jīng)網(wǎng)絡(luò)脫離模型。
由于MAC陣列可以在單個(gè)周期內(nèi)處理2048個(gè)INT8和1024個(gè)FP16的乘法累加計(jì)算,并且寬度達(dá)到512bit,在一個(gè)時(shí)鐘周期內(nèi),NPU 4的矢量運(yùn)算效率非常高。
SHAVE DSP可以讓NPU 4帶來(lái)4倍的TOPS,12倍于NPU 3的矢量計(jì)算性能,也對(duì)于Transformer語(yǔ)言模型和大語(yǔ)言模型LLM而言非常有用。
基本上而言,NPU 4相對(duì)NPU 3性能提升是非常巨大的,包括12倍的矢量性能,IP帶寬提升2倍,也會(huì)成為后續(xù)AI PC性能提升殺手锏。
Xe2:新核顯,很能打
現(xiàn)在進(jìn)入喜聞樂(lè)見(jiàn)的核顯環(huán)節(jié)。Lunar Lake所采用的Arc Xe2-LPG將會(huì)承擔(dān)游戲、AI、媒體引擎工作等重要功能,也是提升PC體驗(yàn)的重點(diǎn)模塊之一。由于之前提到的大規(guī)模分區(qū)設(shè)計(jì)緣故,GPU與媒體部分也不再是相互獨(dú)立的部分,而是與其他計(jì)算單元融合在一起。
相比Meteor Lake的Xe-LPG,Xe2-LPG提供了67 TOPS的INT8性能和更多的光線追蹤單元,在圖形性能上相對(duì)Xe-LPG提升了1.5倍,并采用了全新的XMX引擎,增強(qiáng)的XeSS內(nèi)核等等。
從核心數(shù)量上來(lái)看,Xe2-LPG依然包含了8個(gè)Xe核心,但是核心寬度增加,并提供了固定功能單元與其配對(duì)。
按照計(jì)劃,Xe2架構(gòu)將來(lái)也會(huì)應(yīng)用到下一代Arc GPU Battlemage設(shè)計(jì)中,包括加入XVE矢量引擎、更高效的XMX引擎等。XMX矩陣單元同樣作為MAC乘法累加計(jì)算使用,原本是獨(dú)顯Arc GPU的獨(dú)占部分,現(xiàn)在也應(yīng)用到Xe2-LPG中,讓其具備類(lèi)似于NVIDIA Tensor Core的AI推理性能,利用專(zhuān)屬的硬件提升游戲中XeSS分辨率超采樣的效率。在此之前的Xe-LPG利用的是DP4a指令實(shí)現(xiàn),效率自然是跟不上硬件的XMX矩陣的。
Xe2中的Xe核心包含8個(gè)512bit矢量引擎,相比上一代Xe的16個(gè)矢量引擎減少了一半,另一半用來(lái)放前面提到的2048bit XMX矩陣引擎來(lái)實(shí)現(xiàn)更好的運(yùn)算支持。XMX矩陣引擎包含INT2、INT4、INT8以及FP16、BF16在內(nèi)精度計(jì)算,并對(duì)FP64提供支持,從而實(shí)現(xiàn)對(duì)更豐富的推理模型的兼容。
由于XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力,遠(yuǎn)高于XVE矢量引擎,在重負(fù)荷AI加速中,Xe2將扮演最重要的角色,成為新一代Core Ultra 120 TOPS AI算力的核心角色。
繼續(xù)向下延伸就是構(gòu)成Xe核心部分之一的渲染切片(Render Slice)。新的渲染切片引入了對(duì)于Excute Indirect的支持,原來(lái)3D任務(wù)需要CPU把指令給到GPU,然后由GPU去運(yùn)算執(zhí)行,而在Excute Indirect功能支持下,部分命令可以直接在GPU本地執(zhí)行,不需要CPU一條條告訴GPU做什么,而是GPU本身就具備Draw、Dispatch的能力,這些命令可以直接在GPU里直接完成。此外,幾何單元改進(jìn)達(dá)成頂點(diǎn)獲?。╒ertex Fetch)吞吐提升3倍,mesh shading性能提升3倍。
此外,緩存部分的壓縮率和吞吐量也有了明顯提升,包括提升了L1 Cache的利用率,Sampling吞吐提升2倍,Pixel Color Cache提升1.33倍等等。
另外Xe RTU光線追蹤單元也進(jìn)行了拓寬,提供三條遍歷通道,18 x Box intersections和2 x Triangle intersections計(jì)算,能夠更快速地進(jìn)行盒子和三角形之間的交叉檢測(cè)。其中Box intersections是指單元在光線與盒子或者說(shuō)包圍體積相交時(shí)所能處理的數(shù)量,Triangle intersection指代光線與三角形相交時(shí)所能處理的數(shù)量。
從整體上來(lái)看,Xe2-LPG總共包含2個(gè)渲染切片,8個(gè)Xe核心,64個(gè)矢量引擎,64個(gè)XMX引擎,8MB L2緩存,在性能提升上,比上一代已經(jīng)很強(qiáng)的Meteor Lake綜合性能再提升1.5倍。
英特爾還強(qiáng)調(diào)Lunar Lake可以在15W功耗之下就能完全發(fā)揮Xe2核顯的性能,比Meteor Lake的25W優(yōu)秀得多,這一代Meteor Lake用作游戲掌機(jī)已經(jīng)非??梢粤耍磥?lái)未來(lái)更多Windows游戲掌機(jī)不再是夢(mèng)。
Xe2-LPG提供了更靈活的輸出方式,顯示引擎可以相互組合實(shí)現(xiàn)多流傳輸,從而實(shí)現(xiàn)靈活的接口配置。并且英特爾還專(zhuān)門(mén)提供了一個(gè)eDP端口,為高性能、高刷新率、高分辨率顯示器提供硬件支持。
其中Xe2的eDisplayPort 1.5集成了自適應(yīng)同步和選擇性更新機(jī)制的面板重放功能。這有助于通過(guò)僅刷新屏幕變化的部分而不是整個(gè)顯示器來(lái)降低功耗。這些創(chuàng)新不僅節(jié)省了能源,還通過(guò)減少顯示延遲和提高同步精度來(lái)改善視覺(jué)體驗(yàn)。
描繪像素處理管線是英特爾顯示引擎的基本基礎(chǔ)之一,為高級(jí)顏色轉(zhuǎn)換和合成提供了每個(gè)管線六個(gè)平面。此外,它還集成了硬件支持的顏色增強(qiáng)、顯示縮放、像素調(diào)整和HDR感知量化,確保屏幕上的圖形色彩鮮艷準(zhǔn)確。該設(shè)計(jì)相當(dāng)靈活,高度節(jié)能,并且經(jīng)過(guò)性能優(yōu)化,能夠支持各種輸入和輸出格式,至少在理論上是如此。到目前為止,英特爾尚未提供任何可量化的功耗指標(biāo)、TDP或其他功耗元素參考。
對(duì)于壓縮和編碼,Xe2架構(gòu)可以無(wú)損擴(kuò)展3:1的顯示流壓縮,包括HDMI 2.1、DisplayPort 1.5的傳輸編碼協(xié)議,降低數(shù)據(jù)負(fù)載,并保持高分辨率輸出。
與此同時(shí),Xe2還使用了VVC編解碼器(H.266),這相對(duì)AV1而言又是一個(gè)大的進(jìn)步??梢詫⑽募笮≡賶嚎s10%,并支持全景視頻和自適應(yīng)分辨率編碼,對(duì)于網(wǎng)絡(luò)視頻而言更為重要。
從成體而言,Xe2不僅引入了更強(qiáng)的獨(dú)立GPU架構(gòu),并且提升了GPU和媒體引擎性能,從而確保Intel平臺(tái)筆記本在圖形性能,特別是媒體性能上的優(yōu)勢(shì)。
連接性:原生支持Wi-Fi 7
最后再來(lái)說(shuō)說(shuō)筆記本更為看重的連接性。Lunar Lake的優(yōu)勢(shì)在于支持原生的Thunderbolt 4連接,全新的Thunderbolt Share功能,并且將Wi-Fi 7的支持放到了芯片里。
Thunderbolt 4表現(xiàn)比Thunderbolt 3更好毋庸置疑,重點(diǎn)在于提供了更好的連接性和顯示輸出帶寬,原生支持Thunderbolt 4的好處在于,現(xiàn)在Lunar Lake的筆記本最高可以獲得3個(gè)Thunderbolt接口,從而實(shí)現(xiàn)更靈活的筆記本擴(kuò)展。
另外一個(gè)改進(jìn)則是在應(yīng)對(duì)視頻編輯、大文件傳輸時(shí),Thunderbolt 4也可以有更快的響應(yīng)速度,避免外接PSSD的時(shí)候出現(xiàn)響應(yīng)之后的尷尬。
Thunderbolt Share則是近段時(shí)間提出來(lái),并直接融合到Lunar Lake中的技術(shù),它可以做到允許PC以60FPS的速度向其他PC共享屏幕、畫(huà)面、鍵盤(pán)、鼠標(biāo)和存儲(chǔ),是的,兩個(gè)筆記本互插Thunderbolt就可以傳輸文件了,這可是筆者年少時(shí)候的夢(mèng)想。
另外一個(gè)重要更新就是Wi-Fi 7也繼承到了Lunar Lake中。Wi-Fi 7的好處在于允許用戶(hù)處理寬帶密集型任務(wù)的時(shí)候,也可以提供穩(wěn)定的無(wú)線連接。同時(shí)Wi-Fi 7還包括射頻干擾緩解、時(shí)鐘頻率自動(dòng)調(diào)諧,提升無(wú)線網(wǎng)絡(luò)性能等功能。
英特爾表示還將與Meta合作,通過(guò)Wi-Fi 7增強(qiáng)VR體驗(yàn),讓VR也進(jìn)入畫(huà)面無(wú)線傳輸、高可靠、低延遲的時(shí)代,這對(duì)于VR設(shè)備而言無(wú)疑是非常利好的。
其中重點(diǎn)還是在于原生支持,只要OEM廠商不過(guò)分閹割,下一代筆記本將會(huì)直接獲得Wi-Fi 7、Thunderbolt 4和Thunderbolt Share功能,從而提升筆記本的易用度。顯然下半年,家里的路由器也可以考慮升級(jí)到Wi-Fi 7了。
寫(xiě)在最后:Q3見(jiàn)英雄
無(wú)論是架構(gòu)、制程工藝,Lunar Lake給與的變化近乎是翻天覆地的。這讓上市不到一年的Meteor Lake產(chǎn)品剛剛開(kāi)賣(mài)就感到了壓力,顯然在競(jìng)爭(zhēng)對(duì)手們壓力下,英特爾已然加速了更新步伐。
Lunar Lake是一款完全偏向于效能移動(dòng)端的產(chǎn)品,它要以x86的身份對(duì)抗蘋(píng)果M系列、Arm、高通驍龍X的挑戰(zhàn),即便Windows on ARM聽(tīng)起來(lái)很美好,關(guān)鍵時(shí)刻某個(gè)軟件低效或者打不開(kāi),還是讓人頭疼不已,更不要提在輕薄本上開(kāi)個(gè)Steam,暢快玩耍完整的游戲列表。這份工作現(xiàn)在依然只有x86可以勝任。
Lunar Lake要做的就是在擁有很好兼容性前提下,續(xù)航、使用體驗(yàn)與精簡(jiǎn)指令集的新勢(shì)力們看齊,利用大刀闊斧的設(shè)計(jì)和不拘一格的選用最合適的臺(tái)積電制程,帶來(lái)了120 TOPS AI性能,更長(zhǎng)的續(xù)航表現(xiàn),更強(qiáng)的核顯,將會(huì)成為第三季度以后發(fā)布的筆記本新品的基本盤(pán),32GB LPDDR5X和Xe2-LPG的廣泛應(yīng)用都會(huì)讓輕薄本顯得更為能打。
同時(shí)也讓我們更為期待接下來(lái)面向桌面端Arrow Lake的戰(zhàn)斗力,畢竟狠起來(lái)連自己產(chǎn)品都能敢大動(dòng)刀的英特爾,完全是值得期待的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.