網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英特爾Lunar Lake淺析：架構(gòu)推倒重來(lái)，AI性能猛增

2024-06-05 20:53:01　來(lái)源: 愛(ài)極物

上海舉報(bào)

分享至

在歷經(jīng)PC行情反復(fù)，ARM陣營(yíng)異軍突起之后，COMPUTEX 2024成為了一個(gè)很有意思的節(jié)點(diǎn)，前有Windows on ARM和高通驍龍X Elite蓄勢(shì)待發(fā)，后有AMD啟勢(shì)搶占市場(chǎng)份額，英特爾當(dāng)下在消費(fèi)級(jí)市場(chǎng)已經(jīng)開(kāi)始面對(duì)來(lái)自多方面壓力。好在帕特·基辛格在掌舵之時(shí)很早意識(shí)到了這一點(diǎn)，四年五個(gè)節(jié)點(diǎn)制程計(jì)劃和引入臺(tái)積電代工，讓英特爾重新開(kāi)啟追擊的態(tài)勢(shì)，第二代酷睿Ultra，Lunar Lake正是在這樣的環(huán)境下誕生。

如果說(shuō)第一代酷睿Ultra Meteor Lake是對(duì)CPU架構(gòu)的大改，那么Lunar Lake幾乎是推倒重來(lái)的，無(wú)論是P-Core的Lion Cove，E-Core的Skymont，與獨(dú)顯架構(gòu)看齊的Xe2核顯，NPU 4，臺(tái)積電N3B+N6工藝，還是首次將LPDDR5X內(nèi)存放在封裝內(nèi)，所有的設(shè)計(jì)與以往大相徑庭。

Lunar Lake也被英特爾寄予厚望，比如它繼續(xù)英特爾推進(jìn)AI PC輕薄型筆記本的AI性能表現(xiàn)，特別是集成的NPU 4達(dá)到了48 TOPS，是Meteor Lake NPU 3的11.5 TOPS的4倍左右。

在這個(gè)看中AI性能、續(xù)航、媒體性能的大趨勢(shì)下，Lunar Lake應(yīng)該可以有什么樣期待，它會(huì)對(duì)今年第三季度以后發(fā)布的筆記本產(chǎn)生什么樣的影響，筆記本電腦格局還會(huì)發(fā)生什么改變？趁著技術(shù)解禁，不妨讓我們一窺Lunar Lake的架構(gòu)。

為了方便閱讀，我們將Lunar Lake的大致變化和特點(diǎn)放在第一章節(jié)，如果你時(shí)間有限，看完第一章概覽即可，如果感興趣，文章其余的章節(jié)可以給你提供更詳盡的細(xì)節(jié)。

概覽：英特爾設(shè)計(jì)，臺(tái)積電立功

Lunar Lake的設(shè)計(jì)和制造是一個(gè)很有意思的組合，英特爾讓芯片設(shè)計(jì)團(tuán)隊(duì)自主選擇他們覺(jué)得最好的生產(chǎn)方案，放飛的Lunar Lake選擇了分別使用臺(tái)積電N3B和N6工藝生產(chǎn)兩個(gè)模塊（Tile），即臺(tái)積電N3B負(fù)責(zé)計(jì)算模塊（Compute tile），臺(tái)積電N6負(fù)責(zé)平臺(tái)控制模塊（Platform Controller tile）。

同時(shí)放飛的還有超線程技術(shù)，是的，Lunar Lake不支持超線程，多少個(gè)核心即為多少個(gè)線程，第9代酷睿的時(shí)候，英特爾也曾經(jīng)嘗試在桌面端取消了Core i9-9900K之外的超線程技術(shù)，達(dá)到產(chǎn)品區(qū)分的目的。但在Lunar Lake上，設(shè)計(jì)團(tuán)隊(duì)主要出于執(zhí)行效率和能耗考慮而取消，英特爾認(rèn)為能耗翻倍換取多30%線程性能增加，遠(yuǎn)沒(méi)有提升E-Core性能來(lái)得直接，這里后續(xù)我們會(huì)進(jìn)行詳細(xì)說(shuō)明。

Lunar Lake將擁有4個(gè)P-Core，4個(gè)E-Core，共計(jì)8線程，即4P+4E/8T。在計(jì)算核心架構(gòu)上，P-Core和E-Core都發(fā)生了巨大的變化，其中P-Core采用了全新的Lion Cove架構(gòu)，E-Core則使用了Skymont架構(gòu)，不僅代替了原來(lái)的Cresmont，還放棄了Core Ultra上出現(xiàn)的LP E-Core設(shè)計(jì)。重點(diǎn)是，E-Core之間也不像P-Core那般使用Ring總線連接，而是讓其具備LP E-Core的特性，并配合臺(tái)積電N3B制程效率和新架構(gòu)設(shè)計(jì)下每周期指令數(shù)（Instructions Per Cycle，IPC）提升，從而獲得顯著的增益效果。

連接計(jì)算模塊（Compute tile）和平臺(tái)控制模塊（Platform Controller tile）的部分則使用了英特爾引以為傲的Foveros封裝技術(shù)，并將兩個(gè)模塊連接到一個(gè)基礎(chǔ)模塊（Base tile）上，完成更高效和更節(jié)能的連接方式。

不僅如此，內(nèi)存也首次直接被封裝到Lunar Lake中，在CPU上半部分包含了2個(gè)64bit 32GB LPDDR5X內(nèi)存，總共128bit 32GB，這樣的變化意味著未來(lái)輕薄本的用戶(hù)不再能自行添加內(nèi)存。

在AI方面，英特爾啟用了全新的NPU 4，在INT 8上的性能可以達(dá)到48 TOPS，以實(shí)現(xiàn)微軟的Copilot+ AI PC標(biāo)準(zhǔn)，從而滿(mǎn)足未來(lái)的AI PC性能。但Lunar Lake也并非只有NPU提供AI計(jì)算性能，核顯Arc Xe2-LPG也帶來(lái)了更強(qiáng)的AI算力，總計(jì)達(dá)到120 TOPS，但全負(fù)荷運(yùn)行耗電量會(huì)增多，在輕薄本使用過(guò)程中，通常會(huì)根據(jù)實(shí)際負(fù)載進(jìn)行取舍。

與此同時(shí)，英特爾與微軟合作將英特爾硬件線程調(diào)度器（Intel Thread Director，ITD）進(jìn)行了增強(qiáng)，旨在與微軟Windows Copilot以及其他AI助手進(jìn)行針對(duì)性?xún)?yōu)化，考慮到Lunar Lake推出時(shí)間在今年第三季度，現(xiàn)在硬件和軟件廠商已經(jīng)在優(yōu)化和調(diào)用上著手準(zhǔn)備起來(lái)了。

英特爾硬件線程調(diào)度器（Intel Thread Director，ITD）承擔(dān)著更重要的電源管理和能耗控制工作。因?yàn)樵谶^(guò)去幾年中，AMD在PC領(lǐng)域的施壓只是其次，更大的壓力其實(shí)來(lái)自于Arm、蘋(píng)果M系列芯片對(duì)傳統(tǒng)筆記本體驗(yàn)和續(xù)航的顛覆，在COMPUTEX 2024上，Arm CEO雷內(nèi)·哈斯（Rene Haas）已經(jīng)放出豪言，目標(biāo)是在五年之內(nèi)拿下Windows PC市場(chǎng)超過(guò)50%的份額。同時(shí)高通驍龍X Elite已經(jīng)開(kāi)始實(shí)裝微軟Surface Pro 11，未來(lái)更多品牌的高通驍龍X Elite筆記本也開(kāi)始蓄勢(shì)待發(fā)。

這時(shí)候Lunar Lake的電源管理和能耗表現(xiàn)就顯得非常重要了。在分配策略上，由于流程比Meteor Lake更為直接，Lunar Lake只需要調(diào)用E-Core和P-Core即可，即最初任務(wù)都會(huì)先分配給E-Core，在根據(jù)需要的時(shí)候分配給E-Core和P-Core。同時(shí)系統(tǒng)也會(huì)對(duì)某些特定任務(wù)指定內(nèi)核工作，配合Windows 11實(shí)現(xiàn)以最小功耗完成最高效率的目的。

例如當(dāng)視頻會(huì)議結(jié)束進(jìn)入視頻保存環(huán)節(jié)，這個(gè)過(guò)程無(wú)需P-Core參與，E-Core就能在后臺(tái)實(shí)現(xiàn)，從而達(dá)到能耗節(jié)省的目的，這個(gè)操作需要操作系統(tǒng)、應(yīng)用、調(diào)度器共同完成。

Lunar Lake還擁有著一套電源管理系統(tǒng)（Internal Power Managemant），用來(lái)平衡效率、性能模式，與前面提到的硬件性能調(diào)度器ITD一起，共同實(shí)現(xiàn)能效平衡。同時(shí)在調(diào)度中，英特爾也進(jìn)一步增加應(yīng)用場(chǎng)景的顆粒度，通過(guò)AI調(diào)度提示和Windows 11跨內(nèi)核IP調(diào)度完成更靈活多變的工作負(fù)載。

可以這么理解，Lunar Lake是英特爾架構(gòu)設(shè)計(jì)團(tuán)隊(duì)與臺(tái)積電制造工藝合作下產(chǎn)生的一款令人興奮的產(chǎn)品，在接下來(lái)幾個(gè)章節(jié)中，我們會(huì)逐一對(duì)P-Core、E-Core、NPU、Are Xe2-LPG核顯進(jìn)行逐一介紹。

P-Core：進(jìn)擊的Lion Cove

P-Core的性能提升來(lái)自于全新的Lion Cove架構(gòu)做出的重大改變。Lion Cove使用了全新的多層數(shù)據(jù)緩存設(shè)計(jì)，包含1個(gè)具備4周期延遲的48KB L0D緩存，1個(gè)9周期延遲的192KB L1D緩存，以及1個(gè)17周期的3MB L2緩存。這意味著在9個(gè)時(shí)鐘周期內(nèi)，可以獲得L0D+L1D的240KB緩存。相比上一代Meteor Lake P-Core的Redwood Cove架構(gòu)，9個(gè)時(shí)鐘周期內(nèi)只能有48KB緩存。不僅如此，數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū)（DTLB）也進(jìn)行了修訂，其深度從96頁(yè)增加到128頁(yè)，以提高其命中率。

與此同時(shí)，英特爾還增加了第三個(gè)地址生成單元（Address Generation Unit，AGU）以進(jìn)一步提升存儲(chǔ)性能。負(fù)載單元和存儲(chǔ)單元管道數(shù)量均達(dá)到3個(gè)，在英特爾大部分架構(gòu)中，負(fù)載單元通常多于存儲(chǔ)單元。

可以看到英特爾正在嘗試在CPU設(shè)計(jì)中投入更多的緩存設(shè)計(jì)來(lái)解決性能問(wèn)題，特別是隨著CPU系統(tǒng)設(shè)計(jì)愈發(fā)復(fù)雜，緩存子系統(tǒng)有必要跟進(jìn)增加，以保持其正常運(yùn)行，從而成為提升性能與執(zhí)行效率的關(guān)鍵。

P-Core Lion Cove架構(gòu)還采用了一種全新的前端方式來(lái)處理指令，包括預(yù)測(cè)塊的大小增加了8倍，擁有更廣泛的提取和更大的解碼帶寬，Uops緩存容量（Micro-operations，存儲(chǔ)微操作，Uops）和讀取帶寬大幅增加，UOP隊(duì)列（UOP queue）也對(duì)等增加，從而提高了整體執(zhí)行吞吐量。

在執(zhí)行過(guò)程中，Lion Cove的亂序引擎被劃分成了整數(shù)（INT）和矢量（VEC）兩個(gè)域，均具備獨(dú)立的重命名和調(diào)度功能。這種劃分方式能讓每個(gè)域可以獨(dú)立增長(zhǎng)，并且對(duì)于特定領(lǐng)域的工作負(fù)載有助于減少功耗。

亂序引擎從6寬度分配/重命名（Allocation/Rename）增加到8寬度，由于處理器流水線中，指令的執(zhí)行是一個(gè)多階段的過(guò)程，當(dāng)一條指令完成了其所需的所有操作后，它就會(huì)從亂序引擎中退役（Retirement），以便為下一條指令騰出空間，從而實(shí)現(xiàn)更高的并行度和效率。這里英特爾將8寬度退役增加到12寬度，確保更多的指令可以在同一時(shí)間段內(nèi)完成執(zhí)行并離開(kāi)亂序引擎，進(jìn)一步提高了處理器的性能。

同時(shí)深度指令窗口（Deep Instruction Window）從512條增加到576條，執(zhí)行端口從12增加到18個(gè)。這些變化使得流水線更加穩(wěn)定和靈活。

然后是整數(shù)ALU單元（Arithmetic Logic Unit）。Lion Cove整數(shù)ALU單元的數(shù)量從5個(gè)增加到了6個(gè)，跳轉(zhuǎn)單元（Jump Units）從2個(gè)增加到了3個(gè)，移位單元（Shift Units）也從2個(gè)增加到了3個(gè)。乘法單元從64x64提升到了64，數(shù)量從1個(gè)增加到了3個(gè)。

更厲害的是，P-Core數(shù)據(jù)庫(kù)做了重大調(diào)整，英特爾將其稱(chēng)為芯片設(shè)計(jì)的重大變革，甚至?xí)钸h(yuǎn)影響到未來(lái)的迭代。這屬于分區(qū)（Partition）定義上的重大變化，在以往，英特爾把分區(qū)（Partition）切分得很零散，每個(gè)小分區(qū)（small partition）可能包含成千上萬(wàn)個(gè)單元（cell），這導(dǎo)致了分區(qū)之間的關(guān)聯(lián)性較弱，以及分區(qū)內(nèi)部的單元數(shù)量過(guò)多，可能會(huì)增加設(shè)計(jì)的復(fù)雜性和管理難度。

在Lion Cove中，英特爾將設(shè)計(jì)重心放在創(chuàng)建更大規(guī)模的分區(qū)（Partition）。每個(gè)大模塊分區(qū)都包含數(shù)十萬(wàn)甚至數(shù)百萬(wàn)個(gè)單元（Cell），這時(shí)候，處理器設(shè)計(jì)中的物理邊界減少了。換句話(huà)說(shuō)，現(xiàn)在每個(gè)分區(qū)內(nèi)部的連接線路，都代表著一個(gè)物理邊界。

這樣的大模塊設(shè)計(jì)的工具和理念引入后，物理邊界減少帶來(lái)利用率和硅片面積效率的提升，設(shè)計(jì)團(tuán)隊(duì)可以更輕松地進(jìn)行處理器的集成整合，降低了整體的設(shè)計(jì)成本和復(fù)雜度。不僅如此，減少了物理邊界也使得處理器設(shè)計(jì)的迭代變得更加容易。因?yàn)槟K之間的耦合性降低，修改或調(diào)整一個(gè)模塊不太可能對(duì)其他模塊產(chǎn)生重大影響，這使得設(shè)計(jì)團(tuán)隊(duì)可以更快地進(jìn)行迭代和優(yōu)化，從而讓未來(lái)的迭代升級(jí)變得更為容易。

Lion Cove在架構(gòu)上的變化讓Lunar Lake P-Core的IPC（Instructions Per Cycle，每個(gè)時(shí)鐘周期指令數(shù)）提升幅度達(dá)到了30%，動(dòng)態(tài)電源效率提升了20%。換而言之，在不增加核心面的前提下，就能獲得更好的效能平衡，可以讓英特爾在現(xiàn)有的物理約束條件下獲得更好的性能表現(xiàn)。

不僅如此，Lion Cove的功耗管理也引入了人工智能（AI）調(diào)節(jié)控制器用來(lái)代替原來(lái)的固定檔位調(diào)節(jié)。AI能夠以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)操作條件，以實(shí)現(xiàn)更高的持續(xù)性能。以往的固定檔位調(diào)節(jié)只能以100MHz進(jìn)行調(diào)整，現(xiàn)在更細(xì)的時(shí)鐘粒度可以做到16.67MHz為一個(gè)間隔，從而獲得更好的功耗管理。

從直面上看，Lion Cove所打造的P-Core無(wú)疑有明顯的進(jìn)步，無(wú)論是緩存系統(tǒng)還是功耗管理設(shè)計(jì)，可以在不提升頻率的前提下，給IPC帶來(lái)了顯著提升。但不提升頻率使得這一代P-Core增加超線程技術(shù)的收益遞減，同時(shí)耗電量會(huì)增加。正因?yàn)槿绱?，我們?cè)贚unar Lake上會(huì)暫別超線程技術(shù)。

E-Core：比上一代P-Core還強(qiáng)的Skymont

按照英特爾的說(shuō)法，Skymont架構(gòu)打造的E-Core能夠與上一代P-Core性能持平，甚至在部分工作場(chǎng)景下戰(zhàn)斗力更勝一籌。

同樣，Skymont也使用了全新的設(shè)計(jì)。包括在一個(gè)時(shí)鐘周期內(nèi)同時(shí)解碼并執(zhí)行9條指令，也就是9寬解碼，比上一代E-Core的Crestmont架構(gòu)增加了50%。通常而已，解碼階段的寬度越大，處理器的性能越高，可以更有效地利用其資源，加快指令的執(zhí)行速度。

9寬解碼是由一套更大的微操作隊(duì)列提供支持的。每個(gè)微操作代表處理器內(nèi)部的一條指令或操作，微操作隊(duì)列的容量代表可以同時(shí)存儲(chǔ)和處理的微操作數(shù)量。Skymont的9寬解碼微操作隊(duì)列數(shù)量達(dá)到了96個(gè)條目，對(duì)比之下，上一代Crestmont只有64個(gè)條目。與此同時(shí)，英特爾還使用了Nanocode方案讓每個(gè)解碼集群獲得更多的微碼并行性，使其能夠更有效地執(zhí)行指令流。

然后是亂序執(zhí)行引擎。Skymont的亂序執(zhí)行發(fā)生了重大變化，分派給執(zhí)行單元的指令數(shù)量增加至8條，即分配寬度增加至8寬，退役（Retirement）擴(kuò)展至16寬，意味著可以最多16條指令并行完成執(zhí)行。

這樣的設(shè)計(jì)讓Skymont可以更有效地同時(shí)發(fā)布和執(zhí)行多個(gè)指令，可以不依賴(lài)先前的指令結(jié)果執(zhí)行后續(xù)指令，從而減少由指令之間的依賴(lài)關(guān)系導(dǎo)致的延遲。

此外，Skymont將在排隊(duì)和緩沖能力方面將重新排序緩沖區(qū)加深至416個(gè)條目，而之前的版本為256個(gè)。此外，物理寄存器文件（PRF）和預(yù)約站（Reservation Station）的大小也已經(jīng)增加，這使得核心能夠處理更多正在執(zhí)行的指令，從而提高指令執(zhí)行的并行性。

與此同時(shí)，Skymont的用于向執(zhí)行單元發(fā)送指令的分派端口（Dispatch Ports）增加到26個(gè)，其中有8個(gè)用于整數(shù)算術(shù)邏輯（ALU），3個(gè)用于跳轉(zhuǎn)操作，3個(gè)用于每周期加載操作，確保資源可以靈活分配。

還有4個(gè)128bit的FP（Floating Point，浮點(diǎn)數(shù)）和SIMD（Single Instruction Multiple Data，單指令多數(shù)據(jù)流）向量操作，使得每秒浮點(diǎn)操作次數(shù)翻倍，并減少了浮點(diǎn)操作的延遲。

英特爾還重新設(shè)計(jì)了緩存系統(tǒng)，一組4MB L2緩存提供給4個(gè)核心共享，L2緩存帶寬增加到每個(gè)周期128B，進(jìn)而降低訪問(wèn)延遲，提升數(shù)據(jù)吞吐量。

這里英特爾展示了架構(gòu)修改后的效果。其中功耗效率得到了明顯提升，單線程性能提升1.7倍的情況下，功耗僅為Meteor Lake LP E-Core的三分之一。

如果用Skymont E-Core集群與Meteor Lake以及LP E-Core同時(shí)比較，功耗相同的情況下，多線程性能提升2.9倍。

這樣的設(shè)計(jì)無(wú)論移動(dòng)端還是桌面端都奏效。Skymont E-Core配置非常靈活，不僅可以在移動(dòng)端方案中降低能耗，也可以在桌面端提升多線程吞吐量。

如果與上一代的Raptor Cove P-Core相比，Skymont E-Core的單線程工作負(fù)載中，整數(shù)和浮點(diǎn)計(jì)算性能提高了2%，但功耗和發(fā)熱與之前相同，實(shí)打?qū)嵉倪@一代E-Core打上一代P-Core。

Skymont架構(gòu)的變化接下來(lái)移動(dòng)端和桌面端升級(jí)都做好了鋪墊，特別是解碼、執(zhí)行、內(nèi)存子系統(tǒng)和功耗效率的明顯提升，以及更高的IPC收益，都給后續(xù)的產(chǎn)品提升提供了廣闊空間。

NPU 4：翻了4倍AI性能

NPU是英特爾近段時(shí)間推廣的重點(diǎn)。Lunar Lake上NPU也取得了明顯提升，因此取名NPU 4，性能相當(dāng)于Meteor Lake NPU 3的4倍，達(dá)到48 TOPS。而NPU 4提升的重點(diǎn)在于相對(duì)NPU 3在神經(jīng)處理能力、效率、頻率、功耗架構(gòu)和引擎上的全面提升，進(jìn)步也相當(dāng)明顯。

NPU 4矢量性能本質(zhì)上利用更多計(jì)算模塊來(lái)實(shí)現(xiàn)。新架構(gòu)下，NPU 4支持INT 8每個(gè)周期2048個(gè)MAC（Multiply-Accumulate，乘法累加）計(jì)算，F(xiàn)P16每個(gè)周期1024個(gè)MAC計(jì)算，效率顯著提升。

同時(shí)NPU 4中的分層也有所增加。每個(gè)神經(jīng)計(jì)算引擎中都嵌入了推理管道，包括MAC陣列和用于不同類(lèi)型計(jì)算的專(zhuān)屬DSP（Digital Signal Processor），并且是為多并行操作而構(gòu)建的。針對(duì)矢量計(jì)算優(yōu)化的SHAVE DSP在NPU 4中起到了至關(guān)重要的作用，讓NPU 4矢量計(jì)算性能相比NPU 3提升4倍，能夠處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。

不僅如此，NPU 4提升了時(shí)鐘頻率，并引入了一個(gè)新的節(jié)點(diǎn)，讓NPU 4在與NPU 3相同的功率下性能提升了1倍，峰值性能提升2倍。MAC陣列還具有更高效的數(shù)據(jù)轉(zhuǎn)換功能，能夠?qū)崿F(xiàn)動(dòng)態(tài)數(shù)據(jù)類(lèi)型轉(zhuǎn)換、融合操作、輸出數(shù)據(jù)布局，以最小的延遲實(shí)現(xiàn)數(shù)據(jù)流的最佳效果。

另外NPU 4的帶寬改進(jìn)對(duì)于更大規(guī)模的模型和數(shù)據(jù)集處理更為重要，特別是在基于Transformer語(yǔ)言模型應(yīng)用中，NPU 4通過(guò)更高的數(shù)據(jù)流降低數(shù)據(jù)瓶頸進(jìn)而實(shí)現(xiàn)平穩(wěn)運(yùn)行。NPU 4的DMA（Direct Memory Access，直接訪問(wèn)內(nèi)存）引擎帶寬翻倍，也讓其對(duì)大模型處理更為有效。此外，NPU 4還加入了嵌入標(biāo)記等功能，并支持激活函數(shù)，可選擇精度來(lái)實(shí)現(xiàn)不同的浮點(diǎn)計(jì)算，應(yīng)對(duì)更復(fù)雜的神經(jīng)網(wǎng)絡(luò)脫離模型。

由于MAC陣列可以在單個(gè)周期內(nèi)處理2048個(gè)INT8和1024個(gè)FP16的乘法累加計(jì)算，并且寬度達(dá)到512bit，在一個(gè)時(shí)鐘周期內(nèi)，NPU 4的矢量運(yùn)算效率非常高。

SHAVE DSP可以讓NPU 4帶來(lái)4倍的TOPS，12倍于NPU 3的矢量計(jì)算性能，也對(duì)于Transformer語(yǔ)言模型和大語(yǔ)言模型LLM而言非常有用。

基本上而言，NPU 4相對(duì)NPU 3性能提升是非常巨大的，包括12倍的矢量性能，IP帶寬提升2倍，也會(huì)成為后續(xù)AI PC性能提升殺手锏。

Xe2：新核顯，很能打

現(xiàn)在進(jìn)入喜聞樂(lè)見(jiàn)的核顯環(huán)節(jié)。Lunar Lake所采用的Arc Xe2-LPG將會(huì)承擔(dān)游戲、AI、媒體引擎工作等重要功能，也是提升PC體驗(yàn)的重點(diǎn)模塊之一。由于之前提到的大規(guī)模分區(qū)設(shè)計(jì)緣故，GPU與媒體部分也不再是相互獨(dú)立的部分，而是與其他計(jì)算單元融合在一起。

相比Meteor Lake的Xe-LPG，Xe2-LPG提供了67 TOPS的INT8性能和更多的光線追蹤單元，在圖形性能上相對(duì)Xe-LPG提升了1.5倍，并采用了全新的XMX引擎，增強(qiáng)的XeSS內(nèi)核等等。

從核心數(shù)量上來(lái)看，Xe2-LPG依然包含了8個(gè)Xe核心，但是核心寬度增加，并提供了固定功能單元與其配對(duì)。

按照計(jì)劃，Xe2架構(gòu)將來(lái)也會(huì)應(yīng)用到下一代Arc GPU Battlemage設(shè)計(jì)中，包括加入XVE矢量引擎、更高效的XMX引擎等。XMX矩陣單元同樣作為MAC乘法累加計(jì)算使用，原本是獨(dú)顯Arc GPU的獨(dú)占部分，現(xiàn)在也應(yīng)用到Xe2-LPG中，讓其具備類(lèi)似于NVIDIA Tensor Core的AI推理性能，利用專(zhuān)屬的硬件提升游戲中XeSS分辨率超采樣的效率。在此之前的Xe-LPG利用的是DP4a指令實(shí)現(xiàn)，效率自然是跟不上硬件的XMX矩陣的。

Xe2中的Xe核心包含8個(gè)512bit矢量引擎，相比上一代Xe的16個(gè)矢量引擎減少了一半，另一半用來(lái)放前面提到的2048bit XMX矩陣引擎來(lái)實(shí)現(xiàn)更好的運(yùn)算支持。XMX矩陣引擎包含INT2、INT4、INT8以及FP16、BF16在內(nèi)精度計(jì)算，并對(duì)FP64提供支持，從而實(shí)現(xiàn)對(duì)更豐富的推理模型的兼容。

由于XMX引擎支持Int8 4096 OPS/clock和FP16 2048 OPS/clock算力，遠(yuǎn)高于XVE矢量引擎，在重負(fù)荷AI加速中，Xe2將扮演最重要的角色，成為新一代Core Ultra 120 TOPS AI算力的核心角色。

繼續(xù)向下延伸就是構(gòu)成Xe核心部分之一的渲染切片（Render Slice）。新的渲染切片引入了對(duì)于Excute Indirect的支持，原來(lái)3D任務(wù)需要CPU把指令給到GPU，然后由GPU去運(yùn)算執(zhí)行，而在Excute Indirect功能支持下，部分命令可以直接在GPU本地執(zhí)行，不需要CPU一條條告訴GPU做什么，而是GPU本身就具備Draw、Dispatch的能力，這些命令可以直接在GPU里直接完成。此外，幾何單元改進(jìn)達(dá)成頂點(diǎn)獲?。╒ertex Fetch）吞吐提升3倍，mesh shading性能提升3倍。

此外，緩存部分的壓縮率和吞吐量也有了明顯提升，包括提升了L1 Cache的利用率，Sampling吞吐提升2倍，Pixel Color Cache提升1.33倍等等。

另外Xe RTU光線追蹤單元也進(jìn)行了拓寬，提供三條遍歷通道，18 x Box intersections和2 x Triangle intersections計(jì)算，能夠更快速地進(jìn)行盒子和三角形之間的交叉檢測(cè)。其中Box intersections是指單元在光線與盒子或者說(shuō)包圍體積相交時(shí)所能處理的數(shù)量，Triangle intersection指代光線與三角形相交時(shí)所能處理的數(shù)量。

從整體上來(lái)看，Xe2-LPG總共包含2個(gè)渲染切片，8個(gè)Xe核心，64個(gè)矢量引擎，64個(gè)XMX引擎，8MB L2緩存，在性能提升上，比上一代已經(jīng)很強(qiáng)的Meteor Lake綜合性能再提升1.5倍。

英特爾還強(qiáng)調(diào)Lunar Lake可以在15W功耗之下就能完全發(fā)揮Xe2核顯的性能，比Meteor Lake的25W優(yōu)秀得多，這一代Meteor Lake用作游戲掌機(jī)已經(jīng)非?？梢粤耍磥?lái)未來(lái)更多Windows游戲掌機(jī)不再是夢(mèng)。

Xe2-LPG提供了更靈活的輸出方式，顯示引擎可以相互組合實(shí)現(xiàn)多流傳輸，從而實(shí)現(xiàn)靈活的接口配置。并且英特爾還專(zhuān)門(mén)提供了一個(gè)eDP端口，為高性能、高刷新率、高分辨率顯示器提供硬件支持。

其中Xe2的eDisplayPort 1.5集成了自適應(yīng)同步和選擇性更新機(jī)制的面板重放功能。這有助于通過(guò)僅刷新屏幕變化的部分而不是整個(gè)顯示器來(lái)降低功耗。這些創(chuàng)新不僅節(jié)省了能源，還通過(guò)減少顯示延遲和提高同步精度來(lái)改善視覺(jué)體驗(yàn)。

描繪像素處理管線是英特爾顯示引擎的基本基礎(chǔ)之一，為高級(jí)顏色轉(zhuǎn)換和合成提供了每個(gè)管線六個(gè)平面。此外，它還集成了硬件支持的顏色增強(qiáng)、顯示縮放、像素調(diào)整和HDR感知量化，確保屏幕上的圖形色彩鮮艷準(zhǔn)確。該設(shè)計(jì)相當(dāng)靈活，高度節(jié)能，并且經(jīng)過(guò)性能優(yōu)化，能夠支持各種輸入和輸出格式，至少在理論上是如此。到目前為止，英特爾尚未提供任何可量化的功耗指標(biāo)、TDP或其他功耗元素參考。

對(duì)于壓縮和編碼，Xe2架構(gòu)可以無(wú)損擴(kuò)展3:1的顯示流壓縮，包括HDMI 2.1、DisplayPort 1.5的傳輸編碼協(xié)議，降低數(shù)據(jù)負(fù)載，并保持高分辨率輸出。

與此同時(shí)，Xe2還使用了VVC編解碼器（H.266），這相對(duì)AV1而言又是一個(gè)大的進(jìn)步?？梢詫⑽募笮≡賶嚎s10%，并支持全景視頻和自適應(yīng)分辨率編碼，對(duì)于網(wǎng)絡(luò)視頻而言更為重要。

從成體而言，Xe2不僅引入了更強(qiáng)的獨(dú)立GPU架構(gòu)，并且提升了GPU和媒體引擎性能，從而確保Intel平臺(tái)筆記本在圖形性能，特別是媒體性能上的優(yōu)勢(shì)。

連接性：原生支持Wi-Fi 7

最后再來(lái)說(shuō)說(shuō)筆記本更為看重的連接性。Lunar Lake的優(yōu)勢(shì)在于支持原生的Thunderbolt 4連接，全新的Thunderbolt Share功能，并且將Wi-Fi 7的支持放到了芯片里。

Thunderbolt 4表現(xiàn)比Thunderbolt 3更好毋庸置疑，重點(diǎn)在于提供了更好的連接性和顯示輸出帶寬，原生支持Thunderbolt 4的好處在于，現(xiàn)在Lunar Lake的筆記本最高可以獲得3個(gè)Thunderbolt接口，從而實(shí)現(xiàn)更靈活的筆記本擴(kuò)展。

另外一個(gè)改進(jìn)則是在應(yīng)對(duì)視頻編輯、大文件傳輸時(shí)，Thunderbolt 4也可以有更快的響應(yīng)速度，避免外接PSSD的時(shí)候出現(xiàn)響應(yīng)之后的尷尬。

Thunderbolt Share則是近段時(shí)間提出來(lái)，并直接融合到Lunar Lake中的技術(shù)，它可以做到允許PC以60FPS的速度向其他PC共享屏幕、畫(huà)面、鍵盤(pán)、鼠標(biāo)和存儲(chǔ)，是的，兩個(gè)筆記本互插Thunderbolt就可以傳輸文件了，這可是筆者年少時(shí)候的夢(mèng)想。

另外一個(gè)重要更新就是Wi-Fi 7也繼承到了Lunar Lake中。Wi-Fi 7的好處在于允許用戶(hù)處理寬帶密集型任務(wù)的時(shí)候，也可以提供穩(wěn)定的無(wú)線連接。同時(shí)Wi-Fi 7還包括射頻干擾緩解、時(shí)鐘頻率自動(dòng)調(diào)諧，提升無(wú)線網(wǎng)絡(luò)性能等功能。

英特爾表示還將與Meta合作，通過(guò)Wi-Fi 7增強(qiáng)VR體驗(yàn)，讓VR也進(jìn)入畫(huà)面無(wú)線傳輸、高可靠、低延遲的時(shí)代，這對(duì)于VR設(shè)備而言無(wú)疑是非常利好的。

其中重點(diǎn)還是在于原生支持，只要OEM廠商不過(guò)分閹割，下一代筆記本將會(huì)直接獲得Wi-Fi 7、Thunderbolt 4和Thunderbolt Share功能，從而提升筆記本的易用度。顯然下半年，家里的路由器也可以考慮升級(jí)到Wi-Fi 7了。

寫(xiě)在最后：Q3見(jiàn)英雄

無(wú)論是架構(gòu)、制程工藝，Lunar Lake給與的變化近乎是翻天覆地的。這讓上市不到一年的Meteor Lake產(chǎn)品剛剛開(kāi)賣(mài)就感到了壓力，顯然在競(jìng)爭(zhēng)對(duì)手們壓力下，英特爾已然加速了更新步伐。

Lunar Lake是一款完全偏向于效能移動(dòng)端的產(chǎn)品，它要以x86的身份對(duì)抗蘋(píng)果M系列、Arm、高通驍龍X的挑戰(zhàn)，即便Windows on ARM聽(tīng)起來(lái)很美好，關(guān)鍵時(shí)刻某個(gè)軟件低效或者打不開(kāi)，還是讓人頭疼不已，更不要提在輕薄本上開(kāi)個(gè)Steam，暢快玩耍完整的游戲列表。這份工作現(xiàn)在依然只有x86可以勝任。

Lunar Lake要做的就是在擁有很好兼容性前提下，續(xù)航、使用體驗(yàn)與精簡(jiǎn)指令集的新勢(shì)力們看齊，利用大刀闊斧的設(shè)計(jì)和不拘一格的選用最合適的臺(tái)積電制程，帶來(lái)了120 TOPS AI性能，更長(zhǎng)的續(xù)航表現(xiàn)，更強(qiáng)的核顯，將會(huì)成為第三季度以后發(fā)布的筆記本新品的基本盤(pán)，32GB LPDDR5X和Xe2-LPG的廣泛應(yīng)用都會(huì)讓輕薄本顯得更為能打。

同時(shí)也讓我們更為期待接下來(lái)面向桌面端Arrow Lake的戰(zhàn)斗力，畢竟狠起來(lái)連自己產(chǎn)品都能敢大動(dòng)刀的英特爾，完全是值得期待的。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.