隨著AI展現出愈發強大的性能,以及摩爾定律走向式微,用AI算力來代替傳統的硬件堆疊悄然成為業界共識,并快速滲透到游戲、創意內容、工程與設計中,AI帶來的便利性很快受到了各方認可。
而NVIDIA對于前沿用戶的潛在需求是非常敏銳的,在Hopper和Ada Lovelace微架構之后,NVIDIA在2024年3月18日的GTC 2024主題演講中正式公布了Blackwell架構,并在CES 2025上將其帶入消費級產品線,GeForce RTX 50系列GPU應運而生。
Blackwell微架構命名源自于統計學家和數學家David H. Blackwell,以紀念他在博弈論、概率論、信息論和統計學領域做出的重大貢獻。有意思的是,這些領域也直接或者間接推動了基于Transformer模型的生成式AI模型設計和算法訓練,從而也奠定了NVIDIA Blackwell GPU中DLSS Transformers的基礎,形成了奇妙的閉環。
統計學家和數學家David H. Blackwell
NVIDIA Blackwell在工藝進程節點上變化不算太大,采用了臺積電定制的4NP節點制造,相當于Hopper和Ada Lovelace的4N工藝節點的加強版,在原有的基礎上添加一定的金屬層,從而獲得更高的效率。因此基于Blackwell架構的完整GB100芯片擁有1040億個晶體管,相比Hopper GH100 GPU的800億個晶體管數量,增加了30%。
消費端頂配的GeForce RTX 5090和GeForce RTX 5090 D使用的是GB202芯片,擁有922億個晶體管,芯片面積Die Size達到750mm2,比GeForce RTX 4090的AD102大20%。
很顯然,這塊型號名為GB202的Blackwell架構GPU在未來一段時間直接代表著消費端發燒友、游戲玩家最高的體驗水準,它的設計基于什么樣的理念出發,如何在成本可控的范圍內顯著的提升效率,玩家是如何從中獲得畫質、流暢度體驗,都是本篇內容嘗試探討的問題。
在CES 2025期間,筆者有幸參加了GeForce RTX 5090為主題的NVIDIA Editors Day,挖掘Blackwell GPU背后的諸多細節。按照慣例,如果趕時間,可以完成第一章節閱讀即可,或者參考前段時間筆者撰寫的《NVIDIA Blackwell GPU技術淺析:AI正在回歸GeForce》,都可以幫助你在短時間內快速了解Blackwell。而如果想深入了解這塊GPU,則不妨跟本文一起,走馬觀花的了解一些技術相關更有意思的細節。
Blackwell概覽:用AI撬動AI
從整體上來看,NVIDIA Blackwell GPU目標是通過AI神經渲染和神經著色技術在游戲和應用中獲得更高效率,包括生成式AI渲染和實時應用,其中包括DLSS超分辨率(DLSS Super Resolution)和幀生成(Frame Generation)的性能顯著提升,以更低的運算成本獲得與原畫質相當,甚至更好的圖像質量。
另外DLSS光線重建(DLSS Ray Reconstruction, RR)也通過AI的方式降噪和重建缺失的細節,大幅度減少生成高質量光線追蹤、路徑追蹤場景所需的光線數量。這一套基于AI的組合拳持續的降低計算成本和內存占用,從而釋放GPU性能,進一步獲得更高的幀率和更好的畫質。
因此Blackwell GPU設計目標有四個,分別是:
針對新的伸進工作負載進行優化
盡可能減少顯存占用量
提升畫質
提升效能
圍繞這四個設計目標,進一步擴展出NVIDIA Blackwell GPU架構的關鍵特性,分別是:
針對神經著色打造的流式多處理器(Streaming Multiprocessor, SM):Blackwell使用了新的RT Core和Tensor Core設計,進一步增強了神經渲染能力。相比于上一代的Ada Lovelace,NVIDIA RTX Blackwell SM在每個時鐘周期內提供了翻倍的整數運算吞吐量,從而有助于提升神經著色至關重要的地址生成工作負載。
更高效的Max-Q:RTX Blackwell集成了許多新的Max-Q特性電源管理特性,在需要時,可以通過電源門控技術關閉一部分硬件模塊。同時,不同硬件模塊會被分配到不同的電源軌上,以避免不必要的浪費,從而實現精確的能效控制。順帶一提,新版的Max-Q也能可以更細節的調整時鐘頻率。
第四代RT Core:Blackwell RT Core架構再次進行了調整,能夠更高效的提供光線追蹤效果,以及更好的支持神經渲染技術。
第五代Tensor Core:首次引入對FP4浮點運算支持,作為更低位的浮點運算格式,可以更好的滿足現階段AI應用加速和游戲中AI渲染的需求,并能使AI吞吐量翻倍,內存需求減半。另外,這一代Tensor Core還保留了數據中心版本Blackwell GPU的第二代FP8 Transformer Engine。
NVIDIA DLSS 4:這項技術在未來一段時間將成為提升游戲流暢度和體驗的重要技術,在RTX Blackwell架構下引入了AI多幀生成技術,DLSS 4幀率比DLSS 3和DLSS 3.5提升了2倍之多,并且畫質會更好,系統延遲更低。
RTX神經著色器(RTX Neural Shaders):首次將小型神經網絡引入可編程著色器中。
AI計算管理器(AI Management Processor, AMP):讓多個AI模型可以和GPU圖形工作負載時候共享對應的資源。這項功能已經與微軟展開合作,實現了對Cooperative Vectors的支持,從而衍生出后面會被經常提到的神經渲染(Neural Rendering)渲染技術,從而實現細節更豐富的場景、復雜的光線追蹤效果。另外,筆者認為AMP可能也是控制GeForce RTX 5090 D的AI性能表現的關鍵。
GDDR7顯存:GDDR7是最新的超低壓GDDR內存標準,通過PAM3脈沖幅度調制信號技術實現,相比GDDR6X的PAM4更節能,并且抗噪能力更好,對應的電路設計也更為簡單一些。顯然GDDR7由PAM4回歸PAM3是綜合了性能和成本的考慮。對于大部分用戶而言,只需要知道最終產品顯存容量更大就可以了。
Mega Geometry技術:這是一項新的RTX技術,旨在大幅提升光線追蹤應用中的幾何細節。
目前為止,首發采用RTX Blackwell GPU的產品包括GeForce RTX 5090,GeForce RTX 5090 D,GeForce RTX 5080,GeForce RTX 5070 Ti 和 GeForce RTX 5070。其中GeForce RTX 5090和GeForce RTX 5090 D的核心信號是GB202,GeForce RTX 5080和GeForce RTX 5070 Ti核心是GB203,GeForce RTX 5070是GB205。
接下來我們將會對RTX Blackwell中的技術細節進行淺析。
最強游戲芯片:Blackwell GB202 GPU
按照NVIDIA慣例,每一個新的GPU微架構都需要確定明確的設計目標,Turing架構時引入RT Core、Tensor Core,Ampere架構升級SM,增強RT Core和Tensor Core,以及Ada Lovelace增強光線追蹤性能和AI神經圖形的質量,并追加了DLSS幀生成和光線重建功能,成為光線追蹤和神經圖形進入主流的轉折點。
Turing架構推出之后,能夠看到,現在每幀游戲所需的AI TPOS算力隨著每一代GPU架構升級呈現出幾何級增長的趨勢。這讓GPU在圖形質量和性能上的表現超越了摩爾定律,以一種全新的方式增長。比如DLSS光線重建(DLSS Ray Reconstruction, DLSS RR)能夠大幅度減少所需要發射和著色的光線數量,讓路徑追蹤實現逼真的光照成為可能。
每幀的AI TOPS正在逐年大幅提升
Blackwell首次引入了DLSS 4并具備多幀生成技術,除了提升游戲性能和降低系統延遲,新技術還帶來了新的神經渲染技術,包括RTX 神經材質(RTX Neural Materials),RTX神經面部(RTX Neural Faces),RTX神經輻射緩存(RTX Neural Radiance Cache, NRC),以及基于AI的Transformer模型來獲得高質量的圖像生成。
在消費端提供這些技術的硬件基礎的Blackwell GB202 GPU。
完整的GB202 GPU包括12個GPC(Graphics Processing Clusters,圖形處理集群),96個TPC(Texture Processing Clusters,紋理處理集群),192個SM(Streaming Multiprocessors,流式多處理器),以及1個512-bit內存接口,配備有16個32-bit內存控制器,用于對顯存進行控制。
值得注意,GB202 GPU還包含了384個FP64核心,即每SM包含兩個,FP64 TFLOP速率是FP32 TFLOP速率的1/64,對于消費端而言使用頻率不高,但可以保證FP64代碼可以被正確的執行。對應的,Tensor Core也包含了少量的FP64 Tensor來確保程序的正確執行。
GPC(Graphics Processing Clusters,圖形處理集群)是所有Blackwell GB20x GPU最主要運算單位,每個關鍵圖形處理單元都會擺放在GPC中,每個GPC包括一個專用的光柵引擎(Raster Engine),2組ROP集群(Raster Operations,光柵操作),每個光柵操作分區包括8個獨立的ROP單元,8個TPC(Texture Processing Clusters,紋理處理集群),每個TPC包含1個PolyMorph引擎和2個SM(Streaming Multiprocessors,流式多處理器)。
其中PolyMorph引擎主要用于處理圖形和計算任務中的幾何變換和曲面細分,在處理復雜幾何圖形的時候,可以獲得更高效的多任務能力。
完整的GB202 GPU還包含了128MB L2緩存,GeForce RTX 5090則包含96MB L2緩存,所有的應用在大容量高速緩存中都能受益,特別是光線追蹤和路徑追蹤這樣的復雜操作。
因此,完整的GB202 GPU包括:
24576 個CUDA Core
192個第四代 RT Core
768個第五代Tensor Core
768個紋理單元(Texture Units)
需要注意,GeForce RTX 5090也并非使用完整的GB202核心,而是做了一定程度刪減。
SM(Streaming Multiprocessors,流式多處理器)是NVIDIA GPU架構中的核心部件,也是GPU可以完成大規模并行任務的關鍵,比如CUDA Core,Tensor Core,RT Core都包含其中。完整的GB202包括192個SM,每個SM包括128個CUDA Core,1個第四代RT Core,4個第五代Tensor Core,4個紋理單元(Texture Units),1個512KB寄存器文件,128KB L1共享緩存,這些緩存可以根據圖形和計算工作負載需求進行重新配置。
Blackwell架構下,INT32整數運算相比Ada Lovelace是翻倍的。原因是INT32和FP32核心進行了完全統一,這也體現了Blackwell SM針對神經網絡著色器設計和優化。當然,這也意味著在同一個時鐘周期內,只能進行FP32或者INT32其中一個操作。
GeForce RTX 5090的紋理單元(Texture Units)又GeForce RTX 4090的512個增加到了680個。紋理單元負責處理紋理映射操作,包括從紋理中獲取紋理元素(Texels),應用紋理過濾以及紋理坐標處理等等。其中紋理元素(Texels)代表紋理信息、顏色、圖案,這些信息被應用于3D表面,定義了物體表面紋理外觀。
由于紋理單元增加,GeForce RTX 5090雙線性過濾紋理元素處理速率達到了1636.76 Gigatexels/sec,對比GeForce RTX 4090的1290.2 Gigatexels/sec提升了26%。另外RTX Blackwell SM 相比Ada Lovelace SM在每個周期處理點采樣紋理的性能也翻倍了,紋理訪問的算法也會得到對應的加速。
GDDR7內存子系統
NVIDIA GPU在行業內不可動搖的影響力也直接推動了顯存的發展。現在顯存架構、電路設計和信號傳輸都已經圍繞GPU內存速度展開匹配。比如Ampere GPU推動了GDDR6X的實裝,GeForce RTX 4090更是把GDDR6X的峰值帶寬提升到了1TB/s。
GeForce RTX 5090上的GDDR7是全新的超低電壓GDDR內存標準,使用了3個電平的脈沖幅度調制PAM3,這是由NVIDIA與JEDEC技術協會,以及360多家成員公司共同推動的。
由GDDR6X PAM4轉向GDDR7 PAM,且結合新的引腳編碼方案,可以讓GDDR7信噪比顯著提升,并且可以讓獨立通道數量翻倍,可以更大程度減少I/O密度開銷。通過改進PAM3信噪比,以及均衡方案,重新設計時鐘架構,PAM3讓GDDR7獲得了顯著的帶寬提升。與此同時,GeForce RTX 50系列還支持增強型CRC(循環冗余檢驗)和RAS(可靠性、可靠性、可維護性)要求。
GeForce RTX 5090配備了28Gbps GDDR7顯存,提供1.792TB/s峰值內存帶寬。同時,GeForce RTX 5080提供了30Gbps GDDR7顯存,提供960GB/s峰值內存帶寬。其中主要原因是GeForce RTX 5080的顯存是16GB。
第五代Tensor Core:引入FP4
Tensor Core中門用于矩陣乘法累加數學運算而設計,乘法累加器被廣泛引用于AI和HPC領域。Blackwell Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper FP8 Transformer引擎,同時還新增了對FP4和FP6 Tensor,以及第二代FP8 Transformer引擎,與數據中心級Blackwell GPU相似。
其中重點就是引入了對FP4支持。自從2022年生成式AI模型首次發布以來,隨著模型能力的不斷增加,對計算和內存需求有了更高的要求,如果按照原來的硬件運行方式,是難以應對這些新增的需求的。這時候從硬件層面引入對FP4數據格式支持,則可以很好的解決這個問題。原因是FP4提供了一種較低的量化方式,類似于文件壓縮,能夠減少模型的大小。
相對大多數模型默認使用的FP16精度相比,FP4所需的內存是FP16的不到一半,并且GeForce RTX 50系列可以提供相比上一代2倍以上的性能,FP4可以通過NVIDIA TensorRT模型優化器的量化方式,確保質量不會有太多損失。
這里NVIDIA官方給出了一個例子,Black Forest Labs的FLUX.dev模型在FP16精度下需要超過23GB的顯存,但在使用FP4之后,只需要不到10GB顯存就能運行,原本需要頂配GeForce RTX GPU才能運行的模型,現在主流RTX GPU也可以運行了。
在生成效率上,GeForce RTX 4090(FP16)FLUX.dev模型生成圖像需要15秒,而同樣的圖像質量GeForce RTX 5090(FP4)只需要5秒出頭。
第四代RT Core:2倍吞吐量提升
第四代RT Core做出了很多重要改進。在Turing、Ampere和Ada Lovelace架構的GPU中,RT Core包含專用的硬件單元,用于層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)數據結構遍歷,并執行光線與三角形相交,光線與包圍盒相交測試計算。它的執行效率更高,也幫助SM從光線追蹤的運算中釋放出來,專注于像素、頂點、著色的計算任務。
其中光線與三角形相交測試是一項計算密集型操作,RT Core承擔著層次包圍盒加速算法(Bounding Volume Hierarchies,BVH)數據結構遍歷、執行射線/三角形和光線邊界框求交計算,也是實時光線追蹤在游戲和專業應用實裝以來,負載最高的引擎。
Blackwell架構第四代RT Core提供了比Ada Lovelace架構再度高出2倍的光線與三角形相交測試吞吐量。包圍盒碰撞由包圍盒碰撞引擎(Box Intersection Engine)完成,射線/三角形求交測試。
與Ada Lovelace一樣,第四代RT Core中包含專用的Opacity MicroMaps引擎,這套引擎主要是用來加速不透明度微圖的處理,由于可以直接對幾何體進行Alpha測試判斷物體表面是否可見或者透明,進而減少GPU著色器的計算需求。
另外第四代RT Core還包括一個三角形簇相交引擎(Triangle Cluster Intersection Engine),為全新的Mega Geometry技術加速三角形簇級結構的光線追蹤,同時也兼顧常規的光線與三角形相交測試。Mega Geometry技術旨在光線追蹤應用中大幅提升幾何細節,也是我們后續描述的重點。
另外線性掃掠球(Linear Swept Spheres)也是此次第四代RT Core增加的硬件結構,用于給頭發這樣的精細幾何體增加光線追蹤特效。
Mega Geometry:讓細節直逼電影級
在虛幻引擎5這樣的新一代游戲引擎中,海量的幾何細節構建出了一個更為細致的虛擬世界,其中就會利用到細節層次(系統level-of-detail, LOD)以全保真度進行光線追蹤幾何體,而不再是進行光線追蹤時,通過低分辨率的代理模型實現。這時候陰影、反射、間接照明質量都會向上提升一個層次。如果按照以往常規光線追蹤方式,這些功能都是難以在實時運行的狀態下實現的,Mega Geometry技術的引入就變得很有必要。換而言之,Mega Geometry的主要目標之一是讓光線追蹤與現代游戲引擎的細節層次系統無縫結合。
LOD在3D游戲和3D應用中已經被普遍使用。因為在復雜的游戲世界中,不可能一步到位完成所有模型的3D渲染計算,開發者會根據物體與觀察者視距的距離,給物體提供不同精度和細節的模型,并根據攝像機的移動進行動態切換,簡單的說就是近距離模型幾何形狀精度高,紋理細致;遠距離物體幾何多邊形數目少,分辨率低,從而節省內存占用并提高性能。
但LOD并不是完美的,特別是結合RTX API擴展之后,遇到了兩個問題。
第一個問題是,光線追蹤效果導致的LOD效率低下。我們現在知道LOD通過判斷攝像機與物體的細節來動態調整模型的精細度的,傳統的方法會預先計算出少量的網格,代表給定物體不同的LOD級別。
在虛幻引擎5的Nanite系統中,為了增加場景的細節度,會使用大約128個三角形集群來動態刷新LOD級別,從而做到復雜場景下的平滑過渡。當引入光線追蹤后,網格內必須構建一個獨立的數據結構,即層次包圍盒(Bounding Volume Hierarchies,BVH)。在每一幀中,虛幻引擎5 Nanite會對大量多邊形物體進行大量的BVH構建操作,從而導致光線追蹤實時運算過載。
Mega Geometry為構建BVH提供了一種新的算法,它將三角形集群作為基礎元素,構建出新的聚類加速結構(Cluster-level Acceleration Structures,CLAS),新結構可以按需生成,并最多可以生成256個三角形批次,然后CLAS集合再被用作輸入構建BVH。由于每個CLAS代表大約100個三角形集合,依照VLAS構建的BVH的處理量減少了兩個數量級,從而允許游戲引擎在每一幀游戲畫面中,可以擁有更多的預算進行更多的BVH構建。
重點是,Mega Geometry不需要過多干預,API使用的是批處理的形式,輸入參數來自顯存,以便游戲引擎能夠高效的在GPU上執行LOD選擇、剔除等邏輯操作,如果使用得當,Mega Geometry也可以進一步消除與BVH相關的CPU開銷。
頂層/底層加速結構(TLAS/BLAS)和集群BLAS
第二個問題是應對更多的物體數量。4K或者更高分辨率的推動下,游戲也被要求添加更多的場景物體數量,按照以往的做法,游戲中每一幀都要給場景中所有物體構建一個TLAS(Top -Level Acceleration Structures,頂層加速結構),如果物體數量只有幾千個,這種形式運作問題不大,可一旦遇到宏大的游戲世界規模,成本就會變得非常高昂。
為了解決這個問題,Mega Geometry引入一個分區頂層加速結構(Partitioned
Top-Level Acceleration Structure,PTLAS),與每幀從頭開始構建新的TLAS不同,PTLAS能夠利用場景中大多數物體在不同幀中保持靜態的情況,將物體集中到一個分區中,僅更新發生變化的物體,讓計算資源只關注發生變化的分區,運行資源節省自然變大。
NVIDIA Zorah DEMO中就使用了Mega Geometry技術
Mega Geometry中的分區頂層加速結構(PartitionedTop-Level Acceleration Structure,PTLAS)
細分曲面
Mega Geometry的主要目標之一是讓光線追蹤與現代游戲引擎的細節層次系統無縫結合,但應用范圍也不限于如此。由于可以靈活的基于GPU完成聚類生成、快速構建BVH,更多高階的幾何技術也可以付諸實踐,包括細分曲面。
細分曲面是一種集合表現方式,在電影和生產渲染工作流程中使用較為普遍。例如在1978年被提出的經典Catmull-Clark細分規則對于四邊形網絡迭代細化,通過位移貼圖,獲得平滑的渲染表面,使得粗糙的多邊形網格細化成光滑的曲面。
細分曲面的光線追蹤通過三角化的方式實現,對于動畫或者視點變化,每一幀如果都需要重新創建新的細分曲面,會產生大量的BVH需求降低效率。Mega Geometry可以將細分曲面過程直接映射到聚類生成上,從生成的CLAS中快速構建BVH,從而獲得更快的實時性能。
Mega Geometry API與架構支持
Mega Geometry作光線追蹤的基礎核心技術,將BVH功能提升到一個新的層次,它賦予了游戲和應用更高效的集合管線開發,因此在API和硬件也已經獲得對應的支持:
API:Mega Geometry可以應用在所有NVIDIA光線追蹤API中:
透過NVAPI擴展,DirectX 12 (DXR) 可支持聚類和 PTLAS
Vulkan通過第三方添加了針對聚類和PTLAS的支持
OptiX 9.0添加了對聚類的原生支持
GPU架構:Mega Geometry支持從Turing架構開始的所有RTX GPU。
Blackwell RT Core也對Mega Geometry提供了原生支持。更確切的說,第四代RT Core是專門針對Mega Geometry設計的,硬件中特殊的聚類引擎實現了新的幾何體與BVH數據壓縮方案,同時提供了比第三代RT Core高出2倍的光線-三角形相交速率,這讓Blackwell在同樣的場景中顯存的占用可以更少。
線性掃掠球體(Linear Swept Spheres,LSS):讓頭發光追更絲滑
這項技術主要用于解決頭發效果的毛糙感和效率。現在用于描繪頭發、草地或者其他類似條狀物的曲線渲染在搭配光線追蹤時,通常需要在軟件層面通過自定義相交著色器實現。然而,光線與曲面相交測試的密集計算,會延長渲染器的渲染時間,導致曲線的實時光線追蹤很難在實際中使用。
為了節省計算成本,以往制作團隊會尋找一種簡單的方式來實現近似毛發的效果,不相交正交三角形條帶(Disjoint Orthogonal Triangle Strips,DOTS)便是其中之一。它使用一組由三角形條帶組成的網格,這些條帶呈網格狀的、不相交的模式排列,其中的三角形條帶相互獨立且不共享頂點。雖然這種方法的質量高于卡片方法,但不相交的排列方式會產生邊緣偽影,導致渲染中出現明顯的缺陷。
不相交正交三角形條帶(Disjoint Orthogonal Triangle Strips,DOTS)
在Blackwell RT Core中首次引入了硬件光線相交測試的支持,從而推出了線性掃掠球體(Linear Swept Spheres,LSS)。LSS類似于條帶的細分曲面,但它是通過空間中線線性斷的方式掃描球體構建,每一段起始點和終點之間,球體半徑可以不同,以支持不同靈活程度的發絲。對應的,LSS在Blackwell中還直接支持球體掃描,對于粒子系統而言非常有用。
英偉達表示,在頭發渲染中,LSS的速度比傳統DOTS快2倍,同時幾何體占用的顯存空間也縮減了5倍。
線性掃掠球體(Linear Swept Spheres,LSS)
著色器執行重新排序2.0(Shader Execution Reordering 2.0,SER 2.0):更高效的亂序執行
著色器執行重新排序SER是一項厲害的技術,它允許光線追蹤應用可以高效地重新組織在GPU上的大規模并行線程,類似于CPU上的亂序執行,最大化的提升硬件利用率。通過SER動態重新排列工作負載,對于需要頻繁執行或者內存訪問分歧的光線追蹤工作非常有效,比如路徑追蹤從著色器執行重新排序中就能獲得大量收益。同時,由于可以將執行神經網絡工作負載的現成直接發送給Tensor Core,因此SER還能夠顯著加速神經網絡著色。
著色器執行重新排序(SER)
在Blackwell上,SER從硬件和軟件層面都獲得增強,SER核心重新排列邏輯效果提升了兩倍,減少了重新排列的開銷并提升了精度。更高的精度帶來了更智能的連貫性提取,讓開發者能夠提供更多特定引用的知識來進行重排操作。
SER通過一個小型API控制,并且還引入了光線追蹤著色器調用的靈活性,增強了編程模型,使得在重排的同時,也能夠進一步簡化渲染器的構建,特別是已經在Ada Lovelace上支持SER的工具包而言,Blackwell上的SER 2.0可以無縫使用,不需要任何代碼更改。
AI計算管理器(AI Management Processor, AMP):讓GPU自己管自己
AI計算管理器(AI Management Processor, AMP)是一個可完全編程的上下文調度器,位于GPU之上,旨在幫助GPU在上下文調度任務中剝離出來。AMP增強了Windows管理GPU工作負載的能力。
GPU上下文管理包含了GPU執行一個或者多個任務所需的狀態信息,當多個任務進行時,可以使用多個上下文管理來實現更好的任務隔離,并且確保多個應用程序能夠同時共享GPU而不會發生沖突。比如游戲中的AI NPC的調動行為,會通過NVIDIA Avatar Cloud Engine(ACE)實現語音、翻譯、視覺、動畫、行為等模型的同步運行,模型的運行與游戲是同步的,但相互之間不會被干擾。
AMP通過一個位于GPU管線前端的RISC-V處理器實現,它能提供比以往以來CPU更快的方式實現上下文調度,并且延遲更低。Blackwell AMP調度架構與微軟的架構模型匹配,通過Windows硬件加速GPU調度在GPU上配置的方式,讓Windows可以更高效的管理GPU的顯存,減少延遲,并提升游戲和其他圖形計算引用的性能。
AMP在其中扮演的角色是接管CPU調度GPU的工作,從而減少對系統CPU的以來。事實上,GPU管理自己可以減少GPU與CPU之間的通訊次數,對降低系統延遲也提供很好的幫助。
AI計算管理器(AI Management Processor, AMP)調度AI與圖形的工作負載流程
本質上,AMP的作用是協調和調度,以確保更流暢的游戲體驗,避免性能下降。在大語言模型LLMs應用中,AMP通過減少首次使用的響應時間就能很好的證明這一點。在游戲領域,AMP也可以通過優先調度游戲引擎工作,防止游戲卡頓。
RTX Blackwell的視頻和顯示功能
GeForce RTX 5090 D首發評測的時候,Bilibili UP主影視颶風對顯卡的編碼器和解碼器進行了測試,發現其表現已經超過了蘋果視頻剪輯領域最強的M2 Ultra,Blackwell自然功不可沒。
Ada Lovelace和之前的GPU架構已經支持到了H.264和H.265的4:4:4和4:2:0色度格式,現在Blackwell GPU在其中間增加了新的硬件編碼器和解碼器,并對4:2:2提供了支持,即在效率和畫質中擁有了更多的細分選擇。
一般而言視頻文件使用YUV色彩格式,與RGB值存儲顏色不同,YUV格式將顏色存儲為亮度Y,顏色差異色度U和紅色差異色度V,色彩采樣利用了人眼對亮度變化比色度變化更敏感的特性。
在YUV 4:4:4視頻中,每個通道都會保留完整值,這也導致文件體積巨大,且傳輸視頻數據時需要更高的帶寬。色度采樣通過在視頻色度通道中存儲更少的信息來減少存儲和帶寬的需求,比如YUV 4:2:0視頻就能保證完整的亮度通道,但是兩個色度通道僅包含原始信息的25%,每個視頻幀數據量都是未經壓縮的4:4:4視頻幀的一半,體積更小,但顏色信息丟失。
不過顏色上的丟失不代表不能看,因為從Blu-Ray到HDR10,再到如今的流媒體平臺,標準內容的分發格式都是YUV 4:2:0。
在拍攝、編輯、色彩校正的過程中,YUV 4:2:2以目前的硬件水平來看,是獲取更多顏色信息、減少文件大小,滿足帶寬需求的合理選擇。在YUV 4:2:2視頻中,完整的亮度值被保留,同時保留了一半的原始色度信息,YUV 4:2:2壓縮視頻幀僅占YUV 4:4:4的三分之二,同時提供了YUV 4:2:0兩倍的顏色分辨率。
因此YUV 4:2:2相當于YUV 4:4:4與YUV 4:2:0之間的新選擇,并且已經成為高端用戶和專業視頻攝像機提供的選擇,當然這也意味著原本以來CPU處理的方式會導致效率低下,用戶體驗不足。
YUV 4:2:2相對4:2:0保留了額外的顏色信息,對于HDR內容而言非常有用,同時也可以保留更多視頻細節,比如文本、細線條,或者需要反復進行色彩校正的工作流。在Blackwell中為4:2:2提供硬件性能的是第九代NVENC和第六代NVDEC。
第九代NVNEC
Blackwell中第九代NVENC編碼器通過提高5%的BD-BR PSNR(Bj?ntegaard Delta Bitrate Peak Signal-to-Noise Ratio,用于評估視頻編碼質量的指標),改善了AV1和HEVC的質量,新增了對4:2:2 H.264和HEVC編碼支持,新增AV1超高質量UHQ模式,不過AV1 UHQ模式需要額外的時間已獲得最佳質量。同時AV1 UHQ也可以在RTX 40系列GPU上通過AV1編碼器和軟件層面運行,只不過質量低于Blackwell。
這里NVIDIA展示了AV1編碼器代際升級,最多可以實現15%的BD-BR PSNR提升,如果是Netflix VMAF指標時,提升效果更為顯著。
在GeForce RTX 5090和GeForce RTX 5090 D上,擁有3個第九代NVNEC,2個第六代NVDEC,橡膠上一代提升50%的輸出速度,相對于只有耽擱編碼器的GeForce RTX 3090,速度提升達到4倍。
第六代NVDEC
第六代NVDEC負責Blackwell的硬件解碼,實現2倍以上的H.264解碼速度,并且還支持4:2:2 H.264和HEVC解碼。
DisplayPort 2.1b
Blackwell GPU引入對DisplayPort 2.1b的支持,提供最高80Gbps的帶寬,采用UHBR 20傳輸模式,即每個通道提供20Gbits/sec高速比特率。這使得DisplayPort 2.1b UHBR 20能夠支持更高規格的顯示器,包括8K 165Hz,4K 480Hz,兩者都需要DSC(Display Stream Compression,顯示流壓縮技術)支持,且最高鏈路速率需要使用DP80LL認證的線纜。
Blackwell Max-Q電源效率改進
Max-Q旨在先溝通的平臺功率中獲得更多性能,并在GPU空閑時更快的進入睡眠狀態,盡可能節省電量。
在Blackwell Max-Q中主要做了三項改進,分別是:高階電源門控(Advanced Power Gating),加速頻率切換(Accelerated Frequency Switching),低延遲睡眠(Low Latency Sleep)。
高階電源門控(Advanced Power Gating)
從活躍電源狀態切換到深度電源狀態的問題在于,電源狀態越深,那么進入和退出這個狀態所需的時間越長。Blackwell減少了進入和退出不同電源狀態的延遲,NVIDIA將其稱為迄今為止他們所構建的最先進的芯片單元電源門控技術,使用多個新的門控層級,允許電源進行非常細微的調控。
新的時鐘門控功能可以讓整個時鐘樹關閉非常迅速,即使芯片只有部分區域空閑,或者空閑非常短暫,或者相對活躍的工作區域,搜能節省動態能耗。同時對于Blackwell來說,內存功率控制也是重點,通過GDDR7快速喚醒時鐘架構來實現最佳效率,也使得整個內存時序首次實現門控。
其中,獨立電壓軌道可以分別為GPU核心與內存系統供電。獨立電壓軌道允許對芯片大區域進行獨立電壓控制,不同區域可以根據不同的工作負載進行優化。獨立的電壓軌道還允許Blackwell在短時間空閑時關閉未被使用芯片的部分,減少泄露功耗。
Blackwell設計下,電壓軌門控狀態可以在每幀粒度下進入,這對于使用電池續航進行游戲、內容創作時候尤為重要。獨立的電源軌道可以在GPU空閑時降低功耗,通過不需要時關閉GPU核心,以提升整個系統的電源管理效率,從而提升筆記本續航。
加速頻率切換(Accelerated Frequency Switching)
加速頻率切換是近十年來最大規模的時鐘架構升級,這個升級可以讓時鐘比以前GPU架構快1000倍的調整工作負載,使得Blackwell能夠快速響應GPU工作負載的動態特性。根據工作負載的調整時鐘速度,以獲得最佳性能和功耗效率,而不是像此前時鐘頻率在整個幀生成的過程中保持不變。
當GPU在處理完某一任務后,進入短暫的空閑狀態時,這項技術能夠快速檢測到這些“空閑間隙”,并減少功耗。這些空閑時間通常是GPU接收到CPU發送的新任務之前的間隔。在GPU不空閑時,它可以迅速增加時鐘頻率,提供更高的性能。這種提升性能的方式是在功率限定的情況下進行,也就是說,它不需要額外的能量消耗,只是在空閑時降低了功耗,從而在處理任務時能夠以更高的速度運行。
低延遲睡眠(Low Latency Sleep)
由于可以更快的進入節能狀態,以及具備新的電源門控技術,Blackwell比Ada Lovelace進入休眠的時間快上10倍,從而在最低功耗的休眠狀態下獲得更好的節能效果。
Ada Lovelace和Blackwell上運行SLM推理時,兩者之間相差的功耗對比
這里NVIDIA使用了一個小語言模型SLM推理作為比較,Blackwell通過電源和電壓門控實現了更低的功耗過度,并能夠比以前快10倍的進入深度睡眠狀態,在測試時可以實現50%的能耗節省。
DLSS 4:游戲體驗進階時
DLSS 4是Blackwell提升游戲體驗的重要技術,DLSS 4可以一步到位通過人工智能提升幀率,降低延遲,改善游戲畫質。特別是引入了全新的多幀生成技術(Multi Frame Generation,MFG),提供更快的性能和更低的內存使用,并且由CNN卷積神經網絡模型更換到了Transformer模型,超分辨率(Super Resolution,SR),光線重建(Ray Reconstruction,RR),深度學習抗鋸齒(Deep Learning Anti-Aliasing,DLAA)均獲得了新的進展,圖像質量和穩定性有所提升。
由于硬件的獨占性,DLSS 4的完全功能需要在GeForce RTX 50系列GPU和第五代Tensor Core上才能實現。背后也是通過NVIDIA云端AI不斷提供優化的結果。
DLSS 4多幀生成(DLSS 4 Multi Frame Generation,DLSS 4 MFG)
幀生成技術首次采用是在2022年的Ada Lovelace架構中,當時是通過光流場、游戲運動矢量,AI網絡共同合作,在每個傳統渲染幀之間,單獨生成一個幀。在Blackwell架構中,第五代Tensor Core在每個傳統渲染幀之間生成的幀數,從1個提升到了最多3個。這是Blackwell硬件和DLSS軟件共同合作的結果。
同時,新幀生成AI模型比之前幀生成方法快40%,使用的顯存減少了30%,并且每個渲染幀只需要運行一次即可生成多個幀。原本的硬件光流加速器也被高效的AI模型代替,使得光流場的生成速度得到提升,AI模型也顯著降低了生成額外幀的計算成本。
另外一個就是幀生成后的節奏控制。DLSS 3幀生成使用的是CPU作為節奏控制,由于DLSS 4上幀數增加而導致的變動明顯,從而導致整體流暢性受影響。為了解決多幀生成帶來的不確定性,Blackwell使用了增強版的幀翻轉計量(Flip Metering)作為解決方案,它將幀節奏邏輯轉移到顯示引擎上,讓GPU可以更精確的管理顯示時序。
另外,Blackwell顯示引擎也具備了2倍的像素處理能力,支持更高的分辨率和刷新率,從而實現DLSS 4的硬件幀翻轉計量(Flip Metering)。
這也意味著DLSS 4本身具備一定的硬件限制,如果想完全發揮DLSS 4的所有性能,需要軟件和硬件的配合,包括后面要提到的Transformer AI模型,前面提到的AMP AI計算管理器。
Transformer模型:AI新引擎
這是自從2020年發布DLSS 2以來,DLSS首次更換神經網絡架構。在GeForce RTX 50系列GPU之前,AI之所以能夠對圖像畫質、幀率帶來提升,得益于CNN卷積神經網絡模型(Convolutional Neural Network,CNN)實現的局部聚合像素,樹形結構分析的方式。這套運行方式可以從底層向高層逐步處理,在運算結構上非常高效,因此被稱為卷積神經網絡。
DLSS 4開始,卷積神經網絡被替換成Transformer模型,目的是進一步蓋上圖像質量、渲染流暢性,以及更好的應用DLSS超分辨率、DLSS光線重建和深度學習抗鋸齒DLAA。Transformer架構在神經網絡處理序列、結構化數據的任務中表現更為出色,它由數據本身驅動,因此也更容易將注意力放在最有用的部分,做出有效決策。
與CNN卷積神經網絡相比,Transformer模型使用了名為自注意力機制(self-attention),能夠更容易的識別大像素窗口的長程模式。舉個例子,CNN卷積神經網絡模型處理的是局部像素關系,比如它在圖像中會滑動一個3x3像素的小窗口提取特征,但可能會導致無法識別遠距離像素之間的關系。
Transformer的遠距離的長程模式可以判斷出遠處物體之間的關系,而不是限定在3x3像素的小窗口內,這使得Transformer可以更好的了解圖像表達的含義,不同物體之間的聯系。
同時Transformer還具有更好的擴展性,可以讓DLSS 4處理2倍的參數模型,利用更多的Tensor Core計算能力,重建更高質量的圖像。這套解決方案適用于所有GeForce RTX用戶,而不是僅限定在GeForce RTX 50系列用戶中。
DLSS超分辨率(DLSS Super Resolution,DLSS-SR)
DLSS超分辨率通過AI降低分辨率輸入,并輸出高分辨率來獲得性能提升。DLSS通過采樣多張分辨率圖像,并利用運動數據和前一幀來構建高質量圖像。與之前DLSS-SR相比,Transformer模型在時間穩定性上表現更好,因此新的DLSS-SR減少了鬼影,且運動中的圖像細節更豐富,抗鋸齒效果也得到了改善。
DLSS光線重建(DLSS Ray Reconstruction,DLSS-RR)
DLSS-RR利用AI為復雜光線追蹤場景額外生成像素來提升圖像質量。DLSS-RR通過NVIDIA超算訓練的AI網絡代替手工調教的降噪器,通過網絡采樣光線之間生成更高質量的像素。特別是在復雜光線追蹤場景中,DLSS-RR依靠Transformer模型在質量上獲得了很大的提升,偽影得到了顯著改善。
深度學習抗鋸齒(Deep Learning Anti-Aliasing,DLAA)
DLAA利用AI抗鋸齒技術提升圖像質量。DLAA使用的與DLSS相同的超分辨率技術,在原生分辨率下構建更真實、高質量圖像。讓圖像擁有更好的時間穩定性、運動細節和平滑邊緣。
神經網絡著色器 (Neural Shaders)
神經網絡著色器 (Neural Shaders)的加入是NVIDIA認為對未來數年產生重要影響的改進。著色器是GPU運行程序、控制圖形渲染的方式,其復雜程度取決于所需的視覺效果和處理要求。最基本的形式中,著色器計算渲染游戲場景時,使用的光線、陰影、顏色過程,統稱為著色過程,屬于渲染管線的一部分。
最早的時候,圖形在GPU上通過不可編程著色器進行處理,也稱為固定功能管線。其中圖形管線中的操作是預定義和可配置,但不可以編程。這是因為當時的著色器受到硬件設計限制,因此,當時的設計團隊專門針對固定的模式之行一組預定義的操作。
不可編程的做法可以提升硬件使用效率,對固定類型游戲有著顯著的優化提升,但帶來風險是非常巨大的。例如GeForce 256在《DOOM》上表現出色,成為一代神卡,但如果遇到后續游戲采用了截然不同的處理方式,不可編程著色器運行效率就會變得相當低下。
因此從GeForce 3開始,NVIDIA引入了第一個可編程著色功能,即頂點著色器。隨后,高階著色語言HLSL(High-Level Shading Language)讓像素著色成為了可能,從而可以在定制屏幕上顯示所有內容。
再然后,DirectX 10引入了集合著色器,DirectX 11引入了計算著色器,DirectX 12則增加了包圍體層次結構BVH讓DirectX實現光線追蹤,使得任何光線都能與場景幾何體橡膠,并生成一系列不同的著色操作。
Blackwell發布后讓神經網絡著色器成為可編程著色的下一步升級。現在,開發者不再需要編寫復雜著色器代碼來描述對應的功能,取而代之的是AI模型來提供近似著色器代碼所提供的結果。
目前為止,NVIDIA已經將神經網絡著色技術引用于DLSS。最新的DirectX 12、Vulkan Cooperative Vectors API也可以通過任何類型的著色器訪問Tensor Core,從而獲得神經網絡技術的支持。NVIDIA和微軟也共同合作創建了新的Cooperative Vectors API,從而解鎖了游戲開發者在游戲中使用神經網絡技術的能力,包括神經紋理壓縮,提供了比壓縮格式高7倍的顯存壓縮。
圖形計算中的神經網絡加速
神經網絡著色器允許開發者以學習高效近似算法的方式訓練神經網絡,這些算法包含計算光線與表面之間的相互作用,有效的解壓存儲視頻內存中的超壓縮紋理,基于有限的真實數據預測間接光照,并近似模擬表面光散射,進而讓游戲場景中的畫面更為接近真實。
神經網絡著色器的潛在應用尚未被完全探索,未來肯定還能有更多高效、快捷的實時渲染功能被逐步開發。這里,NVIDIA在發布Blackwell的同時,也基于神經網絡渲染器提供了幾個樣板功能作為參考。包括RTX神經網絡材料(RTX Neural Materials), 神經網絡輻射緩存(Neural Radiance Cache), RTX皮膚(RTX Skin), 以及RTX神經網絡面孔(RTX Neural Faces)。
RTX神經網絡材料(RTX Neural Materials)
在大預算的CGI電影中,為了追求畫面的真實感,一些材質非常復雜,由多個光學層組成,這項技術放在實時光線追蹤中是非常奢望的。但現在,AI技術通過神經網絡近似替代材質將其變成了可能,讓游戲可以同時具備電影級質量的資產,以及高幀率。
RTX神經網絡紋理壓縮(RTX Neural Texture Compression,NTC)
渲染技術的不斷升級也導致紋理數據量增加,是的存儲和內存需求不斷增加。由于帶寬限制,性能會進一步收到影響,更好的壓縮方式勢在必行。RTX神經網絡紋理壓縮利用神經網絡著色器訪問神經網絡,可以比傳統方法更高效的壓縮和解壓材質紋理。
例如NVIDIA演示的燈籠、織物在傳統材質下占用了1110MB內存空間,但通過神經網絡材質壓縮,同樣的畫面只需要333MB的內存,進而節省了三倍空間,還提升了視覺效果。
隨機紋理過濾(Stochastic Texture Filtering,STF)在紋理采用過程中引入隨機性,以減少摩爾紋等偽影,有一次在無法應用三線性或各向異性過濾時,使用神經網絡紋理壓縮的情況下更為有效。當硬件紋理過濾可用時,STF同樣可以起到作用,并且可以提供更高階的過濾效果,比如立方體過濾、高斯過濾。由于2倍的點采樣紋理過濾改進,STF在Blackwell GPU上運行速度更快。
神經網絡輻射緩存(Neural Radiance Cache,NRC)
神經網絡輻射緩存(Neural Radiance Cache,NRC)利用神經網絡著色器來緩存和近似輻射信息。通過利用神經網絡學習,復雜的光照信息可以被存,并用于實時渲染,創建高質量的全管局光照和動態光照效果,通過減少GPU的計算負載,提升效率,進而提升視覺質量和可擴展性。
因此NRC是神經網絡著色器的一種類型,它接受經過一次反射的路徑追蹤光想,并推斷出多個反射后的最終光照值。NRC在實時游戲數據上訓練小型神經網絡,以估計間接光照信號。初始的一組光照被反射,但不會被完全追蹤。相反,路徑追蹤器在一次反射后,會將光線路徑發送到緩存,并模擬光線完全追蹤并經過多次反射的效果,從而確保光照場景得以呈現。
NRC通過減少GPU對光線的追蹤次數,避免了超出初始少量反射的追蹤,并提升了性能。同時間接光照質量也得到了改善,因為NRC可以在有限的光線預算內推斷出多個反射。即使在復雜場景中,NRC也可以保證圖像質量,并具有高度的適應性。由于NRC本身是在游戲過程中進行訓練,所以NRC可以感知游戲中各種場景的變化,自動調節以提供準確的間接光照效果。
RTX皮膚(RTX Skin)
皮膚在渲染中也是一個難題。本質上,皮膚是組成物體外部的一組網格,如果材料想木材或者金屬那般不透光,那么展現方式效果可以很好表達,只需要根據場景中的光源計算光照即可。然而半透明材質卻有些是困難,光照實際上會穿透材料,進入物體內部,并在物體內部傳播或散射,然后從物體其他部分反射出來。
為了改善皮膚效果,NVIDIA借用了名為次表面散射(subsurface scattering)的電影渲染技術,將其引入實時路徑追蹤。下面是RTX Skin在游戲中第一個使用光線追蹤次表面散射展現出來的例子,這讓筆者很期待后續RTX Skin被更多藝術家創造后的效果。
RTX神經網絡面孔(RTX Neural Faces)
實時渲染的另一個難題是如何逼真的展現人臉渲染。原因是渲染人類面孔其實是實時圖形中一個非常具有挑戰的任務,因為人類對人類太熟悉了,導致人類可以輕易差距到虛擬人類臉上的細微偏差,如果處理得不好,就會導致陷入恐怖谷效應。在電影渲染中,往往需要比游戲實時渲染多幾個數量級的計算才能獲得以假亂真的面部圖像。
RTX Neural Faces提供了一種創新的方法,通過生成式AI來改善面部質量。與直接渲染不同,RTX Neural Face只需要簡單的光柵化面孔和3D姿態數據作為基礎,就可以實時通過生成式AI模型推斷出自然的面孔展現。而在此之前,模型已經經過數千張離線數據的學習和訓練,涵蓋不同角度、光照、情感和遮擋條件。訓練管道可以使用真實照片或者AI生成圖像,通過擴散模型訓練而成。訓練好的模型會經過TensorRT優化,以實時推斷面部變化。
RTX神經網絡面孔(RTX Neural Faces)是通過生成式AI重新定義實時圖形的第一步嘗試。
寫在最后:神經網絡進階時
在摩爾定律進入瓶頸的當下,單純依靠硬件堆疊和原始渲染方式已經無法很好的解決功耗與性能之間的問題,可以看到GeForce RTX 50系列在一定程度的硬件提升同時,從底層架構開始向神經網絡、人工智能看齊,進而使得在有限的硬件條件下獲得成倍、甚至數倍的性能提升,也進而誕生了DLSS 4、神經網絡著色器,引入了Transformer模型,Mega Geometry技術,讓實時游戲渲染逐漸向電影級畫質靠攏。
其中部分功能需要后續的軟件與硬件結合才能迸發出更好的效果,而諸如Transformer模型實裝已經開始讓GeForce RTX 50系列以及更早的GeForce RTX GPU受益。令人高興的是,硬件編解碼器不再是專業顯卡的專屬,GeForce RTX 5090和GeForce RTX 5090 D上3個第九代NVENC和2個第六代NVDEC讓消費用戶制作高規格視頻成為了可能。這也意味著無論是專業創作還是高性能游戲,GeForce RTX 5090都無疑會成為未來一段時間內不可替代的唯一選擇。
而隨著神經網絡著色器的進一步研究,更多游戲功能也會在游戲畫面、AI NPC應用付諸實踐,Blackwell GPU更像是通往新一代AI游戲領域的新開始,比如4K分辨率下高于200FPS流暢運行,比如更細致的游戲畫面和電影級畫面宏大敘事,再比如酷炫的AI功能,基于Blackwell架構的新技術無疑是讓人萬分期待的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.