今年的主題:AI Factory (工廠)以及 Tokens(令牌)。
圖:GTC 2025主題演講開場預告
在NVIDIA的世界中,令牌是AI計算的基本單位(也是客戶可以收費的單位)。
“令牌不僅教會機器人如何移動,還教會它們如何帶來歡樂。”
“這里是一切開始的地方。”
圖:GTC 2025 Jensen在臺上
“今年,我們想帶你去NVIDIA的總部。”
“我們有很多令人難以置信的事情要討論。”
Jensen特意讓觀眾知道,他沒有使用腳本或提詞器進行演講。
“GTC始于GeForce。”
Jensen手里拿著GeForce RTX 5090,以及一個RTX 4090進行比較。
圖:GeForce RTX 5090
Jensen展示了一個路徑追蹤環境——其中包含大量的AI,用于提供上采樣(upscaling)、去噪等功能。
“生成式AI從根本上改變了計算的方式。”
圖:AI增長
AI現在具有了代理能力——Jensen稱之為“代理AI”(Agentic AI)。模型可以從網站檢索內容,既作為訓練,也作為更即時的信息檢索。
Jensen表示,他們今天還將討論很多關于推理AI的內容。
以及“物理AI”,使用AI來幫助模擬和訓練其他AI模型。
“讓GTC變得更大的唯一方法是擴大圣何塞(San Jose)的規模。我們正在努力!”
每年,越來越多的人來參加GTC,因為AI能夠為更多的人和公司解決問題。
三個基本的縮放定律(Scaling Law):
圖:AI縮放定律
預訓練縮放、后訓練縮放和測試時縮放。如何創建、如何訓練以及如何縮放?
縮放(Scaling):這是去年幾乎整個世界都搞錯的地方。由于推理,我們需要的計算量比世界去年認為的要多100倍。
圖:帶有推理的縮放定律
現在我們有了能夠通過鏈式思維和其他技術逐步推理的AI。但生成令牌的基本過程沒有改變。相反,這種推理需要更多的令牌——明顯更高,“輕松高出100倍”。
為了保持模型的響應速度,每秒所需的計算量也同樣高。
強化學習是過去幾年的重大突破。給AI數百萬個不同的示例來逐步解決問題,并在它做得更好時給予獎勵(強化)。這相當于數萬億個令牌來訓練該模型。換句話說:生成合成數據來訓練AI。
Jensen表示,這已被行業通過硬件銷售所接受。
Hopper的出貨量位居云服務提供商之首。Hopper的峰值年份與Blackwell的第一年相比。
圖:Hopper與Blackwell的銷售情況
僅一年時間——而Blackwell才剛剛開始出貨——NVIDIA報告了企業GPU銷售的顯著增長。
Jensen預計數據中心的建設將很快達到萬億美元的規模。
圖:計算收入
Jensen認為我們正在看到數據中心建設的拐點,轉向加速計算(即GPU和其他加速器,而不僅僅是CPU)。
“計算機已經成為令牌的生成器,而不是文件的檢索器”。這就是NVIDIA所說的AI工廠。
雖然數據中心的一切都將被加速,但并非所有都將是AI。
▍NVIDIA CUDA-X
圖:NVIDIA CUDA-X
你還需要用于物理學、生物學和其他科學領域的框架。所有這些NVIDIA都已經作為其CUDA-X庫的一部分提供。cuLitho用于計算光刻,cuPynumeric用于數值計算,Aerial用于信號處理等。這是NVIDIA在更廣泛行業中的“護城河”。
“我們將在GTC舉辦第一次量子日”就在星期四。
“CUDA的安裝基礎現在無處不在”。通過使用這些庫,開發人員的軟件可以觸及每個人。
Blackwell比第一個CUDA GPU快50,000多倍。
“我熱愛我們所做的工作。我更熱愛你們用它所做的事情。”
圖:每個行業的AI
CSP(云服務提供商)喜歡CUDA開發人員是他們的客戶。
但現在他們將把AI帶到世界的其他地區,情況正在發生變化。GPU云、邊緣計算等都有自己的要求。
在NV的許多較小公告中,幾家公司(Cisco、T-Mobile等)正在使用NVIDIA的技術(Ariel-Sionna等)在美國構建完整的無線電網絡堆棧。
但這只是一個行業。還有自動駕駛汽車。AlexNet說服NVIDIA全力投入自動駕駛汽車技術。現在他們的技術正在全世界范圍內使用。NVIDIA為訓練、模擬和自動駕駛汽車計算機構建計算機。
NVIDIA宣布,GM(通用汽車)將與NVIDIA合作,構建他們未來的自動駕駛汽車車隊。
“自動駕駛汽車的時代已經到來。”
NVIDIA已經讓第三方評估了所有700萬行代碼的安全性。安全性似乎是NVIDIA今年汽車努力的關鍵字。
圖:自動駕駛汽車訓練循環
數字孿生、強化學習、生成多樣化場景等。所有這些都圍繞NVIDIA Cosmos構建。使用AI來創建更多的AI。
▍數據中心
現在進入數據中心。
圖:Grace Blackwell全面生產
Grace Blackwell現在已經全面生產。Jensen展示了其合作伙伴提供的各類機架系統。
NVIDIA花費了很長時間研究分布式計算——如何進行縱向擴展(Scale up),然后如何進行橫向擴展(Scale out)。擴展是困難的;因此,NVIDIA必須首先通過HGX和8路GPU配置進行擴展。
圖:HGX和Blackwell
Jensen展示了一個NVL8系統是如何構建的,重點強調了過去。
為了超越這一點,NVIDIA必須重新設計NVLink系統的工作方式,以進一步擴展。NVIDIA將NVLink交換移出機箱,并將其移動到一個機架單元設備中。“分散式NVLink”
圖:NVLink分散式交換
現在NVIDIA可以在一個機架中提供一個ExaFLOP(低精度)。
圖:Blackwell GPU
Blackwell GPU已經在推動光罩(reticle)限制,所以NVIDIA通過轉向現在基本上是機架級系統而不是單個服務器來擴展。
所有這些都是為了幫助為AI提供計算性能。而不僅僅是為了訓練,還為了推理。
圖:推理性能曲線
Jensen展示了一個針對大型規模計算的推理性能曲線。簡而言之,它是總吞吐量和響應速度之間的平衡。保持系統飽和將最大化令牌吞吐量,但生成單個令牌將需要很長時間。如果時間太長,用戶將轉向其他地方。
這是經典的延遲與吞吐量之間的權衡。
因此,對于NVIDIA的CSP合作伙伴和其他使用NV硬件進行推理的客戶來說,為了最大化他們的收入,他們需要仔細選擇曲線上的一個點。通常,理想點將位于上方和右側——在不顯著犧牲一個以換取另一個的微小改進的情況下,獲得最大的吞吐量和響應速度。
所有這些都需要FLOPS、內存帶寬等。因此,NVIDIA構建了硬件來提供這些。
現在播放另一個視頻,展示推理模型的實用性和計算需求。
圖:AI推理
在NVIDIA的用例中,一個傳統的LLM(大型語言模型)快速、高效但錯誤。439個令牌被浪費。推理模型可以處理它,但它需要超過8,000個令牌。
使所有這些具有高性能不僅需要大量的硬件,還需要大量的優化軟件,一直到操作系統,以處理基本優化,如批處理。
預填充(prefill)——消化信息(digesting information)——非常消耗FLOPS。下一步,解碼(decode),是內存帶寬密集型的,因為模型需要從內存中拉取;數萬億個參數。所有這些都是為了生成1個令牌。
這就是為什么你想要NVLink。將許多GPU變成一個巨大的GPU。
然后這允許進一步優化。多少GPU將用于預填充與解碼?
▍Nvidia Dynamo:AI 工廠的操作系統
公告:NVIDIA Dynamo,一個分布式推理服務庫。AI工廠的操作系統。
圖:NVIDIA Dynamo
Jensen將Dynamo與VMWare進行比較,就其范圍而言。而VMWare是針對CPU系統布局的,Dynamo是針對GPU系統布局的。
Dynamo是開源的。
現在回到硬件和性能。Jensen正在比較一個NVL8 Hopper設置與Blackwell。每秒令牌數與每兆瓦特令牌數的對比。
“只有在NVIDIA,你才會被數學折磨。”
對于服務提供商來說,隨著時間的推移,大量的令牌轉化為大量的收入。記住吞吐量與響應速度之間的權衡。這是NVIDIA試圖彎曲的曲線。
Blackwell通過更好的硬件和對較低精度數據格式(FP4)的支持來改進這一點。使用更少的能量做與以前相同的事情,以便做更多的事情。
“每個未來的數據中心都將受到功率限制。”“我們現在是一個受功率限制的行業。”
圖:NVIDIA Dynamo性能曲線
Dynamo幫助使Blackwell NVL72甚至更快。這是在等功率下,而不是等芯片下。在一代產品中提高了25倍。
圖:性能曲線點
現在談論帕累托前沿(pareto frontier)和帕累托最優性,以及各種模型配置如何在曲線上擊中不同的點。
而在其他情況下,Blackwell可以達到Hopper(等功率)性能的40倍。
“我是首席收入破壞者。”“在某些情況下,Hopper是可以的。”
圖:Hopper與Blackwell的令牌收入
就是這樣:“你買得越多,你節省得越多。”“你買得越多,你賺得越多。”
▍Nvidia Omniverse
播放另一個視頻。這次談論NVIDIA如何為所有事物構建數字孿生,包括數據中心。(在NV的世界里,它只是另一個工廠,畢竟)
Omniverse數據中心藍圖
最終,使用數字孿生允許所有這些在提前計劃和優化后,最終快速構建一次。
圖:Blackwell Ultra NVL72
Blackwell Ultra NVL72,計劃于今年下半年開始出貨。1.1 Exaflops密集FP4推理。網絡帶寬增加2倍。20TB的HBM系統內存。以及一個新的注意力指令,應該會將性能提高一倍。
該行業現在已經到了需要計劃支出的地步。公司正在對硬件、設施和NVIDIA的生態系統做出多年承諾。這就是為什么Jensen希望使NVIDIA的路線圖清晰的原因。
▍Vera Rubin
在Blackwell之后是Vera Rubin,她發現了暗物質。
圖:Vera Rubin
Vera Rubin NVL144,計劃于2026年下半年推出。Vera Arm CPU + Rubin GPU。
從現在開始,當談論NVLink域時,NVIDIA將計算GPU芯片而不是單個GPU芯片。所以NVL144是144個芯片,而不是144個芯片。
圖:Rubin Ultra NVL576
然后是Rubin Ultra NVL576,計劃于2027年下半年推出。600KW用于一個機架。15 ExaFLOPs。每個GPU包1TB HBM4e內存。
圖:NVIDIA Rubin擴展
圖:AI工廠經濟學
Rubin將顯著降低AI計算的成本。
這就是擴展。現在是時候談論擴展和NVIDIA的網絡產品了。
▍網絡產品
Jensen正在回顧了NVIDIA決定購買Mellanox并進入網絡市場的情況。
圖:NVIDIA Spectrum-X
CX-8和CX-9即將推出。NVIDIA希望在Rubin時代擴展至數十萬個GPU。
擴展意味著數據中心的大小相當于一個體育場。銅連接是不夠的。需要光纖(Optical)連接。而光纖連接可能非常耗能。所以NVIDIA計劃通過共同封裝的硅光子學(silicon photonics)使光學網絡更高效。
圖:NVIDIA光子學
基于一種稱為微環調制器(MRM)的技術。在TSMC上構建,使用他們與工廠合作開發的一種新型3D堆疊工藝。
圖:Jensen The Cable Guy
(解開電纜)“哦,天哪”
Jensen正在談論當前的光學網絡如何工作,每側都有單獨的收發器用于每個端口。這是可靠和有效的,但在電氣到光學轉換(以及返回)中會消耗大量電力。
“每個GPU將有6個收發器”。這將消耗180瓦(每個30瓦)和數千美元的收發器。
所有由收發器消耗的功率都是無法用于GPU的功率。這阻止了NVIDIA向客戶銷售更多的GPU。
圖:多環模塊(MRM)
在TSMC上使用COUPE進行封裝。
現在播放另一個視頻,更詳細地展示光子學系統如何工作。
圖:光子學激光器
NVIDIA將在2025年晚些時候推出一個硅光子學Quantum-X(InfiniBand)交換機,然后在2026年下半年推出一個Spectrum-X(以太網)交換機。
沒有收發器——直接光纖連接。Spectrum-X交換機最多可有512個端口。
節省6 MW相當于一個數據中心可以添加10個Rubin Ultra機架。
圖:NVIDIA路線圖
每年一個新平臺。
Rubin之后的下一代GPU?傳奇人物Richard Feynman。
現在轉向系統(System)。
到今年年底,100%的NVIDIA軟件工程師將得到AI的協助。我們需要一條新的計算機生產線。
宣布DGX Spark。這是NVIDIA之前宣布的Project DIGITS迷你PC的最終名稱。
圖:NVIDIA DGX Spark
DGX Spark和DGX Station。
圖:DGX Station
還加速了存儲。NVIDIA一直在與所有主要存儲供應商合作。
圖:GPU加速存儲
Dell將提供一系列基于NVIDIA的系統。
▍Llama Nemotron
NVIDIA還宣布了一個新的開源模型:NVIDIA Nemo Llama Nemotron推理。
圖:Llama Nemotron
現在快速瀏覽所有NVIDIA的客戶,他們正在將NVIDIA技術集成到他們的框架中。
▍機器人
現在進入機器人領域。
“世界嚴重缺乏人類工人”
圖:NVIDIA機器人期望
接下來播放關于機器人的視頻。這些機器人將通過AI模擬物理世界進行訓練。
圖:NVIDIA機器人工作流
圖:人類機器人訓練
這個視頻的很大一部分是回顧NVIDIA之前討論過的內容。使用數字孿生創建一個虛擬設施,以幫助訓練機器人。(當機器人在虛擬世界中犯錯時,不會有任何東西被打破)
介紹NVIDIA Isaac GROOT N1。
圖:NVIDIA Isaac GROOT N1
圖:Groot N1模擬
“物理AI和機器人技術發展如此之快。每個人都要注意這個領域。這很可能是最大的行業。”
Jensen正在總結Omniverse + Cosmos模擬如何工作。使用Cosmos創建各種環境以幫助訓練。
在機器人技術中,什么是可驗證的獎勵?物理學。如果一個機器人以物理上正確的方式行為,那么這可以被驗證為準確的。
現在播放另一個視頻,這次是一個名為Newton的新物理引擎。
圖:Newton物理引擎
圖:Newton演示片段
圖:“Blue”機器人
從數字到真實。視頻中的機器人,Blue,是一個真實的機器人。
“讓我們結束這個主題演講。現在是午餐時間”
今天還宣布Groot N1是開源的。
現在來總結一下。
圖:GTC 2025總結
Blackwell正在加速,但NVIDIA已經在關注2025年晚些時候的Blackwell Ultra,2026年的Vera Rubin,2027年的Rubin Ultra,以及2028年的Feynman。
就是這樣。
▍最后的話
雖然NVIDIA的關鍵GPU業務部分目前顯然處于中期,但GTC 2025清楚地表明,這并沒有阻止公司其他部分全速前進。展望一個世界,該公司預計由于計算密集型的推理模型,對AI硬件的需求將增長更多,NVIDIA正在硬件和軟件方面向前推進,以提供新的工具和更好的性能。并最終實現更高的能源效率,因為業務正變得基本上受能源限制。
在硬件方面,雖然Blackwell在技術上仍在加速,但NVIDIA已經在關注下一步。對于2025年下半年,這將是更大更好的B300 Blackwell Ultra GPU,這是Blackwell家族的一個中期提升,預計將提供改進的性能。來自NVIDIA的細節仍然很少,但它的主要賣點是,對于單個GPU包,FP4性能提高50%(15TFLOPS),并支持288GB的HBM3e內存,比B200 GPU提高50%。像它的前輩一樣,這是一個雙芯片,將兩個“光罩大小”的GPU打包成一個單獨的芯片。
Blackwell Ultra將用于構建一個更新的Grace Blackwell GB300超級芯片,這將用于進一步的NVIDIA產品,最顯著的是Blackwell Ultra NVL72機架級系統,以增強NVIDIA當前的GB200 NVL72產品。
同時,NVIDIA還提供了公司未來硬件計劃的新鮮路線圖,將其延長至2028年。承認NVIDIA現在是一個大公司,客戶需要對公司的硬件和產品線進行巨大的投資,NVIDIA現在旨在在他們的未來硬件計劃上更加透明——至少在產品名稱和一些非常基本的規格上非常高層次。
為此,在2026年下半年,我們將看到NVIDIA的下一代Arm CPU的發布,代號為Vera,而GPU方面將提供Rubin GPU架構。2027年底將看到Rubin家族通過Rubin Ultra進行刷新,這是一個4芯片GPU。而2028年將看到Vera CPU與基于新宣布的Feynman GPU架構的GPU配對,這將使用下一代(后HBM4e?)內存技術。
至于NVIDIA的網絡業務,前Mellanox集團將通過將共同封裝的硅光子學引入NVIDIA的交換機來增強NVIDIA的AI努力。旨在通過放棄專用的光學收發器來減少網絡所需的功率量,NVIDIA將使用硅光子學更直接地驅動所需的激光器。2025年下半年將推出一個Quantum-X(InfiniBand)交換機,而2026年下半年將帶來一對使用該技術的Spectrum-X(以太網)交換機。總體而言,NVIDIA預計客戶將能夠重新投資其硅光子學交換機所節省的功率,以購買和安裝更多的GPU系統。
最后但并非最不重要的是,NVIDIA在展會上有幾個軟件公告。Dynamo承諾幫助在大型GPU系統上平衡和優化推理的執行,幫助NVIDIA的服務提供商客戶在吞吐量和響應速度之間取得平衡,以最大化他們從其按需GPU服務中獲得的工作量和收入。同時,其他產品如GR00T N1和Llama Nemotron推理旨在分別針對機器人和AI社區。
? AI范兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯系方式
黃仁勛 CES 主題演講完整內容:顯卡、游戲、AI、自動駕駛、機器人、DGX
點這里關注我,記得標星哦~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.