作者:高飛
如果說AI產業現在有一個風向標公司,自然會是英偉達;如果看英偉達最新的動向,那無疑是每年一度的GTC大會;而如果說GTC最不能錯過的環節,自然就是黃仁勛的主題演講了。
黃仁勛的演講開始時間是在北京時間3月19日的凌晨1點,美國當地時間上午十點,不過八點鐘我到場的時候,會場所在的圣何塞SAP中心外就已經有排隊的隊伍。入場后,屏幕預熱的是美國知名科技播客Acquired Podcast雙人組主持的場內訪談。他們之前專訪過黃仁勛,也曾經制作過一只英偉達公司發展史播客,信息量很足。而參與訪談的人不僅包括了Dell公司創始人邁克爾·戴爾,也出現了前英特爾CEO基辛格的身影。
演講開始,黃仁勛身還是一身標志性的黑色皮夾克,GTC上一屆被形容為"AI伍德斯托克",今年則是"AI超級碗",只不過這里不是競技體育,所以沒有零和游戲,“人人都是贏家”。
01、AI發展進程:從感知到生成再到代理和物理AI
黃仁勛在演講開始時,回顧了AI在過去十年的快速演進歷程。他指出,人工智能的發展經歷了幾個關鍵階段:首先是感知AI(包括計算機視覺和語音識別),然后是生成式AI,現在已進入代理AI(agentic AI)階段,而物理AI和機器人技術正成為下一個重要浪潮。
"AI已經取得了巨大的進步。它只經歷了10年的發展。人工智能真正進入全球意識大約是在十年前。它開始于感知AI、計算機視覺、語音識別,然后是生成式AI。在過去五年,我們主要關注生成式AI,教AI如何從一種模態轉換到另一種模態,如文本到圖像、圖像到文本、文本到視頻、氨基酸到蛋白質、屬性到化學物質等各種方式。"黃仁勛解釋道。
他強調,生成式AI從根本上改變了計算方式。過去的計算模型主要是基于檢索的,我們預先創建內容,存儲多個版本,然后在使用時獲取最合適的版本。而現在,AI理解上下文,理解我們的請求含義,能夠生成答案而不僅僅是檢索數據。
"從檢索計算模型,我們現在有了生成計算模型,而過去我們幾乎所有的工作都是預先創建內容,存儲多個版本,然后在使用時獲取我們認為合適的版本?,F在,AI理解上下文,理解我們的請求,理解我們請求的含義,并生成它所知道的內容。如果需要,它會檢索信息,增強其理解,并為我們生成答案。不是檢索數據,而是生成答案。這從根本上改變了計算的方式。"
接著,黃仁勛詳細闡述了代理AI的概念:"代理AI基本上意味著你擁有一個具有代理能力的AI。它可以感知并理解環境上下文,它可以推理,非常重要的是,它可以推理如何回答或解決問題,它可以規劃行動,它可以規劃并采取行動。它可以使用工具,因為它現在理解多模態信息。它可以訪問網站,查看網站的格式、文字和視頻,甚至可能播放視頻,從中學習,理解這些信息,然后回來使用這些信息,使用這些新獲得的知識來完成任務。"
代理AI的基礎是推理能力,這一點與早期的大語言模型有著根本區別。黃仁勛指出:"兩年前,當我們開始使用ChatGPT時,盡管它已經是個奇跡,但對于許多復雜問題甚至一些簡單問題,它仍然無法正確回答。這是可以理解的,它只是一次性輸出,無論它從預訓練數據中學到什么,或者從其他經驗中看到的,它都只是像沙龍一樣一次性輸出。而現在我們有了可以推理的AI,它們可以一步步地分解問題,使用稱為思維鏈(chain of thought)、n中最佳(best of n)、一致性檢查(consistency checking)等各種路徑規劃和技術。"
02、AI計算需求的爆發性增長
黃仁勛揭示了一個被廣泛誤解的事實:AI推理已成為極限計算問題,其計算需求比去年同期預期高出約100倍。他明確指出:"人工智能的Scaling Law更具彈性,事實上是超加速的。由于代理AI和推理能力,我們目前所需的計算量是我們去年此時認為需要的100倍。"
這種計算需求的爆發主要源于兩方面:首先,具備推理能力的AI需要生成大量"思考令牌"來進行逐步推理;其次,為了訓練這些模型,需要使用強化學習和可驗證結果等技術,這些也需要大量計算資源。
黃仁勛通過一個生動的示例。展示了推理型模型和傳統大語言模型之間的差異:在一個婚禮座位安排問題上,傳統LLM生成了439個令牌但結果錯誤,而推理模型生成了8,600多個令牌并得出正確答案。
他說,"傳統語言模型做一次性推斷。所以一次性推斷是439個令牌。它速度快,效果好,但結果是錯的。所以這是439個浪費的令牌。另一方面,為了對這個問題進行推理,這實際上是一個非常簡單的問題,只需再增加幾個難題變量,推理就變得非常困難,它用了8,000,接近9,000個令牌。而且因為模型更復雜,它需要更多的計算。"
有意思的是,黃仁在這個演示中,推理模型選擇的是DeepSeek R1。
這種增加的計算需求對AI基礎設施提出了更高要求,黃仁勛解釋了AI推理的復雜性:"每生成一個令牌,我們就要將整個模型和上下文輸入進來,我們稱之為KV緩存,然后我們生成一個令牌。然后我們將這個令牌放回我們的大腦,生成下一個令牌。每次我們這樣做,我們都會輸入萬億參數,生成一個令牌。萬億字節的信息,萬億字節的信息被輸入到我們的GPU中,一次產生一個令牌。"
黃仁勛將推理比喻為工廠生產:"推理是工廠進行的令牌生成,而工廠是創收和創利的,或者說缺乏創收和創利。因此,這個工廠必須以極致的效率和極致的性能來建造,因為這個工廠的一切都直接影響你的服務質量、收入和盈利能力。"
03、Blackwell架構與Blackwell Ultra:AI基礎設施的重大突破
黃仁勛宣布,Blackwell架構已全面量產,這一架構代表了計算設計的根本性轉變。他展示了從HGX架構到全新的Grace Blackwell NVLink 72架構的轉變過程,這是一次真正的計算革命。
"這是整個行業的重大變革。在座的所有人,我要感謝你們實現了這一從集成NVLink到分離式NVLink、從空氣冷卻到液體冷卻、從每臺計算機約6萬個組件到每個機架60萬個組件、120千瓦完全液體冷卻的根本性轉變,因此,我們在一個機架中就有了一臺一個exaFLOPS的計算機。難道這不是不可思議嗎?"
Blackwell架構采用了分離式NVLink交換機設計。在過去的架構中,NVLink開關嵌入在主板上,而在新架構中,他們將NVLink系統分離出來并放置在機箱中央,有18個這樣的開關分布在9個不同的開關托盤中。計算節點現在完全液冷,這使得所有計算節點可以壓縮到一個機架中,每個機架包含約600,000個組件,重3,000磅,有約5,000根電纜(總長約兩英里),集成成一個超級計算機。
黃仁勛展示了Blackwell相比Hopper的顯著性能提升。在ISO功率條件下(相同功耗),Blackwell的性能是Hopper的25倍,對于推理工作負載,特別是推理模型,性能甚至可達40倍。
"在推理模型中,Blackwell的性能是Hopper的40倍,直接提升。非常驚人。我之前說過,當Blackwell開始大量出貨時,你甚至無法贈送Hopper。這就是我的意思。這是有道理的。如果有人仍在考慮購買Hopper,不要害怕,沒關系。但我是首席收入破壞者。我的銷售人員說,'哦,不要這么說'。在某些情況下,Hopper是可以的。這是我能對Hopper說的最好的話。在某些情況下,它是可以的。不是很多情況。"
在演講中,黃仁勛正式宣布了Blackwell Ultra的到來,這是Blackwell架構的增強版本。"NVIDIA Blackwell Ultra增強了訓練和測試時間擴展推理(在推理過程中應用更多計算以提高準確性的藝術),使世界各地的組織能夠加速AI推理、代理AI和物理AI等應用。"
Blackwell Ultra將推出兩個版本:一個配備兩個與NVIDIA Arm CPU配對的芯片,稱為GB300;另一個版本僅配備GPU,稱為B300。它還將推出帶有八個GPU的單個服務器刀片版本,以及一個包含72個Blackwell芯片的機架版本。
具體來說,Blackwell Ultra NVL72平臺將于2025年下半年上市,它具有如下特點:
- 帶寬是原版Blackwell的兩倍
- 內存速度是原版的1.5倍
- 單個Ultra芯片提供與Blackwell相同的20 petaflops AI性能
- 內存從192GB增加到288GB HBM3e
- DGX GB300 "Superpod"集群擁有300TB內存(原來是240TB)
黃仁勛表示:"人工智能已經取得了巨大的飛躍——推理和代理人工智能需要更高數量的計算性能。我們為這一刻設計了Blackwell Ultra——它是一個單一的多功能平臺,可以輕松高效地進行預訓練、后訓練和推理人工智能推理。"
04、NVIDIA Dynamo:AI工廠的操作系統革命
為了管理代理AI復雜的工作負載,NVIDIA發布了Dynamo操作系統,它專為AI工廠設計,能夠動態管理和優化計算資源。黃仁勛將這款軟件比作電機(Dynamo),象征著它在AI時代的重要性,就像電機在電氣時代的革命性角色一樣。
"我剛才描述了流水線并行、張量并行、專家并行、動態批處理、分離式推理、工作負載管理,然后我必須拿這個叫做KV緩存的東西,我必須將它路由到正確的GPU,我必須通過所有內存層次結構來管理它。這部分軟件極其復雜。因此,今天我們宣布NVIDIA Dynamo。NVIDIA Dynamo完成所有這些工作。它本質上是AI工廠的操作系統。"
Dynamo是一款開源推理軟件,用于以最低的成本和最高的效率加速和擴展AI工廠中的AI推理模型。黃仁勛解釋了為什么將這個系統命名為Dynamo:"你知道,電機是啟動上一次工業革命的第一個工具,即能源工業革命。水進入,電出來,非常棒。你知道,水進來,你點燃它,變成蒸汽,然后出來的是這個看不見的但非常有價值的東西。雖然之后花了80年才發展到交流電,但電機就是一切開始的地方。"
Dynamo的主要功能是協調和加速數千個GPU之間的推理通信,并通過分解服務將大型語言模型的處理和生成階段分離在不同GPU上。這允許每個階段根據其特定需求進行獨立優化,并確保最大程度地利用GPU資源。
Dynamo包含幾個關鍵能力:
1. 動態資源管理:根據不斷變化的請求量和類型動態添加、移除和重新分配GPU,以及在大型集群中精確定位特定GPU,以最大限度地減少響應計算和路由查詢。
2. 內存優化:將推理數據卸載到更便宜的內存和存儲設備,并在需要時快速檢索它們,從而最大限度地降低推理成本。
3. KV緩存映射:將推理系統在內存中保存的知識映射到可能數千個GPU上的先前請求,然后將新的推理請求路由到具有最佳知識匹配的GPU,避免昂貴的重新計算并釋放GPU來響應新的傳入請求。
黃仁勛表示:"世界各地的行業都在訓練AI模型以不同的方式思考和學習,隨著時間的推移,它們會變得更加復雜。為了實現自定義推理AI的未來,Dynamo有助于大規模服務這些模型,從而推動整個AI工廠的成本節約和效率提高。"
實驗表明,使用相同數量的GPU,Dynamo使在當今NVIDIA Hopper平臺上為Llama模型提供服務的AI工廠的性能和收入翻了一番。在GB200 NVL72機架的大型集群上運行DeepSeek-R1模型時,Dynamo的智能推理優化還將每個GPU生成的令牌數量提高了40倍以上。
黃仁勛宣布Dynamo將完全開源,支持PyTorch、SGLang、NVIDIA TensorRT-LLM和vLLM,使企業、初創公司和研究人員能夠開發和優化跨分解推理服務AI模型的方法。它將使用戶能夠加速AI推理的采用,包括AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI和VAST等合作伙伴。
05、CUDA-X庫生態系統:加速計算的多樣化工具集
黃仁勛在演講中著重強調了NVIDIA的軟件能力和CUDA-X生態系統的重要性。"NVIDIA一直使用通用計算機,以超慢的速度運行軟件為他人設計加速計算機。直到最近,我們才有針對CUDA優化的軟件庫。"
他強調,CUDA不僅僅是一個軟件,而是一整套生態系統和庫,使開發者能夠加速各種科學和工程領域的計算。CUDA-X包含900多個特定領域的庫和AI模型,為眾多應用提供計算加速能力。
黃仁勛詳細介紹了多個CUDA-X庫及其應用:
1. cuPYNUMERIC:用于NumPy的加速。"NumPy是全球下載量最大的Python庫,去年下載了4億次。cuPYNUMERIC是NumPy的零更改直接替代加速。所以如果你們中有人在使用NumPy,試試cuPYNUMERIC吧,你會愛上它的。"
2. cuLitho:計算光刻庫。"在四年的時間里,我們現在已經將整個光刻處理過程,計算光刻,這是晶圓廠的第二個工廠,納入進來。有制造晶圓的工廠,然后有制造信息以制造晶圓的工廠。未來每個擁有工廠的行業、每個公司都會有兩個工廠:一個用于建造產品的工廠,另一個用于數學的工廠,AI的工廠。"
3. Arial:用于5G的庫。"Arial是我們用于5G的庫,將GPU轉變為5G無線電。為什么不呢?信號處理是我們做得非常好的事情。一旦我們做到了這一點,我們可以在其上添加AI。AI用于RAN或我們稱之為AI RAN。下一代無線網絡將深度嵌入AI。"
4. cuOPT:數值或數學優化庫。"幾乎每個行業都在使用這個——當你在航班上規劃座位,庫存和客戶,工人和工廠,司機和乘客,等等,我們有多重約束,多重變量,你正在優化時間、利潤、服務質量、資源使用等等。NVIDIA使用它進行我們的供應鏈管理。cuOPT是一個令人難以置信的庫,它把原本需要幾個小時的事情變成了幾秒鐘。" 黃仁勛宣布NVIDIA將開源cuOPT,并表示正在與Gurobi、IBM CPLEX和FICO合作。
5. Parabricks:用于基因測序和基因分析。
6. Monai:全球領先的醫學成像庫。
7. Earth2:用于高分辨率預測本地天氣的多物理學模型。
8. cuQuantum和CUDA-Q:用于量子計算研究。"我們正在與生態系統中幾乎所有人合作,或者幫助他們研究量子架構、量子算法,或者建立經典加速的量子異構架構。"
9. cuDSS:稀疏求解器,對CAE非常重要。"這是去年發生的最重要的事情之一。與Cadence、Synopsys、Ansys、Dassault和所有系統公司合作,我們現在已經使幾乎所有重要的EDA和CAE庫都能被加速。"
10. cuDF:用于結構化數據的數據框架。"我們現在有一個用于Spark的直接替代加速和用于Pandas的直接替代加速。非常棒。"
11. Warp:在Python中運行的物理庫,一個用于CUDA的Python物理庫。黃仁勛提到,使用Warp,Autodesk使用八個GH200節點可以進行最多48億個單元的模擬,這比使用H100節點大5倍。
黃仁勛強調,這些庫的價值不僅在于它們提供的加速,還在于CUDA的廣泛部署:"CUDA的安裝基礎現在無處不在。它在每個云中,每個數據中心中,可從世界上每家計算機公司獲得。它實際上無處不在。因此,通過使用這些庫中的一個,你的軟件,你的驚人軟件可以觸及每個人。所以我們現在已經達到了加速計算的臨界點。CUDA使這成為可能。"
06、未來產品路線圖:從Blackwell到Vera Rubin再到Feynman
黃仁勛詳細介紹了NVIDIA未來幾年的產品路線圖,這是NVIDIA首次如此清晰地展示其長期技術發展計劃,讓客戶和合作伙伴能夠提前規劃他們的AI基礎設施投資。
"我們建設AI工廠和AI基礎設施需要數年的規劃。這不像買筆記本電腦。這不是可自由支配的支出。這是我們必須規劃的支出。所以我們必須規劃土地和電力,我們必須準備好資本支出,我們需要工程團隊。我們必須提前兩三年規劃好,這就是我為什么提前兩三年向你們展示我們的路線圖的原因。"
黃仁勛首先介紹了當前已在生產中的Blackwell架構,然后宣布了即將在2025年下半年發布的Blackwell Ultra、2026年下半年推出的Vera Rubin以及2027年下半年的Rubin Ultra。
1. Blackwell Ultra (2025年下半年)
黃仁勛表示:"在2025年下半年,我們將輕松過渡到升級版。所以我們有Blackwell Ultra,NVLink 72。它的實驗室是原來的1.5倍。它有一個用于注意力的新指令。它的內存是原來的1.5倍。所有這些內存都可用于KB緩存等。它的網絡帶寬是原來的2倍。"
2. Vera Rubin (2026年下半年)
這一架構以發現暗物質的天文學家Vera Rubin命名。黃仁勛在現場特別致敬了Rubin的貢獻,她的孫子們也出席了演講。Vera Rubin架構將帶來全新的CPU、GPU、網絡和內存技術,NVLink數量增加到144。
"Vera Rubin有兩個主要組件:一個稱為Vera的CPU和一個稱為Rubin的新GPU設計,具有NVLink 144。Vera是NVIDIA的首款定制CPU設計,它基于名為Olympus的核心設計。與Vera搭配使用時,Rubin可以在進行推理時實現每秒50千萬億次浮點運算,比Blackwell每秒20千萬億次浮點運算的速度高出一倍多。Rubin還可以支持高達288 GB的快速內存。"
黃仁勛還澄清了一個命名上的變化:"Blackwell實際上是兩個獨立的芯片組裝在一起作為一個芯片工作。從Rubin開始,當將兩個或多個芯片結合成一個單一芯片時,它會將這些芯片稱為獨立的GPU。"
3. Rubin Ultra (2027年下半年)
這是一個更加驚人的規格,將提供NVLink 576極端擴展能力,每個機架600千瓦,擁有250萬個部件,計算能力達到15 exaFLOPS(是Blackwell的15倍),內存帶寬達到4.6 petabytes/s(4,600 terabytes/s)。
"這是14倍更多的計算力,15 exaflops。從一個exaflop,正如我前面提到的,現在是15個exaflops擴展的exaflops。它是300,什么,4.6 petabytes,所以是4,600 terabytes每秒的擴展帶寬。我不是指聚合帶寬,我是指擴展帶寬。當然,還有全新的NVLink開關和CX9。"
黃仁勛通過一個直觀的對比展示了從Hopper到Blackwell再到Rubin架構的性能提升:Hopper是1x,Blackwell是68x,Rubin是900x。在TCO(總擁有成本)方面,Rubin將極大地降低成本,提高能效比。
最后,黃仁勛還透露,NVIDIA繼Rubin之后的下一代芯片將以物理學家Richard Feynman的名字命名,進一步強調了NVIDIA對科學和創新的致敬。不過黃仁勛沒有透露更多細節。我們只知道Nvidia計劃于2028年的某個時候將它推向市場,取代Rubin Vera。
07、硅光技術突破:實現百萬GPU規模擴展
黃仁勛展示了NVIDIA在硅光技術方面的重大突破,這將成為實現超大規模GPU連接的關鍵。他宣布了NVIDIA首個共封裝光子系統(co-packaged optics silicon photonic system),這是全球首個1.6Tb/s的CPO,基于微環諧振調制器(micro ring resonator modulator)技術,與TSMC合作開發。
黃仁勛通過一個生動的實物演示,向觀眾展示了當前光纖收發器的問題:"這個(收發器)是30瓦。大批量購買的話,要1000美元。這是一個插頭。這一邊是電的,那一邊是光的。光線通過黃色部分進入。你把這個插入交換機,這邊是電的。有收發器、激光器,它是一種叫做馬赫-曾德爾的技術,非常了不起。"
接著,他解釋了在大規模GPU集群中使用這些收發器的挑戰:"如果我們有10萬個GPU,我們將有10萬個這種(收發器)在這一邊,然后另外10萬個連接交換機到交換機,然后另一邊我將其歸因于另一個網卡。如果我們有25萬個,我們會添加另一層交換機,所以每個GPU,25萬個,每個GPU都會有6個收發器。每個GPU的這6個插頭將增加180瓦每個GPU,180瓦每個GPU,6000美元每個GPU。"
這種情況下,如果要擴展到百萬級GPU,會面臨巨大的功耗和成本挑戰:"所以問題是我們如何擴展到數百萬GPU?因為如果我們有一百萬個GPU乘以6,對吧,那將是600萬個收發器乘以30瓦,180兆瓦的收發器。他們沒有做任何計算,他們只是移動信號。所以問題是我們如何負擔得起,正如我之前提到的,能源是我們最重要的商品。一切最終都與能源有關,所以這會通過減去180兆瓦的功率來限制我們的收入,我們客戶的收入。"
為解決這一問題,NVIDIA開發了基于微環諧振調制器的硅光技術。黃仁勛展示了這項技術的原理:"有一個小波導,你看那個波導連接到一個環,那個環共振并控制波導在繞行時的反射率,調制通過的能量,光的量,它通過吸收關閉它或者讓它通過。好的?它將這個直接連續的激光束轉換成1和0,這就是奇跡。"
這項技術將被應用于NVIDIA的下一代InfiniBand交換機和Spectrum X以太網產品中,使得交換機每個交換機可以支持512個端口,從而實現超大規模GPU集群的連接。黃仁勛表示,這項技術將在2025年下半年開始應用于InfiniBand交換機,2026年下半年將應用于Spectrum X交換機。
"在一個數據中心,我們可以節省數十兆瓦,數十兆瓦。比如說10兆瓦,好吧,比如說60兆瓦,6兆瓦是10個Rubin Ultra機架。6兆瓦是10個Rubin Ultra機架。60兆瓦,那是很多。100個Rubin Ultra機架的功率,我們現在可以部署到Rubin中。"
這項技術的突破性在于,它使NVIDIA能夠在交換機中實現共封裝光學,無需收發器,直接將光纖連接到交換機,每個交換機支持512個端口。這在以前是不可能實現的,而現在它使NVIDIA能夠擴展到數十萬乃至數百萬GPU的規模。
08、企業AI基礎設施的革新:從計算到存儲
黃仁勛強調,為了將AI帶入全球企業,NVIDIA開發了全新的企業級AI計算產品線,從DGX工作站到服務器再到超級計算機。他展示了一臺DGX工作站,將其描述為"AI時代的計算機"。
"這就是PC應該有的樣子。20 petaflops。難以置信。72個CPU核心。芯片到芯片接口。HBM內存。以防萬一,還有一些PCI express插槽給你的G-force。這被稱為DGX工作站。DGX Spark和DGX工作站將由所有OEM提供?;萜?、戴爾、聯想、華碩。它將為全球的數據科學家和研究人員制造。這是AI時代的計算機。"
黃仁勛指出,在AI時代,計算有三大支柱:計算、網絡和存儲。在網絡方面,NVIDIA的Spectrum X正在走向全球企業,成為AI網絡的關鍵組成部分。
在存儲方面,黃仁勛宣布了一場存儲系統的革命。傳統的存儲系統主要基于檢索,而新一代存儲系統將基于語義理解和生成能力:
"存儲系統必須被完全重新發明。而不是基于檢索的存儲系統,它將是基于語義的檢索系統?;谡Z義的存儲系統。因此,存儲系統必須在后臺持續嵌入信息。將原始數據嵌入到知識中,然后當你稍后訪問它時,你不會檢索它。你只是與它交談。你問它問題。你給它問題。在未來,你將在每個企業中擁有類似的東西。這就是未來的企業存儲。"
NVIDIA正與整個存儲行業合作,包括DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka等合作伙伴,首次將GPU加速引入存儲系統。
此外,NVIDIA還宣布了NIMS模型,這是一個完全開源的企業就緒推理模型,可以在任何地方運行——DGX Spark、DGX Station、OEM服務器或云端,并可集成到任何代理AI框架中。
黃仁勛快速展示了與NVIDIA合作構建AI系統的眾多企業伙伴,包括Accenture、Amdocs、AT&T、BlackRock、Cadence、Capital One、Deloitte、ENY、Nasdaq、SAP和ServiceNow等。這些企業正在各自行業中利用NVIDIA技術構建AI工廠和框架。
"在每一個例子中,都有NVIDIA模型、NVIDIA NIMS、NVIDIA庫集成在整個過程中。這樣你就可以在本地運行它,在云中運行,在任何云中。"
09、NVIDIA在自動駕駛領域的進展與Halos安全系統
黃仁勛轉向自動駕駛領域,強調這是AI最早應用的領域之一,NVIDIA已在此領域深耕十多年:"當我看到AlexNet時,那是一個如此鼓舞人心的時刻,如此令人興奮的時刻,它使我們決定全力投入到自動駕駛汽車的建設中。所以我們現在已經在自動駕駛汽車上工作了十多年。"
他指出,NVIDIA為幾乎所有自動駕駛汽車公司提供技術支持,無論是數據中心技術(如特斯拉在數據中心使用大量NVIDIA GPU)還是車載計算機(如Waymo和Wave在數據中心和車輛中都使用NVIDIA計算機)。NVIDIA構建了三種計算機:訓練計算機、模擬計算機和機器人計算機(自動駕駛汽車計算機),以及所有基于它的軟件堆棧、模型和算法。
黃仁勛宣布與通用汽車(GM)的重要合作:"我很高興地宣布,通用汽車已選擇NVIDIA作為合作伙伴,與他們一起建設未來的自動駕駛車隊。自動駕駛汽車的時代已經到來。我們期待與通用汽車在三個領域構建AI:AI用于制造,使他們能夠徹底改變制造方式;AI用于企業,使他們能夠徹底改變工作、設計汽車和模擬汽車的方式;然后還有AI用于車內。所以這是為通用汽車提供的AI基礎設施,與通用汽車合作,為通用汽車構建他們的AI。"
接著,黃仁勛展示了NVIDIA在汽車安全領域的創新——NVIDIA Halos,這是一個綜合安全系統,將NVIDIA的汽車硬件和軟件安全解決方案與其在自動駕駛安全領域的尖端AI研究結合在一起。
"安全需要從硅到系統再到系統軟件的技術,算法,方法論,從多樣性到確保多樣性,監控和透明度,可解釋性。所有這些不同的理念必須深深植根于你開發系統和軟件的每一部分中。我們是世界上第一家,我相信,每一行代碼都經過安全評估的公司。七百萬行代碼經過安全評估。我們的芯片,我們的系統,我們的系統軟件和我們的算法都經過第三方安全評估,他們檢查每一行代碼,以確保它的設計可以確保多樣性,透明度和可解釋性。"
Halos系統涵蓋三個不同但互補的層面:
1. 技術層面:涵蓋平臺、算法和生態系統安全。
2. 開發層面:包括設計時、部署時和驗證時防護措施。
3. 計算層面:涵蓋從AI訓練到部署的整個過程,使用三臺強大的計算機——用于AI訓練的NVIDIA DGX、在NVIDIA OVX上運行的NVIDIA Omniverse和NVIDIA Cosmos用于模擬,以及用于部署的NVIDIA DRIVE AGX。
10、物理AI與機器人技術:GROOT N1與Newton物理引擎
黃仁勛將演講的最后部分,聚焦于物理AI和機器人技術,他強調機器人時代已經到來,并將成為一個巨大的產業。
"機器人的時代已經到來。我們清楚地知道,世界面臨著嚴重的人類勞動力、人類工人短缺。到本世紀末,世界將至少缺少5000萬工人。我們非常樂意支付他們每人5萬美元來工作。我們可能不得不支付機器人每年5萬美元來工作。所以這將是一個非常非常大的行業。"
黃仁勛指出,機器人系統有多種形式:從工業基礎設施(倉庫和工廠中數十億個攝像頭,全球1000-2000萬個工廠)到已經是機器人的汽車,再到現在正在構建的通用機器人。
NVIDIA宣布開源全球首個人形機器人基礎模型GROOT N1,這是一個完全可定制的通用人形推理和技能基礎模型。黃仁勛表示:"通用機器人時代已經到來。借助NVIDIA Isaac GR00T N1以及新的數據生成和機器人學習框架,世界各地的機器人開發人員將開拓AI時代的下一個前沿。"
GROOT N1是NVIDIA去年在GTC大會上推出的Project Groot的演進版本。Project Groot面向工業用例,而GROOT N1將重點擴大到各種不同外形的人形機器人。
GROOT N1基礎模型采用雙系統架構,靈感來自人類認知原理:
- "系統1"是一種快速思考的行動模型,反映了人類的反應或直覺。
- "系統2"是一種慢速思考的模型,用于深思熟慮、有條不紊的決策。
在視覺語言模型的支持下,系統2可以推理其環境和收到的指令,從而規劃行動。然后,系統1將這些計劃轉化為精確、連續的機器人動作。系統1接受人類演示數據和NVIDIA Omniverse平臺生成的大量合成數據的訓練。
GROOT N1可以輕松實現常見任務(如抓取、用一只或兩只手臂移動物體以及將物品從一只手臂轉移到另一只手臂),或者執行需要長時間上下文和一般技能組合的多步驟任務。這些功能可應用于物料搬運、包裝和檢查等用例。
黃仁勛還宣布了與DeepMind和迪士尼研究中心的合作,開發名為Newton的開源物理引擎。這一合作旨在解決物理AI面臨的核心挑戰,尤其是在強化學習領域。
"就像我們之前談到的,語言模型今天令人難以置信的擴展能力之一是可驗證獎勵的強化學習。問題是機器人技術中的可驗證獎勵是什么?正如我們非常清楚的那樣,它是物理定律,可驗證的物理獎勵。所以我們需要一個令人難以置信的物理引擎。"
黃仁勛解釋了,為何需要一個專門為機器人設計的高級物理引擎:"大多數物理引擎都是為各種原因設計的。它們可以被設計用于大型機械,或者可能是為虛擬世界、視頻游戲等設計的。但我們需要一個為非常精細的剛體和軟體設計的物理引擎,能夠訓練觸覺反饋、精細運動技能和執行器控制。我們需要它由GPU加速,這樣這些虛擬世界可以以超線性時間、超實時生活,并以難以置信的速度訓練這些AI模型。我們需要它與全球機器人專家使用的框架和JOCO和諧地集成。"
Newton物理引擎基于NVIDIA Warp框架構建,將針對機器人學習進行優化,并與Google DeepMind的MuJoCo和NVIDIA Isaac Lab等模擬框架兼容。此外,三家公司還計劃讓Newton使用迪士尼的物理引擎技術。
11、AI走進各行各業:從電信到醫療的應用擴展
黃仁勛強調,AI正在進入各行各業,盡管全球范圍內不同行業在平臺、需求以及其他方面存在諸多差異,NVIDIA正在通過多種方式推動AI在全球范圍內的應用。
在電信領域,黃仁勛宣布NVIDIA與思科(Cisco)、T-Mobile和Cerberus ODC合作,在美國建立無線網絡全棧解決方案:"今天我們宣布,思科、NVIDIA、T-Mobile(全球最大的電信公司)、Cerberus ODC將在美國建立無線網絡的全棧。這將是第二個棧。全球資本投資每年1000億美元用于無線電計算機和為通信提供的所有數據中心。在未來,毫無疑問,在我看來,這將是融入AI的加速計算。AI將做得更好,遠遠更好地適應無線電信號,大規模MIMO,適應不斷變化的環境和交通狀況。"
他指出,背景信息和先驗知識是實現通信領域突破的關鍵:"當我打電話回家時,你不必說那幾個詞,因為我妻子知道我在哪里工作,那種情況是什么樣的。對話從昨天繼續。她記得我喜歡什么,不喜歡什么。通常,只需幾個詞。你交流了很多東西。原因是因為上下文和人類先驗,先驗知識。將這些能力結合起來可以徹底改變通信??纯此鼘σ曨l處理做了什么??纯次抑懊枋龅?D圖形。所以我們當然會為邊緣做同樣的事情。"
在醫療領域,黃仁勛提到了MONAI庫的應用,這是全球領先的醫學成像庫,可以加速醫學圖像處理和分析。
在企業IT領域,他強調人工智能將徹底改變企業應用,從數據存儲到數據處理方式。未來,企業將擁有數字勞動力——AI代理,這些代理將與人類員工并肩工作:
"有10億知識工作者在世界各地??赡軙?00億數字工作者與我們并肩工作。未來100%的軟件工程師,全球有3000萬,100%會得到AI輔助。我確信這一點。到今年年底,100%的NVIDIA軟件工程師將得到AI輔助。所以AI代理將無處不在。"
在金融服務領域,黃仁勛提到了與BlackRock和Capital One等公司的合作,這些公司正在利用NVIDIA技術構建AI系統。
在設計和制造領域,他強調了與Cadence的合作:"未來,我們不僅會雇傭ASIC設計師,我們還會從Cadence雇傭大量數字ASIC設計師來幫助我們設計芯片。"
黃仁勛的觀點清晰:AI將進入每個行業,無論是通過云服務、企業基礎設施還是嵌入式設備,而NVIDIA正在為這一轉變提供必要的技術和平臺支持。
12、總結:AI時代的三大基礎設施
在演講結束時,黃仁勛總結了NVIDIA正在構建的三大AI基礎設施,這些基礎設施將支撐未來AI的發展和應用:
"Blackwell已全面投產。客戶需求非常強勁,這是有充分理由的。因為AI出現了一個拐點,由于推理AI系統和推理AI系統的訓練以及代理系統,我們必須在AI中做的計算量要大得多。其次,搭載Dynamo的Blackwell NVLink 72的性能是Hopper的40倍。在未來十年,推理將成為最重要的工作負載之一,隨著我們擴展AI。第三,我們為你規劃了年度路線圖,以便你可以規劃你的AI基礎設施。然后我們正在構建三個AI基礎設施:云的AI基礎設施,企業的AI基礎設施,以及機器人的AI基礎設施。"
1. 云AI基礎設施:從Blackwell到Vera Rubin再到Feynman,NVIDIA提供了清晰的硬件路線圖,同時通過Dynamo等軟件優化AI工廠的效率,使云服務提供商能夠大規模部署AI服務。
2. 企業AI基礎設施:通過DGX系列產品、Spectrum X網絡和革命性的語義存儲系統,NVIDIA為企業提供了從計算到網絡再到存儲的完整AI棧,使企業能夠構建自己的AI能力。
3. 機器人AI基礎設施:通過GROOT N1、Newton物理引擎和Omniverse平臺,NVIDIA為下一代機器人提供了必要的技術基礎,使機器人能夠理解物理世界并與之交互。
黃仁勛的演講展示了NVIDIA如何通過創新硬件、全棧軟件和廣泛的合作伙伴關系,應對AI計算需求的爆發性增長,并構建支持下一代AI應用的基礎設施。從推理AI到代理AI再到物理AI,NVIDIA不僅在應對當前挑戰,還在前瞻性地規劃未來的技術發展路徑。
黃仁勛在演講中強調,現在是一個AI新時代的起點,這個時代將由更智能的推理系統、更高效的AI工廠和更多樣化的應用場景所定義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.