新智元報道
編輯:定慧 好困
【新智元導讀】人類進化12000年,只為等AI覺醒?黃仁勛宣布「AI工廠時代」正式到來!從農業到工業再到AI革命,英偉達如何用算力推動歷史巨輪?未來,每家公司都將有一個專屬的超級智能工廠。并全覽目前最先進的GB200 NVL72的詳細參數。
當談到AI時,上下文(Context)就是一切;當談到上下文時,數據就是一切。
當談論數據時,算力就是一切;而談起算力,皮衣教主就會閃亮登場了。
老黃在2025 GTC大會上預言:
在這里,「AI工廠」一詞并非隱喻,而是對存在于現代AI超級計算機真實面貌的寫照。
人類智能需要上下文,需要數據,需要腦力,既然人類按照自身的形象創造了AI(基于大模型),這個道理自然也延伸到了AI上。
英偉達準備打造的AI工廠,是一種能夠處理數PB數據并根據需求給出智能答案的超級計算機,是一種推動全球經濟與文化巨變的新型工廠。
數據的一天
你是否好奇,我們人類是如何走到這一步的?AI工廠的出現是科技發展的必然嗎?
AI工廠會把人類變成某種數字超級智能的生物引導程序嗎?
如果你想更加深入的理解人類如何走到這一步,讓我們先回到12000年前看看。
從石器,到汽車,再到GPU
大約12000年前,人類的祖先厭倦了四處流浪尋找食物與住所,于是他們開始在一個地方定居下來——主動種植作物、飼養牲畜以滿足食物需求。
農業(種田、耕作)本質上就是一種食物工廠,只不過主要在戶外進行,因為植物和動物的生長需要陽光、水和空氣。
中世紀時,firma一詞指的是為了種植作物而支付的固定土地租金,因此也成為農業的同義詞。
新石器革命
農業迫使人類組織成等級分明的群體進行勞作。
文字是為了管理而創造的——記錄食物工廠的投入與產出,以及管理圍繞農業形成的社會規則(當然,這些規則在不同地區存在差異)。
人類最終將文字的用途擴展到其他領域,直到今天,它依然是傳遞大量密集信息最快的方式。
從人類放下弓箭和長矛,拿起鋤頭、耙子、犁耕地,并在泥板上刻下第一個符號的那一刻起,AI的誕生就已經不可避免——AI工廠的出現也只是時間問題。
工業革命
人類花費數千年才得以積累足夠的糧食盈余,「剩余」催生出最早的商人階級——通過手工制造物品供其他人使用。
制造業(manufacturing)一詞的字面意思就是拉丁語中的「用手制造」。
有了商業,隨之出現了一種通用的交換媒介——貨幣,加速了以物易物的過程,并逐漸演變成現在所熟悉的經濟體系。
更準確地說,是形成了「全球經濟」,因為在地理大發現之后的第一波全球化浪潮將不同大陸重新聯系到了一起,使各個地區或國家的經濟不再孤立。
從那時起,全球化經歷了多次浪潮,徹底改變了農業和制造業。
工廠(標準化生產的場所)最大的轉變是將制造過程拆分成多個步驟,以加快生產速度并提高可重復性。
這場工業革命恰好與啟蒙運動同時發生,識字率迅速提升,因為工廠需要受過教育的工人來最大限度提高效率、減少浪費。
教育從來不是目的,而是一種必要條件。隨之而來的,則是財產權、人身安全和自由,以及接受迅速而公正審判的權利。
福特汽車流水線工廠
在21世紀,人們已經將這些權利視為理所當然,但實際上應當感謝18世紀的貢獻。
工廠將制造活動轉移到室內。
通過蒸汽動力、隨后電力的應用,以及流水線精益生產等技術,以低成本生產現代生活所需的商品,使普通人不僅能負擔得起基本生活,還能享受一定的舒適與便利。
制造業將人們從農田中解放出來,創造了一個農業社會無法想象的龐大中產階級,使經濟以前所未有的方式擴張。
AI革命
然后互聯網出現了。
互聯網將所有人連接在一起的同時,創造了一種前所未有的新資源——數據。
數據信息就是新時代的「金礦」,各個巨頭從數據中挖掘出你的一切需求。
而AI革命的發生,必須等到海量的文本、圖像、視頻和音頻數據被計算機化,并且等到大規模的計算能力能以可負擔的價格用于處理這些數據時。
其中,大數據的本質就是足夠精確的信息量,運行在一組具有高內存帶寬的大規模并行GPU上,而這些GPU又提供了足夠精確的計算能力,足以創建能夠編碼人類對這個世界知識的神經網絡,從而使AI真正發揮作用。
所有這些條件必須同時滿足。
在20世紀80年代,研究人員擁有神經網絡的算法,但他們沒有足夠的計算能力來運行它們,也沒有足夠的數據來喂養它們。
當時,現在所知的AI在很大程度上仍然停留在理論階段,直到所有這三個條件都得到滿足。
AI工廠:并非隱喻,而是蛻變
AI工廠這一概念并非比喻——而是對真實存在的AI超級計算機的真實描述。
它不僅改變了企業計算的本質,也徹底重塑了數據分析的方式——數據的綜合與提煉,轉化為行動或非行動所需的信息。
AI工廠的出現是必然的,就像農業工廠(人們合作供養彼此)一樣不可避免。
社會與文化圍繞這種革命進行變革,為人類帶來了更多自由時間去思考與創造。
如今,人類擁有了能夠獲取人類全部知識并以對話形式檢索的機器。更重要的是,這些機器能夠被反向運行,按照提示生成各種格式的新數據。
未來,每個企業和個人都會擁有自己的AI工廠,或至少共享其中的一部分。這些AI工廠將產生新想法、新視野,幫助人類拓展自身的創造能力。
也許今天世界各地在很多問題上缺乏共識,但關注AI革命的人都認同,AI日益增強的能力將改變人類的一切認知和行動。
使命:洞見與行動的制造之地
AI工廠有兩項工作。第一項是訓練基礎模型,這些模型提供人們都尋求的洞見,以改善業務和生活。
第二項,也是最終更重要的工作,是將新數據和問題輸入模型,讓其推理出新答案——生成新的Token——以提供進一步的洞見并驅動行動。
COLOSSUS:馬斯克xAI的巨型計算工廠,配備十萬片H100 GPU
在過去十年中,圍繞AI的大量討論都集中在Scaling Law上,這些模型現在擁有數千億到超過萬億的參數(類似于人腦中突觸的放電水平),以及處理的數據量(數萬億到數十萬億的Token,并且還在增長)。
Token數量代表知識量有多少,而參數量則代表已知知識的思考能力有多強。
在較大的Token集上使用較小的參數量會帶來更快但更簡單的答案。
在較小的Token集上使用較大的參數量會讓你對有限事物的理解給出更好的答案。
如今,思維鏈推理模型(本質上也是多模態的,不僅僅關注文本)正在將數百個專業模型整合在一起協同工作,它們會考慮驅動其他輸入的輸出,花費更多時間來生成我們人類稱之為答案的更好的Token流。
有了AI工廠,人類創造的所有內容和AI模型生成的合成數據都成了原材料。
從這海量的歷史數據寶庫中獲得的洞見是收獲的成果,擁有人類智慧的人和具備AI的AI智能體利用這些洞見來做事。
這一次,人類不再是去工廠上班,而是將接入工廠作為其工作的一部分,用自己的技能來增強模型廣泛的知識和速度,從而更好更快地完成更多事情。
非凡的工程壯舉
「世界正在競相建設最先進、大規模的AI工廠」,英偉達聯合創始人兼首席執行官黃仁勛在最近于圣何塞舉行的2025 NVIDIA GTC大會的主題演講中解釋道。
「建設一個AI工廠是一項非凡的工程壯舉,需要來自供應商、架構師、承包商和工程師的數萬名工人來建造、運輸和組裝近50億個組件以及超過20萬英里的光纖——幾乎是從地球到月球的距離。」
強大的硬件加持
建設一個AI工廠是一項重大的資本投資。
一個AI工廠的合理配置是基于8個DGX B200系統機架的DGX SuperPOD,它由GPU、CPU、節點間的Quantum-X InfiniBand或Spectrum-X Ethernet互連技術以及存儲組成。
配備32個DGX B200系統后,這個SuperPOD提供了4.61 exaflops的FP4性能,擁有48TB的HBM3內存和2PB/秒的總內存帶寬。
每個DGX B200配8個Blackwell GPU,并通過第五代NVLink互連,DGX B200提供比上一代系統高3倍的訓練性能和15倍的推理性能。
英偉達另一個AI工廠的藍圖是基于GB200 NVL72平臺,這是一個機架級系統,同樣包含 GPU、CPU、DPU、SuperNIC、NVLink和NVSwitch,以及InfiniBand和Spectrum-X網絡。
但它為AI模型提供了更大的共享GPU內存域(72個GPU插槽,相比之下DGX B200節點只有8個),并且具有更高的計算密度,因此需要液冷。
GB200 NVL72于2024年3月發布,現已全面出貨。
GB200 NVL72機架級系統確實是一個完整的系統——除了你的數據之外,它不需要任何其他東西就可以開始構建模型,然后轉身開始以文本、圖像、視頻或聲音格式輸出數據 Token。
GB200 NVL72的基本構建模塊是一個MGX服務器節點,該節點包含一個Grace CPU作為一對Blackwell GPU的主機處理器,而這對Blackwell GPU本身是位于單個SXM插槽中的一對Blackwell GPU晶粒。
兩個這樣的服務器節點組合成一個內置于NVL72機架中的計算托盤。機架中有18個計算托盤,共構成72個GPU(144個GPU晶粒)和36個CPU。
GB200 NVL72機架級系統將Grace CPU與一對Blackwell GPU相結合,CPU和GPU之間通過450GB/秒的NVLink連接。
1.8TB/秒的NVLink端口與NVSwitch芯片一起使用,將所有72個GPU(144個GPU晶粒,每個900GB/秒)連接成一個全互聯(all-to-all)、共享內存式的配置,這種配置非常適合基礎模型訓練(當它們為大規模互連時)以及思維鏈推理。
由9個NVLink交換托盤(總共18個NVSwitch芯片)創建的NVLink互連結構使得這144個GPU晶粒可以像一個巨大的GPU一樣被訪問。
GB200 NVL72系統擁有2,592個用于主機處理的Arm核心,并提供1.44 exaflops的FP4精度浮點處理能力,精度每提高2倍,吞吐量減半。
GB200 NVL72系統擁有連接到GPU的13.4TB HBM3e內存,總帶寬高達576 TB/秒。那些 Grace CPU擁有總共17.3 TB的LPDDR5X內存,與GPU僅相隔一個NVLink跳躍,并提供另外18TB/秒的總帶寬。
GB200 NVL72對于AI革命的意義,就像System/360對于五十年前的聯機事務處理和批處理革命的意義一樣。
IBM System/360是一個計算機系統家族,由IBM于1964年4月7日宣布
當時與現在的一個主要區別是,NVL72可以通過InfiniBand互連進行橫向擴展,這正是DGX SuperPOD中所采用的方式。
而一旦購買了最大的System/360,那就是它的極限了,必須等待下一個升級周期才能獲得更強大的機器。
基于NVL72機架級系統的DGX SuperPOD配置需要近1 兆瓦的電力,但在8個計算機架上提供了11.5 exaflops的計算能力和240 TB的HBM3e內存。
如果需要更高的性能,就像任何SuperPOD一樣,只需購買更多機架即可。
NVL72機架的計算密度需要專門的液冷技術和支持該技術的數據中心設施。
冷都不是一個新想法,在某種程度上,使用液冷是一種「倒退」。
回到20世紀60年代和70年代,那些改變了各行各業的大型主機也采用液冷的時代——以便它們能夠發揮當時可用的絕對最高性能。
隨著推理被嵌入到各種應用程序中,一個AI工廠幾乎肯定需要比這多得多的計算能力,特別是如果想要合理的查詢和AI智能體性能,并且隨著不可避免地轉向思維鏈推理模型。
據估計,思維鏈推理模型所需的計算量比早期大語言模型常見的那種一次性、簡單回答多出100倍。
全面的軟件生態
DGX GB200系統和相關的DGX SuperPODAI超級計算機需要進行管理和建模,這就需要用到幾種不同的工具。
NVIDIA Mission Control(包括Run.ai)負責在整個基礎設施中編排AI工作負載,并在出現問題時自動恢復作業。
Mission Control對系統進行健康檢查,并幫助根據系統上運行的工作負載優化功耗。
在此之上是NVIDIA AI Enterprise,這是一個系統軟件,包含了為在英偉達GPU和網絡上加速而優化的庫、模型和框架。
AI工廠技術棧現在還包括NVIDIA Dynamo,這是一個用于在NVLink和DGX SuperPOD基礎設施上運行推理的開源分布式框架。
DGX專家服務與支持(DGX Expert Service and Support)幫助客戶快速實施這些技術,并縮短其AI工廠首次生成Token的時間。
對于那些構建和擴展這些系統的人,英偉達為其Omniverse「數字孿生」環境和設計工具創建了AI工廠藍圖,以模擬構成AI工廠的整個數據中心,從而確保其在首次構建時就能正確無誤,并在不可避免的擴展過程中保持正確。
也許AI工廠最重要的方面是它所催生的思維轉變,以及英偉達在其當前系統和路線圖中所關注的重點,這向客戶保證了機架級和系統有充足的增長空間。
「我認為,AI工廠之所以如此令人興奮且需求旺盛,是因為對許多公司而言,生成Token現在等同于創造營收」,英偉達網絡高級副總裁Gilad Shainer表示。
「我們不再將數據中心視為成本中心,而是視為能夠產生收入的生產性資產」。
畢竟,這才是建造AI工廠的全部意義所在。
參考資料:
https://www.nextplatform.com/2025/04/11/the-ai-factory-12000-years-in-the-making-and-absolutely-inevitable/?linkId=100000357151212
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.