導讀:科技圈兩大頂流再度合作,云端AI算力步入萬億參數時代
GTC 2024不僅帶來震撼業界的AI算力“新核彈”,更引發了云計算與AI產業的進一步融合。
3月20日,亞馬遜云科技和英偉達宣布,英偉達新一代Blackwell GPU平臺即將登陸亞馬遜云科技。亞馬遜云科技將提供NVIDIA GB200 Grace Blackwell 超級芯片和 B100 Tensor Core GPU,幫助客戶更快、更大規模、更低成本地構建和運行萬億參數大模型。
英偉達與亞馬遜云科技,一個是全球AI算力的領頭羊,一個多年穩坐云計算行業頭把交椅。雙方再度強強聯合,將加速生成式AI前沿技術發展。前者不斷迭代為生成式AI而生的強大處理器,后者則致力于讓最先進的AI算力在云端觸手可得。
「智能進化論」認為,此次雙方合作亮點可以從四個方面解讀:
更大規模的模型:讓數萬億參數大模型在云端可用
英偉達Blackwell GPU在亞馬遜云科技上的應用,將加速生成式 AI 前沿技術發展,并提升萬億參數大語言模型在云端的推理加速。
在大模型研發領域,萬億級參數規模代表了業界最前沿的水平。業界有消息稱,GPT4的模型參數是1.8萬億。英偉達此次發布的Blackwell 架構GPU,目標就直指萬億參數大模型。
Blackwell B200是目前最強大的AI芯片,FP4性能高達20 petaflops,是上一代卡皇H100的5倍。
Blackwell GB200超級芯片是將2個Blackwell GPU和1個Grace CPU結合在一起,性能更加強大。與H100相比,Blackwell GB200對于大模型推理工作負載可實現30倍的性能提升,同時將成本和能耗降低25倍。
GB200 NVL72是將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中,通過第五代 NVIDIA NVLink? 互連。其可實現720 petaflops的AI訓練性能,或是1,440 petaflops(1.4 exaflops)的推理性能。一個GB200 NVL72機柜可以訓練27萬億參數的AI模型。
GB200 同過去架構的 AI 芯片性能對比
很快,上述這些AI算力“核彈”就能在亞馬遜云科技上使用了。
客戶將能在亞馬遜云科技上使用基于NVIDIA GB200 Grace Blackwell超級芯片和B100 Tensor Core GPUs的基礎設施,從而在云上構建和運行數萬億參數的大語言模型。
客戶還可以通過 NVIDIA DGX? Cloud 獲得GB200的超強性能。NVIDIA DGX? Cloud是亞馬遜云科技與英偉達共同開發的AI平臺,提供了構建和部署大模型所需的專用基礎設施和軟件。
亞馬遜云科技還將提供配置GB200 NVL72的英偉達Blackwell平臺。通過亞馬遜云科技強大的EFA網絡連接、高級虛擬化的Amazon Nitro系統和Amazon EC2 UltraClusters超大規模集群等技術支持,客戶能夠在亞馬遜云科技上擴展至數千個GB200 超級芯片。
更廣泛的算力底座:云端運行英偉達GPU的最佳選擇
在Gartner發布的云基礎設施和平臺服務魔力象限中,亞馬遜云科技已經連續12年位居領導者象限。提供更廣泛的云上算力基礎設施一直是亞馬遜云科技的優勢之一。
在生成式AI時代,通過與英偉達的深度合作,亞馬遜云科技依然保持著這一領先優勢。
“通過 AWS 與 NVIDIA 工程師的共同努力,我們將持續創新,使亞馬遜云科技成為每一個想要在云端運行 NVIDIA GPU 用戶的最佳選擇。”對于此次合作,亞馬遜總裁兼首席執行官 Andy Jassy 這樣表示。
實際上,亞馬遜云科技與英偉達的合作已有13年之久。從推出第一個亞馬遜云科技上的GPU云實例至今,提供更廣泛的英偉達GPU解決方案,一直是亞馬遜云科技踐行的目標。
比如,此前亞馬遜云科技基于英偉達H100芯片推出了Amazon EC2 P5實例,客戶能夠在云上將其P5實例擴展到超過2萬個英偉達H100 GPU。
此次合作,亞馬遜云科技計劃提供配備新 B100 GPUs 的 Amazon EC2 實例,并支持在 Amazon EC2 UltraClusters 中部署以加速超大規模生成式 AI 的訓練和推理。
更安全的AI:加密技術強強聯合,護航云上大模型安全
大模型的安全問題一直是很多企業應用生成式AI的核心顧慮之一。此前,三星、摩根大通、花旗集團等知名企業出于數據泄露風險考量,紛紛加入禁用ChatGPT的行列。
此次合作,亞馬遜云科技與英偉達將生成式AI安全又向前推進一步。
首先,Amazon Nitro 系統和 NVIDIA GB200 的結合將能夠阻止未授權個體訪問模型權重。模型權重的安全對保護客戶的知識產權、防止模型被篡改以及維護模型的完整性至關重要。
GB200 支持對 GPU 之間 NVLink 連接進行物理加密,以及對 Grace CPU 到 Blackwell GPU 的數據傳輸進行加密,同時亞馬遜云科技EFA (Elastic Fabric Adapter)也能夠對服務器之間的分布式訓練和推理過程的數據進行加密。同時,受益于Amazon Nitro系統,GB200系統能夠將CPU和GPU的輸入/輸出功能卸載至專門的硬件中,全程保護代碼和數據在處理過程中的安全。
其次,通過Amazon Nitro Enclaves 和 Amazon KMS,亞馬遜云科技為客戶在Amazon EC2 上使用 GB200創建了可信執行環境。從 GB200 實例內部可以加載安全區(Enclave),并且可以直接與 GB200 超級芯片通信,保護客戶實例中的數據安全。
亞馬遜云科技首席執行官Adam Selipsky認為:“英偉達下一代Grace Blackwell處理器是生成式AI和GPU計算的標志性事件。當結合亞馬遜云科技強大的Elastic Fabric Adapter網絡、Amazon EC2 UltraClusters的超規模集群功能,以及Amazon Nitro高級虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地構建和運行具有數萬億參數的大型語言模型。”
更前沿的探索:20,736顆GB200芯片,Ceiba項目支撐英偉達前沿創新
2023年11月底的re:Invent2023全球大會上,亞馬遜云科技與英偉達宣布了一項重磅計劃——Ceiba項目。Ceiba是雙方合作建造的世界上最快的 AI 超級計算機之一,專為英偉達自身的研究和開發而設計,并獨家托管在亞馬遜云科技上。
短短4個月后,在Blackwell的加持下,Ceiba項目迎來重大升級,將搭載20,736顆GB200 超級芯片,計算性能從65exaflops提升至414 exaflops,提升了6倍多。
據悉,英偉達將基于Ceiba項目推進大語言模型、圖形(圖像/視頻/3D 生成)與仿真、數字生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2 氣候預測等領域的 AI 技術,推動更多領域的生成式 AI 創新。
NVIDIA Earth-2 氣候數字孿生云平臺
現在的英偉達已經不僅僅是一家芯片公司,幾乎涉足了所有熱門的科技領域。可以說,Ceiba項目承載了英偉達最前沿的技術探索,也許下一個“核彈”級創新就來自Ceiba項目。將自家研發底座托管在亞馬遜云科技上,再次證明了雙方合作的戰略深度與前瞻性。
英偉達創始人兼首席執行官黃仁勛表示:“人工智能正在以前所未有的速度推動突破,導致新的應用、商業模式和跨行業的創新。我們與亞馬遜云科技的合作正在加速新的生成式AI能力的發展,并為客戶提供前所未有的計算能力,以推動可能性的邊界。”
結語
生成式 AI 有望徹底改變它所觸及的每一個行業。
對于任何一家想要在生成式AI時代進行一番創新的企業,頂尖的AI算力和云計算廠商已經在云端提供了最前沿的AI基礎設施。
為生成式 AI 時代而生的算力和云服務已就緒,將成為千行百業AI創新的最佳平臺。
文中圖片來自攝圖網
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.