為了高效應對 AI 工作負載,數據中心正在被重構。這是一項非常復雜的工作,因此,NVIDIA 目前正在交付以 NVIDIA 機架級架構為單位的 AI 工廠。為了讓 AI 工廠發揮最佳性能,許多加速器需要以更大的帶寬和更低的延遲在機架規模上協同工作,并以最節能的方式支持盡可能多的用戶。
設計滿足這些需求的機架會面臨許多技術挑戰。這需要高密度的加速器、網卡(NICs)、交換機以及縱向擴展和橫向擴展網絡,所有這些都緊密相關。這種高密配置對于提供當今 AI 所需的高級計算能力和背板帶寬至關重要。
傳統的風冷方法通常不足以滿足此類高密部署的需求,因此需要高密度液冷機架,例如 NVIDIA NVLink 高速縱向擴展互連技術。圖 1 說明了 NVLink 和更大的縱向擴展域如何提供最佳性能。NVIDIA 機架式擴展解決方案提供了一條經過驗證的可擴展路徑,通向更快速、更高效的基礎設施。
圖 1:性能隨著 NVIDIA NVLink 域的擴大而提升
NVIDIA AI 工廠生態系統
NVIDIA 為 AI 工廠建立了成熟的生態系統。其中包括先進 GPU 技術和用于縱向擴展計算網的 NVIDIA NVLink。NVIDIA NVLink Switch 芯片可在 72 個 GPU的 NVLink 域中實現 130 TB/s 的 GPU 帶寬。NVIDIA Quantum-X800 InfiniBand、NVIDIA Spectrum-X Ethernet 和 NVIDIA Bluefield-3 DPU 支持擴展到數十萬個 GPU。
此外,與領先的傳統 CPU 相比,NVIDIA Grace 等高性能 CPU 可提供高達 2 倍的能效,并在低功耗的情況下提供驚人的帶寬。這種機架級架構在廣大的 OEM 和 ODM 合作伙伴網絡的支持下,已經部署到各大云提供商,奠定了現代 AI 工廠的基礎。
面向半定制 AI 基礎架構的 NVIDIA NVLink Fusion
新推出的 NVIDIA NVLink Fusion 是一種面向芯片的技術,可讓超大規模企業利用 NVIDIA NVLink 生態系統構建半定制 AI 基礎設施。
NVLink Fusion 使用戶能夠半定制 ASIC 或 CPU,從而實現出色的性能擴展。那些超大規模企業可以直接用到 NVLink、NVIDIA NVLink-C2C 、NVIDIA Grace CPU、NVIDIA GPU、NVIDIA CPO 網絡、機架擴展架構和 NVIDIA Mission Control 軟件的創新成果。
由于超大規模企業已經在部署完整的 NVIDIA 機架級解決方案,這使他們能夠在 AI 工廠中提供異構芯片產品,同時在單一可擴展的硬件基礎設施上實現標準化。憑借 NVIDIA 豐富的基礎設施合作伙伴生態系統,NVLink Fusion 使用者可輕松進行大規模部署和管理。
NVIDIA NVLink 縱向擴展互連
NVLink Fusion 的核心是突破性互連技術 NVLink。為了充分發揮大規模 AI 模型的潛力,機架內每個 GPU 之間的無縫通信至關重要。第 5 代 NVLink 可為每個 GPU 提供 1.8 TB/s 的雙向帶寬,是 PCIe Gen5 帶寬的 14 倍,可在非常復雜的大型模型中實現無縫高速通信。它還通過面向集合通信的網絡計算技術提高了吞吐量并降低了延遲。NVLink 帶寬每擴展 2 倍,即可將機架級 AI 性能提升 1.3-1.4 倍。
半定制 AI 基礎架構的行業應用
NVLink Fusion 使超大規模企業能夠將其半定制 ASIC 無縫集成到高度優化和廣泛部署的數據中心架構中。NVLink Fusion 包含 NVLink 芯片,可通過相同的 NVIDIA 機架級擴展架構來縱向擴展 NVIDIA 和半定制 ASIC 的混合基礎設施,并與 NVIDIA CPU、NVIDIA NVLink 交換機、NVIDIA ConnectX Ethernet SuperNIC、NVIDIA BlueField DPU 以及用于橫向擴展解決方案的 NVIDIA Quantum 和 NVIDIA Spectrum-X 交換機搭配使用。領先的超大規模企業已經在部署 NVIDIA NVLink 全機架解決方案,并且通過使用 NVLink Fusion 在同一機架架構上實現異構芯片數據中心的標準化,從而加快產品上市時間。
NVLink Fusion 技術還為 AI 創新者開辟了另一種集成途徑,即通過 NVIDIA NVLink-C2C 技術將半定制 CPU 連接到 NVIDIA GPU。合作伙伴可以將其先進的 CPU 技術與 NVIDIA GPU 相結合,實現內存一致性,從而提供 NVIDIA 全棧 AI 基礎架構產品。NVIDIA NVLink-C2C 最初應用于 NVIDIA Grace Hopper 和 NVIDIA Grace CPU 超級芯片,可提供 900 GB/s 的一致性互連帶寬。
圖 2 顯示了不同的 NVLink Fusion 組合選項。
圖 2:NVLink Fusion 機架部署示例
專為 AI 工廠打造的軟件
通過 NVLink Fusion 連接的 AI 工廠可以由 Mission Control 提供支持,這是一個統一的運營和編排軟件平臺,可自動執行 AI 數據中心和工作負載的復雜管理。
從配置部署到驗證基礎設施,再到編排任務關鍵型工作負載,Mission Control 可增強 AI 工廠運營,幫助企業更快地啟動和運行前沿模型
NVLink Fusion 合作伙伴生態系統
NVIDIA 生態系統涵蓋定制芯片設計師、CPU、IP 和 OEM/ODM 合作伙伴,提供通過 NVIDIA 來大規模部署定制芯片的完整解決方案。借助 NVLink Fusion,他們可以與 NVIDIA 合作伙伴生態系統合作,將 NVIDIA 機架級解決方案部署集成到數據中心基礎設施中。高性能 AI 工廠可以快速縱向擴展,以滿足模型訓練和代理式 AI 推理等嚴苛工作負載的需求。
面向 AI 的加速網絡平臺
NVIDIA Quantum-X800 InfiniBand 平臺、NVIDIA Spectrum-X Ethernet 網絡平臺、NVIDIA Bluefield-3 DPU 和 NVIDIA Connect-X SuperNIC 可以為大規模 AI 數據中心提供可擴展的性能、效率和安全性。
NVLink Fusion 可為系統中的每個 GPU 提供 800 Gb/s 的總數據吞吐量,并與 Quantum-X800 和 Spectrum-X 平臺無縫集成,使 AI 工廠和云數據中心能夠在沒有瓶頸的情況下處理萬億參數模型。
NVIDIA 光電一體化(CPO)交換機是 NVIDIA Quantum-X 和 Spectrum-X 平臺的一部分,通過集成硅光技術取代了可插拔光模塊,與傳統網絡相比,其能效提高了 3.5 倍 ,網絡可靠性提高了 10 倍,信號完整性提高了 63 倍,部署時間縮短了 1.3 倍。
NVIDIA 的 CPO 網絡簡化了管理和設計,為計算基礎設施提供更強大的功能。這些優勢對于邁向未來百萬級 GPU 的 AI 工廠至關重要。
BlueField-3 DPU 擴展到整個數據中心,可加速 GPU 對數據的訪問、保障云上多租戶的安全和高效的數據中心運營。NVIDIA GB300 NVL72 架構率先在 GPU 和 ConnectX-8 SuperNIC 之間引入 PCIe Gen6 連接,無需獨立的 PCIe 交換機接口。新的 I/O 模塊將在同一設備上配備兩個 ConnectX-8 芯片,為系統中的每個 GPU 提供全速的 800 Gb/s 網絡連接。
總結
AI 變革所需的基礎設施不但強大,還要敏捷、可擴展且高效。僅靠添加更多的獨立服務器或組件已不再可行。未來依賴于深度集成的機架級解決方案,使海量計算資源能夠作為一個統一的整體運行。NVIDIA 的 NVLink 技術一直在其 GPU 平臺上處于縱向擴展架構的前沿。現在,借助 NVLink Fusion,NVIDIA 將這種經過驗證的出色性能擴展能力應用到半定制芯片領域。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.