網易首頁 > 網易號 > 正文申請入駐

從“萬卡集群”到“十萬卡集群”，需要怎么的高速互連技術？

2025-03-26 08:12:42　來源: TechSugar

上海舉報

分享至

隨著生成式人工智能功能的日益強大，使得模型訓練需求呈現爆發式增長。在這一背景下，任何單一的圖形處理器（GPU）、異構處理器（XPU）或其他人工智能加速器，都已難以滿足人工智能工作負載的龐大計算需求。

這種需求的激增，有力地推動了人工智能基礎設施建設的持續擴張。大模型的Scaling Law（尺度定律）在未來一段時間內將保持其有效性。所謂Scaling Law，指的是數據量和參數規模增加，模型的性能也隨之提升。可以預見，在不久的將來，成千上萬，甚至數十萬個人工智能加速器必須協同工作，并且它們的集群規模會隨著訓練參數的持續增加而不斷擴大。

全球AI集群建設持續擴展：從“萬卡集群”到“十萬卡集群”

當前，“萬卡集群”被業界視為這一輪大模型競賽的“入場券”，而如今，“十萬卡集群”正成為科技巨頭們競逐的新高地。

早在去年7月，馬斯克便宣布旗下初創人工智能公司xAI在美國孟菲斯建立了一個超級集群，號稱是“全球最強大的AI訓練集群”。該集群由100,000個英偉達的液冷H100 GPU組成，并在單個RDMA結構（即遠程直接數據存取結構）上運行。

緊接著，去年9月份的百度云智大會上，百度宣布對作為算力基礎設施的百舸AI異構計算平臺進行升級，新升級的百舸4.0也具備成熟的十萬卡集群部署和管理能力。同一時期，阿里云在云棲大會上宣布其單網絡集群已擴展至十萬卡級別。騰訊則基于自研的高性能網絡星脈，以及新一代算力集群HCC，同樣能夠支持10萬卡GPU的超大計算規模。

人工智能基礎設施的Scale Up和Scale Out擴展

AI算力集群通常由AI服務器、高速交換機構成。AI加速器是AI算力的最小單元，一臺服務器通常會包含多個加速器。為便于管理，多臺服務器組成一個機柜，并通過架頂交換機實現互連。

如前文所述，單芯片的算力和內存存在局限性，無法承載大模型的計算任務。因此，通過多種互連技術將多顆算力芯片互連在一起，以提供大規模的算力和內存，已成為目前人工智能集群建設的主要方法。GPU的互連主要分為業務互連、Scale Up網絡互連和Scale Out互連，它們各自承擔著不同的業務流。

圖1：AI算力三種網絡。

（圖源：網絡）

業務網絡互連承載著諸如需要計算的輸入數據、輸出結果，以及在各類存儲系統中的模型參數、checkpoint等。由于其需要進行極大范圍的互連，并且要與云上的存儲、業務接口等互通，所以多采用以太網技術，通常支持各類RDMA。

Scale Up網絡互連通過將不同GPU互連，在節點內部進行擴展，即所謂的縱向擴展；而Scale Out網絡互連則通常是將集群橫向擴展到更多的GPU機柜，從而使AI集群的規模進一步擴大，即所謂的橫向擴展。

新互連標準助力AI基礎設施無縫擴展

目前，以谷歌、博通、亞馬遜、AMD、微軟、Meta、Marvell等為首的北美科技巨頭企業，為了取得AI競爭優勢，正紛紛自研AI芯片，并建立新的高速互連標準。

以AMD、博通為代表的AI芯片廠商正逐漸搶占更多市場份額。AMD提供GPU芯片，博通則主要憑借其ASIC定制化芯片服務能力。此外，OpenAI、微軟等科技巨頭也紛紛投身自研AI芯片領域。

在高速互連領域，對于Scale Up網絡互連，2024年10月，由AMD、亞馬遜AWS、Astera Labs、思科、谷歌、慧與（HPE）、英特爾、Meta和微軟9家企業發起的Ultra Accelerator Link Consortium（UALink聯盟）正式成立。該聯盟旨在為AI Pod和集群中加速器與交換機之間的縱向擴展通信定義一種高速、低延遲的互聯規范。

對于Scale Out網絡互連。超以太網聯盟（Ultra Ethernet，UEC）未來有望成為AI網絡的主流方案。超以太網聯盟由AMD、Arista、博通、思科等硬件廠商以及微軟、新思科技和Meta等云廠商牽頭成立，借助以太網的生態優勢，致力于打造滿足AI和HPC網絡需求的新一代標準。

UALink技術和超以太網技術特點

UALink技術

UALink作為一種Scale Up架構，能夠在數十到數百個專用人工智能加速器之間建立基于標準的、具有極高帶寬連接的網絡。它將網絡從臨時的網絡配置轉變為更加標準化的網絡，從而能夠構建具備更高基數系統的網絡，并配備專用的超高速加速器鏈路交換機。

圖2：UALink工作原理圖。

（圖源：HiPChips at MICRO-2024）

UALink構建了一個高速、低延遲的網絡，該網絡可連接一個計算節點內的多個加速器（如GPU）。這使得每個加速器都能夠直接訪問其他加速器的內存，從而讓整個計算節點的功能就如同一塊單一的、大型的GPU。從軟件層面來看，這些相互連接的GPU組就像是一個單一的、大型的GPU塊。

圖3：UALink構建Scale Up網絡。

（圖源：nextplatform官網）

UALink具有以下技術特點：

高帶寬：UALink每條通道的帶寬高達200Gbps，可實現加速器之間的高效數據傳輸。
輕量級協議：該協議設計為輕量級，可減少開銷并確保高效通信。
高效性：亞微秒級的延遲提升了推理性能，并且能夠在不分割工作負載的情況下實現對八個以上GPU的擴展。
開放標準：UALink是一項開放的行業標準，有助于促進互操作性并減少對單一供應商的依賴。
內存共享：其具備特定的內存共享功能，使加速器能夠高效訪問共享內存資源。支持在數百個GPU之間進行加載、存儲和原子操作，最大限度地減少端到端延遲并降低功耗。
同步特性：UALink包含同步特性，以確保多個加速器之間的一致性和高效運行。、
與UEC互補：能與UEC良好協作，以實現更廣泛的可擴展性。

超以太網技術

超以太網系統由包含節點和架構基礎設施的集群組成。節點通過架構接口（網卡）連接到網絡，這些架構接口可以承載多個邏輯架構端點（FEP）。網絡被劃分為多個平面，每個平面都包含通常通過交換機相互連接的架構端點。

圖4：超以太網集群圖。

（圖源：新思科技）

這些集群可以在兩種主要模式下工作，以處理不同的任務。

并行作業模式：系統運行任務直至完成，并允許多個節點同時進行通信。這對于需要大量并行處理的高性能計算任務來說非常理想。
客戶端/服務器模式：該系統是為存儲任務而設置的。在這種模式下，服務器持續處理來自多個客戶端的請求，通信發生在特定的節點之間。這種模式非常適用于對于可靠且一致的數據訪問和管理。

超以太網技術具有以下技術特點：

物理層：與IEEE 802.3標準以太網兼容，可基于前向糾錯（FEC）碼字進行可選的性能監測。諸如不可糾正碼字率（UCR）和平均分組錯誤間隔時間（MTBPE）等指標，可深入了解傳輸性能和可靠性。
數據鏈路層：引入鏈路級重傳（LLR）協議，實現無損傳輸，且不依賴于優先級流量控制（PFC）。這確保了更快的錯誤恢復，消除了不必要的端到端重傳，并減少了尾部延遲。
分組速率提升（PRI）：壓縮以太網和IP報頭以提高分組速率，解決因舊有功能和冗余協議字段導致的效率低下問題。
鏈路協商協議：通過協商功能擴展了鏈路層發現協議（LLDP），以檢測并啟用鏈路級重傳（LLR）和分組速率提升（PRI）等受支持的功能。
傳輸層：旨在解決傳統遠程直接內存訪問（RDMA）網絡的局限性，具備選擇性重傳、亂序交付、分組噴射以及先進的擁塞控制機制等特點。它支持多種傳輸模式，包括可靠有序交付（ROD）、可靠無序交付（RUD）和不可靠無序交付（UUD）。
擁塞控制：實現諸如內聚流管理、加速速率調整、基于遙測的控制以及通過分組噴射進行自適應路由等功能，以最大限度地減少尾部延遲并提升網絡性能。
安全性：在傳輸層融入基于作業的安全性，利用互聯網安全協議（IPSec）和數據包保護協議（PSP）功能，最大限度地減少加密開銷并支持硬件卸載。

新思科技業界首款超以太網和UALink IP解決方案

隨著超大規模數據中心基礎設施的加速發展，必須擴展到數十萬個具有高效快速連接的加速器，才能夠支持處理大型語言模型中的數萬億個參數。在這樣的背景下，新思科技推出的業界首款超以太網IP和UALink IP解決方案猶如一場及時雨，滿足業界對高帶寬、低延遲互連技術的迫切需求。

新思科技的UALink IP解決方案的領先性能：

垂直擴展計算結構的IP解決方案：新思科技UALink IP解決方案由PHY、控制器和驗證IP組成，助力開發者加快開發，可支持多達1024個AI加速器的系統的上市時間；
高效、高速的數據傳輸：低功耗、高帶寬的新思科技UALink PHY IP專為數據密集型AI工作負載而設計，每通道可提供200Gbps的傳輸速度；
具有內存共享功能的延遲優化：新思科技UALink控制器IP通過從加速器到加速器的共享內存訪問，幫助緩解AI硬件基礎設施的關鍵瓶頸；
內置協議檢查：新思科技UALink驗證IP與新思科技硬件加速驗證解決方案相結合，為AI硬件提供快速可靠的驗證。

值得一提的是，2025年1月，新思科技、蘋果和阿里巴巴還加入了UALink聯盟董事會，共同推進下一代AI集群互連技術的發展。

而新思科技超以太網IP解決方案則具有以下領先性能：

可擴展后端網絡的IP解決方案：新思科技超以太網IP解決方案由PHY、MAC和PCS控制器以及驗證IP組成，為開發者開發可在單個網絡中支持多達一百萬個端點的系統提供了一條低風險途徑；
全球領先的224G以太網PHY IP：經過硅驗證的新思科技224G以太網PHY IP支持超以太網協議，并已在ECOC、OFC和DesignCon等多個行業展覽上展示其廣泛的互操作性；
獲得專利的糾錯實現：新思科技超以太網MAC和PCS控制器IP提供高達1.6 Tbps的帶寬和超低延遲，可實現AI工作負載所需的實時處理；
無縫集成：MAC和PCS IP支持與超以太網堆棧更高層的接口，為交換機、AI加速器和智能NIC提供完整的芯片實現；
加速驗證和確認：新思科技超以太網驗證IP有助于確保協議符合快速發展的行業標準，從而更快、更高效地驗證AI和HPC系統。

隨著AI產業的迅猛發展，AI算力、運力需求大幅提升，這對于網絡互連技術也提出了全新的要求。人工智能集群網絡需要從Scale Up和Scale Out兩方面進行擴展，以建立基于標準的、具有高帶寬和低延遲的連接網絡。

新思科技最新的UALink和超以太網IP解決方案，再結合其PCIe 7.0、1.6T以太網、CXL、高帶寬存儲（HBM），以及通用芯片互連（UCIe）等互聯IP產品，將進一步推動人工智能和高性能計算在性能、可擴展性、效率以及互操作性方面達到新的高度，為AI產業的持續繁榮注入強大動力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.