“沒有好網(wǎng)絡,別玩AIGC。”
如今,隨著AI需求的大量涌現(xiàn),越來越多用戶意識到網(wǎng)絡在AI集群中的重要性。一個超大規(guī)模、超高帶寬、超強可靠的網(wǎng)絡,可以為AI訓練提供強有力支撐,從而節(jié)約訓練成本、縮短訓練時間,加速各類AI應用走向落地。
那么,如何構建一個面向AI集群環(huán)境的強大網(wǎng)絡?
法國云服務提供商 Scaleway帶來它的答案。Scaleway基于 NVIDIA 的 Hopper GPU 和 Spectrum-X 以太網(wǎng)網(wǎng)絡平臺構建區(qū)域性 GPU 集群,成功為用戶提供 AI 按需服務業(yè)務。
Scaleway 是法國的一家擁有高性能基礎設施的云服務提供商,創(chuàng)立于 1999 年,擁有 80+ 云產(chǎn)品及服務,為全球 25,000+ 客戶提供云服務,客戶包括 Mistral AI、Aternos、Hugging Face、Golem.ai 等。
Scaleway 提供一站式的云服務,以開發(fā)創(chuàng)新解決方案并幫助用戶從零開始構建和擴展 AI 項目,目前 Scaleway 正在構建區(qū)域 AI 云,提供 GPU 基礎設施,用于大規(guī)模的 AI 模型訓練、推理及部署。
01
愈發(fā)嚴峻的AI網(wǎng)絡挑戰(zhàn)
云 AI 工作負載需求正以前所未有的速度增長,同時生成式 AI 應用也在激增。為滿足客戶部署生成式 AI 應用程序、訓練基礎 AI 大模型的需求,云服務提供商面臨巨大挑戰(zhàn),需要構建 AI 云,使用加速計算技術和高性能網(wǎng)絡來支持 AI 業(yè)務。Scaleway 的核心需求包括:
● 對于分布式 AI 訓練任務,單個任務的訓練時間由最慢的計算節(jié)點的運行時間決定,這使得尾部延遲至關重要。AI 云需要一個高吞吐、低延遲、低抖動、易擴展的高性能網(wǎng)絡,來確保 GPU 間快速、高效的通信,尤其是在大規(guī)模部署的場景下。
● 在多個 AI 任務同時運行的多租戶環(huán)境中,性能隔離對于保護一個租戶的 AI 任務免受其他租戶業(yè)務的影響是必不可少的。由此提出了對多租戶多任務場景下性能隔離的需求。
● 對于復雜的 AI 云環(huán)境,需要專門適用于 AI 網(wǎng)絡的監(jiān)控管理工具,提供細粒度的網(wǎng)絡可視化功能、同時具備網(wǎng)絡監(jiān)控和故障定位能力。
● 為實現(xiàn) AI 云數(shù)據(jù)中心的高效、快速部署,需要強大的網(wǎng)絡仿真及自動化平臺。
● 隨著云上用戶、數(shù)據(jù)、應用的快速增長,網(wǎng)絡安全威脅不容忽視,需要提供私有的、安全的零信任基礎設施,保障用戶的業(yè)務安全。
02
Spectrum-X 重塑網(wǎng)絡
Scaleway 采用了 NVIDIA 的Hopper GPU 和Spectrum-X 網(wǎng)絡平臺應對以上挑戰(zhàn)。
Scaleway 將 HGX Hopper GPU 服務器加入其 GPU 集群陣容中,以覆蓋廣泛的計算需求,利用 GPU 的速度和效率加速 AI 分布式工作負載。
對于 Scale-Out AI 網(wǎng)絡,Scaleway 采用了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 交換機構建的 Spectrum-X 網(wǎng)絡平臺。NVIDIA 的 Spectrum-X 網(wǎng)絡平臺是全球首個專為 AI 構建的以太網(wǎng)端到端解決方案,與傳統(tǒng)以太網(wǎng)相比,其生成式 AI 訓練的網(wǎng)絡通信效率提高了 1.6 倍。同時 Spectrum-X 部署將利用以下網(wǎng)絡軟件堆棧:
● NVIDIA Air 用于 AI 網(wǎng)絡仿真,NVIDIA Air 是一個云托管的數(shù)據(jù)中心網(wǎng)絡仿真平臺,其行為類似于真實世界的生產(chǎn)環(huán)境。使用 NVIDIA Air 創(chuàng)建數(shù)據(jù)中心的數(shù)字孿生,可以驗證網(wǎng)絡配置、網(wǎng)絡功能以及自動化部署代碼,提升數(shù)據(jù)中心的部署效率。
● NetQ 用于 AI 網(wǎng)絡監(jiān)控,通過高頻遙測技術監(jiān)控 AI 工作負載,NetQ 提供有關數(shù)據(jù)中心運行狀況的數(shù)據(jù)和統(tǒng)計信息,關聯(lián)配置和運行狀態(tài),并跟蹤狀態(tài)變化。基于遙測信息,NetQ 提供動態(tài)路由監(jiān)控,RoCE 流量計數(shù)器,交換機隊列直方圖等功能,以識別和應對網(wǎng)絡微突發(fā)、擁塞場景,方便網(wǎng)絡故障定位。
● Cumulus Linux 用于軟件驅(qū)動的數(shù)據(jù)中心網(wǎng)絡自動化,Cumulus Linux 是創(chuàng)新的開放網(wǎng)絡操作系統(tǒng),支持 BGP/OSPF 路由協(xié)議,以太網(wǎng)虛擬專用網(wǎng)絡 EVPN,虛擬路由和轉(zhuǎn)發(fā)。
● DOCA SDK 和庫用于增強 BlueField-3 SuperNIC 性能,DOCA SDK 提供行業(yè)標準的開放 API 和軟件框架,包括針對 RDMA、網(wǎng)絡、安全、存儲、數(shù)據(jù)路徑加速的 SDK,幫助開發(fā)者快速創(chuàng)建軟件定義、SuperNIC 加速的服務。
使用的NVIDIA產(chǎn)品
● 硬件:
o NVIDIA HGX Hopper 服務器
o NVIDIA Spectrum-4 SN5600 以太網(wǎng)交換機
o NVIDIA BlueField-3 B3140H SuperNICs
● 軟件:
o Cumulus Linux 網(wǎng)絡操作系統(tǒng)
o NetQ 監(jiān)控管理平臺
o NVIDIA Air 仿真平臺
o DOCA SDK
03
讓AI按需服務走向現(xiàn)實
采用 NVIDIA 的整體解決方案后,極大地提升了 AI 計算能力,縮短了 AI 訓練時間,同時加速了 AI 解決方案的開發(fā)、部署和上市時間,有效提高了投資回報率。
● Scaleway 客戶可以從幾個 GPU 擴展到幾千個 GPU,以適應任何 AI 用例。
● Spectrum-X 提供多租戶、多任務的 AI 環(huán)境所需的高性能和安全性, 借助動態(tài)路由、擁塞控制、全局共享緩沖區(qū)等多種機制,實現(xiàn)了多任務的性能隔離。
● NetQ 提供對 AI 網(wǎng)絡健康狀況的深度可視性,具有 RoCE 流量計數(shù)器、事件和WJH(What Just Happened)警報等豐富的儀表板,實現(xiàn) AI 網(wǎng)絡可視化、故障排除和驗證功能。
● NVIDIA Air 和 Cumulus Linux 支持 API 原生網(wǎng)絡環(huán)境,該環(huán)境可集成到 DevOps 工具鏈中,實現(xiàn)了第 0 天、第 1 天 和第 2 天操作的無縫銜接。
NVIDIA 網(wǎng)絡高級副總裁 Gilad Shainer 表示:“生成式 AI 等開創(chuàng)性技術的飛速發(fā)展,使每家企業(yè)都必須把網(wǎng)絡創(chuàng)新放在第一位,從而獲得競爭優(yōu)勢。NVIDIA Spectrum-X 是對以太網(wǎng)絡的一次革命,讓企業(yè)能夠充分利用其 AI 基礎設施的強大力量來改變其運營方式,甚至顛覆他們的行業(yè)。”
Scaleway 首席執(zhí)行官 Damien Lucas 表示:“NVIDIA Spectrum-X 網(wǎng)絡技術為我們的 ‘ GPU 集群按需服務’ 提供了更快的網(wǎng)絡連接和更高效的 GPU 通信,使我們的客戶能夠加速開發(fā)和部署他們的 AI 解決方案。”
04
綜合觀察
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛認為:人工智能和加速計算的交匯將重新定義未來。毫無疑問,隨著生成式AI、多模態(tài)AI等AI技術浪潮的到來,數(shù)據(jù)中心走向智算中心成為大勢所趨,一個面向AI集群的高性能、高效、可靠的網(wǎng)絡將成為數(shù)據(jù)中心發(fā)展的必需。
而面向生成式AI市場的Spectrum-X 網(wǎng)絡,擁有無損網(wǎng)絡、動態(tài)路由、流量擁塞控制、多業(yè)務性能隔離等優(yōu)秀特性,正在成為像Scaleway 等各種類型用戶在數(shù)據(jù)中心部署AI或者構建AI按需服務的首選。
大數(shù)據(jù)在線是聚焦人工智能、大數(shù)據(jù)、云計算等前沿科技領域深度觀察的深度媒體。目前,大數(shù)據(jù)在線在微信公眾號、今日頭條號、新浪財經(jīng)、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業(yè)新知十大人工智能媒體等多項殊榮。商務聯(lián)系請?zhí)砑游⑿牛篛wen_Inter,添加請備注具體信息。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.