AI大模型時代的快速發展,使得算力需求呈現指數級增長,如何有效解決網絡擁塞、優化算力資源利用率,成為AI分布式訓練的核心挑戰。近日,微眾銀行正式發布金融行業首款自研AI智算交換機,并披露高性能AI智算網絡解決方案,實現從底層硬件交換機,到軟件層網絡操作系統,再到智能網絡管控的全鏈路自主可控。這一創新突破,不僅夯實了自身AI算力基礎設施,也為金融行業的AI智算發展提供了全新技術范式。
AI分布式訓練是目前深度學習和大規模模型發展的核心組成部分,但隨著模型規模的擴大,網絡的帶寬、延時、穩定性等問題也愈加顯現。尤其在高并發訓練任務中,傳統的網絡架構無法高效應對數據流量的復雜性,網絡擁塞問題時常導致算力浪費、訓練時間延長,甚至無法保證數據一致性。微眾銀行從自身業務需求出發,深度優化AI智算網絡架構,在硬件、軟件及智能管控層面實現突破,為大規模AI訓練提供穩定、高效的底層支撐。
硬件層面,面向未來AI智算需求的高性能交換機
微眾銀行基于國產12.8T交換芯片和國產高性能CPU,打造了一款高吞吐、低時延的AI智算專屬交換機,能夠適配國內外主流AI算力卡,包括GPU、NPU等計算資源,支持高達1.6T的RDMA(Remote Direct Memory Access,遠程直接內存訪問)接入能力,為無損以太網的AI訓練集群構建高效數據通路。相比于傳統網絡方案,該交換機具備更靈活的拓撲適配能力,能夠根據實際業務需求進行可定制化組網并提升整體訓練效率。
軟件層面,自研網絡操作系統打造更智能的AI智算網絡
在軟件架構上,微眾銀行基于開源SONiC(Software for Open Networking in The Cloud,云中開放網絡軟件)自研網絡操作系統,并針對AI智算場景優化了網絡協議棧。特別是自研鏈路級智能調度組件,使得大規模無損以太網部署更加順滑,確保高帶寬、低時延的網絡需求能夠得到滿足。該組件能夠根據實時網絡狀態動態調整流量分配策略,若鏈路發生故障,還能在毫秒級時間內完成流量切換,有效降低網絡波動對AI訓練的影響。
智能管控層面,AI驅動的網絡優化能力
與傳統網絡架構不同,微眾銀行的創新方案不僅依靠硬件和軟件的升級,更在網絡管控方面進行了革命性的設計。通過智能化的調度系統,微眾銀行的AI智算交換機能夠根據實時的網絡狀態,自動調整流量分配與路徑選擇,確保無論在負載高峰期還是出現故障時,數據流都能無縫切換、平穩傳輸。智能調度系統還能夠動態監控網絡狀態,預判并主動應對可能出現的瓶頸,避免了傳統方法依賴人工干預的低效性和滯后性。
目前,微眾銀行的自研交換機已在生產環境中正式投入使用,最高可滿足400G GPU/NPU算力卡的組網需求,同時實現建網成本降低約70%,極大提升了AI智算網絡的性價比,為邁向AI原生奠定了堅實基礎。未來,微眾銀行將在AI智算網絡領域持續深耕,不斷優化架構設計,并計劃推出標準化公共組件,推動AI智算網絡向更高效、更智能的方向演進,為金融行業的智能化發展提供穩固支撐,同時通過開源共享助力全球AI智算網絡的高質量發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.