以DeepSeek為代表的大模型技術迅猛發(fā)展,模型參數(shù)規(guī)模從千億級躍升至萬億級,甚至向更龐大的體量邁進,對底層智算基礎設施的技術演進,提出了前所未有的高要求。
智算的發(fā)展也逐漸打開了一個新的認知區(qū)間:單純依賴算力的堆砌已無法滿足大模型迭代的需求,網(wǎng)絡技術的滯后正成為制約算力效能釋放的關鍵瓶頸。
根據(jù)數(shù)據(jù)測算,網(wǎng)絡性能波動可導致訓練效率下降30%,訓練時長增加25%。
這說明,盡管網(wǎng)絡投入在智算中心整體成本中占比相對較小,但其對訓練效率和算力回報的影響,已成為決定智算中心成敗的關鍵變量。
從更深的層次,也意味著在AI技術演進的進程中,算力與網(wǎng)絡技術的協(xié)同發(fā)展已成為提升智算效率的核心命題,二者缺一不可。
01
網(wǎng)絡技術創(chuàng)新成為智算發(fā)展的關鍵
2025年,DeepSeek橫空出世,為智算領域帶來了全新的質(zhì)變。
按照“杰文斯悖論”:技術進步本應降低資源消耗,卻因效率提升催生了更強烈的需求。以DeepSeek為例,其模型訓練成本較三年前下降85%,算力需求彈性擴大6倍。算力成本結構的劇變,使得AI技術逐步轉變?yōu)樗衅髽I(yè)均可負擔的基礎設施。
當AI技術逐漸滲透進入百行百業(yè),其對智算需求開始呈現(xiàn)幾何級數(shù)的增長。同時,也讓傳統(tǒng)智算網(wǎng)絡的部署模式接近極限。網(wǎng)絡擁塞、延遲過高等問題,不僅嚴重制約了算力資源的有效利用,更直接影響了 AI 模型的訓練質(zhì)量和應用效果。
對此,新華三集團交換機產(chǎn)品線首席產(chǎn)品經(jīng)理張鴻凌認為,當前智算網(wǎng)絡的挑戰(zhàn)主要來自于兩方面:算力類型的多元化和流量模型日趨復雜。
首先,開源趨勢加速了AI生態(tài)的擴展,算力類型愈加多樣,異構算力環(huán)境要求網(wǎng)絡具備更強的兼容性與靈活性,才能讓算力資源在同一網(wǎng)絡環(huán)境中高效協(xié)同。
其次,大模型訓練產(chǎn)生的流量模型日趨復雜,參數(shù)同步、梯度聚合等操作對網(wǎng)絡的帶寬、時延與調(diào)度能力提出了近乎苛刻的要求??梢韵胂螅拔磥淼闹撬憔W(wǎng)絡必須同時具備對多元算力的兼容能力與對復雜流量的敏捷調(diào)度能力,向更加開放、高效、可擴展的方向不斷演進?!?張鴻凌說。
的確,只有當算力與網(wǎng)絡技術實現(xiàn)深度融合、協(xié)同創(chuàng)新,才能構建起一個高價值的智算體系。通過算力與網(wǎng)絡技術的同步發(fā)展,才能打破資源孤島,實現(xiàn)算力資源的動態(tài)分配和優(yōu)化利用,讓每一份算力都能發(fā)揮最大效能。
02
DDC架構創(chuàng)新
智算網(wǎng)絡的四重突破
事實上,面向智算時代的網(wǎng)絡解決方案,早在幾年前就開始不斷涌現(xiàn)。
傳統(tǒng)DDC 是一種分布式機框解耦解決方案,其將傳統(tǒng)框式設備組件拆解,以 NCP 替代線卡板、NCF 替代交換網(wǎng)板,光纖互聯(lián)替換連接器組件,控制管理引擎軟件化獨立部署。它的特點是突破了資源限制,簡化大規(guī)模組網(wǎng),提升網(wǎng)絡通信性能,可支持 AI 集群大規(guī)模部署。
本次新華三發(fā)布的新一代無損網(wǎng)絡解決方案,雖然同樣基于“DDC架構”打造,但這一“DDC”已非傳統(tǒng)意義上的DDC。新華三重新定義了DDC——即“多元動態(tài)聯(lián)接(Diversity Dynamic-Connectivity)”架構,并以此為基礎構建新一代無損網(wǎng)絡方案,聚焦解決AI時代智算中心面臨的流量擁塞與調(diào)度復雜等核心難題。通過架構層的創(chuàng)新,方案實現(xiàn)了網(wǎng)絡全鏈路的高效協(xié)同與無損傳輸,助力客戶重塑智算中心的網(wǎng)絡底座,全面釋放算力價值。
張鴻凌表示,基于DDC架構的新一代無損網(wǎng)絡解決方案包含了“超大規(guī)模、極致性能、開放解耦、智能運維”四大技術突破。
首先,面對超大規(guī)模組網(wǎng)需求,新華三升級了支持DDC架構的算力集群交換機S12500 AI,采用NCF+NCP多級組網(wǎng)模式,支持高達128x800G OSFP與36x400G/18x800G Q112端口組合,靈活匹配主流網(wǎng)卡形態(tài),輕松實現(xiàn)7萬卡以上的超大規(guī)模互聯(lián)。同時,開放式組網(wǎng)方式摒棄集中式控制單元,消除單點故障風險,結合信元交換機制,實測帶寬較傳統(tǒng)方案提升107%,顯著增強智算網(wǎng)絡的吞吐與穩(wěn)定性。
其次,面對極致性能的需求。信元交換機制的采用,通過字節(jié)級切片實現(xiàn)全鏈路流量均衡,消除擁塞與流量失衡。結合信元轉發(fā),解耦 GPU 與網(wǎng)卡,在 All-to-All 流量模型下,RoCE 網(wǎng)絡性能媲美 InfiniBand,全字節(jié)平均提升 2.5%,可完美適配GPU高并發(fā)需求。
其三,面對多元算力適配的難題。新華三聯(lián)合生態(tài)伙伴基于 OSF 架構制定 DDC 標準,以BGP作為標準協(xié)議,解決多廠家NCF/NCP設備相互對接,協(xié)同調(diào)度的問題,推動網(wǎng)元異構互聯(lián),避免了被單一廠商鎖定的生態(tài)困境。
最后,面對智能運維的需求。新華三通過智能運維技術,實現(xiàn)對智算網(wǎng)絡的實時監(jiān)控與故障預測,減少人工干預,提升運維效率,保障智算系統(tǒng)穩(wěn)定運行 ,為大模型訓練提供堅實網(wǎng)絡支撐。
不難發(fā)現(xiàn),這一新的架構重新定義了智算無損網(wǎng)絡的標準,充分滿足了大模型訓練對規(guī)模、效率與開放性的三重剛需。特別是開放性的設計,支持多元算力生態(tài)的無縫接入,是站在客戶視角的思考邏輯,更容易被客戶所接受。
03
“算力×聯(lián)接”戰(zhàn)略下的國產(chǎn)化實踐
我們知道,2024年新華三就推出了“算力×聯(lián)接”戰(zhàn)略。其本質(zhì)是:通過算力方案與聯(lián)接方案做最佳的調(diào)優(yōu)和配合,通過端網(wǎng)協(xié)同、網(wǎng)算一體等技術帶來智算效率的大幅提升,兩者的深度融合帶來的不是簡單的疊加效果,而是倍增的效益。
換言之,“算力×聯(lián)接”解決的不單純是計算或聯(lián)接的問題,而是通過計算和聯(lián)接協(xié)調(diào)統(tǒng)一,讓智算的價值最大化。
張鴻凌也提出了一個有意義的觀點:“其實,算力×聯(lián)接的‘x’是一種交叉,代表了任何組合,多種不同的算力,不同的聯(lián)接方式,都可以按照客戶場景的需要組合落地,這也是新華三獨特的解決方案能力?!?/b>
從這個意義上,如果反過來看“聯(lián)接×算力”同樣也是成立的,聯(lián)接不僅僅是智算的最佳輔助,智算的發(fā)展回過頭也可以反哺網(wǎng)絡能力的提升。
因此,面向國產(chǎn)多元算力與不同聯(lián)接方式的生態(tài)適配,新華三也推出端網(wǎng)協(xié)同以太網(wǎng)方案,實現(xiàn)算力與網(wǎng)絡的高效融合,全面提升端網(wǎng)協(xié)同與調(diào)優(yōu)能力。并通過全棧自主產(chǎn)品,打造了高性能一體化的智算方案。
作為方案中的旗艦,H3C S9825-8C-G交換機基于國產(chǎn)芯片設計,采用全國產(chǎn)器件,具備靈活插卡與出色的場景適配能力,支持全RoCE特性,并提供25.6T高帶寬互聯(lián),是構建國產(chǎn)化智算網(wǎng)絡的重要支撐;在算法層面,新華三增強 CBRC 算法,推動端網(wǎng)流量協(xié)同:網(wǎng)絡與網(wǎng)卡整合全局信息統(tǒng)一調(diào)度,實現(xiàn)精細化流量均衡;引入更多網(wǎng)絡參數(shù),使測算更精準,保障穩(wěn)定性的同時優(yōu)化訓練性能。此外,方案配備端側流控響應機制,依據(jù)鏈路狀態(tài)動態(tài)調(diào)整網(wǎng)卡配置,大幅降低網(wǎng)絡異常導致的停機風險。
張鴻凌也坦言,“新華三在國產(chǎn)化方案中的獨特優(yōu)勢,源于我們產(chǎn)品在商用市場的長期打磨與成熟實踐。這使我們能夠將商用市場積累的豐富經(jīng)驗,迅速遷移并應用到國產(chǎn)化場景中。以軟件和算法優(yōu)化為突破口,我們在國產(chǎn)化方案中實現(xiàn)了與商用方案相近的性能表現(xiàn),有效滿足多樣化場景下對高性能、無損傳輸?shù)男枨??!?/b>
除此之外,針對跨域算力流動,傳統(tǒng)擁塞機制存在響應延遲等問題時,新華三推出長距RDMA 優(yōu)化方案,由網(wǎng)絡設備主動探測流量并提前通知擁塞,縮短響應周期,透明處理業(yè)務流。實測顯示,該方案使跨域鏈路響應時間提升 81.4%、吞吐量提升 11%,保障智算資源協(xié)同。
總體來說,新華三通過DDC架構創(chuàng)新,解決了智算網(wǎng)絡在超大規(guī)模、極致性能與生態(tài)適配方面的難題,國產(chǎn)化方案更將商用經(jīng)驗與自主創(chuàng)新深度融合,實現(xiàn)端網(wǎng)協(xié)同的新突破。未來,唯有算力與網(wǎng)絡的雙輪驅動,才能引領智算基礎設施的全面升級,新華三顯然已經(jīng)站在了制高點。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.