回顧 2024 年,貫穿全年最重要的技術趨勢,無疑是大模型技術引發的 AI“ 風暴 ” 。
在應用端,人臉識別、自然語言、智能推薦等 AI應用比比皆是。應用的全面 AI化,帶動了 AI算力的激增。 IDC的數據顯示:全球算力需求將以每年 50%的速度增長,而 AI應用驅動算力需求增長速度更快,預計到 2030年, AI算力需求將比當前呈現上百倍的增長。
智能算力要“流向”千行萬業的方方面面,還需要與網絡的發展與之匹配,在算網一體化的發展路徑下,智算廣域網技術的演進尤為關鍵。
如中國工程院鄔賀銓所說,“人工智能的爆發對互聯網既是機遇也是挑戰,智算廣域網是人工智能時代互聯網重要創新升級方向,是滿足智算服務需求的基礎設施。”
01
智算時代
推動智算廣域網全面發展
根據 2023年 10月印發的《算力基礎設施高質量發展行動計劃》制定的主要目標:到 2025年,我國算力規模將超過 300EFlops,智能算力占比將達到 35%。
正是大模型的驅動下,智算產業呈現出一片欣欣向榮的景象。
全國各地建設了大量的智算中心,形成了支撐人工智能訓練服務的基礎算力資源;與此同時,千行萬業的智能化轉型,對人工智能的投入持續增加,又產生了大量用于模型訓練的樣本數據和訓練需求。
在智算的供需之間,需要一座橋梁,這座橋梁就是智算廣域網。
簡單地說,智算廣域網就是面向智算產業高速發展,是支撐人工智能計算業務全生命周期的廣域網絡。中國信息通信研究院技術與標準研究所互聯網中心主任高巍說,“全國各地布局多級算力資源池體系,如何充分發揮這些智算資源的作用,使其成為各個行業能夠使用的智算服務,成為了當務之急,在這里網絡需要發揮重要作用,‘網效’與‘算效’需要提升互促。
當然,智算廣域網的誕生,也恰是為了解決傳統網絡無法解決的問題而存在的。
比如海量數據上傳,要將大量數據樣本傳輸到智算中心進行存儲和處理,這些數據樣本是人工智能模型訓練和優化的基礎;存算拉遠則要將存儲和計算資源分離,并將存儲設備放置在遠離計算設備的位置,通過高速網絡進行樣本傳輸和訓練;協同訓練,要求大模型訓練可以在多地智算中心之間進行分布式訓練,減輕單一地點壓力,并提高訓練效率。
這些伴隨智算時代而來的新場景,無一不對網絡的承載能力提出了高要求。也因此,推動了智算廣域網,從理念到技術實踐的全面發展。
02
運營商智算廣域網實踐
的“關鍵一躍”
國內的運營商已經在全國布局很多算力資源池,智算廣域網支撐全社會智算資源的高效利用與服務的“關鍵一躍”。智算廣域網的部署推進過程中,運營商依托自身的優勢和需求,積極投身關鍵技術方案的探索和建設,積累了豐富的經驗和成果。
上海電信,面對上海全市 300多家企業、 40多所高校和研究所, 11個信息化園區的用算訴求,打造了具備智能運力的智算廣域網,通過網絡高吞吐使能“算得多”, RDMA廣域無損保障“算得快”,任務式彈性服務做到 “用得起 ”,全面匹配智算時代下新供需關系帶來的網絡訴求。
值得一提的是,上海電信的智算廣域網絡實踐成效斐然:不僅在開啟負載均衡和精準流控功能下,應用層有效傳輸速率提升 7倍,傳輸時間降低了 86%。同時,通過引入廣域 RDMA無損技術,跨百公里的存算拉遠訓練效率達到 99%以上,從而支撐智算廣域網滿足海量租戶進行并發訓練。
重慶移動,結合當地新能源智能車企,對海量樣本數據大模型訓練需求,攜手華為推出了智算互聯網絡解決方案。在方案當中,重慶移動首創提出了廣域 RDMA+G-SRv6的無損網絡融合方案,采用 RDMA、深度負載分擔、智能流調度和逐流反壓等關鍵技術,同時利用客戶側已有的標準存儲,確保客戶數據在智算中心不落盤,通過新一代智算設備互聯實現網存協同。
通過這一系列的技術創新,重慶移動存算拉遠項目在超長距離網絡中,訓練效率提升近 1倍,月度迭代訓練任務數提升近 70%。極大解決了算力空閑等待時間長的問題,大幅降低企業使用大模型訓練的成本,為高效算力服務的推廣,加速普惠算力服務千行百業貢獻了重要力量。
浙江聯通,針對敏感數據本地存儲異地訓練的場景,提出了創新的業務模式。基于中國聯通全新的算力智聯網 AINet,依托“網絡 +平臺”兩大基礎底座和高通量、高性能、高智能的“三高”核心能力。
同時采用華為下一代路由器系列產品,浙江聯通成功在杭州與金華兩地間實施了業界首次 30TB樣本數據的跨 200公里存算分離拉遠訓練,經過實際測算,訓練效率高達 97%。充分驗證了針對 AI訓練業務存算拉遠的技術可行性,未來有相關數據敏感業務需求的用戶可通過運營商算力服務,完成隱私樣本不出園區的拉遠訓練,實現成本與安全的最佳平衡。
通過廣域網絡聯接跨幾百到上千公里的異地算力中心,會面臨兩個關鍵技術點挑戰 : 一是跨 DC大模型訓練極端情況流量瞬時并發達上千 Tbps,需要考慮收斂比和訓練效率之間平衡最優比。二是 RDMA長距傳輸對于丟包十分敏感,千分之一丟包會導致網絡吞吐率下降,影響算卡效率并造成資源浪費。
北京電信,則針對廣域網絡聯接跨幾百到上千公里的異地算力中心,會面臨的跨 DC大模型訓練極端情況流量瞬時并發達上千 Tbps和 RDMA長距傳輸對于丟包十分敏感兩大難題。通過新一代智算路由器打造智算廣域網,采用新型流級擁塞控制技術,可精準快速識別網絡發生擁塞或故障,并基于流進行擁塞控制,確保擁塞不擴散到全網。同時采用路由器廣域無損調度和負載均衡技術,避免數據丟包導致算卡計算效率下降,現網實際驗證跨 100公里長距算效僅降 1%。
不難發現,運營商對智算廣域網的技術探索已取得了相當多的實踐成果,而在其背后,都有華為彈性無損智算 IP廣域網解決方案的支持。
03
為行業數智化轉型
提供網絡新選擇
華為數據通信產品線城域路由器領域總裁左萌認為, AI的廣泛應用為廣域網絡提出了前所未有的挑戰。特別是在企業入算、協同訓練和推理這三個新興業務場景中,網絡的高運力、彈性、可靠性、服務化能力、低時延和安全性等方面都面臨新的要求。
首先,在企業入算場景中,企業需要將大量樣本數據實時傳輸至智算中心,部分企業對敏感數據的安全性要求極高。為傳統廣域網基于流量類型的負載均衡算法較為粗放,無法有效識別和處理大數據流,且 RDMA對丟包極其敏感,傳統廣域網的可靠性難以保證。
其次,在推理場景中,中心推理成為流量集中地,邊緣推理中心也將大量出現,而傳統 IP網絡缺乏邊緣云中心及安全防護能力。
最后,在協同訓練場景中,需要將 DCN擴展到廣域網范圍,將算力卡之間的通訊距離擴展到幾百甚至上千公里,這帶來了丟包、大數據流承載和突發大流量收斂等挑戰。
正是為了解決上述難題,華為推出的星河 AI智算廣域網解決方案,通過高運力、泛在靈活接入、長距無損和任務式服務的 IP網絡能力,為各行業提供高效、安全、無損的數據傳輸環境,為行業數智化轉型提供網絡支撐。
此前發布的《中國運力發展報告( 2024年)》中指出:我國高度重視智算產業發展,堅持“網絡強國”戰略,推動算網協同布局,促進前沿技術應用,引導智算高質量發展。無疑,智算時代才剛剛拉開序幕,在算網一體、以網強算的背景下,智算廣域網還將迎來更大的發展空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.