數字經濟時代,智算作為“底層驅動力”正在改變千行萬業,并對經濟社會的發展產生廣泛且深刻的影響。
越來越多的場景需要隨取隨用的算力,賦予它們變革場景的力量;越來越多的行業,需要澎湃且及時的算力服務,給予它們走向創新的力量,這就需要算力像自來水一樣隨取隨用,承載運力的智算網絡就變得至關重要。
此前發布的《中國運力發展報告( 2024年)》中指出:我國高度重視智算產業發展,堅持“網絡強國”戰略,推動算網協同布局,促進前沿技術應用,引導智算高質量發展。在政策和產業的共同驅動下,我國智算發展取得積極成效,已進入到由規模增長向品質提升的全新階段。
從去年開始, AI大模型的出現,讓智算的需求指數級提升,由于 AI應用更強調實時在線和確定性聯接,同時 AI訓練場景對數據的吞吐量和一致性有極其嚴格的要求,這就對智算網絡的承載能力提出了新的挑戰。
因此,一場從傳統網絡向智算網絡升級的變革正在發生。
01
從傳統網絡
向智算廣域網絡躍遷
“算網”的概念始于 2019年,在當時通信行業提出算力網絡的理念,倡導將算力融入網絡,以網絡作為紐帶,融合人工智能、大數據、區塊鏈等通用目的技術組合,使得算力通過網絡連接實現云 -邊 -端的最優化協同與調度,最終實現有網即有算。
近年來,得益于應用場景的廣泛性,算網的發展速度一直很快,比如“東數西算”就需要算網作為推動其縱深發展的重要基礎。
同時,算網是一個強調以網絡為中心,通過網絡對算力的感知、觸達、編排、調度能力,去提供算力服務的模式,因此對運營商來說是一個重要的轉型契機。
實際上,運營商本身就具備算網的發展優勢。比如,三大運營商都有包括樞紐算力資源池、省級算力池、地市算力池和區縣邊緣算力池在內的算力資源,這些計算資源比較容易滿足用戶個性化的算力需求。
而智算時代的到來,則為運營商向智算廣域網絡演進帶來了新的挑戰與機遇。
當前算力服務使用最典型的三個場景是:樣本上傳、存算拉遠和協同訓練。
樣本上傳是指將大量的數據樣本(如圖像、文本、音頻等)通過網絡傳輸到智算中心進行存儲和處理的過程,這些數據樣本是人工智能模型訓練和優化的基礎,要求網絡提高數據傳輸的速度和穩定性,使得樣本上傳更加高效。
存算拉遠則是指指將存儲和計算資源分離,并將存儲設備放置在遠離計算設備的位置,通過高速網絡進行數據傳輸和訪問。這種技術可以優化數據中心的設計和資源利用,提高系統的整體效率和可靠性。存算拉遠通常使用 100G~400Gbps的網絡連接,確保數據在存儲和計算設備之間的快速傳輸。
協同訓練簡單的說,是指大模型訓練可以在多個地點進行分布式訓練,不僅能夠減輕單一地點的壓力,還能提高訓練效率。這就對確定性的網絡的建設提出了更高要求。隨著以 ChatGPT為代表的大模型帶來算力需求飆升,動輒萬卡或十萬卡規模的智算中心并不鮮見,運營商開始將不同地域的算力資源進行整合,打造超大智算集群,但由于跨 DC聯算的計算效率對于數據丟失十分敏感,跨上千公里的算力資源無損傳輸對于網絡可靠性提出了新的考驗。
同時,智算數據量指數級增長與傳統網絡承載能力之間存在著差距,大模型帶來的算力服務需求存在算力服務效率與投資不成正比的問題,這些挑戰存在于大數據訓練、跨數據中心聯算以及海量樣本上傳等多個智算場景中。
AI時代的每一個場景之變無一不對網絡的可靠性和確定性提出新挑戰,傳統的網絡已難以應對技術的發展,向智算廣域網絡的躍遷在所難免,而運營商們也已經為此投入了豐富的實踐。
02
運營商
在智算廣域網的探索與實踐
今年的兩會《政府工作報告》提出:要深入推進數字經濟創新發展,制定支持數字經濟高質量發展政策,積極推進數字產業化、產業數字化,促進數字技術和實體經濟深度融合。適度超前建設數字基礎設施,加快形成全國一體化算力體系。
全國各地區也在推動智算體的建設, 2024年 3月上海市通信管理局會同市委網信辦、市發展改革委、市數據局等十一部門研究制定了《上海市智能算力基礎設施高質量發展“算力浦江”智算行動實施方案( 2024-2025年)》,旨在發展以運營商為代表的數據智能產業生態,建成具有區域乃至全國影響力的智能算力創新及應用示范區。
為響應政策的號召和市場的需求,上海電信聯合華為打造了業界首張端到端 400GE的 IP智算廣域試驗網絡,部署 RDMA( Remote Direct Memory Access)廣域無損傳輸、新型智算業務流級調度算法、網絡數字地圖等技術,為千行百業提供高彈性、高吞吐、高可靠的一跳入多算網絡新服務。
同時,從技術上充分滿足了幾個關鍵場景的高要求。
首先,在海量樣本快速入算場景,上海電信將為企業用戶提供 100Mbps~100Gbps IP彈性伸縮算網專線,基于“時間 +數據量”的創新服務模式,滿足了企業 TB/PB級別樣本數據當天達、小時達的快速入算訴求。
其次,在存算分離拉遠訓練場景,上海電信智算新平面提供存算分離拉遠訓練服務,實現超 120KM廣域 RDMA無損傳輸,網絡有效吞吐率提升至 90%以上, AI大模型拉遠訓練算力效率損失小于 5%。
我們知道傳統廣域網數據在傳輸過程中丟包現象非常普遍,但對于大模型訓練而言,這就是不可承受之重。一旦有丟包,就要重新迭代訓練。
上海電信的這張智算廣域網絡,最大的特征就是“廣域無損”,在運力提升的同時,算效不下降。上海電信是采用了華為的智算廣域無損解決方案,將網絡運力提升 4倍,引入 RDMA廣域無損、租戶級精準流控等技術,從而滿足海量樣本快速入算、存算分離拉遠訓練等場景,充分釋放了智算中心的算力效率。
03
以網強算
是在贏在AI時代的關鍵
網絡演進的歷史告訴我們,技術演進的巨輪一旦啟動,總是不斷加速向前。
如新質生產力的發展,對算力資源的需求呈指數級增長。這要求網絡具備高效、靈活、可擴展的算力調度和分配能力。同時對自動駕駛等算力的實時性要求極高的場景,網絡需要確保算力資源能夠迅速響應并滿足這些需求,新質互聯網的理念就是為了適應智算網絡時代的需求而誕生的。
今年 7月,“新質互聯網”在第三屆中國 IPV6創新發展大會上被首次提出。它可以是滿足高質量、高效率、高智能、高安全的基礎網絡特征的新技術體系,也是適應新質生產力發展的網絡新底座。
新質互聯網將會驅動整個網絡架構進行深刻的變革,從物理網絡層、邏輯網絡層到運營管控層的變革會逐漸到來,智算網絡顯然可以為新質互聯網提供強大的場景支撐。上海電信的案例,就很好的解決了新質互聯網在智算廣域網在傳輸效率上的難題。
面對當下日益高漲的智算需求,運營商將會承擔向千行萬業輸送算力的重任,而對于運營商來說,構筑強大的智算網絡,實現以網強算,是其在贏在 AI時代的關鍵。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.