通信世界網消息(CWW)隨著人工智能、元宇宙、工業互聯網等新興技術的迅猛發展,算力已成為繼電力、網絡之后新的核心生產力,新業務對算力資源的高效供給、靈活調度及跨域協同提出了前所未有的要求。傳統算力架構受限于資源孤島化、調度粗放化、服務靜態化等瓶頸,難以滿足低時延、高可靠、泛在化的智能服務要求。在此背景下,構建以“全局互聯、智能協同、場景驅動”為核心的算力智聯網,成為破解算力供需失衡困局、釋放數字經濟潛能的關鍵路徑。
本文聚焦算力智聯網的核心技術挑戰,提出“標準-通道-調度-網關-服務”五位一體的技術方案:通過構建統一算力互聯網標準體系,解決多廠商設備兼容與跨域互操作難題;設計基于全光網絡和“SRv6+FlexE”的跨域高速算力互聯通道,實現微秒級時延保障與帶寬按需切片;創新算網一體化智能管控架構,深度融合SDN網絡與算力編排引擎,實現算網資源的智能調度;研發智能算力網關,提供協議轉換、算力封裝與可信交易功能,形成“用戶-算力-網絡”的價值閉環;最終面向模型訓練、AI應用、工業互聯等典型場景,構建場景化算網服務引擎,實現“算力即服務”的按需供給。本文旨在為算力互聯網的體系化建設提供理論支撐與實踐參考,助力我國在全球算力競爭中占據戰略制高點。
構建全國一體化算力網的必要性
黨的十八大以來,國家高度重視算力網等新型基礎設施 建設。2022年“東數西算”工程正式全面啟動,打造全國算力“一張網”。2023年12月25日,國家發展改革委、國家數據局、中央網信辦、工業和信息化部、國家能源局五部門聯合印發《關于深入實施“東數西算”工程 加快構建全國一體化算力網的實施意見》。
算力網是將全國范圍的通用計算、智能計算、超級計算等大型異構算力資源與數據資源進行互聯互通的數字基礎設施。算力網將算力節點互連,就能充分發揮這些算力資源的作用,實現資源高效調度、設施綠色低碳、算力靈活供給、服務智能隨需,以算力高質量發展賦能經濟高質量發展。
算力網價值分析
算力網可推動東西部算力協同,加強國家樞紐節點與非國家樞紐節點地區聯動,促進跨區域、多層次算力高速直聯網絡建設,依托新興網絡技術提升網絡傳輸效能,降低東西部地區數據傳輸成本,切實解決海量數據傳輸技術問題,加強算力與數據、算法融合創新,探索算力市場交易結算機制。
算力網有利于釋放數據要素的創新活力,通過算力網將全國范圍的算力、數據等資源匯聚共享,可顯著降低數據傳輸成本,切實解決海量數據傳輸技術問題,推動算力與數據、算法融合創新,催生更多新的應用場景和商業模式。
算力網有利于引導和推動傳統產業轉型升級,統籌通、智、超算力協同計算,幫助傳統產業通過數據分析、數據建模等實施更精準的生產策略,推動算力、數據、算法協同應用,促進產業全要素的互聯互通;同時在人工智能方面,算力網能夠為人工智能提供泛在分布的算力、豐富的數據,形成“人工智能+”的產業賦能新范式。
此外,算力網是落實“雙碳”戰略的必要環節,能夠充分發揮西部地區氣候、能源、環境等方面優勢,引導數據中心向西部資源豐富地區聚集。通過算電協同調度,算力網可以統籌算力、電力協同布局,促進算力與電力相互支撐和協同發展,促進可再生能源(如風、光、綠電)的就近消納。
業界共推統一算力互聯網建設
當前,全球范圍內算力互聯網的探索已進入實踐攻堅階段。中國信息通信研究院率先發布《算力網絡技術白皮書》,推動算力標識、服務分級等標準體系構建;在三大運營商中,中國移動依托“算力網絡試驗網”實現“云邊端”資源動態編排,中國聯通提出“算網一體”架構強化異構算力納管能力,中國電信以“東數西算”樞紐為核心布局跨域資源池化;鵬城實驗室則通過“中國算力網”大科學裝置,在智算集群聯邦調度與光網絡協同優化領域取得突破。然而,各主體在技術路線、接口規范及生態協同上的碎片化問題,制約了算力互聯網的規?;l展。
中國信息通信研究院早在2019年便正式啟動算力網絡相關研究,堅持倡導算力互聯互通,基于“先互聯、再成網、同步建市場”的推進思路,推動算力互聯網實現了從理論探索到實踐應用的深度跨越;2023年,中國信息通信研究院發布了算力互聯互通驗證平臺,與眾多算力服務商開展了深度對接和聯調工作;2024年12月,中國信息通信研究院發布了《算力互聯互通標準體系1.0》,為算力互聯網發展提供指導框架。
中國信息通信研究院著重推動實踐創新和應用落地,聯合產業各方開展多個主題活動,規劃了“1+M+N”算力互聯網業務網,與企業共同開展新技術、新模式、新業態試點試驗,推動算力互聯,協調供需匹配,實現算力跨域調度。
中國移動將“算力網絡”作為重大戰略發展方向,努力推動建設統一算力網絡成為產業共識。在2024年中國移動算力網絡大會上,中國移動聚焦算力、算網、算數、算腦四個方面,正式發布“一體化算力網絡領航數智產業行動計劃”。
中國移動積極構建“N+X”大規模智算基礎設施,已打造一批萬卡級、千卡級智算集群,在呼和浩特投產的超大規模單體液冷智算中心入選“央企十大超級工程”;建設高速算間網絡,2024年3月貫通全球首條商用400G全光網鏈路,建成全球領先的SRv6承載網,全面貫通八大算力樞紐節點,打造“1—5—20ms”三級時延圈,夯實算網智聯底座;創新打造數聯網(DSSN),全面構建數據流通基礎設施,提供一站式申請、開通數據流通專屬算力網絡功能,落地國家數據要素綜合試驗區“中國數谷”;創新打造算網大腦,實現智能編排,統一調度“通、智、超、量”多樣化算力,突破億級每日調度能力,打造長三角樞紐算力調度平臺標桿,助力“東數西算”工程落地。
中國聯通大力推動一體化算力網構建,在中國聯通2024 年合作伙伴大會上發布了算力智聯網AINET,針對智算時代多元化業務互聯需求,通過網絡架構、組網和設備技術創新,實現“高通量、高性能、高智能”三大核心能力。基于AINET,中國聯通開展了從上海到寧夏3000千米長距RDMA流量傳輸驗證,通過無損流控、端網協同、擁塞控制等技術,端口帶寬利用率從20%提升到90%。2022年中國聯通研發并上線了算網一體化編排調度平臺,推動東西部國家樞紐節點算力一體調度,打造國家樞紐節點算力服務和調度典型示范,以算網調度平臺為核心,實現面向多種應用場景的算網一體化融合服務。
中國電信聚焦算力建設和調度,以此構建一體化算力網。2024年天翼云作為“國家云框架”全面邁向智能云發展的新階段,在北京和上海建設國內領先的萬卡全液冷智算集群。在算力廣泛布局的基礎上,中國電信打造的天翼云算力分發網絡平臺“息壤”,以構建全國一體化算力網為目標,接入合作伙伴算力達27EFlops,能夠助力跨地域算力靈活調度,有效整合各方異構算力資源,向全社會提供標準化算力服務,并實現了規模商用。以“息壤”為核心的一體化智算服務平臺,憑借強大的智算能力,深度賦能千行百業數字化轉型,并成功入選2024年國家數據局發布的首批25個“全國一體化算力網應用優秀案例”,成為首批算力網建設的先進性、創新性代表。
2024年12月,鵬城實驗室與新一代人工智能產業技術創新戰略聯盟聯合發布中國算力網(C2Net)開源開放試驗場最新科技成果。鵬城實驗室牽頭建設的E級智能算力大科學裝置“鵬城云腦”構建了一站式開源平臺,通過算力網以云際互聯的方式接入30多個分布在全國的公共算力集群,兼容了12種異構算力芯片,搭建了面向人工智能協同開發的軟件工具鏈,服務開源社區各種差異化需求。2025年中國算力網還將聚焦強化開放算力供給、推出易用組件工具、共享海量優質數據、落地多樣運營活動等方面,進一步推動創新與發展。
算力互聯網面臨四大挑戰
算力互聯網的核心目標是實現跨域互聯、異構算力資源的高效協同與智能調度,從而滿足日益復雜的計算需求。然而,算力互聯網仍面臨著諸多技術挑戰和攻關難點。
一是算力互聯網的相關標準體系建設滯后,算力度量、接 口規范等標準尚處草案階段,跨廠商設備互通率不足60%。跨域資源統一標識與管理是關鍵難題,由于不同機構或區域的算力資源具有異構性,其硬件配置、軟件環境和服務能力各不相同,如何為這些算力資源建立統一的標識體系并實現高效管理,是構建算力互聯網的前提。
二是高效低時延傳輸技術是算力互聯網面臨的一大挑戰。大規模計算任務的跨域調度需要依賴高速網絡支撐,但在實際應用中,數據傳輸的延遲、帶寬瓶頸以及網絡擁塞等問題仍然制約著算力資源的有效利用。如何在復雜的網絡環境下實現高吞吐量、低時延的數據傳輸,并確保服務的穩定性與可靠性,是未來技術攻關的重點。
三是智能調度算法的優化與擴展也是迫切需要解決的問題。算力互聯網的核心價值在于通過智能調度實現算力資源的最優配置,但現有算法在面對海量異構資源和復雜任務需求時,往往面臨計算效率低下、資源分配不均衡以及動態適應性不足等問題。如何設計更具普適性和高效性的調度策略,并結合人工智能技術提升系統的自學習能力,是未來研究的重要方向。
四是針對不同業務場景,算力互聯服務也不盡相同。由于實際場景的計算任務可能涉及多種類型的數據(如圖像、視頻、文本等),這些數據的處理需要不同類型的算力資源協同工作,特別是算力和網絡資源的融合調度和協同,是提升系統整體性能的關鍵。
此外,算力互聯及算網融合的商業模式目前還不清晰,83%的企業擔憂跨域計費結算體系缺失,因此應盡快構建算力期貨等新型交易機制。
綜上所述,算力互聯網的未來發展需要在跨域資源管理、高效傳輸技術、智能調度算法、場景化算網融合服務等方面進行深入研究和突破。只有攻克這些技術難點,才能真正實現算力資源的全局優化配置,為產業發展提供堅實的技術支撐。
算力互聯網的關鍵技術及方案
構建統一算力互聯網標準體系
目前,國際標準化組織IEEE已經組建P2301、P2302等 工作組,持續推動算力互聯和互操作技術的標準制定工作。國內也已成立算網融合產業及標準推進委員會(CCNIS),旨在推動算網融合技術和產業發展。目前國內推動算力標準制定的力量,主要來自運營商、算力服務商、網絡設備商,具有權威性和普適性的標準體系還未形成,對算力網的產業化發展提出挑戰。因此,建議優先構建算力網標準體系,在以下四方面加快推動權威性標準的制定。
一是制定算力并網標準。我國各類算力提供主體超5000 家,由于主體多元化、區域分割、基礎架構差異、調用接口私有化等問題,算力互聯呈現“局域網”現象,未能形成全域、跨服務商的統一接入標準,缺乏統一的算力資源和網絡資源感知能力,算力的標識符各不相同,給算力在網關、應用側的解析帶來問題。
二是制定算力度量標準。算力目前缺乏牽引產業公正性和權威性的“標尺”,各類專用芯片的異構算力無法進行統一度量,無法適應多樣性算網協同平臺發展,算力資源彼此的調度、互聯互通、快速部署等難以實現。
三是制定算力互聯標準。要實現泛在分布算力資源的標準化互聯,需要統一算力互聯互通標準,包括算力編碼、路徑、解析、協議等內容,從而推動數據傳輸流動、計算任務分發部署、應用架構適配等關鍵環節的統一化,實現算力調度真正落地。
四是制定算網服務標準。在多元化算力供給的狀況下,算力沒有形成可感知和調度的標準化服務,因此需要制定算網服務標準,從而通過算力互聯網找到位置、成本、性能均合適的算力資源,提升算力交易、人工智能、模型訓練、智算平臺、云渲染、視頻編解碼等算力服務的兼容性和協同性。
建立跨域高速算力互聯通道
為構建全國一體化的算力網,承接國家“東數西算”工程,跨域高速算力互聯通道一方面可依托國內運營商已有網絡基礎與優勢,構建低時延、廣連接、智能化、便捷化的“云網邊”多級算力承載網;另一方面可以結合算力樞紐節點分布情況,構建東西部之間的專用網絡通道(如圖1所示)。如構建高速骨干直聯網絡,滿足算力高效聯網調度,以及算力資源間快速、穩定、彈性的數據傳輸需求。
圖1 算力互聯專用網網絡架構
基于互聯網通道的算力互聯網可以承載to C用戶訪問算力的業務流量,廣泛接入全國IDC資源,提供差異化保障服務,保障算力應用的時延要求。企業用戶專網可以承載to B用戶訪問算力及東西向算力互訪業務流量,廣泛接入公有云服務商、IDC、運營商等算力資源,提供異構算力的安全連接能力。算力互聯網依托運營商城域網可以提供to C、to B、邊緣算力的綜合接入,承載云邊互訪流量,實現云邊統一調度和業務協同。打造全國一體化的算力互聯專用網絡可以提供算力節點間的高速專用運力通道,特別是智算、超算節點之間需要的高通量、低時延、確定性網絡服務。同時,應結合400Gbit/s和800Gbit/s全光傳輸網絡,以及“SRv6+FlexE”的IP技術。
實現算網一體化管控和調度
算網一體化調度需要算力和網絡資源無縫對接、資源池化,構建統一的資源視圖,實現網絡拓撲、帶寬、流量、算力和存力等實時呈現,從而實現算網資源統一納管、業務自動開通、故障實時監測等一體化調度。
針對智算資源和模型訓練對網絡傳輸的新需求,只有確保廣域間智算算力的高速傳輸,才能滿足各級時延圈要求,實現基于互聯網、企業專用網、智算直聯網絡的高效互聯、靈活配置、彈性調度。在資源調度過程中,需要對跨算力節點、跨異構平臺的任務快速分發。算網一體化調度技術架構如圖2所示。
圖2 算網一體化調度技術架構
在構建算力互聯網絡連接時,一要快速建立算力連接,基于全域網絡的智能化SDN管控,實現跨域智算網絡連接的敏捷拆建和可靠連接;二是根據時延要求選路,根據業務的時延要求,提供智能選路和低時延隧道的動態連接;三是彈性帶寬調整,根據業務流量趨勢,提供彈性、分時段調整的網絡帶寬,滿足業務靈活配置需求;四是業務快速開通,實現算網資源的一體協同調度,“跨中心智算資源+網絡連接”能夠分鐘級自動開通。
同時,跨平臺智算調度和任務分發網絡通過對接多個智算節點、AI訓練平臺,實現直接提交AI 任務和開通裸金屬智算資源兩個層級的調度。這需要將多個智算中心能力統一進行封裝和標準化,構建統一AI訓練平臺,并根據用戶模型特點、算力需求,調度最合適的智算中心資源,完成任務的自動部署、資源的自動開通。
打造自主感知算力的智能網關
目前互聯網應用主要集中在OTT廠商,運營商主要采用IDC資源機架出租模式,短視頻、電商購物、搜索引擎等跨數據中心數據同步或計算的場景目前沒有完善的解決方案。在通算、智算、超算、量子計算等一體化算力協同時代,運營商可以建設專用的DCI互聯網,以及算力直連網絡,提高算力節點間的連接能力。與此同時,為了實現用戶的業務快速接入和體驗增強,運營商可以在算力節點的DC(數據中心)出口,構建一臺用來連接算力和用戶接入的綜合網關設備,兼容業務接入和DC互聯。
以公眾互聯網為例,其可以構建兩級算力網關,即用于用戶業務接入的算力接入網關和用于算力連接的智算網關,算力智能網關布局如圖3所示。算力接入網關對接運營商骨干網的PE 路由器,承載用戶訪問公有云資源的南北流量。鑒于單用戶流量少、用戶并發數大的特點,業界一般采用商用路由器產品,其所支持的路由表項、ACL數量、QoS策略數量多。智算網關類似DCI路由器,用于數據中心互連,承載公有云內部服務器之間的數據同步、大數據分析、容災備份、虛擬機遷移等東西流量。由于單條流帶寬大,流量并發數小,初期可基于商用路由器,之后可逐步過渡到自研白盒路由器,以簡化功能、降低成本。
圖3 算力智能網關布局
對于企業用戶專網和算力直聯網絡來說,智算網關是算力中心的統一出口和算力專網的核心設備,主要完成訓練、推理數據的傳輸承載,為算力資源的智能 調度提供必要的數據傳輸能力和解析能 力。算力樞紐、智算中心等算力資源節點 通過智算網關接入骨干直聯網,為用戶 提供大容量、安全可靠的數據傳輸和跨 域協同訓練。因此,智算網關的技術要求 相對較高,主要包括數據傳輸承載、算力 資源調度、跨域協同訓練三個方面。
一是數據傳輸承載。設備支持高密度100Gbit/s和400Gbit/s端口,滿足基礎大模型及增量訓練的高通量數據傳輸要求。支持“IP+光技術”,實現跨層、跨域端到端光數統一控制和一體化調度。
二是算力資源調度。設備北向支持通過RESTful API接收算力信息通告,基于空閑算力資源實現算力尋址,創建滿足需求的SRv6 隧道;支持隨流檢測功能,實現流量調優。
三是跨域協同訓練。設備端口支持高速、大容量緩 存,滿足廣域RDMA協同 訓練的網絡無損要求;支持 PFC、ECN、Fast CNP等流控技術,保障網絡能快速感知擁塞,防止訓練中斷。
提供場景化的算網融合服務
算力互聯網建設的最終目的是能夠跨域、跨網調度位于各層級的算力資源,并提供算力間的專有服務通道,實現算力間數據的高效流轉,從而為新型計算任務提供精細化、場景化的算力服務。算力服務商面向用戶可提供算力交易服務;算力互聯網運營商構建并運營算力資源互聯互通和調度平臺,同時整合算力資源,提供算力互聯以及計量結算服務;算力提供商通過統一算力標識體系上報算力資源以開展算力資源服務;網絡運營商提供彈性的差異化網絡服務,滿足用戶差異化計算任務所需的運力資源。
結合目前主流的業務需求,本文提出聚焦三大場景打造新型算網融合產品及服務,如“東數西備”服務、AI模型訓練調度服務、視頻算網產品、數據快遞產品等,提供“算力即服務”,實現算網融合的高效賦能,推動產業構建算網融合生態。
一是提供訓推協同場景服務?;谒憔W平臺的多元異構算力高效供給能力,以及基礎網絡廣泛接入的覆蓋優勢, 訓推 協同可依托集約化管理能力實現“算力產品化供給+廣域協同 調度”的云網一體新特色,支撐“中訓邊推”“西訓東推”等訓 推協同場景。
算網協同可實現算力智能調度。通過時延優先、成本優先、位置優先、負載優先、數據優先等編排策略,實現智算任務在私有智算、政府智算、公有云商智算等異構泛在智算云池最優算力節點的智能調度。
泛在分布的云邊智算資源池可構建訓推協同的算網融合服務,實現“中心—骨干—邊緣”三級深度協同,將智算任務分配到最合理的資源節點;通過一鍵下發AI模型到一個或多個邊緣推理側節點,實現訓推之間的自主閉環,支撐“中訓邊推”“西訓東推”等場景。AI訓練與推理一體化協同架構如圖4所示。
圖4 AI訓練與推理一體化協同架構
二是提供通智協同場景服務。通智協同是指通算、智算資源在同一個業務場景下,基于算力互聯網絡實現跨架構、跨地域的資源協同;基于網絡互聯、模型遷移適配,融合適合邏輯處理的通用算力、適合智能化數據分析的智算算力,完成通智算力一體化,共同支撐高性能業務場景。
基于通智一體的車輛識別網絡架構如圖5所示。
圖5 基于通智一體的車輛識別網絡架構
三是提供資源彈性伸縮服務。跨服務商、跨地域的智算資源可提供分布式推理分發能力,實現將AI模型自動分發到一個或多個資源節點,支持人工指定和基于策略智能調度部署節點;實時感知AI模型推理服務的資源及SLA指標,配置彈性伸縮策略,結合實際的請求情況動態調整推理服務部署,實現智算資源及智算服務的最優化配置。分布式算網資源彈性伸縮架構如圖6所示。
圖6 分布式算網資源彈性伸縮架構
總結
本文闡述了構建算力互聯網的目標、路徑以及多種場景 化的算網融合服務方案,希望通過技術創新和服務模式優化,實現跨域、跨網算力資源的高效調度與利用,為新型計算需求提供精細化、場景化的算力支持。在“東數西算”背景下,算力互聯網的發展前景廣闊,通過持續的技術創新和模式探索,算力資源的利用效率將進一步提升,從而更好地滿足多樣化的業務需求,并推動我國數字化轉型邁向更高水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.