機器之心報道
編輯:Panda
從 ChatGPT 引發的通用聊天機器人熱潮,到如今正迅猛發展的智能體模型,AI 正在經歷一次深刻的范式轉變:從被動響應的「語言模型」,走向具備自主決策能力的「智能體」。我們也正在進入所謂的「經驗時代」或「軟件 3.0 時代」。
在這場轉變中,強化學習(RL)正在重新登上舞臺中央,成為驅動 AI 實現「感知-決策-行動」閉環乃至通用人工智能(AGI)的關鍵技術。
正如諾貝爾獎得主、DeepMind CEO Demis Hassabis 說的那樣:「強化學習足以實現智能,因為這是所有哺乳動物(包括人類)的學習方式。」 強化學習之父、2024 年圖靈獎得主 Richard Sutton 也在《經驗時代》中寫道:「通過構建強化學習的基礎,并使其核心原則適應新時代的挑戰,我們能夠充分釋放自主學習的潛力,為真正的超人(superhuman)智能鋪平道路。」
然而,相比于預訓練大模型,目前通常用于后訓練大模型的強化學習存在自己獨有的困難:不僅需要高頻的數據交互和環境反饋,還要求大規模算力集群具備穩定、彈性的調度能力。而傳統的云計算平臺,大多仍以靜態推理負載為主,難以適配強化學習訓練中動態多階段、資源高耦合的運行特性。
這一背景下,誰能率先打造出真正適配強化學習的大規模智能計算平臺,誰就有機會在新一輪的 AI 基礎設施競爭中占據高地。2025 年 6 月,九章云極正式發布業界首個工業級強化學習云平臺 AgentiCTRL,這也是全球首個支持萬卡級異構算力調度的強化學習基礎設施平臺
AgentiCTRL基于混合專家(MoE)架構,僅需極少代碼即可完成 AI 智能體的訓推流程,從而顯著增強大模型推理能力。相比于傳統強化學習方案,AgentiCTRL 可將端到端訓練效率提升 500%,綜合成本下降 60%。
在這個云服務紛紛向「AI 云原生」轉型的時代,九章云極率先跑通了強化學習大規模云化的全鏈路路徑,可以說是為更進一步的「智能體原生云」樹立了行業新范式。
為什么是九章云極?
領先源自系統級重構
本質上講, 強化學習是一個長期、動態、狀態密集型的過程。要想訓練一個能在現實世界中有效決策的智能體,所需的不止是簡單的算力堆疊,而是一個涉及算力彈性、資源調度、策略反饋、任務編排、容錯機制等多維系統設計的復雜工程。
面對這一挑戰,九章云極并未沿襲傳統云平臺「橫向擴 GPU」的簡單思路,而是從架構底層出發,對強化學習訓練流程進行了系統性重構。AgentiCTRL 平臺的推出,正是這一重構的成果。
這里,我們重點看看 AgentiCTRL 的一些核心亮點。
首先,AgentiCTRL 實現了強化學習訓練流程的極致簡化
過去,部署一個強化學習訓練流程往往需要數十行腳本、復雜的資源配置和節點編排。而在 AgentiCTRL 上,用戶僅需極少代碼即可啟動完整的訓練-推理-回傳閉環
代碼演示
這背后,是九章云極對環境模擬、策略執行、獎勵反饋等復雜機制的深度封裝與抽象。對于算法工程師而言,這意味著開發效率的數倍提升;對于企業客戶而言,則意味著強化學習的真正可用、可控、可復制。
其次,AgentiCTRL 率先將 Serverless 架構原生融入了 RL 工作負載的訓練平臺
強化學習的計算需求高度不穩定:有的時間段 GPU 大量空轉,有的時間段則需要瞬時擴容數百卡資源。傳統的靜態資源綁定方案,不僅浪費嚴重,也難以調度。AgentiCTRL 通過彈性算力編排,實現了資源的「按需即取、即用即還」,最大化資源利用率的同時,顯著降低了訓練成本。
更為關鍵的是,九章云極自研的異構算力操作系統與調度平臺,讓 AgentiCTRL 成為全球首個能穩定支持「萬卡級」強化學習訓練的平臺。不論是高頻交互帶來的通信瓶頸,還是多節點分布式策略更新的同步難題,九章云極都在平臺層實現了技術閉環。
這些能力也得到了實際驗證。舉個例子,使用 AgentiCTRL,九章云極針對頗具挑戰性的 Computer Use 任務對基礎模型 Qwen-VL-2.5-7B 進行了后訓練,最終得到了智能體Alaya-UI
在這個過程中,AgentiCTRL 表現強勁,不僅降低了 37% 的訓練耗時并提升了 25% 的 GPU 利用率,而且所需的人工介入次數也大幅下降了 90%。整體上看,成本下降了 60%
得到的 Alaya-UI 的性能也在基礎模型的基礎上大幅提升 —— 在 OSWorld 基準上,Alaya-UI 的任務完成率從 6.87% 躍升至 24.8%。
經過更多實驗驗證,AgentiCTRL 能將端到端訓練效率提升 5 倍以上,而在同等任務規模下,其整體成本可下降 60%,堪稱當前最具性價比的強化學習云平臺
換句話說,九章云極不是在已有 AI 云平臺之上「追加一個強化學習模塊」,而是以強化學習為原生能力,重構了整個智能計算平臺的架構與邏輯。
這正是九章云極能夠走在行業前列的核心原因。
不止于平臺
九章云極的智能基礎設施戰略布局
強化學習云平臺只是表層,真正讓九章云極在強化學習競賽中跑在最前面的,是其對下一代 AI 云本質的前沿探索。
傳統的云計算廠商,往往將 AI 能力作為「功能補丁」疊加在通用云之上,更多是在做資源分發和算力服務,更像是一種裸金屬(bare metal)的供給模式。而九章云極的戰略方向明確而清晰:強化學習不是一個云服務模塊,而是未來 AI 云的操作系統級能力,是支撐智能體系統運行的調度中樞、學習引擎和演化機制。
可以說,九章云極前沿探索的核心是圍繞智能體構建完整的原生云基礎設施。這不僅包括支持強化學習的算力資源,更包括三層能力的同步建設:
- 底層是軟件定義的 AI 基礎設施,其中包括異構算力資源、高性能分布式存儲和高性能網絡系統的統一調度與編排。
- 中層是九章智算操作系統 Alaya NeW OS,是工作負載的抽象與調度邏輯層,其中包括 Serverless 架構 、AI 導向的數據中心架構、多 AIDC 訓練架構、異構資源調度、 AI 原生 、分布式算網。
- 上層則是九章智算云 Alaya NeW Cloud,其中包括大模型開發套件、大模型推理平臺、強化學習云平臺、彈性容器平臺 VKS 和專享容器平臺 DKS;它們共同組成了面向開發者、模型廠商、應用企業的 API 與工具鏈系統。
實際上,九章智算云不僅是九章云極強化學習平臺的算力底座,更是其智能基礎設施戰略的核心支點。在強化學習仍被視為高門檻科研專屬的當下,九章智算云以「1 度算力」為度量單位,率先提出普惠化 AI 計算標準,從資源調度方式、價格模型到工作負載適配方式,全面對齊智能體時代的訓練需求。
不同于傳統云廠商依賴 GPU 售賣或按卡計費的裸金屬邏輯,九章智算云提供了真正按使用量計價的 serverless 架構,這不僅降低了門檻,更實質性打通了「人人可用 AI」的最后一公里。
正如圖靈獎得主、「Artificial Intellgence」這一技術術語的提出者約翰?麥卡錫(John McCarthy)曾說過的那樣:算力應該像水電資源一樣隨用隨取。現在,九章智算云正在實踐這一愿景。
而在調度能力方面,九章智算云通過自主研發的異構算力操作系統與 AI-native 的資源管理系統,實現了彈性調度+異構支持+多租戶隔離的完備能力,成功突破「秒級生成百萬級 token 」的性能瓶頸,并且其 GPU 利用率甚至可超過 95%,總擁有成本(TCO)相比傳統方案降低達 60%,形成了明顯的「性能/價格比」優勢。
不僅如此,九章智算云在產業賦能上的落地表現也已具備規模優勢,當前已在政務、金融、通信、制造、能源、交通、生物醫藥等多個關鍵行業實現部署,并支撐多個 RL 模型及智能體系統的在線訓練與推理任務。在國內市場同類平臺中,其智能體訓練任務承載能力和調度效率長期保持領先,穩居強化學習云領域第一梯隊
正是在這些能力的加持下,九章云極才得以在強化學習的產業化路徑上率先跑通「從訓練引擎到產業部署」的全流程閉環,并以此為基礎,構建起屬于自己的 AI 云原生生態護城河。
看起來,九章云極的戰略視野并不局限于細節的技術層面,而是放眼未來 AI 的基礎設施主導權:在大模型標準趨于同質化的今天,誰能主導智能體運行的「訓練-反饋-部署」閉環平臺,誰就能在下一代 AI 生態中占據支點位置。而九章云極,已經擁有自己的獨特優勢。
順帶一提,為了加速這一戰略落地,九章云極還啟動了「AI-STAR 企業生態聯盟」,并與賽富投資基金等多家產業機構聯合設立了「AI-STAR 智算生態基金」,首期投入 1.8 億元,期望吸引算法公司、開源社區、行業客戶共同參與強化學習平臺的生態建設。這不僅為 AgentiCTRL 拓展了豐富的應用場景,也為智能體應用在金融、工業、能源等高價值行業的規模化落地提供了實踐基礎。
因此,AgentiCTRL 的發布并不是一個孤立事件,而是九章云極未來路線圖中的關鍵一步。在這一邏輯下,平臺能力、開發工具、生態伙伴、資本配置…… 正共同構成一個面向未來十年的智能計算戰略。
強化學習云第一云!
是做出來的
當強化學習成為智能體模型訓練的核心引擎,決定下一輪 AI 基礎設施競爭勝負的,很可能是「可用」與「可規模化」之間的距離。
九章云極用 AgentiCTRL 平臺證明,強化學習云的成功落地絕不僅僅是一次算力堆疊或平臺加法,而是一場從底層架構到運行邏輯的系統性重建:支持萬卡級異構調度、Serverless 彈性架構、強化學習工作負載原生抽象…… 這些綜合起來就不再只是簡單的優化,而是范式躍遷。
從客戶視角看,這種躍遷可以帶來直接而確定性的價值回報:
- 開發門檻顯著降低:無需自建環境、編排節點、維護資源,RL 訓練變得像調用 API 一樣簡單;
- 訓練效率大幅提升:端到端性能可提升 5 倍;
- 成本結構全面重塑:資源調度更高效,綜合成本最多可下降 60%,讓 RL 真正進入性價比可控區間。
更重要的是,九章云極從一開始就不是只做「RL 工具鏈供應商」,而是在構建一個支持智能體運行的操作系統級云平臺
在未來,強化學習不會是「少數人的科研特權」,而將成為 AI 系統中的常規能力組件。誰能將它從實驗室拉入工程化生產環境,誰就掌握了創造未來的先機。而九章云極,已經走在了前面。
當智能體原生時代真正到來,我們可能會重新回頭審視這場轉變的起點。而那時,我們會看到,九章云極及其創造的 AgentiCTRL 或許正是它最早的鋪路者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.