網易首頁 > 網易號 > 正文申請入駐

打造全球首個強化學習云平臺，九章云極是如何做到的？

2025-07-16 13:53:01　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

從 ChatGPT 引發的通用聊天機器人熱潮，到如今正迅猛發展的智能體模型，AI 正在經歷一次深刻的范式轉變：從被動響應的「語言模型」，走向具備自主決策能力的「智能體」。我們也正在進入所謂的「經驗時代」或「軟件 3.0 時代」。

在這場轉變中，強化學習（RL）正在重新登上舞臺中央，成為驅動 AI 實現「感知-決策-行動」閉環乃至通用人工智能（AGI）的關鍵技術。

正如諾貝爾獎得主、DeepMind CEO Demis Hassabis 說的那樣：「強化學習足以實現智能，因為這是所有哺乳動物（包括人類）的學習方式。」強化學習之父、2024 年圖靈獎得主 Richard Sutton 也在《經驗時代》中寫道：「通過構建強化學習的基礎，并使其核心原則適應新時代的挑戰，我們能夠充分釋放自主學習的潛力，為真正的超人（superhuman）智能鋪平道路。」

然而，相比于預訓練大模型，目前通常用于后訓練大模型的強化學習存在自己獨有的困難：不僅需要高頻的數據交互和環境反饋，還要求大規模算力集群具備穩定、彈性的調度能力。而傳統的云計算平臺，大多仍以靜態推理負載為主，難以適配強化學習訓練中動態多階段、資源高耦合的運行特性。

這一背景下，誰能率先打造出真正適配強化學習的大規模智能計算平臺，誰就有機會在新一輪的 AI 基礎設施競爭中占據高地。2025 年 6 月，九章云極正式發布業界首個工業級強化學習云平臺 AgentiCTRL，這也是全球首個支持萬卡級異構算力調度的強化學習基礎設施平臺

AgentiCTRL基于混合專家（MoE）架構，僅需極少代碼即可完成 AI 智能體的訓推流程，從而顯著增強大模型推理能力。相比于傳統強化學習方案，AgentiCTRL 可將端到端訓練效率提升 500%，綜合成本下降 60%。

在這個云服務紛紛向「AI 云原生」轉型的時代，九章云極率先跑通了強化學習大規模云化的全鏈路路徑，可以說是為更進一步的「智能體原生云」樹立了行業新范式。

為什么是九章云極？

領先源自系統級重構

本質上講，強化學習是一個長期、動態、狀態密集型的過程。要想訓練一個能在現實世界中有效決策的智能體，所需的不止是簡單的算力堆疊，而是一個涉及算力彈性、資源調度、策略反饋、任務編排、容錯機制等多維系統設計的復雜工程。

面對這一挑戰，九章云極并未沿襲傳統云平臺「橫向擴 GPU」的簡單思路，而是從架構底層出發，對強化學習訓練流程進行了系統性重構。AgentiCTRL 平臺的推出，正是這一重構的成果。

這里，我們重點看看 AgentiCTRL 的一些核心亮點。

首先，AgentiCTRL 實現了強化學習訓練流程的極致簡化

過去，部署一個強化學習訓練流程往往需要數十行腳本、復雜的資源配置和節點編排。而在 AgentiCTRL 上，用戶僅需極少代碼即可啟動完整的訓練-推理-回傳閉環

代碼演示

這背后，是九章云極對環境模擬、策略執行、獎勵反饋等復雜機制的深度封裝與抽象。對于算法工程師而言，這意味著開發效率的數倍提升；對于企業客戶而言，則意味著強化學習的真正可用、可控、可復制。

其次，AgentiCTRL 率先將 Serverless 架構原生融入了 RL 工作負載的訓練平臺

強化學習的計算需求高度不穩定：有的時間段 GPU 大量空轉，有的時間段則需要瞬時擴容數百卡資源。傳統的靜態資源綁定方案，不僅浪費嚴重，也難以調度。AgentiCTRL 通過彈性算力編排，實現了資源的「按需即取、即用即還」，最大化資源利用率的同時，顯著降低了訓練成本。

更為關鍵的是，九章云極自研的異構算力操作系統與調度平臺，讓 AgentiCTRL 成為全球首個能穩定支持「萬卡級」強化學習訓練的平臺。不論是高頻交互帶來的通信瓶頸，還是多節點分布式策略更新的同步難題，九章云極都在平臺層實現了技術閉環。

這些能力也得到了實際驗證。舉個例子，使用 AgentiCTRL，九章云極針對頗具挑戰性的 Computer Use 任務對基礎模型 Qwen-VL-2.5-7B 進行了后訓練，最終得到了智能體Alaya-UI

在這個過程中，AgentiCTRL 表現強勁，不僅降低了 37% 的訓練耗時并提升了 25% 的 GPU 利用率，而且所需的人工介入次數也大幅下降了 90%。整體上看，成本下降了 60%

得到的 Alaya-UI 的性能也在基礎模型的基礎上大幅提升 —— 在 OSWorld 基準上，Alaya-UI 的任務完成率從 6.87% 躍升至 24.8%。

經過更多實驗驗證，AgentiCTRL 能將端到端訓練效率提升 5 倍以上，而在同等任務規模下，其整體成本可下降 60%，堪稱當前最具性價比的強化學習云平臺

換句話說，九章云極不是在已有 AI 云平臺之上「追加一個強化學習模塊」，而是以強化學習為原生能力，重構了整個智能計算平臺的架構與邏輯。

這正是九章云極能夠走在行業前列的核心原因。

不止于平臺

九章云極的智能基礎設施戰略布局

強化學習云平臺只是表層，真正讓九章云極在強化學習競賽中跑在最前面的，是其對下一代 AI 云本質的前沿探索。

傳統的云計算廠商，往往將 AI 能力作為「功能補丁」疊加在通用云之上，更多是在做資源分發和算力服務，更像是一種裸金屬（bare metal）的供給模式。而九章云極的戰略方向明確而清晰：強化學習不是一個云服務模塊，而是未來 AI 云的操作系統級能力，是支撐智能體系統運行的調度中樞、學習引擎和演化機制。

可以說，九章云極前沿探索的核心是圍繞智能體構建完整的原生云基礎設施。這不僅包括支持強化學習的算力資源，更包括三層能力的同步建設：

底層是軟件定義的 AI 基礎設施，其中包括異構算力資源、高性能分布式存儲和高性能網絡系統的統一調度與編排。
中層是九章智算操作系統 Alaya NeW OS，是工作負載的抽象與調度邏輯層，其中包括 Serverless 架構、AI 導向的數據中心架構、多 AIDC 訓練架構、異構資源調度、 AI 原生、分布式算網。
上層則是九章智算云 Alaya NeW Cloud，其中包括大模型開發套件、大模型推理平臺、強化學習云平臺、彈性容器平臺 VKS 和專享容器平臺 DKS；它們共同組成了面向開發者、模型廠商、應用企業的 API 與工具鏈系統。

實際上，九章智算云不僅是九章云極強化學習平臺的算力底座，更是其智能基礎設施戰略的核心支點。在強化學習仍被視為高門檻科研專屬的當下，九章智算云以「1 度算力」為度量單位，率先提出普惠化 AI 計算標準，從資源調度方式、價格模型到工作負載適配方式，全面對齊智能體時代的訓練需求。

不同于傳統云廠商依賴 GPU 售賣或按卡計費的裸金屬邏輯，九章智算云提供了真正按使用量計價的 serverless 架構，這不僅降低了門檻，更實質性打通了「人人可用 AI」的最后一公里。

正如圖靈獎得主、「Artificial Intellgence」這一技術術語的提出者約翰?麥卡錫（John McCarthy）曾說過的那樣：算力應該像水電資源一樣隨用隨取。現在，九章智算云正在實踐這一愿景。

而在調度能力方面，九章智算云通過自主研發的異構算力操作系統與 AI-native 的資源管理系統，實現了彈性調度+異構支持+多租戶隔離的完備能力，成功突破「秒級生成百萬級 token 」的性能瓶頸，并且其 GPU 利用率甚至可超過 95%，總擁有成本（TCO）相比傳統方案降低達 60%，形成了明顯的「性能/價格比」優勢。

不僅如此，九章智算云在產業賦能上的落地表現也已具備規模優勢，當前已在政務、金融、通信、制造、能源、交通、生物醫藥等多個關鍵行業實現部署，并支撐多個 RL 模型及智能體系統的在線訓練與推理任務。在國內市場同類平臺中，其智能體訓練任務承載能力和調度效率長期保持領先，穩居強化學習云領域第一梯隊

正是在這些能力的加持下，九章云極才得以在強化學習的產業化路徑上率先跑通「從訓練引擎到產業部署」的全流程閉環，并以此為基礎，構建起屬于自己的 AI 云原生生態護城河。

看起來，九章云極的戰略視野并不局限于細節的技術層面，而是放眼未來 AI 的基礎設施主導權：在大模型標準趨于同質化的今天，誰能主導智能體運行的「訓練-反饋-部署」閉環平臺，誰就能在下一代 AI 生態中占據支點位置。而九章云極，已經擁有自己的獨特優勢。

順帶一提，為了加速這一戰略落地，九章云極還啟動了「AI-STAR 企業生態聯盟」，并與賽富投資基金等多家產業機構聯合設立了「AI-STAR 智算生態基金」，首期投入 1.8 億元，期望吸引算法公司、開源社區、行業客戶共同參與強化學習平臺的生態建設。這不僅為 AgentiCTRL 拓展了豐富的應用場景，也為智能體應用在金融、工業、能源等高價值行業的規模化落地提供了實踐基礎。

因此，AgentiCTRL 的發布并不是一個孤立事件，而是九章云極未來路線圖中的關鍵一步。在這一邏輯下，平臺能力、開發工具、生態伙伴、資本配置…… 正共同構成一個面向未來十年的智能計算戰略。

強化學習云第一云！

是做出來的

當強化學習成為智能體模型訓練的核心引擎，決定下一輪 AI 基礎設施競爭勝負的，很可能是「可用」與「可規模化」之間的距離。

九章云極用 AgentiCTRL 平臺證明，強化學習云的成功落地絕不僅僅是一次算力堆疊或平臺加法，而是一場從底層架構到運行邏輯的系統性重建：支持萬卡級異構調度、Serverless 彈性架構、強化學習工作負載原生抽象…… 這些綜合起來就不再只是簡單的優化，而是范式躍遷。

從客戶視角看，這種躍遷可以帶來直接而確定性的價值回報：

開發門檻顯著降低：無需自建環境、編排節點、維護資源，RL 訓練變得像調用 API 一樣簡單；
訓練效率大幅提升：端到端性能可提升 5 倍；
成本結構全面重塑：資源調度更高效，綜合成本最多可下降 60%，讓 RL 真正進入性價比可控區間。

更重要的是，九章云極從一開始就不是只做「RL 工具鏈供應商」，而是在構建一個支持智能體運行的操作系統級云平臺

在未來，強化學習不會是「少數人的科研特權」，而將成為 AI 系統中的常規能力組件。誰能將它從實驗室拉入工程化生產環境，誰就掌握了創造未來的先機。而九章云極，已經走在了前面。

當智能體原生時代真正到來，我們可能會重新回頭審視這場轉變的起點。而那時，我們會看到，九章云極及其創造的 AgentiCTRL 或許正是它最早的鋪路者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.