機器之心報道
編輯:Panda
過去幾年,隨著基于人類偏好的強化學習(Reinforcement Learning from Human Feedback,RLHF)的興起,強化學習(Reinforcement Learning,RL)已成為大語言模型(Large Language Model,LLM)后訓練階段的關鍵技術。RL 不僅顯著提升了模型的對齊能力,也拓展了其在推理增強、智能體交互等場景下的應用邊界。圍繞這一核心范式,研究社區不斷演化出多種優化策略和算法變體,如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。這些新興范式雖然形式各異,但底層需求高度一致:幾乎都涉及多模塊協同(Actor、Critic、Reward、Ref)與多階段流程(生成、推理、訓練)的高效調度。這也對訓練框架提出了更高的要求:不僅要支持大規模模型的高效訓練,還需具備良好的可擴展性與開發友好性。因此,一套真正高效、可擴展且用戶友好的 RL 系統框架,成為業界剛需。
近日,淘天集團攜手愛橙科技正式開源了全新一代強化學習訓練框架ROLL(Reinforcement Learning Optimization for Large-scale Learning)。ROLL 以用戶體驗為核心設計理念,專為「高效?可擴展?易用」而打造,徹底打通從小模型到 600B+ 超大模型的 RL 訓練落地路徑。
ROLL 在諸如人類偏好對齊、復雜推理和多輪自主交互場景等關鍵領域顯著提升了大語言模型的性能,同時具備超高的訓練效率,目前 ROLL 已成功應用在多個淘天集團內部業務場景, 為業務創新提供了強大的技術支持。
- 開源項目:https://github.com/alibaba/ROLL
- 論文標題:Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
- 論文地址:https://arxiv.org/pdf/2506.06122
總體而言,ROLL 具有以下關鍵特性:
- 多任務強化學習:內置豐富的 RL 任務支持,涵蓋數學、代碼、通用推理、開放式問答、指令遵循等,一套訓練循環即可多領域聯合優化,采樣率與數據權重可靈活動態調整。
- 智能體強化學習(Agentic RL):原生支持多環境、多角色智能體 - 環境交互(游戲、多輪對話等),并具有靈活的并行化和內置管理功能,可滿足多種任務需求。
- 算法友好:提供靈活且豐富的 RL 策略配置,包括但不限于多種減小方差的 baseline、不同獎勵標準化方式和 data mask 策略等,同時也開箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
- 豐富的訓推引擎:靈活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 訓練引擎, 參數透傳,無需修改底層代碼直接適配不同版本。
- 彈性資源調度與分布式并行:基于 Ray 的多角色分布式架構,靈活資源分配,訓練無縫支持 MegatronCore 5D (DP / TP / PP / CP / EP)并行高效利用異構硬件,從單機到千卡集群均能輕松運行。
- 極致易用與模塊化擴展:Rollout Scheduler、AutoDeviceMapping 等關鍵模塊極大簡化 pipeline 開發和調試,支持按需組合套件,后端推理 / 訓練引擎自由切換。
- 樣本級調度與動態采樣:樣本級 Rollout 生命周期調度機制,支持異步獎勵計算、動態采樣、按樣本裁剪與 EarlyStopping,顯著提升訓練效率與資源利用率。
- 可觀察性:集成了 wandb / swandb / tensorboard,支持實時跟蹤每個領域、每個策略、每個獎勵的性能 —— 從高層概況到細粒度診斷。
目前,該項目已經在 GitHub 上收獲了1000+ star
面向用戶友好設計的 ROLL
ROLL 是一款面向用戶友好設計的強化學習框架。具體來說,ROLL 從一開始就考慮了三類用戶訴求,即:技術先驅者、產品開發者和算法研究者。
- 對于技術先驅者,支持異構大規模 GPU 集群下的彈性擴展與容錯,能夠在上千卡環境下持續穩定地完成 600B+ 大模型訓練,極大降低訓練成本和中斷風險。
- 對于產品開發者,可靈活配置獎勵函數、環境、采樣比例與數據配比,輕松實現各種任務場景的 RL 訓練落地。
- 對于算法研究者,單卡 / 少卡資源下也能高效實驗,所有模塊高度抽象,極易實現自定義 RL 算法、獎勵與環境,極大縮短從想法到驗證的周期。
ROLL 針對三大用戶群體設計
ROLL 的技術細節
那么,ROLL 是如何做到的呢?具體來說以下多項創新:
- 基于《Hybridflow: A flexible and efficient rlhf framework》中提出的單控制器架構,該團隊引入了定義良好的并行工作器(Parallel Worker)抽象,可實現靈活且模塊化的強化學習訓練流程,從而簡化了新想法的實驗過程。
- 引入了優化后的并行策略(Parallel Strategy)和數據傳輸(Data Transfer)模塊,從而可以在資源受限設備上執行,還能實現快速、可擴展且容錯的訓練。
- 為了在生成階段對每個提示詞樣本的生命周期進行細粒度的管理,該團隊提供了 Rollout 調度器,可以簡化響應生成、環境交互和獎勵計算之間的流程編排。
- 該團隊專門設計了環境(Environment)工作器和獎勵(Reward)工作器,可以提供高效且可擴展的智能體環境交互和獎勵計算。
- 該團隊還實現了資源池(Resource Pool),并利用了 AutoDeviceMapping 來實現高效的工作器調度和資源的優化分配。
下圖展示了 ROLL 的整體架構。ROLL 接收的輸入是用戶定義的強化學習數據流及其相關配置?;谶@些輸入,分布式執行器和調度器可協調管理各類工作節點和調度節點。 而 AutoDeviceMapping 模塊則負責管理已分配資源池中的計算資源,并高效地將工作節點和調度節點綁定到其分配的資源上。
ROLL 的架構,由用戶輸入層、分布式執行器和調度器、Auto Device Mapping 模塊以及資源池組成。
而在運行時,ROLL 首先會根據提供的設備配置,分配由 GPU 和 CPU 資源組成的資源池。在 RL 數據流的指導下,系統會創建一個 Rollout 調度器和多個并行工作器。其中,Rollout 調度器負責管理生成階段中每個提示詞樣本請求的生命周期。
然后,根據訓練和模型配置,ROLL 會實例化并行策略,以決定每個并行工作器的并行策略和執行后端。一旦并行工作器建立完成,ROLL 將依據用戶指定的設備映射配置,調用 AutoDeviceMapping 模塊,從資源池中為各個并行工作器分配相應的計算資源。如下圖所示。
ROLL 的運行時設置和訓練工作流程。
接下來,進入訓練迭代。在生成階段,首先將一批樣本送入 Rollout 調度器以生成響應。在此過程中,Actor 模型可能會與環境工作器進行交互,以實現智能體強化學習任務中的多輪環境互動。同時,系統也會調用獎勵工作器來計算獎勵信號,從而支持高級采樣技術(例如動態采樣)以提升采樣效率。
在接下來的推理階段,會執行 Critic、Reward 和 Ref 模型(前提是這些模塊已在 RL 數據流圖中啟用)的前向傳播。隨后,遷移協議會對生成階段輸出的響應進行分片,并將其分發給各個活躍的并行工作器。
訓練階段,Critic 和 Actor 模型利會用已準備好的獎勵信號更新各自的參數。此外,在下一輪訓練迭代中,Actor 模型還會通過 ModelUpdateGroup 與生成階段同步模型參數,確保訓練與生成過程的一致性。
另外,ROLL 也支持 wandb、swandb、TensorBoard 等實驗可視化方案。更多技術細節請訪問原論文。
ROLL 的實驗表現
在 Qwen2.5-7B-base 與 Qwen3-30B-A3B-base 等模型上,ROLL 取得了顯著的跨領域多任務性能提升。例如,在 RLVR pipeline 訓練下,Qwen2.5-7B-Base 的整體準確率從 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 準確率從 0.27 提升至 0.62(2.30 倍),這兩個模型在 ROLL 的支持下均展現了穩定且一致的準確率提升,且未發生模型崩潰等異常現象,展現了 ROLL 極佳的穩健性和實用性。
Qwen2.5-7B-base 在不同領域上的準確度表現。
Qwen3-30B-A3B-base 在不同領域上的準確度表現。
除了標準 RL 流程,ROLL 在智能體交互場景中同樣展現了強大的穩健性。研發團隊在三個典型環境下對 ROLL 的泛化性與適應性進行了實證驗證:
- Sokoban(推箱子):在經典網格推箱子任務中,模型在訓練集上的成功率從 16.8% 提升至 26.0%,驗證集成功率從 13.3% 提升至 35.2%。表明智能體在多輪決策與空間規劃方面能力顯著增強。此外,該訓練結果具備良好的跨任務遷移能力,能有效泛化至其他環境如 FrozenLake。
在 SimpleSokoban 環境訓練的性能變化趨勢,SuccessRate 表示達到目標的成功率 EffectiveActionRate 表示執行有效動作的比例。
- FrozenLake(冰凍湖): 訓練成功率從 16.8% 提升至 26.0%,有效動作占比從 69.1% 提升至 88.8%;驗證集成功率也從 12.9% 升至 23.8%。
在 FrozenLake 環境訓練的性能變化趨勢。
- WebShop(網頁購物):在模擬真實購物任務中,訓練和驗證集上的成功率從 37% 大幅提升至超過 85%。同時,平均每輪交互動作數從 7 降至 4,表明模型在復雜自然語言指令下逐步學會了高效完成目標任務,體現出較佳的操作效率和指令理解能力。
在 WebShop 環境上的準確度趨勢。
ROLL 仍在進化
ROLL 已在 GitHub 上線,并在短時間內收獲大量 star。項目仍在持續迭代,未來將支持 Qwen2.5 VL Agentic RL、一步式異步 pipeline、FSDP2、DeepSeekV3 等新特性,歡迎關注并參與共建。
- 項目主頁:https://github.com/alibaba/ROLL
- 論文介紹:https://arxiv.org/pdf/2506.06122
開源精神是推動技術發展的核心引擎,ROLL 研發團隊期待更多優質人才加入。這里既有技術攻堅的硬核挑戰,也有共創未來的無限可能。
熱招崗位:
- PostTrain 框架研發工程師:https://talent-holding.alibaba.com/off-campus/position-detail?lang=zh&positionId=7000016304
- 大模型訓練算法專家:https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1217103
順帶一提,淘天集團第四屆技術節【硬核少年技術節 4.0】將于 2025 年 6 月 30-7 月 4 日在北京和杭州兩地隆重舉辦。本屆技術節持續一周,包含技術市集、博見社、Openday、AI 狼人殺、AI Hackathon 比賽等各類豐富多彩的 AI 展示場、AI 交流場、AI 開放場、AI 比賽場。
7 月 2 日下午 14:00,此次技術節的重磅 AI 交流場 ——【博見社】,將進行「多模態智能」方向的專場主題分享和「多模態智能與 AI Agent」的圓桌交流,嘉賓包括中科院自動化所研究員劉靜哈爾濱工業大學計算機學院長聘教授左旺孟南京大學計算機學院教授王利民清華大學計算機系副教授劉知遠中國人民大學準聘副教授李崇軒等學者。歡迎大家預約直播觀看。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.