機(jī)器之心報道
編輯:Panda
過去幾年,隨著基于人類偏好的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)的興起,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)已成為大語言模型(Large Language Model,LLM)后訓(xùn)練階段的關(guān)鍵技術(shù)。RL 不僅顯著提升了模型的對齊能力,也拓展了其在推理增強(qiáng)、智能體交互等場景下的應(yīng)用邊界。圍繞這一核心范式,研究社區(qū)不斷演化出多種優(yōu)化策略和算法變體,如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。這些新興范式雖然形式各異,但底層需求高度一致:幾乎都涉及多模塊協(xié)同(Actor、Critic、Reward、Ref)與多階段流程(生成、推理、訓(xùn)練)的高效調(diào)度。這也對訓(xùn)練框架提出了更高的要求:不僅要支持大規(guī)模模型的高效訓(xùn)練,還需具備良好的可擴(kuò)展性與開發(fā)友好性。因此,一套真正高效、可擴(kuò)展且用戶友好的 RL 系統(tǒng)框架,成為業(yè)界剛需。
近日,淘天集團(tuán)攜手愛橙科技正式開源了全新一代強(qiáng)化學(xué)習(xí)訓(xùn)練框架ROLL(Reinforcement Learning Optimization for Large-scale Learning)。ROLL 以用戶體驗(yàn)為核心設(shè)計理念,專為「高效?可擴(kuò)展?易用」而打造,徹底打通從小模型到 600B+ 超大模型的 RL 訓(xùn)練落地路徑。
ROLL 在諸如人類偏好對齊、復(fù)雜推理和多輪自主交互場景等關(guān)鍵領(lǐng)域顯著提升了大語言模型的性能,同時具備超高的訓(xùn)練效率,目前 ROLL 已成功應(yīng)用在多個淘天集團(tuán)內(nèi)部業(yè)務(wù)場景, 為業(yè)務(wù)創(chuàng)新提供了強(qiáng)大的技術(shù)支持。
- 開源項目:https://github.com/alibaba/ROLL
- 論文標(biāo)題:Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
- 論文地址:https://arxiv.org/pdf/2506.06122
總體而言,ROLL 具有以下關(guān)鍵特性:
- 多任務(wù)強(qiáng)化學(xué)習(xí):內(nèi)置豐富的 RL 任務(wù)支持,涵蓋數(shù)學(xué)、代碼、通用推理、開放式問答、指令遵循等,一套訓(xùn)練循環(huán)即可多領(lǐng)域聯(lián)合優(yōu)化,采樣率與數(shù)據(jù)權(quán)重可靈活動態(tài)調(diào)整。
- 智能體強(qiáng)化學(xué)習(xí)(Agentic RL):原生支持多環(huán)境、多角色智能體 - 環(huán)境交互(游戲、多輪對話等),并具有靈活的并行化和內(nèi)置管理功能,可滿足多種任務(wù)需求。
- 算法友好:提供靈活且豐富的 RL 策略配置,包括但不限于多種減小方差的 baseline、不同獎勵標(biāo)準(zhǔn)化方式和 data mask 策略等,同時也開箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
- 豐富的訓(xùn)推引擎:靈活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 訓(xùn)練引擎, 參數(shù)透傳,無需修改底層代碼直接適配不同版本。
- 彈性資源調(diào)度與分布式并行:基于 Ray 的多角色分布式架構(gòu),靈活資源分配,訓(xùn)練無縫支持 MegatronCore 5D (DP / TP / PP / CP / EP)并行高效利用異構(gòu)硬件,從單機(jī)到千卡集群均能輕松運(yùn)行。
- 極致易用與模塊化擴(kuò)展:Rollout Scheduler、AutoDeviceMapping 等關(guān)鍵模塊極大簡化 pipeline 開發(fā)和調(diào)試,支持按需組合套件,后端推理 / 訓(xùn)練引擎自由切換。
- 樣本級調(diào)度與動態(tài)采樣:樣本級 Rollout 生命周期調(diào)度機(jī)制,支持異步獎勵計算、動態(tài)采樣、按樣本裁剪與 EarlyStopping,顯著提升訓(xùn)練效率與資源利用率。
- 可觀察性:集成了 wandb / swandb / tensorboard,支持實(shí)時跟蹤每個領(lǐng)域、每個策略、每個獎勵的性能 —— 從高層概況到細(xì)粒度診斷。
目前,該項目已經(jīng)在 GitHub 上收獲了1000+ star
面向用戶友好設(shè)計的 ROLL
ROLL 是一款面向用戶友好設(shè)計的強(qiáng)化學(xué)習(xí)框架。具體來說,ROLL 從一開始就考慮了三類用戶訴求,即:技術(shù)先驅(qū)者、產(chǎn)品開發(fā)者和算法研究者。
- 對于技術(shù)先驅(qū)者,支持異構(gòu)大規(guī)模 GPU 集群下的彈性擴(kuò)展與容錯,能夠在上千卡環(huán)境下持續(xù)穩(wěn)定地完成 600B+ 大模型訓(xùn)練,極大降低訓(xùn)練成本和中斷風(fēng)險。
- 對于產(chǎn)品開發(fā)者,可靈活配置獎勵函數(shù)、環(huán)境、采樣比例與數(shù)據(jù)配比,輕松實(shí)現(xiàn)各種任務(wù)場景的 RL 訓(xùn)練落地。
- 對于算法研究者,單卡 / 少卡資源下也能高效實(shí)驗(yàn),所有模塊高度抽象,極易實(shí)現(xiàn)自定義 RL 算法、獎勵與環(huán)境,極大縮短從想法到驗(yàn)證的周期。
ROLL 針對三大用戶群體設(shè)計
ROLL 的技術(shù)細(xì)節(jié)
那么,ROLL 是如何做到的呢?具體來說以下多項創(chuàng)新:
- 基于《Hybridflow: A flexible and efficient rlhf framework》中提出的單控制器架構(gòu),該團(tuán)隊引入了定義良好的并行工作器(Parallel Worker)抽象,可實(shí)現(xiàn)靈活且模塊化的強(qiáng)化學(xué)習(xí)訓(xùn)練流程,從而簡化了新想法的實(shí)驗(yàn)過程。
- 引入了優(yōu)化后的并行策略(Parallel Strategy)和數(shù)據(jù)傳輸(Data Transfer)模塊,從而可以在資源受限設(shè)備上執(zhí)行,還能實(shí)現(xiàn)快速、可擴(kuò)展且容錯的訓(xùn)練。
- 為了在生成階段對每個提示詞樣本的生命周期進(jìn)行細(xì)粒度的管理,該團(tuán)隊提供了 Rollout 調(diào)度器,可以簡化響應(yīng)生成、環(huán)境交互和獎勵計算之間的流程編排。
- 該團(tuán)隊專門設(shè)計了環(huán)境(Environment)工作器和獎勵(Reward)工作器,可以提供高效且可擴(kuò)展的智能體環(huán)境交互和獎勵計算。
- 該團(tuán)隊還實(shí)現(xiàn)了資源池(Resource Pool),并利用了 AutoDeviceMapping 來實(shí)現(xiàn)高效的工作器調(diào)度和資源的優(yōu)化分配。
下圖展示了 ROLL 的整體架構(gòu)。ROLL 接收的輸入是用戶定義的強(qiáng)化學(xué)習(xí)數(shù)據(jù)流及其相關(guān)配置。基于這些輸入,分布式執(zhí)行器和調(diào)度器可協(xié)調(diào)管理各類工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)。 而 AutoDeviceMapping 模塊則負(fù)責(zé)管理已分配資源池中的計算資源,并高效地將工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)綁定到其分配的資源上。
ROLL 的架構(gòu),由用戶輸入層、分布式執(zhí)行器和調(diào)度器、Auto Device Mapping 模塊以及資源池組成。
而在運(yùn)行時,ROLL 首先會根據(jù)提供的設(shè)備配置,分配由 GPU 和 CPU 資源組成的資源池。在 RL 數(shù)據(jù)流的指導(dǎo)下,系統(tǒng)會創(chuàng)建一個 Rollout 調(diào)度器和多個并行工作器。其中,Rollout 調(diào)度器負(fù)責(zé)管理生成階段中每個提示詞樣本請求的生命周期。
然后,根據(jù)訓(xùn)練和模型配置,ROLL 會實(shí)例化并行策略,以決定每個并行工作器的并行策略和執(zhí)行后端。一旦并行工作器建立完成,ROLL 將依據(jù)用戶指定的設(shè)備映射配置,調(diào)用 AutoDeviceMapping 模塊,從資源池中為各個并行工作器分配相應(yīng)的計算資源。如下圖所示。
ROLL 的運(yùn)行時設(shè)置和訓(xùn)練工作流程。
接下來,進(jìn)入訓(xùn)練迭代。在生成階段,首先將一批樣本送入 Rollout 調(diào)度器以生成響應(yīng)。在此過程中,Actor 模型可能會與環(huán)境工作器進(jìn)行交互,以實(shí)現(xiàn)智能體強(qiáng)化學(xué)習(xí)任務(wù)中的多輪環(huán)境互動。同時,系統(tǒng)也會調(diào)用獎勵工作器來計算獎勵信號,從而支持高級采樣技術(shù)(例如動態(tài)采樣)以提升采樣效率。
在接下來的推理階段,會執(zhí)行 Critic、Reward 和 Ref 模型(前提是這些模塊已在 RL 數(shù)據(jù)流圖中啟用)的前向傳播。隨后,遷移協(xié)議會對生成階段輸出的響應(yīng)進(jìn)行分片,并將其分發(fā)給各個活躍的并行工作器。
訓(xùn)練階段,Critic 和 Actor 模型利會用已準(zhǔn)備好的獎勵信號更新各自的參數(shù)。此外,在下一輪訓(xùn)練迭代中,Actor 模型還會通過 ModelUpdateGroup 與生成階段同步模型參數(shù),確保訓(xùn)練與生成過程的一致性。
另外,ROLL 也支持 wandb、swandb、TensorBoard 等實(shí)驗(yàn)可視化方案。更多技術(shù)細(xì)節(jié)請訪問原論文。
ROLL 的實(shí)驗(yàn)表現(xiàn)
在 Qwen2.5-7B-base 與 Qwen3-30B-A3B-base 等模型上,ROLL 取得了顯著的跨領(lǐng)域多任務(wù)性能提升。例如,在 RLVR pipeline 訓(xùn)練下,Qwen2.5-7B-Base 的整體準(zhǔn)確率從 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 準(zhǔn)確率從 0.27 提升至 0.62(2.30 倍),這兩個模型在 ROLL 的支持下均展現(xiàn)了穩(wěn)定且一致的準(zhǔn)確率提升,且未發(fā)生模型崩潰等異常現(xiàn)象,展現(xiàn)了 ROLL 極佳的穩(wěn)健性和實(shí)用性。
Qwen2.5-7B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。
Qwen3-30B-A3B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。
除了標(biāo)準(zhǔn) RL 流程,ROLL 在智能體交互場景中同樣展現(xiàn)了強(qiáng)大的穩(wěn)健性。研發(fā)團(tuán)隊在三個典型環(huán)境下對 ROLL 的泛化性與適應(yīng)性進(jìn)行了實(shí)證驗(yàn)證:
- Sokoban(推箱子):在經(jīng)典網(wǎng)格推箱子任務(wù)中,模型在訓(xùn)練集上的成功率從 16.8% 提升至 26.0%,驗(yàn)證集成功率從 13.3% 提升至 35.2%。表明智能體在多輪決策與空間規(guī)劃方面能力顯著增強(qiáng)。此外,該訓(xùn)練結(jié)果具備良好的跨任務(wù)遷移能力,能有效泛化至其他環(huán)境如 FrozenLake。
在 SimpleSokoban 環(huán)境訓(xùn)練的性能變化趨勢,SuccessRate 表示達(dá)到目標(biāo)的成功率 EffectiveActionRate 表示執(zhí)行有效動作的比例。
- FrozenLake(冰凍湖): 訓(xùn)練成功率從 16.8% 提升至 26.0%,有效動作占比從 69.1% 提升至 88.8%;驗(yàn)證集成功率也從 12.9% 升至 23.8%。
在 FrozenLake 環(huán)境訓(xùn)練的性能變化趨勢。
- WebShop(網(wǎng)頁購物):在模擬真實(shí)購物任務(wù)中,訓(xùn)練和驗(yàn)證集上的成功率從 37% 大幅提升至超過 85%。同時,平均每輪交互動作數(shù)從 7 降至 4,表明模型在復(fù)雜自然語言指令下逐步學(xué)會了高效完成目標(biāo)任務(wù),體現(xiàn)出較佳的操作效率和指令理解能力。
在 WebShop 環(huán)境上的準(zhǔn)確度趨勢。
ROLL 仍在進(jìn)化
ROLL 已在 GitHub 上線,并在短時間內(nèi)收獲大量 star。項目仍在持續(xù)迭代,未來將支持 Qwen2.5 VL Agentic RL、一步式異步 pipeline、FSDP2、DeepSeekV3 等新特性,歡迎關(guān)注并參與共建。
- 項目主頁:https://github.com/alibaba/ROLL
- 論文介紹:https://arxiv.org/pdf/2506.06122
開源精神是推動技術(shù)發(fā)展的核心引擎,ROLL 研發(fā)團(tuán)隊期待更多優(yōu)質(zhì)人才加入。這里既有技術(shù)攻堅的硬核挑戰(zhàn),也有共創(chuàng)未來的無限可能。
熱招崗位:
- PostTrain 框架研發(fā)工程師:https://talent-holding.alibaba.com/off-campus/position-detail?lang=zh&positionId=7000016304
- 大模型訓(xùn)練算法專家:https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1217103
順帶一提,淘天集團(tuán)第四屆技術(shù)節(jié)【硬核少年技術(shù)節(jié) 4.0】將于 2025 年 6 月 30-7 月 4 日在北京和杭州兩地隆重舉辦。本屆技術(shù)節(jié)持續(xù)一周,包含技術(shù)市集、博見社、Openday、AI 狼人殺、AI Hackathon 比賽等各類豐富多彩的 AI 展示場、AI 交流場、AI 開放場、AI 比賽場。
7 月 2 日下午 14:00,此次技術(shù)節(jié)的重磅 AI 交流場 ——【博見社】,將進(jìn)行「多模態(tài)智能」方向的專場主題分享和「多模態(tài)智能與 AI Agent」的圓桌交流,嘉賓包括中科院自動化所研究員劉靜哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院長聘教授左旺孟南京大學(xué)計算機(jī)學(xué)院教授王利民清華大學(xué)計算機(jī)系副教授劉知遠(yuǎn)中國人民大學(xué)準(zhǔn)聘副教授李崇軒等學(xué)者。歡迎大家預(yù)約直播觀看。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.