淘天聯(lián)合愛橙開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架,支持十億到千億參數(shù)大模型

2025-06-25 14:12:44　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心報道

編輯：Panda

過去幾年，隨著基于人類偏好的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）的興起，強(qiáng)化學(xué)習(xí)（Reinforcement Learning，RL）已成為大語言模型（Large Language Model，LLM）后訓(xùn)練階段的關(guān)鍵技術(shù)。RL 不僅顯著提升了模型的對齊能力，也拓展了其在推理增強(qiáng)、智能體交互等場景下的應(yīng)用邊界。圍繞這一核心范式，研究社區(qū)不斷演化出多種優(yōu)化策略和算法變體，如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。這些新興范式雖然形式各異，但底層需求高度一致：幾乎都涉及多模塊協(xié)同（Actor、Critic、Reward、Ref）與多階段流程（生成、推理、訓(xùn)練）的高效調(diào)度。這也對訓(xùn)練框架提出了更高的要求：不僅要支持大規(guī)模模型的高效訓(xùn)練，還需具備良好的可擴(kuò)展性與開發(fā)友好性。因此，一套真正高效、可擴(kuò)展且用戶友好的 RL 系統(tǒng)框架，成為業(yè)界剛需。

近日，淘天集團(tuán)攜手愛橙科技正式開源了全新一代強(qiáng)化學(xué)習(xí)訓(xùn)練框架ROLL（Reinforcement Learning Optimization for Large-scale Learning）。ROLL 以用戶體驗(yàn)為核心設(shè)計理念，專為「高效?可擴(kuò)展?易用」而打造，徹底打通從小模型到 600B+ 超大模型的 RL 訓(xùn)練落地路徑。

ROLL 在諸如人類偏好對齊、復(fù)雜推理和多輪自主交互場景等關(guān)鍵領(lǐng)域顯著提升了大語言模型的性能，同時具備超高的訓(xùn)練效率，目前 ROLL 已成功應(yīng)用在多個淘天集團(tuán)內(nèi)部業(yè)務(wù)場景，為業(yè)務(wù)創(chuàng)新提供了強(qiáng)大的技術(shù)支持。

開源項目：https://github.com/alibaba/ROLL
論文標(biāo)題：Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
論文地址：https://arxiv.org/pdf/2506.06122

總體而言，ROLL 具有以下關(guān)鍵特性：

多任務(wù)強(qiáng)化學(xué)習(xí)：內(nèi)置豐富的 RL 任務(wù)支持，涵蓋數(shù)學(xué)、代碼、通用推理、開放式問答、指令遵循等，一套訓(xùn)練循環(huán)即可多領(lǐng)域聯(lián)合優(yōu)化，采樣率與數(shù)據(jù)權(quán)重可靈活動態(tài)調(diào)整。
智能體強(qiáng)化學(xué)習(xí)（Agentic RL）：原生支持多環(huán)境、多角色智能體 - 環(huán)境交互（游戲、多輪對話等），并具有靈活的并行化和內(nèi)置管理功能，可滿足多種任務(wù)需求。
算法友好：提供靈活且豐富的 RL 策略配置，包括但不限于多種減小方差的 baseline、不同獎勵標(biāo)準(zhǔn)化方式和 data mask 策略等，同時也開箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
豐富的訓(xùn)推引擎：靈活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 訓(xùn)練引擎，參數(shù)透傳，無需修改底層代碼直接適配不同版本。
彈性資源調(diào)度與分布式并行：基于 Ray 的多角色分布式架構(gòu)，靈活資源分配，訓(xùn)練無縫支持 MegatronCore 5D （DP / TP / PP / CP / EP）并行高效利用異構(gòu)硬件，從單機(jī)到千卡集群均能輕松運(yùn)行。
極致易用與模塊化擴(kuò)展：Rollout Scheduler、AutoDeviceMapping 等關(guān)鍵模塊極大簡化 pipeline 開發(fā)和調(diào)試，支持按需組合套件，后端推理 / 訓(xùn)練引擎自由切換。
樣本級調(diào)度與動態(tài)采樣：樣本級 Rollout 生命周期調(diào)度機(jī)制，支持異步獎勵計算、動態(tài)采樣、按樣本裁剪與 EarlyStopping，顯著提升訓(xùn)練效率與資源利用率。
可觀察性：集成了 wandb / swandb / tensorboard，支持實(shí)時跟蹤每個領(lǐng)域、每個策略、每個獎勵的性能 —— 從高層概況到細(xì)粒度診斷。

目前，該項目已經(jīng)在 GitHub 上收獲了1000+ star

面向用戶友好設(shè)計的 ROLL

ROLL 是一款面向用戶友好設(shè)計的強(qiáng)化學(xué)習(xí)框架。具體來說，ROLL 從一開始就考慮了三類用戶訴求，即：技術(shù)先驅(qū)者、產(chǎn)品開發(fā)者和算法研究者。

對于技術(shù)先驅(qū)者，支持異構(gòu)大規(guī)模 GPU 集群下的彈性擴(kuò)展與容錯，能夠在上千卡環(huán)境下持續(xù)穩(wěn)定地完成 600B+ 大模型訓(xùn)練，極大降低訓(xùn)練成本和中斷風(fēng)險。
對于產(chǎn)品開發(fā)者，可靈活配置獎勵函數(shù)、環(huán)境、采樣比例與數(shù)據(jù)配比，輕松實(shí)現(xiàn)各種任務(wù)場景的 RL 訓(xùn)練落地。
對于算法研究者，單卡 / 少卡資源下也能高效實(shí)驗(yàn)，所有模塊高度抽象，極易實(shí)現(xiàn)自定義 RL 算法、獎勵與環(huán)境，極大縮短從想法到驗(yàn)證的周期。

ROLL 針對三大用戶群體設(shè)計

ROLL 的技術(shù)細(xì)節(jié)

那么，ROLL 是如何做到的呢？具體來說以下多項創(chuàng)新：

基于《Hybridflow: A flexible and efficient rlhf framework》中提出的單控制器架構(gòu)，該團(tuán)隊引入了定義良好的并行工作器（Parallel Worker）抽象，可實(shí)現(xiàn)靈活且模塊化的強(qiáng)化學(xué)習(xí)訓(xùn)練流程，從而簡化了新想法的實(shí)驗(yàn)過程。
引入了優(yōu)化后的并行策略（Parallel Strategy）和數(shù)據(jù)傳輸（Data Transfer）模塊，從而可以在資源受限設(shè)備上執(zhí)行，還能實(shí)現(xiàn)快速、可擴(kuò)展且容錯的訓(xùn)練。
為了在生成階段對每個提示詞樣本的生命周期進(jìn)行細(xì)粒度的管理，該團(tuán)隊提供了 Rollout 調(diào)度器，可以簡化響應(yīng)生成、環(huán)境交互和獎勵計算之間的流程編排。
該團(tuán)隊專門設(shè)計了環(huán)境（Environment）工作器和獎勵（Reward）工作器，可以提供高效且可擴(kuò)展的智能體環(huán)境交互和獎勵計算。
該團(tuán)隊還實(shí)現(xiàn)了資源池（Resource Pool），并利用了 AutoDeviceMapping 來實(shí)現(xiàn)高效的工作器調(diào)度和資源的優(yōu)化分配。

下圖展示了 ROLL 的整體架構(gòu)。ROLL 接收的輸入是用戶定義的強(qiáng)化學(xué)習(xí)數(shù)據(jù)流及其相關(guān)配置。基于這些輸入，分布式執(zhí)行器和調(diào)度器可協(xié)調(diào)管理各類工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)。而 AutoDeviceMapping 模塊則負(fù)責(zé)管理已分配資源池中的計算資源，并高效地將工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)綁定到其分配的資源上。

ROLL 的架構(gòu)，由用戶輸入層、分布式執(zhí)行器和調(diào)度器、Auto Device Mapping 模塊以及資源池組成。

而在運(yùn)行時，ROLL 首先會根據(jù)提供的設(shè)備配置，分配由 GPU 和 CPU 資源組成的資源池。在 RL 數(shù)據(jù)流的指導(dǎo)下，系統(tǒng)會創(chuàng)建一個 Rollout 調(diào)度器和多個并行工作器。其中，Rollout 調(diào)度器負(fù)責(zé)管理生成階段中每個提示詞樣本請求的生命周期。

然后，根據(jù)訓(xùn)練和模型配置，ROLL 會實(shí)例化并行策略，以決定每個并行工作器的并行策略和執(zhí)行后端。一旦并行工作器建立完成，ROLL 將依據(jù)用戶指定的設(shè)備映射配置，調(diào)用 AutoDeviceMapping 模塊，從資源池中為各個并行工作器分配相應(yīng)的計算資源。如下圖所示。

ROLL 的運(yùn)行時設(shè)置和訓(xùn)練工作流程。

接下來，進(jìn)入訓(xùn)練迭代。在生成階段，首先將一批樣本送入 Rollout 調(diào)度器以生成響應(yīng)。在此過程中，Actor 模型可能會與環(huán)境工作器進(jìn)行交互，以實(shí)現(xiàn)智能體強(qiáng)化學(xué)習(xí)任務(wù)中的多輪環(huán)境互動。同時，系統(tǒng)也會調(diào)用獎勵工作器來計算獎勵信號，從而支持高級采樣技術(shù)（例如動態(tài)采樣）以提升采樣效率。

在接下來的推理階段，會執(zhí)行 Critic、Reward 和 Ref 模型（前提是這些模塊已在 RL 數(shù)據(jù)流圖中啟用）的前向傳播。隨后，遷移協(xié)議會對生成階段輸出的響應(yīng)進(jìn)行分片，并將其分發(fā)給各個活躍的并行工作器。

訓(xùn)練階段，Critic 和 Actor 模型利會用已準(zhǔn)備好的獎勵信號更新各自的參數(shù)。此外，在下一輪訓(xùn)練迭代中，Actor 模型還會通過 ModelUpdateGroup 與生成階段同步模型參數(shù)，確保訓(xùn)練與生成過程的一致性。

另外，ROLL 也支持 wandb、swandb、TensorBoard 等實(shí)驗(yàn)可視化方案。更多技術(shù)細(xì)節(jié)請訪問原論文。

ROLL 的實(shí)驗(yàn)表現(xiàn)

在 Qwen2.5-7B-base 與 Qwen3-30B-A3B-base 等模型上，ROLL 取得了顯著的跨領(lǐng)域多任務(wù)性能提升。例如，在 RLVR pipeline 訓(xùn)練下，Qwen2.5-7B-Base 的整體準(zhǔn)確率從 0.18 提升至 0.52（2.89 倍），Qwen3-30B-A3B-Base 準(zhǔn)確率從 0.27 提升至 0.62（2.30 倍），這兩個模型在 ROLL 的支持下均展現(xiàn)了穩(wěn)定且一致的準(zhǔn)確率提升，且未發(fā)生模型崩潰等異常現(xiàn)象，展現(xiàn)了 ROLL 極佳的穩(wěn)健性和實(shí)用性。

Qwen2.5-7B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。

Qwen3-30B-A3B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。

除了標(biāo)準(zhǔn) RL 流程，ROLL 在智能體交互場景中同樣展現(xiàn)了強(qiáng)大的穩(wěn)健性。研發(fā)團(tuán)隊在三個典型環(huán)境下對 ROLL 的泛化性與適應(yīng)性進(jìn)行了實(shí)證驗(yàn)證：

Sokoban（推箱子）：在經(jīng)典網(wǎng)格推箱子任務(wù)中，模型在訓(xùn)練集上的成功率從 16.8% 提升至 26.0%，驗(yàn)證集成功率從 13.3% 提升至 35.2%。表明智能體在多輪決策與空間規(guī)劃方面能力顯著增強(qiáng)。此外，該訓(xùn)練結(jié)果具備良好的跨任務(wù)遷移能力，能有效泛化至其他環(huán)境如 FrozenLake。

在 SimpleSokoban 環(huán)境訓(xùn)練的性能變化趨勢，SuccessRate 表示達(dá)到目標(biāo)的成功率 EffectiveActionRate 表示執(zhí)行有效動作的比例。

FrozenLake（冰凍湖）：訓(xùn)練成功率從 16.8% 提升至 26.0%，有效動作占比從 69.1% 提升至 88.8%；驗(yàn)證集成功率也從 12.9% 升至 23.8%。

在 FrozenLake 環(huán)境訓(xùn)練的性能變化趨勢。

WebShop（網(wǎng)頁購物）：在模擬真實(shí)購物任務(wù)中，訓(xùn)練和驗(yàn)證集上的成功率從 37% 大幅提升至超過 85%。同時，平均每輪交互動作數(shù)從 7 降至 4，表明模型在復(fù)雜自然語言指令下逐步學(xué)會了高效完成目標(biāo)任務(wù)，體現(xiàn)出較佳的操作效率和指令理解能力。

在 WebShop 環(huán)境上的準(zhǔn)確度趨勢。

ROLL 仍在進(jìn)化

ROLL 已在 GitHub 上線，并在短時間內(nèi)收獲大量 star。項目仍在持續(xù)迭代，未來將支持 Qwen2.5 VL Agentic RL、一步式異步 pipeline、FSDP2、DeepSeekV3 等新特性，歡迎關(guān)注并參與共建。

項目主頁：https://github.com/alibaba/ROLL
論文介紹：https://arxiv.org/pdf/2506.06122

開源精神是推動技術(shù)發(fā)展的核心引擎，ROLL 研發(fā)團(tuán)隊期待更多優(yōu)質(zhì)人才加入。這里既有技術(shù)攻堅的硬核挑戰(zhàn)，也有共創(chuàng)未來的無限可能。

熱招崗位：

PostTrain 框架研發(fā)工程師：https://talent-holding.alibaba.com/off-campus/position-detail?lang=zh&positionId=7000016304
大模型訓(xùn)練算法專家：https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1217103

順帶一提，淘天集團(tuán)第四屆技術(shù)節(jié)【硬核少年技術(shù)節(jié) 4.0】將于 2025 年 6 月 30-7 月 4 日在北京和杭州兩地隆重舉辦。本屆技術(shù)節(jié)持續(xù)一周，包含技術(shù)市集、博見社、Openday、AI 狼人殺、AI Hackathon 比賽等各類豐富多彩的 AI 展示場、AI 交流場、AI 開放場、AI 比賽場。

7 月 2 日下午 14:00，此次技術(shù)節(jié)的重磅 AI 交流場 ——【博見社】，將進(jìn)行「多模態(tài)智能」方向的專場主題分享和「多模態(tài)智能與 AI Agent」的圓桌交流，嘉賓包括中科院自動化所研究員劉靜哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院長聘教授左旺孟南京大學(xué)計算機(jī)學(xué)院教授王利民清華大學(xué)計算機(jī)系副教授劉知遠(yuǎn)中國人民大學(xué)準(zhǔn)聘副教授李崇軒等學(xué)者。歡迎大家預(yù)約直播觀看。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.