99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

淘天聯(lián)合愛橙開源強(qiáng)化學(xué)習(xí)訓(xùn)練框架,支持十億到千億參數(shù)大模型

0
分享至

機(jī)器之心報道

編輯:Panda

過去幾年,隨著基于人類偏好的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)的興起,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)已成為大語言模型(Large Language Model,LLM)后訓(xùn)練階段的關(guān)鍵技術(shù)。RL 不僅顯著提升了模型的對齊能力,也拓展了其在推理增強(qiáng)、智能體交互等場景下的應(yīng)用邊界。圍繞這一核心范式,研究社區(qū)不斷演化出多種優(yōu)化策略和算法變體,如 Agentic RL、RLAIF、GRPO、REINFORCE++ 等。這些新興范式雖然形式各異,但底層需求高度一致:幾乎都涉及多模塊協(xié)同(Actor、Critic、Reward、Ref)與多階段流程(生成、推理、訓(xùn)練)的高效調(diào)度。這也對訓(xùn)練框架提出了更高的要求:不僅要支持大規(guī)模模型的高效訓(xùn)練,還需具備良好的可擴(kuò)展性與開發(fā)友好性。因此,一套真正高效、可擴(kuò)展且用戶友好的 RL 系統(tǒng)框架,成為業(yè)界剛需。

近日,淘天集團(tuán)攜手愛橙科技正式開源了全新一代強(qiáng)化學(xué)習(xí)訓(xùn)練框架ROLLReinforcement Learning Optimization for Large-scale Learning)。ROLL 以用戶體驗(yàn)為核心設(shè)計理念,專為「高效?可擴(kuò)展?易用」而打造,徹底打通從小模型到 600B+ 超大模型的 RL 訓(xùn)練落地路徑。

ROLL 在諸如人類偏好對齊、復(fù)雜推理和多輪自主交互場景等關(guān)鍵領(lǐng)域顯著提升了大語言模型的性能,同時具備超高的訓(xùn)練效率,目前 ROLL 已成功應(yīng)用在多個淘天集團(tuán)內(nèi)部業(yè)務(wù)場景, 為業(yè)務(wù)創(chuàng)新提供了強(qiáng)大的技術(shù)支持。



  • 開源項目:https://github.com/alibaba/ROLL
  • 論文標(biāo)題:Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library
  • 論文地址:https://arxiv.org/pdf/2506.06122

總體而言,ROLL 具有以下關(guān)鍵特性:

  • 多任務(wù)強(qiáng)化學(xué)習(xí):內(nèi)置豐富的 RL 任務(wù)支持,涵蓋數(shù)學(xué)、代碼、通用推理、開放式問答、指令遵循等,一套訓(xùn)練循環(huán)即可多領(lǐng)域聯(lián)合優(yōu)化,采樣率與數(shù)據(jù)權(quán)重可靈活動態(tài)調(diào)整。
  • 智能體強(qiáng)化學(xué)習(xí)(Agentic RL):原生支持多環(huán)境、多角色智能體 - 環(huán)境交互(游戲、多輪對話等),并具有靈活的并行化和內(nèi)置管理功能,可滿足多種任務(wù)需求。
  • 算法友好:提供靈活且豐富的 RL 策略配置,包括但不限于多種減小方差的 baseline、不同獎勵標(biāo)準(zhǔn)化方式和 data mask 策略等,同時也開箱即用地支持 PPO、GRPO、Reinforce++ 等算法。
  • 豐富的訓(xùn)推引擎:靈活支持 vLLM、SGLang、Megatron-Core、DeepSpeed 等主流推理 / 訓(xùn)練引擎, 參數(shù)透傳,無需修改底層代碼直接適配不同版本。
  • 彈性資源調(diào)度與分布式并行:基于 Ray 的多角色分布式架構(gòu),靈活資源分配,訓(xùn)練無縫支持 MegatronCore 5D (DP / TP / PP / CP / EP)并行高效利用異構(gòu)硬件,從單機(jī)到千卡集群均能輕松運(yùn)行。
  • 極致易用與模塊化擴(kuò)展:Rollout Scheduler、AutoDeviceMapping 等關(guān)鍵模塊極大簡化 pipeline 開發(fā)和調(diào)試,支持按需組合套件,后端推理 / 訓(xùn)練引擎自由切換。
  • 樣本級調(diào)度與動態(tài)采樣:樣本級 Rollout 生命周期調(diào)度機(jī)制,支持異步獎勵計算、動態(tài)采樣、按樣本裁剪與 EarlyStopping,顯著提升訓(xùn)練效率與資源利用率。
  • 可觀察性:集成了 wandb / swandb / tensorboard,支持實(shí)時跟蹤每個領(lǐng)域、每個策略、每個獎勵的性能 —— 從高層概況到細(xì)粒度診斷。

目前,該項目已經(jīng)在 GitHub 上收獲了1000+ star



面向用戶友好設(shè)計的 ROLL

ROLL 是一款面向用戶友好設(shè)計的強(qiáng)化學(xué)習(xí)框架。具體來說,ROLL 從一開始就考慮了三類用戶訴求,即:技術(shù)先驅(qū)者、產(chǎn)品開發(fā)者和算法研究者。

  • 對于技術(shù)先驅(qū)者,支持異構(gòu)大規(guī)模 GPU 集群下的彈性擴(kuò)展與容錯,能夠在上千卡環(huán)境下持續(xù)穩(wěn)定地完成 600B+ 大模型訓(xùn)練,極大降低訓(xùn)練成本和中斷風(fēng)險。
  • 對于產(chǎn)品開發(fā)者,可靈活配置獎勵函數(shù)、環(huán)境、采樣比例與數(shù)據(jù)配比,輕松實(shí)現(xiàn)各種任務(wù)場景的 RL 訓(xùn)練落地。
  • 對于算法研究者,單卡 / 少卡資源下也能高效實(shí)驗(yàn),所有模塊高度抽象,極易實(shí)現(xiàn)自定義 RL 算法、獎勵與環(huán)境,極大縮短從想法到驗(yàn)證的周期。



ROLL 針對三大用戶群體設(shè)計

ROLL 的技術(shù)細(xì)節(jié)

那么,ROLL 是如何做到的呢?具體來說以下多項創(chuàng)新:

  • 基于《Hybridflow: A flexible and efficient rlhf framework》中提出的單控制器架構(gòu),該團(tuán)隊引入了定義良好的并行工作器(Parallel Worker)抽象,可實(shí)現(xiàn)靈活且模塊化的強(qiáng)化學(xué)習(xí)訓(xùn)練流程,從而簡化了新想法的實(shí)驗(yàn)過程。
  • 引入了優(yōu)化后的并行策略(Parallel Strategy)和數(shù)據(jù)傳輸(Data Transfer)模塊,從而可以在資源受限設(shè)備上執(zhí)行,還能實(shí)現(xiàn)快速、可擴(kuò)展且容錯的訓(xùn)練。
  • 為了在生成階段對每個提示詞樣本的生命周期進(jìn)行細(xì)粒度的管理,該團(tuán)隊提供了 Rollout 調(diào)度器,可以簡化響應(yīng)生成、環(huán)境交互和獎勵計算之間的流程編排。
  • 該團(tuán)隊專門設(shè)計了環(huán)境(Environment)工作器和獎勵(Reward)工作器,可以提供高效且可擴(kuò)展的智能體環(huán)境交互和獎勵計算。
  • 該團(tuán)隊還實(shí)現(xiàn)了資源池(Resource Pool),并利用了 AutoDeviceMapping 來實(shí)現(xiàn)高效的工作器調(diào)度和資源的優(yōu)化分配。

下圖展示了 ROLL 的整體架構(gòu)。ROLL 接收的輸入是用戶定義的強(qiáng)化學(xué)習(xí)數(shù)據(jù)流及其相關(guān)配置。基于這些輸入,分布式執(zhí)行器和調(diào)度器可協(xié)調(diào)管理各類工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)。 而 AutoDeviceMapping 模塊則負(fù)責(zé)管理已分配資源池中的計算資源,并高效地將工作節(jié)點(diǎn)和調(diào)度節(jié)點(diǎn)綁定到其分配的資源上。



ROLL 的架構(gòu),由用戶輸入層、分布式執(zhí)行器和調(diào)度器、Auto Device Mapping 模塊以及資源池組成。

而在運(yùn)行時,ROLL 首先會根據(jù)提供的設(shè)備配置,分配由 GPU 和 CPU 資源組成的資源池。在 RL 數(shù)據(jù)流的指導(dǎo)下,系統(tǒng)會創(chuàng)建一個 Rollout 調(diào)度器和多個并行工作器。其中,Rollout 調(diào)度器負(fù)責(zé)管理生成階段中每個提示詞樣本請求的生命周期。

然后,根據(jù)訓(xùn)練和模型配置,ROLL 會實(shí)例化并行策略,以決定每個并行工作器的并行策略和執(zhí)行后端。一旦并行工作器建立完成,ROLL 將依據(jù)用戶指定的設(shè)備映射配置,調(diào)用 AutoDeviceMapping 模塊,從資源池中為各個并行工作器分配相應(yīng)的計算資源。如下圖所示。



ROLL 的運(yùn)行時設(shè)置和訓(xùn)練工作流程。

接下來,進(jìn)入訓(xùn)練迭代。在生成階段,首先將一批樣本送入 Rollout 調(diào)度器以生成響應(yīng)。在此過程中,Actor 模型可能會與環(huán)境工作器進(jìn)行交互,以實(shí)現(xiàn)智能體強(qiáng)化學(xué)習(xí)任務(wù)中的多輪環(huán)境互動。同時,系統(tǒng)也會調(diào)用獎勵工作器來計算獎勵信號,從而支持高級采樣技術(shù)(例如動態(tài)采樣)以提升采樣效率。

在接下來的推理階段,會執(zhí)行 Critic、Reward 和 Ref 模型(前提是這些模塊已在 RL 數(shù)據(jù)流圖中啟用)的前向傳播。隨后,遷移協(xié)議會對生成階段輸出的響應(yīng)進(jìn)行分片,并將其分發(fā)給各個活躍的并行工作器。

訓(xùn)練階段,Critic 和 Actor 模型利會用已準(zhǔn)備好的獎勵信號更新各自的參數(shù)。此外,在下一輪訓(xùn)練迭代中,Actor 模型還會通過 ModelUpdateGroup 與生成階段同步模型參數(shù),確保訓(xùn)練與生成過程的一致性。

另外,ROLL 也支持 wandb、swandb、TensorBoard 等實(shí)驗(yàn)可視化方案。更多技術(shù)細(xì)節(jié)請訪問原論文。

ROLL 的實(shí)驗(yàn)表現(xiàn)

在 Qwen2.5-7B-base 與 Qwen3-30B-A3B-base 等模型上,ROLL 取得了顯著的跨領(lǐng)域多任務(wù)性能提升。例如,在 RLVR pipeline 訓(xùn)練下,Qwen2.5-7B-Base 的整體準(zhǔn)確率從 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 準(zhǔn)確率從 0.27 提升至 0.62(2.30 倍),這兩個模型在 ROLL 的支持下均展現(xiàn)了穩(wěn)定且一致的準(zhǔn)確率提升,且未發(fā)生模型崩潰等異常現(xiàn)象,展現(xiàn)了 ROLL 極佳的穩(wěn)健性和實(shí)用性。



Qwen2.5-7B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。



Qwen3-30B-A3B-base 在不同領(lǐng)域上的準(zhǔn)確度表現(xiàn)。

除了標(biāo)準(zhǔn) RL 流程,ROLL 在智能體交互場景中同樣展現(xiàn)了強(qiáng)大的穩(wěn)健性。研發(fā)團(tuán)隊在三個典型環(huán)境下對 ROLL 的泛化性與適應(yīng)性進(jìn)行了實(shí)證驗(yàn)證:

  • Sokoban(推箱子):在經(jīng)典網(wǎng)格推箱子任務(wù)中,模型在訓(xùn)練集上的成功率從 16.8% 提升至 26.0%,驗(yàn)證集成功率從 13.3% 提升至 35.2%。表明智能體在多輪決策與空間規(guī)劃方面能力顯著增強(qiáng)。此外,該訓(xùn)練結(jié)果具備良好的跨任務(wù)遷移能力,能有效泛化至其他環(huán)境如 FrozenLake。





在 SimpleSokoban 環(huán)境訓(xùn)練的性能變化趨勢,SuccessRate 表示達(dá)到目標(biāo)的成功率 EffectiveActionRate 表示執(zhí)行有效動作的比例。

  • FrozenLake(冰凍湖): 訓(xùn)練成功率從 16.8% 提升至 26.0%,有效動作占比從 69.1% 提升至 88.8%;驗(yàn)證集成功率也從 12.9% 升至 23.8%。





在 FrozenLake 環(huán)境訓(xùn)練的性能變化趨勢。

  • WebShop(網(wǎng)頁購物):在模擬真實(shí)購物任務(wù)中,訓(xùn)練和驗(yàn)證集上的成功率從 37% 大幅提升至超過 85%。同時,平均每輪交互動作數(shù)從 7 降至 4,表明模型在復(fù)雜自然語言指令下逐步學(xué)會了高效完成目標(biāo)任務(wù),體現(xiàn)出較佳的操作效率和指令理解能力。





在 WebShop 環(huán)境上的準(zhǔn)確度趨勢。

ROLL 仍在進(jìn)化

ROLL 已在 GitHub 上線,并在短時間內(nèi)收獲大量 star。項目仍在持續(xù)迭代,未來將支持 Qwen2.5 VL Agentic RL、一步式異步 pipeline、FSDP2、DeepSeekV3 等新特性,歡迎關(guān)注并參與共建。

  • 項目主頁:https://github.com/alibaba/ROLL
  • 論文介紹:https://arxiv.org/pdf/2506.06122

開源精神是推動技術(shù)發(fā)展的核心引擎,ROLL 研發(fā)團(tuán)隊期待更多優(yōu)質(zhì)人才加入。這里既有技術(shù)攻堅的硬核挑戰(zhàn),也有共創(chuàng)未來的無限可能。

熱招崗位:

  • PostTrain 框架研發(fā)工程師:https://talent-holding.alibaba.com/off-campus/position-detail?lang=zh&positionId=7000016304
  • 大模型訓(xùn)練算法專家:https://talent.taotian.com/off-campus/position-detail?lang=zh&positionId=1217103

順帶一提,淘天集團(tuán)第四屆技術(shù)節(jié)【硬核少年技術(shù)節(jié) 4.0】將于 2025 年 6 月 30-7 月 4 日在北京和杭州兩地隆重舉辦。本屆技術(shù)節(jié)持續(xù)一周,包含技術(shù)市集、博見社、Openday、AI 狼人殺、AI Hackathon 比賽等各類豐富多彩的 AI 展示場、AI 交流場、AI 開放場、AI 比賽場。

7 月 2 日下午 14:00,此次技術(shù)節(jié)的重磅 AI 交流場 ——【博見社】,將進(jìn)行「多模態(tài)智能」方向的專場主題分享和「多模態(tài)智能與 AI Agent」的圓桌交流,嘉賓包括中科院自動化所研究員劉靜哈爾濱工業(yè)大學(xué)計算機(jī)學(xué)院長聘教授左旺孟南京大學(xué)計算機(jī)學(xué)院教授王利民清華大學(xué)計算機(jī)系副教授劉知遠(yuǎn)中國人民大學(xué)準(zhǔn)聘副教授李崇軒等學(xué)者。歡迎大家預(yù)約直播觀看。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不止是促癌、傷腦!最新研究:奶茶等高果糖飲食,即使偶爾攝入,也會加劇炎癥水平

不止是促癌、傷腦!最新研究:奶茶等高果糖飲食,即使偶爾攝入,也會加劇炎癥水平

醫(yī)諾維
2025-06-25 17:14:40
iPhone 17 Pro新機(jī)首次亮相,這設(shè)計變順眼了!

iPhone 17 Pro新機(jī)首次亮相,這設(shè)計變順眼了!

科技堡壘
2025-06-25 16:21:24
外賣“三國殺”:為何美團(tuán)志在必得?

外賣“三國殺”:為何美團(tuán)志在必得?

財視傳播
2025-06-24 13:30:17
河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

教育人看世界
2025-06-25 17:25:54
證監(jiān)會終于力挺股市!6月25日,A股要迎來新一輪行情了嗎?

證監(jiān)會終于力挺股市!6月25日,A股要迎來新一輪行情了嗎?

風(fēng)口招財豬
2025-06-25 03:08:11
陳剛在柳州主持召開廣西壯族自治區(qū)黨委常委會擴(kuò)大會議:舉全區(qū)之力支持柳州化解債務(wù)

陳剛在柳州主持召開廣西壯族自治區(qū)黨委常委會擴(kuò)大會議:舉全區(qū)之力支持柳州化解債務(wù)

揚(yáng)子晚報
2025-06-25 20:49:29
米特里策被羅森文放倒,捂著大腿非常痛苦!蒿俊閔不滿判罰吃黃牌

米特里策被羅森文放倒,捂著大腿非常痛苦!蒿俊閔不滿判罰吃黃牌

直播吧
2025-06-25 20:40:44
國務(wù)院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

國務(wù)院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

一家說
2025-06-25 14:46:29
人民日報痛批懶政!嚴(yán)查違規(guī)吃喝,不該連“下班約飯”都成罪?

人民日報痛批懶政!嚴(yán)查違規(guī)吃喝,不該連“下班約飯”都成罪?

宏哥談商道
2025-06-24 19:00:02
伊朗宣布戰(zhàn)后重建,特朗普稱東方大國可以繼續(xù)購買伊朗石油了

伊朗宣布戰(zhàn)后重建,特朗普稱東方大國可以繼續(xù)購買伊朗石油了

曉風(fēng)說
2025-06-25 10:34:09
“收了就賠錢”!飛天茅臺跌至1780元,有店家暫停回收

“收了就賠錢”!飛天茅臺跌至1780元,有店家暫停回收

21世紀(jì)經(jīng)濟(jì)報道
2025-06-25 12:56:10
伊朗,對著全世界拉了坨大的!

伊朗,對著全世界拉了坨大的!

末名先生
2025-06-25 14:45:11
伊朗防長現(xiàn)身青島,出席上合組織成員國國防部長會議

伊朗防長現(xiàn)身青島,出席上合組織成員國國防部長會議

環(huán)球網(wǎng)資訊
2025-06-25 17:16:12
女孩288分全家歡呼!媽媽一句話讓網(wǎng)友吵翻了:成績差不能慶祝嗎

女孩288分全家歡呼!媽媽一句話讓網(wǎng)友吵翻了:成績差不能慶祝嗎

鐵鐵說案
2025-06-25 18:26:57
我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

楊哥歷史
2025-06-25 11:40:15
廣西一女孩被強(qiáng)行帶上救護(hù)車?大聲呼喊我有乙肝,醫(yī)院回應(yīng)了

廣西一女孩被強(qiáng)行帶上救護(hù)車?大聲呼喊我有乙肝,醫(yī)院回應(yīng)了

奇思妙想草葉君
2025-06-24 21:39:32
從南京到烏魯木齊:日本留學(xué)生30天搭車游中國,遇17位司機(jī)僅1人拒絕

從南京到烏魯木齊:日本留學(xué)生30天搭車游中國,遇17位司機(jī)僅1人拒絕

互聯(lián)網(wǎng)大觀
2025-06-25 11:09:02
以伊沖突為何迅速停火了?曝美、以已用完相當(dāng)于20年產(chǎn)量的攔截導(dǎo)彈

以伊沖突為何迅速停火了?曝美、以已用完相當(dāng)于20年產(chǎn)量的攔截導(dǎo)彈

三言四拍
2025-06-25 07:47:20
游船突遇狂風(fēng)被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

游船突遇狂風(fēng)被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

紅星新聞
2025-06-25 18:18:13
又一個經(jīng)濟(jì)奇跡——孟加拉國

又一個經(jīng)濟(jì)奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
2025-06-25 21:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10717文章數(shù) 142346關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

本地
健康
藝術(shù)
時尚
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

呼吸科專家破解呼吸道九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

挑對耳環(huán)=開掛!這15款巨in巨高級,太顯臉小了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 诸暨市| 台山市| 英超| 志丹县| 博乐市| 柳州市| 应用必备| 瓮安县| 西华县| 呼和浩特市| 汾阳市| 余干县| 乐昌市| 瓮安县| 宝兴县| 久治县| 鹿泉市| 双城市| 丹阳市| 全椒县| 冷水江市| 泾阳县| 哈密市| 通道| 崇文区| 蒙自县| 九龙县| 隆昌县| 资中县| 鹤壁市| 乐平市| 抚远县| 正定县| 万宁市| 宁陵县| 建平县| 义乌市| 合作市| 万宁市| 宁城县| 涞源县|