網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

英偉達(dá)&MIT等推出Long-RL，長(zhǎng)視頻訓(xùn)練速度翻倍

2025-07-14 18:26:05　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

請(qǐng)想象……

一個(gè) AI—— 它要完整看完一場(chǎng)幾十分鐘的世界杯決賽，不只是數(shù)球門數(shù)，更要跨越上百個(gè)鏡頭的線索、情緒、戰(zhàn)術(shù)細(xì)節(jié)，甚至要像人一樣推斷：誰(shuí)會(huì)贏點(diǎn)球大戰(zhàn)？

足球比賽預(yù)測(cè)分析

預(yù)測(cè)《星際爭(zhēng)霸 2》這樣的即時(shí)戰(zhàn)略游戲同樣需要考慮許多不同的變量，難度也非常巨大。

星際爭(zhēng)霸 2 比賽預(yù)測(cè)分析

再換個(gè)場(chǎng)景：同樣是 AI，在一場(chǎng)緊張的德州撲克超級(jí)豪客賽上，面對(duì)職業(yè)牌手的每一次下注、加注、棄牌，能否像一個(gè)頂尖牌手一樣，推理出對(duì)手藏在手里的那兩張底牌？

德州撲克比賽猜牌

不只是「看」，還要記住所有公共牌、下注順序、翻牌后的心理博弈，甚至對(duì)手的打法偏好 —— 然后在最后一張河牌翻開時(shí)，做出最優(yōu)推斷。

再換一個(gè)小游戲：三只杯子，一顆小球。人盯著屏幕都可能跟丟，AI 能不能像魔術(shù)師一樣，在上百幀交換里牢牢盯住那顆小球的位置？

移動(dòng)杯子猜測(cè)小球位置

這背后，AI 需要的不只是「識(shí)別」，更是跨時(shí)域、跨模態(tài)的推理、記憶和博弈洞察。

這，正是Long-RL想要解決的挑戰(zhàn)：如何讓大模型在面對(duì)長(zhǎng)視頻和復(fù)雜策略推理時(shí)，不只是看見，更能理解和推演。

今天，視覺語(yǔ)言模型（VLM）和大語(yǔ)言模型（LLM）越來(lái)越強(qiáng)，但現(xiàn)實(shí)里，當(dāng)它們需要處理小時(shí)級(jí)視頻、多模態(tài)輸入、需要長(zhǎng)時(shí)一致性和上下文推理時(shí)，傳統(tǒng)的開源方案往往力不從心。

要跑長(zhǎng)序列？顯存炸了。

要多模態(tài)？上下游兼容難。

要 RL 高效？采樣慢，回報(bào)低。

針對(duì)這些難題，英偉達(dá)近日聯(lián)合 MIT、香港大學(xué)、UC Berkeley 重磅推出Long-RL，其能提升 RL 訓(xùn)練數(shù)據(jù)長(zhǎng)度上限，讓訓(xùn)練速度翻倍。

論文：Scaling RL to Long Videos
項(xiàng)目地址：https://github.com/NVlabs/Long-RL
論文鏈接：https://arxiv.org/abs/2507.07966

簡(jiǎn)單來(lái)說(shuō)，Long-RL是一個(gè)真正面向長(zhǎng)序列推理和多模態(tài)強(qiáng)化學(xué)習(xí)的全棧訓(xùn)練框架。支持小時(shí)級(jí)長(zhǎng)視頻 RL：?jiǎn)螜C(jī)可穩(wěn)定訓(xùn)練 3600 幀（256k tokens）。

Long-RL 的核心是 MR-SP 并行框架

MR-SP的全稱是Multi-modal Reinforcement Sequence Parallelism，即多模態(tài)強(qiáng)化序列并行，可在不同幀數(shù)下顯著降低長(zhǎng)視頻推理的訓(xùn)練耗時(shí)和顯存：?jiǎn)⒂?MR-SP 后，訓(xùn)練速度提升可達(dá) 2.1×，而傳統(tǒng)方案會(huì)因顯存不足直接 OOM。

那么，這是如何做到的呢？具體來(lái)說(shuō)，MR-SP 分為兩個(gè)階段。

Multi-modal Reinforcement Sequence Parallel (MR-SP) 系統(tǒng)

其中，第 1 階段是使用并行編碼的 Rollout。

為了高效地支持長(zhǎng)視頻強(qiáng)化學(xué)習(xí)，該團(tuán)隊(duì)在視頻編碼階段采用了序列并行 (SP)機(jī)制。

如上圖左所示，輸入視頻幀首先會(huì)被均勻地分配到多臺(tái) GPU（例如，GPU 1 至 GPU 3）上，每臺(tái) GPU 都配備了各自的視覺塔（vision tower）。每臺(tái) GPU 獨(dú)立處理視頻的一部分，并且僅對(duì)其中一部分幀進(jìn)行編碼。然后，生成的視頻嵌入將通過(guò) all-gather 操作與文本嵌入進(jìn)行聚合，如圖中 All-Gather 箭頭所示。此策略可分散編碼工作負(fù)載，使系統(tǒng)能夠利用更多 GPU 來(lái)處理更長(zhǎng)的視頻，同時(shí)避免 GPU 內(nèi)存溢出的風(fēng)險(xiǎn)。

并行編碼方案可確保視覺塔的均衡利用，并實(shí)現(xiàn)可擴(kuò)展的長(zhǎng)視頻處理，而這在單臺(tái)設(shè)備上是無(wú)法實(shí)現(xiàn)的。

視頻嵌入在被全局收集后，將在整個(gè)強(qiáng)化學(xué)習(xí)流程中被下游重復(fù)使用。

如上圖所示，收集到的嵌入在多次 rollout 過(guò)程中可重復(fù)使用，且無(wú)需重新計(jì)算。例如，在每個(gè)訓(xùn)練步驟中，通常會(huì)執(zhí)行 8 到 16 次 rollout。如果不進(jìn)行回收，同一視頻每一步都需要重新編碼數(shù)十次，這會(huì)嚴(yán)重影響訓(xùn)練速度。通過(guò)緩存和重用收集到的嵌入，MR-SP 可消除這種冗余，并顯著加快訓(xùn)練速度。

第 2 階段則是使用序列并行進(jìn)行預(yù)填充。

對(duì)于每次 rollout，參考模型和策略模型都需要在強(qiáng)化學(xué)習(xí)中對(duì)長(zhǎng)視頻進(jìn)行計(jì)算密集型預(yù)填充。通過(guò)復(fù)用第 1 階段收集到的嵌入，可使用序列并行在各個(gè)設(shè)備之間并行化推理階段。

如上圖右所示，這里的方案是全局收集輸入嵌入 —— 這些嵌入首先會(huì)被填充到統(tǒng)一長(zhǎng)度（Padding Sequence），然后均勻地分配到各臺(tái) GPU（Sharding to Local GPU）。

這樣一來(lái)，每臺(tái) GPU 在預(yù)填充期間只需處理輸入序列的一部分。這種并行性適用于策略和參考模型的預(yù)填充。然后，每臺(tái) GPU 會(huì)在本地計(jì)算其 token 切片的 logit，并且并行進(jìn)行預(yù)填充。

Long-RL 也是一個(gè)多模態(tài) RL 工具箱

該團(tuán)隊(duì)也將 Long-RL 打造成了一個(gè)完整的多模態(tài) RL 工具箱，能適配：

多模型：除了 VILA 系列、Qwen/Qwen-VL 系列這些 LLMs/VLMs，也支持 Stable Diffusion、Wan 等生成模型。
多算法：GRPO、DAPO、Reinforce，一行切換。
多模態(tài)：不僅文本，視頻、音頻一起上。

LongVILA-R1

使用 Long-RL，英偉達(dá)的這個(gè)團(tuán)隊(duì)構(gòu)建了LongVILA-R1訓(xùn)練框架。從名字也能看到出來(lái)，這個(gè)訓(xùn)練框架基于VILA—— 一個(gè)同樣來(lái)自該公司的視覺-語(yǔ)言模型（VLM），詳見論文《VILA: On Pre-training for Visual Language Models》。

訓(xùn)練流程方面，LongVILA-R1 基于 LongVILA 的基礎(chǔ)訓(xùn)練流程，然后進(jìn)一步使用 MM-SP 以通過(guò)長(zhǎng)CoT在長(zhǎng)視頻理解任務(wù)進(jìn)行 SFT。然后，通過(guò)多模態(tài)強(qiáng)化序列并行 (MR-SP) 進(jìn)行強(qiáng)化 scaling 學(xué)習(xí)。

LongVILA-R1 訓(xùn)練流程

框架上，LongVILA-R1 集成了 MR-SP 來(lái)實(shí)現(xiàn)可擴(kuò)展視頻幀編碼和 LLM 預(yù)填充。強(qiáng)化學(xué)習(xí)采用了基于 vLLM 的引擎，并帶有緩存的視頻嵌入，并針對(duì) LongVILA rollout 進(jìn)行了定制。針對(duì)準(zhǔn)確度和格式的獎(jiǎng)勵(lì)將作為策略優(yōu)化的引導(dǎo)。

LongVILA-R1 強(qiáng)化學(xué)習(xí)訓(xùn)練框架

LongVILA-R1 可以說(shuō)是 Long-RL 的「明星學(xué)員」，專門攻克長(zhǎng)視頻推理這塊硬骨頭。

總結(jié)起來(lái)，它的創(chuàng)新點(diǎn)可以用三個(gè)關(guān)鍵詞概括：

大規(guī)模高質(zhì)量數(shù)據(jù) LongVideo-Reason：52K 長(zhǎng)視頻推理樣本，涵蓋 Temporal / Goal / Spatial / Plot 四大類推理。
兩階段訓(xùn)練：先用 CoT-SFT 把鏈?zhǔn)酵评泶蚧A(chǔ)，再用 RL 強(qiáng)化泛化，學(xué)得更穩(wěn)更深。
MR-SP 高效并行：多模態(tài)長(zhǎng)序列并行，特征可復(fù)用，一次緩存多次用。

大規(guī)模數(shù)據(jù)集 LongVideo-Reason

效果如何？

在 LongVideo-Reason-eval 這種強(qiáng)推理基準(zhǔn)上，隨著幀數(shù)增加，加入推理顯著提高了準(zhǔn)確度，并且相比無(wú)推理設(shè)置優(yōu)勢(shì)逐漸擴(kuò)大。

該團(tuán)隊(duì)也通過(guò)消融實(shí)驗(yàn)驗(yàn)證了各組件的有效性。

在真實(shí)世界里，無(wú)論是看一場(chǎng)完整的足球賽、跟人多輪對(duì)話，還是讓機(jī)器人長(zhǎng)時(shí)間工作，都需要 AI 能在長(zhǎng)時(shí)間里保留上下文、持續(xù)推理，并根據(jù)反饋?zhàn)晕艺{(diào)整。這正是強(qiáng)化學(xué)習(xí)（RL）擅長(zhǎng)的：不斷試錯(cuò)、獲取回報(bào)、做出更優(yōu)決策。

該團(tuán)隊(duì)表示：只有把 RL和長(zhǎng)序列推理結(jié)合起來(lái)，AI 才可能跨越「一次推理」走向「持續(xù)智能」—— 這也是 AGI 的必經(jīng)之路。

研究團(tuán)隊(duì)

陳玉康現(xiàn)任 NVIDIA 研究科學(xué)家，于香港中文大學(xué)獲得博士學(xué)位，從事大語(yǔ)言模型（LLM）、視覺語(yǔ)言模型（VLM）、高效深度學(xué)習(xí)等方面研究。目前已在國(guó)際頂級(jí)會(huì)議和期刊發(fā)表論文 30 余篇；多項(xiàng)研究成果在 ICLR、CVPR 等頂級(jí)會(huì)議上獲選口頭報(bào)告，并在 Google Scholar 上累計(jì)引用超過(guò) 5,000 次，代表作包括VoxelNeXt, LongLoRA, LongVILA, Long-RL. 他作為第一作者主導(dǎo)的多個(gè)開源項(xiàng)目在 GitHub 上已獲得超過(guò) 6,000 星標(biāo)。并在包括 Microsoft COCO、ScanNet 和 nuScenes 等多個(gè)國(guó)際知名競(jìng)賽和榜單中取得冠軍或第一名的成績(jī)。

黃煒，香港大學(xué)二年級(jí)博士生。主要研究方向?yàn)檩p量化（多模態(tài)）大語(yǔ)言模型，神經(jīng)網(wǎng)絡(luò)壓縮以及高效多模態(tài)推理模型訓(xùn)練，在 ICML、ICLR、CVPR 等會(huì)議和期刊發(fā)表多篇文章。在 NVIDIA 實(shí)習(xí)期間完成此工作。

陸垚現(xiàn)任 NVIDIA 杰出科學(xué)家，UCSD博士。目前主要研究方向?yàn)橐曈X語(yǔ)言模型和視覺語(yǔ)言動(dòng)作模型。他是開源視覺語(yǔ)言模型 VILA 系列的負(fù)責(zé)人。在加入 NVIDIA 之前，他是 Google DeepMind 的研究經(jīng)理，曾一起領(lǐng)導(dǎo)研發(fā) SayCan, RT-1, RT-2 等具身智能領(lǐng)域的奠基性工作。

韓松是 MIT 電氣工程與計(jì)算機(jī)科學(xué)系副教授、NVIDIA 杰出科學(xué)家，斯坦福大學(xué)博士。他提出了廣泛用于高效 AI 計(jì)算的「深度壓縮」技術(shù)，并首創(chuàng)將權(quán)重稀疏性引入 AI 芯片的「高效推理引擎」，該成果為 ISCA 50 年歷史引用量前五。他的團(tuán)隊(duì)致力于將 AI 模型優(yōu)化、壓縮并部署到資源受限設(shè)備，提升了大語(yǔ)言模型（LLM）和生成式 AI 在訓(xùn)練和推理階段的效率，成果已被 NVIDIA TensorRT-LLM 采用。他曾獲 ICLR、FPGA、MLSys 最佳論文獎(jiǎng)，入選 MIT 科技評(píng)論「35 歲以下科技創(chuàng)新 35 人」，并獲得 NSF CAREER 獎(jiǎng)、IEEE「AI’s 10 to Watch」獎(jiǎng)和 Sloan 研究獎(jiǎng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.