請(qǐng)想象……
一個(gè) AI—— 它要完整看完一場(chǎng)幾十分鐘的世界杯決賽,不只是數(shù)球門數(shù),更要跨越上百個(gè)鏡頭的線索、情緒、戰(zhàn)術(shù)細(xì)節(jié),甚至要像人一樣推斷:誰(shuí)會(huì)贏點(diǎn)球大戰(zhàn)?
足球比賽預(yù)測(cè)分析
預(yù)測(cè)《星際爭(zhēng)霸 2》這樣的即時(shí)戰(zhàn)略游戲同樣需要考慮許多不同的變量,難度也非常巨大。
星際爭(zhēng)霸 2 比賽預(yù)測(cè)分析
再換個(gè)場(chǎng)景:同樣是 AI,在一場(chǎng)緊張的德州撲克超級(jí)豪客賽上,面對(duì)職業(yè)牌手的每一次下注、加注、棄牌,能否像一個(gè)頂尖牌手一樣,推理出對(duì)手藏在手里的那兩張底牌?
德州撲克比賽猜牌
不只是「看」,還要記住所有公共牌、下注順序、翻牌后的心理博弈,甚至對(duì)手的打法偏好 —— 然后在最后一張河牌翻開時(shí),做出最優(yōu)推斷。
再換一個(gè)小游戲:三只杯子,一顆小球。人盯著屏幕都可能跟丟,AI 能不能像魔術(shù)師一樣,在上百幀交換里牢牢盯住那顆小球的位置?
移動(dòng)杯子猜測(cè)小球位置
這背后,AI 需要的不只是「識(shí)別」,更是跨時(shí)域、跨模態(tài)的推理、記憶和博弈洞察。
這,正是Long-RL想要解決的挑戰(zhàn):如何讓大模型在面對(duì)長(zhǎng)視頻和復(fù)雜策略推理時(shí),不只是看見,更能理解和推演。
今天,視覺語(yǔ)言模型(VLM)和大語(yǔ)言模型(LLM)越來(lái)越強(qiáng),但現(xiàn)實(shí)里,當(dāng)它們需要處理小時(shí)級(jí)視頻、多模態(tài)輸入、需要長(zhǎng)時(shí)一致性和上下文推理時(shí),傳統(tǒng)的開源方案往往力不從心。
要跑長(zhǎng)序列?顯存炸了。
要多模態(tài)?上下游兼容難。
要 RL 高效?采樣慢,回報(bào)低。
針對(duì)這些難題,英偉達(dá)近日聯(lián)合 MIT、香港大學(xué)、UC Berkeley 重磅推出Long-RL,其能提升 RL 訓(xùn)練數(shù)據(jù)長(zhǎng)度上限,讓訓(xùn)練速度翻倍。
- 論文:Scaling RL to Long Videos
- 項(xiàng)目地址:https://github.com/NVlabs/Long-RL
- 論文鏈接:https://arxiv.org/abs/2507.07966
簡(jiǎn)單來(lái)說(shuō),Long-RL是一個(gè)真正面向長(zhǎng)序列推理和多模態(tài)強(qiáng)化學(xué)習(xí)的全棧訓(xùn)練框架。支持小時(shí)級(jí)長(zhǎng)視頻 RL:?jiǎn)螜C(jī)可穩(wěn)定訓(xùn)練 3600 幀(256k tokens)。
Long-RL 的核心是 MR-SP 并行框架
MR-SP的全稱是Multi-modal Reinforcement Sequence Parallelism,即多模態(tài)強(qiáng)化序列并行,可在不同幀數(shù)下顯著降低長(zhǎng)視頻推理的訓(xùn)練耗時(shí)和顯存:?jiǎn)⒂?MR-SP 后,訓(xùn)練速度提升可達(dá) 2.1×,而傳統(tǒng)方案會(huì)因顯存不足直接 OOM。
那么,這是如何做到的呢?具體來(lái)說(shuō),MR-SP 分為兩個(gè)階段。
Multi-modal Reinforcement Sequence Parallel (MR-SP) 系統(tǒng)
其中,第 1 階段是使用并行編碼的 Rollout。
為了高效地支持長(zhǎng)視頻強(qiáng)化學(xué)習(xí),該團(tuán)隊(duì)在視頻編碼階段采用了序列并行 (SP)機(jī)制。
如上圖左所示,輸入視頻幀首先會(huì)被均勻地分配到多臺(tái) GPU(例如,GPU 1 至 GPU 3)上,每臺(tái) GPU 都配備了各自的視覺塔(vision tower)。每臺(tái) GPU 獨(dú)立處理視頻的一部分,并且僅對(duì)其中一部分幀進(jìn)行編碼。然后,生成的視頻嵌入將通過(guò) all-gather 操作與文本嵌入進(jìn)行聚合,如圖中 All-Gather 箭頭所示。此策略可分散編碼工作負(fù)載,使系統(tǒng)能夠利用更多 GPU 來(lái)處理更長(zhǎng)的視頻,同時(shí)避免 GPU 內(nèi)存溢出的風(fēng)險(xiǎn)。
并行編碼方案可確保視覺塔的均衡利用,并實(shí)現(xiàn)可擴(kuò)展的長(zhǎng)視頻處理,而這在單臺(tái)設(shè)備上是無(wú)法實(shí)現(xiàn)的。
視頻嵌入在被全局收集后,將在整個(gè)強(qiáng)化學(xué)習(xí)流程中被下游重復(fù)使用。
如上圖所示,收集到的嵌入在多次 rollout 過(guò)程中可重復(fù)使用,且無(wú)需重新計(jì)算。例如,在每個(gè)訓(xùn)練步驟中,通常會(huì)執(zhí)行 8 到 16 次 rollout。如果不進(jìn)行回收,同一視頻每一步都需要重新編碼數(shù)十次,這會(huì)嚴(yán)重影響訓(xùn)練速度。通過(guò)緩存和重用收集到的嵌入,MR-SP 可消除這種冗余,并顯著加快訓(xùn)練速度。
第 2 階段則是使用序列并行進(jìn)行預(yù)填充。
對(duì)于每次 rollout,參考模型和策略模型都需要在強(qiáng)化學(xué)習(xí)中對(duì)長(zhǎng)視頻進(jìn)行計(jì)算密集型預(yù)填充。通過(guò)復(fù)用第 1 階段收集到的嵌入,可使用序列并行在各個(gè)設(shè)備之間并行化推理階段。
如上圖右所示,這里的方案是全局收集輸入嵌入 —— 這些嵌入首先會(huì)被填充到統(tǒng)一長(zhǎng)度(Padding Sequence),然后均勻地分配到各臺(tái) GPU(Sharding to Local GPU)。
這樣一來(lái),每臺(tái) GPU 在預(yù)填充期間只需處理輸入序列的一部分。這種并行性適用于策略和參考模型的預(yù)填充。然后,每臺(tái) GPU 會(huì)在本地計(jì)算其 token 切片的 logit,并且并行進(jìn)行預(yù)填充。
Long-RL 也是一個(gè)多模態(tài) RL 工具箱
該團(tuán)隊(duì)也將 Long-RL 打造成了一個(gè)完整的多模態(tài) RL 工具箱,能適配:
- 多模型:除了 VILA 系列、Qwen/Qwen-VL 系列這些 LLMs/VLMs,也支持 Stable Diffusion、Wan 等生成模型。
- 多算法:GRPO、DAPO、Reinforce,一行切換。
- 多模態(tài):不僅文本,視頻、音頻一起上。
LongVILA-R1
使用 Long-RL,英偉達(dá)的這個(gè)團(tuán)隊(duì)構(gòu)建了LongVILA-R1訓(xùn)練框架。從名字也能看到出來(lái),這個(gè)訓(xùn)練框架基于VILA—— 一個(gè)同樣來(lái)自該公司的視覺-語(yǔ)言模型(VLM),詳見論文《VILA: On Pre-training for Visual Language Models》。
訓(xùn)練流程方面,LongVILA-R1 基于 LongVILA 的基礎(chǔ)訓(xùn)練流程,然后進(jìn)一步使用 MM-SP 以通過(guò)長(zhǎng)CoT在長(zhǎng)視頻理解任務(wù)進(jìn)行 SFT。然后,通過(guò)多模態(tài)強(qiáng)化序列并行 (MR-SP) 進(jìn)行強(qiáng)化 scaling 學(xué)習(xí)。
LongVILA-R1 訓(xùn)練流程
框架上,LongVILA-R1 集成了 MR-SP 來(lái)實(shí)現(xiàn)可擴(kuò)展視頻幀編碼和 LLM 預(yù)填充。強(qiáng)化學(xué)習(xí)采用了基于 vLLM 的引擎,并帶有緩存的視頻嵌入,并針對(duì) LongVILA rollout 進(jìn)行了定制。針對(duì)準(zhǔn)確度和格式的獎(jiǎng)勵(lì)將作為策略優(yōu)化的引導(dǎo)。
LongVILA-R1 強(qiáng)化學(xué)習(xí)訓(xùn)練框架
LongVILA-R1 可以說(shuō)是 Long-RL 的「明星學(xué)員」,專門攻克長(zhǎng)視頻推理這塊硬骨頭。
總結(jié)起來(lái),它的創(chuàng)新點(diǎn)可以用三個(gè)關(guān)鍵詞概括:
- 大規(guī)模高質(zhì)量數(shù)據(jù) LongVideo-Reason:52K 長(zhǎng)視頻推理樣本,涵蓋 Temporal / Goal / Spatial / Plot 四大類推理。
- 兩階段訓(xùn)練:先用 CoT-SFT 把鏈?zhǔn)酵评泶蚧A(chǔ),再用 RL 強(qiáng)化泛化,學(xué)得更穩(wěn)更深。
- MR-SP 高效并行:多模態(tài)長(zhǎng)序列并行,特征可復(fù)用,一次緩存多次用。
大規(guī)模數(shù)據(jù)集 LongVideo-Reason
效果如何?
在 LongVideo-Reason-eval 這種強(qiáng)推理基準(zhǔn)上,隨著幀數(shù)增加,加入推理顯著提高了準(zhǔn)確度,并且相比無(wú)推理設(shè)置優(yōu)勢(shì)逐漸擴(kuò)大。
該團(tuán)隊(duì)也通過(guò)消融實(shí)驗(yàn)驗(yàn)證了各組件的有效性。
在真實(shí)世界里,無(wú)論是看一場(chǎng)完整的足球賽、跟人多輪對(duì)話,還是讓機(jī)器人長(zhǎng)時(shí)間工作,都需要 AI 能在長(zhǎng)時(shí)間里保留上下文、持續(xù)推理,并根據(jù)反饋?zhàn)晕艺{(diào)整。這正是強(qiáng)化學(xué)習(xí)(RL)擅長(zhǎng)的:不斷試錯(cuò)、獲取回報(bào)、做出更優(yōu)決策。
該團(tuán)隊(duì)表示:只有把 RL和長(zhǎng)序列推理結(jié)合起來(lái),AI 才可能跨越「一次推理」走向「持續(xù)智能」—— 這也是 AGI 的必經(jīng)之路。
研究團(tuán)隊(duì)
陳玉康現(xiàn)任 NVIDIA 研究科學(xué)家,于香港中文大學(xué)獲得博士學(xué)位,從事大語(yǔ)言模型(LLM)、視覺語(yǔ)言模型(VLM)、高效深度學(xué)習(xí)等方面研究。目前已在國(guó)際頂級(jí)會(huì)議和期刊發(fā)表論文 30 余篇;多項(xiàng)研究成果在 ICLR、CVPR 等頂級(jí)會(huì)議上獲選口頭報(bào)告,并在 Google Scholar 上累計(jì)引用超過(guò) 5,000 次,代表作包括VoxelNeXt, LongLoRA, LongVILA, Long-RL. 他作為第一作者主導(dǎo)的多個(gè)開源項(xiàng)目在 GitHub 上已獲得超過(guò) 6,000 星標(biāo)。并在包括 Microsoft COCO、ScanNet 和 nuScenes 等多個(gè)國(guó)際知名競(jìng)賽和榜單中取得冠軍或第一名的成績(jī)。
黃煒,香港大學(xué)二年級(jí)博士生。主要研究方向?yàn)檩p量化(多模態(tài))大語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)壓縮以及高效多模態(tài)推理模型訓(xùn)練,在 ICML、ICLR、CVPR 等會(huì)議和期刊發(fā)表多篇文章。在 NVIDIA 實(shí)習(xí)期間完成此工作。
陸垚現(xiàn)任 NVIDIA 杰出科學(xué)家,UCSD博士。目前主要研究方向?yàn)橐曈X語(yǔ)言模型和視覺語(yǔ)言動(dòng)作模型。他是開源視覺語(yǔ)言模型 VILA 系列的負(fù)責(zé)人。在加入 NVIDIA 之前,他是 Google DeepMind 的研究經(jīng)理,曾一起領(lǐng)導(dǎo)研發(fā) SayCan, RT-1, RT-2 等具身智能領(lǐng)域的奠基性工作。
韓松是 MIT 電氣工程與計(jì)算機(jī)科學(xué)系副教授、NVIDIA 杰出科學(xué)家,斯坦福大學(xué)博士。他提出了廣泛用于高效 AI 計(jì)算的「深度壓縮」技術(shù),并首創(chuàng)將權(quán)重稀疏性引入 AI 芯片的「高效推理引擎」,該成果為 ISCA 50 年歷史引用量前五。他的團(tuán)隊(duì)致力于將 AI 模型優(yōu)化、壓縮并部署到資源受限設(shè)備,提升了大語(yǔ)言模型(LLM)和生成式 AI 在訓(xùn)練和推理階段的效率,成果已被 NVIDIA TensorRT-LLM 采用。他曾獲 ICLR、FPGA、MLSys 最佳論文獎(jiǎng),入選 MIT 科技評(píng)論「35 歲以下科技創(chuàng)新 35 人」,并獲得 NSF CAREER 獎(jiǎng)、IEEE「AI’s 10 to Watch」獎(jiǎng)和 Sloan 研究獎(jiǎng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.