99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)&MIT等推出Long-RL,長(zhǎng)視頻訓(xùn)練速度翻倍

0
分享至



請(qǐng)想象……

一個(gè) AI—— 它要完整看完一場(chǎng)幾十分鐘的世界杯決賽,不只是數(shù)球門數(shù),更要跨越上百個(gè)鏡頭的線索、情緒、戰(zhàn)術(shù)細(xì)節(jié),甚至要像人一樣推斷:誰(shuí)會(huì)贏點(diǎn)球大戰(zhàn)?



足球比賽預(yù)測(cè)分析

預(yù)測(cè)《星際爭(zhēng)霸 2》這樣的即時(shí)戰(zhàn)略游戲同樣需要考慮許多不同的變量,難度也非常巨大。



星際爭(zhēng)霸 2 比賽預(yù)測(cè)分析

再換個(gè)場(chǎng)景:同樣是 AI,在一場(chǎng)緊張的德州撲克超級(jí)豪客賽上,面對(duì)職業(yè)牌手的每一次下注、加注、棄牌,能否像一個(gè)頂尖牌手一樣,推理出對(duì)手藏在手里的那兩張底牌?



德州撲克比賽猜牌

不只是「看」,還要記住所有公共牌、下注順序、翻牌后的心理博弈,甚至對(duì)手的打法偏好 —— 然后在最后一張河牌翻開時(shí),做出最優(yōu)推斷。

再換一個(gè)小游戲:三只杯子,一顆小球。人盯著屏幕都可能跟丟,AI 能不能像魔術(shù)師一樣,在上百幀交換里牢牢盯住那顆小球的位置?



移動(dòng)杯子猜測(cè)小球位置

這背后,AI 需要的不只是「識(shí)別」,更是跨時(shí)域、跨模態(tài)的推理、記憶和博弈洞察。

這,正是Long-RL想要解決的挑戰(zhàn):如何讓大模型在面對(duì)長(zhǎng)視頻和復(fù)雜策略推理時(shí),不只是看見,更能理解和推演。

今天,視覺語(yǔ)言模型(VLM)和大語(yǔ)言模型(LLM)越來(lái)越強(qiáng),但現(xiàn)實(shí)里,當(dāng)它們需要處理小時(shí)級(jí)視頻、多模態(tài)輸入、需要長(zhǎng)時(shí)一致性和上下文推理時(shí),傳統(tǒng)的開源方案往往力不從心。

要跑長(zhǎng)序列?顯存炸了。

要多模態(tài)?上下游兼容難。

要 RL 高效?采樣慢,回報(bào)低。

針對(duì)這些難題,英偉達(dá)近日聯(lián)合 MIT、香港大學(xué)、UC Berkeley 重磅推出Long-RL,其能提升 RL 訓(xùn)練數(shù)據(jù)長(zhǎng)度上限,讓訓(xùn)練速度翻倍。



  • 論文:Scaling RL to Long Videos
  • 項(xiàng)目地址:https://github.com/NVlabs/Long-RL
  • 論文鏈接:https://arxiv.org/abs/2507.07966

簡(jiǎn)單來(lái)說(shuō),Long-RL是一個(gè)真正面向長(zhǎng)序列推理和多模態(tài)強(qiáng)化學(xué)習(xí)的全棧訓(xùn)練框架。支持小時(shí)級(jí)長(zhǎng)視頻 RL:?jiǎn)螜C(jī)可穩(wěn)定訓(xùn)練 3600 幀(256k tokens)。

Long-RL 的核心是 MR-SP 并行框架

MR-SP的全稱是Multi-modal Reinforcement Sequence Parallelism,即多模態(tài)強(qiáng)化序列并行,可在不同幀數(shù)下顯著降低長(zhǎng)視頻推理的訓(xùn)練耗時(shí)和顯存:?jiǎn)⒂?MR-SP 后,訓(xùn)練速度提升可達(dá) 2.1×,而傳統(tǒng)方案會(huì)因顯存不足直接 OOM。



那么,這是如何做到的呢?具體來(lái)說(shuō),MR-SP 分為兩個(gè)階段。



Multi-modal Reinforcement Sequence Parallel (MR-SP) 系統(tǒng)

其中,第 1 階段是使用并行編碼的 Rollout。

為了高效地支持長(zhǎng)視頻強(qiáng)化學(xué)習(xí),該團(tuán)隊(duì)在視頻編碼階段采用了序列并行 (SP)機(jī)制。

如上圖左所示,輸入視頻幀首先會(huì)被均勻地分配到多臺(tái) GPU(例如,GPU 1 至 GPU 3)上,每臺(tái) GPU 都配備了各自的視覺塔(vision tower)。每臺(tái) GPU 獨(dú)立處理視頻的一部分,并且僅對(duì)其中一部分幀進(jìn)行編碼。然后,生成的視頻嵌入將通過(guò) all-gather 操作與文本嵌入進(jìn)行聚合,如圖中 All-Gather 箭頭所示。此策略可分散編碼工作負(fù)載,使系統(tǒng)能夠利用更多 GPU 來(lái)處理更長(zhǎng)的視頻,同時(shí)避免 GPU 內(nèi)存溢出的風(fēng)險(xiǎn)。

并行編碼方案可確保視覺塔的均衡利用,并實(shí)現(xiàn)可擴(kuò)展的長(zhǎng)視頻處理,而這在單臺(tái)設(shè)備上是無(wú)法實(shí)現(xiàn)的。

視頻嵌入在被全局收集后,將在整個(gè)強(qiáng)化學(xué)習(xí)流程中被下游重復(fù)使用。

如上圖所示,收集到的嵌入在多次 rollout 過(guò)程中可重復(fù)使用,且無(wú)需重新計(jì)算。例如,在每個(gè)訓(xùn)練步驟中,通常會(huì)執(zhí)行 8 到 16 次 rollout。如果不進(jìn)行回收,同一視頻每一步都需要重新編碼數(shù)十次,這會(huì)嚴(yán)重影響訓(xùn)練速度。通過(guò)緩存和重用收集到的嵌入,MR-SP 可消除這種冗余,并顯著加快訓(xùn)練速度。

第 2 階段則是使用序列并行進(jìn)行預(yù)填充。

對(duì)于每次 rollout,參考模型和策略模型都需要在強(qiáng)化學(xué)習(xí)中對(duì)長(zhǎng)視頻進(jìn)行計(jì)算密集型預(yù)填充。通過(guò)復(fù)用第 1 階段收集到的嵌入,可使用序列并行在各個(gè)設(shè)備之間并行化推理階段。

如上圖右所示,這里的方案是全局收集輸入嵌入 —— 這些嵌入首先會(huì)被填充到統(tǒng)一長(zhǎng)度(Padding Sequence),然后均勻地分配到各臺(tái) GPU(Sharding to Local GPU)。

這樣一來(lái),每臺(tái) GPU 在預(yù)填充期間只需處理輸入序列的一部分。這種并行性適用于策略和參考模型的預(yù)填充。然后,每臺(tái) GPU 會(huì)在本地計(jì)算其 token 切片的 logit,并且并行進(jìn)行預(yù)填充。

Long-RL 也是一個(gè)多模態(tài) RL 工具箱

該團(tuán)隊(duì)也將 Long-RL 打造成了一個(gè)完整的多模態(tài) RL 工具箱,能適配:

  1. 多模型:除了 VILA 系列、Qwen/Qwen-VL 系列這些 LLMs/VLMs,也支持 Stable Diffusion、Wan 等生成模型。
  2. 多算法:GRPO、DAPO、Reinforce,一行切換。
  3. 多模態(tài):不僅文本,視頻、音頻一起上。



LongVILA-R1

使用 Long-RL,英偉達(dá)的這個(gè)團(tuán)隊(duì)構(gòu)建了LongVILA-R1訓(xùn)練框架。從名字也能看到出來(lái),這個(gè)訓(xùn)練框架基于VILA—— 一個(gè)同樣來(lái)自該公司的視覺-語(yǔ)言模型(VLM),詳見論文《VILA: On Pre-training for Visual Language Models》。

訓(xùn)練流程方面,LongVILA-R1 基于 LongVILA 的基礎(chǔ)訓(xùn)練流程,然后進(jìn)一步使用 MM-SP 以通過(guò)長(zhǎng)CoT在長(zhǎng)視頻理解任務(wù)進(jìn)行 SFT。然后,通過(guò)多模態(tài)強(qiáng)化序列并行 (MR-SP) 進(jìn)行強(qiáng)化 scaling 學(xué)習(xí)。



LongVILA-R1 訓(xùn)練流程

框架上,LongVILA-R1 集成了 MR-SP 來(lái)實(shí)現(xiàn)可擴(kuò)展視頻幀編碼和 LLM 預(yù)填充。強(qiáng)化學(xué)習(xí)采用了基于 vLLM 的引擎,并帶有緩存的視頻嵌入,并針對(duì) LongVILA rollout 進(jìn)行了定制。針對(duì)準(zhǔn)確度和格式的獎(jiǎng)勵(lì)將作為策略優(yōu)化的引導(dǎo)。



LongVILA-R1 強(qiáng)化學(xué)習(xí)訓(xùn)練框架

LongVILA-R1 可以說(shuō)是 Long-RL 的「明星學(xué)員」,專門攻克長(zhǎng)視頻推理這塊硬骨頭。

總結(jié)起來(lái),它的創(chuàng)新點(diǎn)可以用三個(gè)關(guān)鍵詞概括:

  • 大規(guī)模高質(zhì)量數(shù)據(jù) LongVideo-Reason:52K 長(zhǎng)視頻推理樣本,涵蓋 Temporal / Goal / Spatial / Plot 四大類推理。
  • 兩階段訓(xùn)練:先用 CoT-SFT 把鏈?zhǔn)酵评泶蚧A(chǔ),再用 RL 強(qiáng)化泛化,學(xué)得更穩(wěn)更深。
  • MR-SP 高效并行:多模態(tài)長(zhǎng)序列并行,特征可復(fù)用,一次緩存多次用。



大規(guī)模數(shù)據(jù)集 LongVideo-Reason

效果如何?

在 LongVideo-Reason-eval 這種強(qiáng)推理基準(zhǔn)上,隨著幀數(shù)增加,加入推理顯著提高了準(zhǔn)確度,并且相比無(wú)推理設(shè)置優(yōu)勢(shì)逐漸擴(kuò)大。



該團(tuán)隊(duì)也通過(guò)消融實(shí)驗(yàn)驗(yàn)證了各組件的有效性。



在真實(shí)世界里,無(wú)論是看一場(chǎng)完整的足球賽、跟人多輪對(duì)話,還是讓機(jī)器人長(zhǎng)時(shí)間工作,都需要 AI 能在長(zhǎng)時(shí)間里保留上下文、持續(xù)推理,并根據(jù)反饋?zhàn)晕艺{(diào)整。這正是強(qiáng)化學(xué)習(xí)(RL)擅長(zhǎng)的:不斷試錯(cuò)、獲取回報(bào)、做出更優(yōu)決策。

該團(tuán)隊(duì)表示:只有把 RL和長(zhǎng)序列推理結(jié)合起來(lái),AI 才可能跨越「一次推理」走向「持續(xù)智能」—— 這也是 AGI 的必經(jīng)之路。

研究團(tuán)隊(duì)



陳玉康現(xiàn)任 NVIDIA 研究科學(xué)家,于香港中文大學(xué)獲得博士學(xué)位,從事大語(yǔ)言模型(LLM)、視覺語(yǔ)言模型(VLM)、高效深度學(xué)習(xí)等方面研究。目前已在國(guó)際頂級(jí)會(huì)議和期刊發(fā)表論文 30 余篇;多項(xiàng)研究成果在 ICLR、CVPR 等頂級(jí)會(huì)議上獲選口頭報(bào)告,并在 Google Scholar 上累計(jì)引用超過(guò) 5,000 次,代表作包括VoxelNeXt, LongLoRA, LongVILA, Long-RL. 他作為第一作者主導(dǎo)的多個(gè)開源項(xiàng)目在 GitHub 上已獲得超過(guò) 6,000 星標(biāo)。并在包括 Microsoft COCO、ScanNet 和 nuScenes 等多個(gè)國(guó)際知名競(jìng)賽和榜單中取得冠軍或第一名的成績(jī)。



黃煒,香港大學(xué)二年級(jí)博士生。主要研究方向?yàn)檩p量化(多模態(tài))大語(yǔ)言模型,神經(jīng)網(wǎng)絡(luò)壓縮以及高效多模態(tài)推理模型訓(xùn)練,在 ICML、ICLR、CVPR 等會(huì)議和期刊發(fā)表多篇文章。在 NVIDIA 實(shí)習(xí)期間完成此工作。



陸垚現(xiàn)任 NVIDIA 杰出科學(xué)家,UCSD博士。目前主要研究方向?yàn)橐曈X語(yǔ)言模型和視覺語(yǔ)言動(dòng)作模型。他是開源視覺語(yǔ)言模型 VILA 系列的負(fù)責(zé)人。在加入 NVIDIA 之前,他是 Google DeepMind 的研究經(jīng)理,曾一起領(lǐng)導(dǎo)研發(fā) SayCan, RT-1, RT-2 等具身智能領(lǐng)域的奠基性工作。



韓松是 MIT 電氣工程與計(jì)算機(jī)科學(xué)系副教授、NVIDIA 杰出科學(xué)家,斯坦福大學(xué)博士。他提出了廣泛用于高效 AI 計(jì)算的「深度壓縮」技術(shù),并首創(chuàng)將權(quán)重稀疏性引入 AI 芯片的「高效推理引擎」,該成果為 ISCA 50 年歷史引用量前五。他的團(tuán)隊(duì)致力于將 AI 模型優(yōu)化、壓縮并部署到資源受限設(shè)備,提升了大語(yǔ)言模型(LLM)和生成式 AI 在訓(xùn)練和推理階段的效率,成果已被 NVIDIA TensorRT-LLM 采用。他曾獲 ICLR、FPGA、MLSys 最佳論文獎(jiǎng),入選 MIT 科技評(píng)論「35 歲以下科技創(chuàng)新 35 人」,并獲得 NSF CAREER 獎(jiǎng)、IEEE「AI’s 10 to Watch」獎(jiǎng)和 Sloan 研究獎(jiǎng)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全網(wǎng)都在替宗馥莉出主意

全網(wǎng)都在替宗馥莉出主意

長(zhǎng)三角momo
2025-07-14 17:32:24
宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學(xué)生家長(zhǎng)聯(lián)合發(fā)聲力挺

宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學(xué)生家長(zhǎng)聯(lián)合發(fā)聲力挺

古希臘掌管松餅的神
2025-07-14 20:43:56
甘肅“鉛中毒”再現(xiàn),“血鉛檢測(cè)”造假才是提級(jí)調(diào)查的重點(diǎn)

甘肅“鉛中毒”再現(xiàn),“血鉛檢測(cè)”造假才是提級(jí)調(diào)查的重點(diǎn)

空瓶子
2025-07-14 13:32:32
央視新聞的大愛:關(guān)注加沙地區(qū)的兒童比天水的兒童更多

央視新聞的大愛:關(guān)注加沙地區(qū)的兒童比天水的兒童更多

老頭和你隨便聊聊
2025-07-14 16:57:53
烏克蘭“人民戰(zhàn)爭(zhēng)”來(lái)了!烏克蘭民眾通過(guò)APP上傳坐標(biāo)給俄軍,炸自家征兵處?

烏克蘭“人民戰(zhàn)爭(zhēng)”來(lái)了!烏克蘭民眾通過(guò)APP上傳坐標(biāo)給俄軍,炸自家征兵處?

軍武速遞
2025-07-14 20:19:20
航天員聶海勝妻子:丈夫出征太空前結(jié)束婚姻,如今活出自我風(fēng)采

航天員聶海勝妻子:丈夫出征太空前結(jié)束婚姻,如今活出自我風(fēng)采

品茗談史論世事
2025-07-14 14:52:02
一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現(xiàn)的淋漓盡致

一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現(xiàn)的淋漓盡致

夢(mèng)史
2025-07-14 12:41:20
反轉(zhuǎn)!當(dāng)事人老外發(fā)文,透露更多細(xì)節(jié),網(wǎng)友被質(zhì)疑借"國(guó)格"搞網(wǎng)暴

反轉(zhuǎn)!當(dāng)事人老外發(fā)文,透露更多細(xì)節(jié),網(wǎng)友被質(zhì)疑借"國(guó)格"搞網(wǎng)暴

派大星紀(jì)錄片
2025-07-14 18:29:26
國(guó)民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

國(guó)民黨的二號(hào)人物,毛主席唯獨(dú)不接受他投降,老蔣坦言也想干掉他

南書房
2025-07-14 18:55:07
150億“繼承戰(zhàn)”上演!宗馥莉被起訴,娃哈哈發(fā)聲!

150億“繼承戰(zhàn)”上演!宗馥莉被起訴,娃哈哈發(fā)聲!

中國(guó)商報(bào)
2025-07-14 14:34:35
鬧大了!讓環(huán)衛(wèi)工翻8噸垃圾找手表,當(dāng)事人得意,領(lǐng)導(dǎo)發(fā)言窩火

鬧大了!讓環(huán)衛(wèi)工翻8噸垃圾找手表,當(dāng)事人得意,領(lǐng)導(dǎo)發(fā)言窩火

鋭娛之樂(lè)
2025-07-14 14:57:42
10.9億元!潮汕富豪把西班牙人俱樂(lè)部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

10.9億元!潮汕富豪把西班牙人俱樂(lè)部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

每日經(jīng)濟(jì)新聞
2025-07-14 22:16:07
一00后小伙子第一次坐飛機(jī),一口氣發(fā)了18條朋友圈,結(jié)果悲劇了…

一00后小伙子第一次坐飛機(jī),一口氣發(fā)了18條朋友圈,結(jié)果悲劇了…

明月雜談
2025-07-14 07:27:07
高考生被騙到緬北,和家人聊天記錄令人心酸,網(wǎng)友:已經(jīng)回不來(lái)了

高考生被騙到緬北,和家人聊天記錄令人心酸,網(wǎng)友:已經(jīng)回不來(lái)了

妍妍教育日記
2025-07-14 15:34:34
青海西寧曹家堡機(jī)場(chǎng),你們這是在殺人!

青海西寧曹家堡機(jī)場(chǎng),你們這是在殺人!

回旋鏢
2025-07-14 18:04:51
用鋼瓶在1萬(wàn)米深海裝滿水后密封起來(lái),撈上來(lái)后瓶?jī)?nèi)還有高壓?jiǎn)幔?>
    </a>
        <h3>
      <a href=魅力科學(xué)君
2025-07-14 18:50:41
貴州道真縣通報(bào)“女童被車撞亡”:司機(jī)已被刑拘,不存在二次碾壓

貴州道真縣通報(bào)“女童被車撞亡”:司機(jī)已被刑拘,不存在二次碾壓

界面新聞
2025-07-15 09:16:12
朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵(lì)勤臉色鐵青

朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵(lì)勤臉色鐵青

二哥聊球
2025-07-14 10:38:36
阿根廷正副總統(tǒng)“公開決裂”,法媒:這對(duì)本就脆弱的米萊執(zhí)政聯(lián)盟構(gòu)成沉重打擊

阿根廷正副總統(tǒng)“公開決裂”,法媒:這對(duì)本就脆弱的米萊執(zhí)政聯(lián)盟構(gòu)成沉重打擊

環(huán)球網(wǎng)資訊
2025-07-15 06:40:25
業(yè)務(wù)水平堪憂!國(guó)航客機(jī)險(xiǎn)些與順豐貨機(jī)空中相撞,駕駛員事后頻繁爆粗口,并推卸責(zé)任

業(yè)務(wù)水平堪憂!國(guó)航客機(jī)險(xiǎn)些與順豐貨機(jī)空中相撞,駕駛員事后頻繁爆粗口,并推卸責(zé)任

小蘿卜絲
2025-07-14 15:40:55
2025-07-15 09:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10856文章數(shù) 142377關(guān)注度
往期回顧 全部

科技要聞

高調(diào)挖人后,扎克伯格又出重拳

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

體育要聞

高考數(shù)學(xué)滿分的他,說(shuō)要成為1/3個(gè)鄧肯

娛樂(lè)要聞

秦嵐辛芷蕾聚餐熱聊 結(jié)束直奔魏大勛家

財(cái)經(jīng)要聞

國(guó)貨美妝能否脫下“平替”外衣

汽車要聞

余承東親發(fā)預(yù)告:鴻蒙智行首款旅行車享界S9T來(lái)了

態(tài)度原創(chuàng)

旅游
藝術(shù)
數(shù)碼
本地
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

Google NotebookLM 全新特色筆記本合集

本地新聞

褲子那里鼓鼓的,當(dāng)代都市麗人都被女裝做局了

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 行唐县| 盐津县| 砚山县| 阳曲县| 濉溪县| 阳春市| 维西| 湟源县| 突泉县| 崇礼县| 平果县| 龙井市| 万安县| 加查县| 朔州市| 绥宁县| 禄丰县| 霞浦县| 怀化市| 平舆县| 九寨沟县| 花莲县| 齐齐哈尔市| 迁安市| 桦川县| 通山县| 蓬溪县| 始兴县| 台江县| 叙永县| 澄江县| 清涧县| 育儿| 鹰潭市| 长沙市| 开平市| 湖南省| 家居| 宁乡县| 天峨县| 高安市|