99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

TW-GRPO刷新視頻推理天花板,CLEVRER準(zhǔn)確率突破50.4%!

0
分享至

隨著多模態(tài)大語言模型(MLLMs)的快速發(fā)展,其在視頻推理等前沿任務(wù)中快速進(jìn)化,不斷突破性能天花板。而強化學(xué)習(xí)(RL)作為推動這場技術(shù)革命的關(guān)鍵引擎,為大語言模型注入了強大的推理能力。

DeepSeek-R1憑借純RL優(yōu)化,讓模型推理能力實現(xiàn)質(zhì)的飛躍;VideoR1引入T-GRPO,賦予模型拆解視頻時空邏輯的 “透視眼”;VideoChat-R1借助基于 GRPO 的多任務(wù)聯(lián)合微調(diào),讓模型在視頻理解與多步推理上表現(xiàn)得更加 “聰明伶俐”,相關(guān)成果不斷涌現(xiàn)……

盡管基RL驅(qū)動的優(yōu)化在指標(biāo)提升上成績亮眼,但在面對復(fù)雜多模態(tài)任務(wù)時,依然存在兩大攔路虎:一方面,思維鏈推理應(yīng)用到多模態(tài)時“水土不服”,不僅產(chǎn)出的推理過程冗長沒重點,訓(xùn)練目標(biāo)還常忽略關(guān)鍵時空線索,拖慢學(xué)習(xí)效率;另一方面,現(xiàn)有依賴單選題問答的稀疏二元獎勵信號太“簡單粗暴”,只認(rèn)可全對答案,埋沒部分正確內(nèi)容。不過幸運的是,視頻定位研究已證實,軟獎勵信號能穩(wěn)定學(xué)習(xí)過程、提升精度。

▍提出TW-GRPO框架:革新加權(quán)機制與獎勵設(shè)計

面對多模態(tài)大語言模型在視頻推理任務(wù)中存在的推理質(zhì)量和獎勵粒度等挑戰(zhàn),來自中山大學(xué)、蘭州大學(xué)、合肥工業(yè)大學(xué)、香港大學(xué)和新加坡國立大學(xué)研究團隊的研究人員受傳統(tǒng)GRPO框架啟發(fā)提出了通過聚焦思維和密集獎勵粒度增強視覺推理的全新框架TW-GRPO。


圖1:TW-GRPO 集成了聚焦思維和多層次軟獎勵機制用于多選QA任務(wù)。

TW-GRPO框架在傳統(tǒng)GRPO基礎(chǔ)上進(jìn)行了關(guān)鍵改進(jìn),著重優(yōu)化了信息量加權(quán)和獎勵機制設(shè)計,并借鑒了視頻定位中的交并比(IoU)軟獎勵機制,將其應(yīng)用于視頻推理任務(wù)。具體而言:

  • 動態(tài)加權(quán)機制

TW-GRPO通過動態(tài)加權(quán)機制,分析token位置的組內(nèi)信息熵評估重要性,優(yōu)先處理高信息密度的token,使模型精準(zhǔn)錨定推理關(guān)鍵內(nèi)容,規(guī)避前置聲明、重復(fù)驗證等通用短語的干擾,更加專注于有信息量的部分,從而提高了推理的精度和效率。

  • 多層次獎勵機制

TW-GRPO重新定義了獎勵機制,將RL訓(xùn)練從傳統(tǒng)單選題QA任務(wù)拓展為多選QA任務(wù),借由源自視頻定位 IoU 的軟獎勵機制,以多層次獎勵區(qū)分答案部分正確性,實現(xiàn)更精細(xì)的梯度估計與穩(wěn)定的策略更新。新的軟獎勵設(shè)計,使得模型不僅能夠識別完全正確的答案,還能夠?qū)Σ糠终_的答案提供獎勵,大大改善了訓(xùn)練的穩(wěn)定性和效率。

  • 問答反轉(zhuǎn)策略

針對多選數(shù)據(jù)稀缺問題,TW-GRPO引入了問答反轉(zhuǎn)(QAI)數(shù)據(jù)增強技術(shù),通過否定問題、反轉(zhuǎn)答案的方式,將單選題任務(wù)轉(zhuǎn)換為多選格式,有效擴充訓(xùn)練數(shù)據(jù)池。這種設(shè)計徹底顛覆傳統(tǒng)模型對token的等權(quán)重處理模式,以差異化信息處理與精細(xì)化獎勵反饋驅(qū)動模型訓(xùn)練效率與推理性能的雙重提升。

在六個基準(zhǔn)測試中開展大量實驗與消融研究,研究團隊驗證TW-GRPO在視頻推理和通用理解任務(wù)中的有效性。實驗結(jié)果顯示,應(yīng)用該框架的模型在CLEVRER、NExT-GQA和MMVU等基準(zhǔn)測試中,性能分別比Video-R1高出18.8%、1.8%和1.6%。定性分析則表明,TW-GRPO能精簡推理鏈,聚焦關(guān)鍵視覺和邏輯線索,多級獎勵機制降低了訓(xùn)練過程中的獎勵差異。

目前,該研究成果的相關(guān)論文預(yù)印本版本已以“Reinforcing Video Reasoning with Focused Thinking”為題發(fā)表在arXiv上(2505.24718)。論文第一作者為黨吉圣,共同作者還包括吳競擇、王騰、林軒輝、朱楠楠、陳洪波、鄭偉詩、汪萌、蔡達(dá)成。

▍方法具體解析:TW-GRPO框架的設(shè)計與實現(xiàn)

研究團隊提出TW-GRPO框架,主要針對現(xiàn)有GRPO算法存在的兩大問題,從兩個維度進(jìn)行改進(jìn):一方面,引入token層次的重要性加權(quán)機制,解決token重要性被忽視的問題;另一方面,將單選QA任務(wù)重新表述為多選設(shè)置,并設(shè)計多層次軟獎勵,克服二元獎勵的局限性,實現(xiàn)更精細(xì)的策略學(xué)習(xí)。

  • Token 層次的重要性加權(quán)

在策略優(yōu)化過程中,有效區(qū)分token的信息性至關(guān)重要。常規(guī)的細(xì)粒度推理質(zhì)量評估依賴輔助評論模型,會增加參數(shù),削弱GRPO的優(yōu)勢。受相關(guān)研究啟發(fā),研究團隊提出基于信息熵的輕量級方法,通過token層次的分布差異識別關(guān)鍵推理 token。其核心在于,候選輸出中某些token位置的分布與預(yù)期分布差異越大,攜帶的信息可能越豐富,借此可估算token重要性,且無需引入額外模型組件。

研究團隊提出token重要性加權(quán)$w_t$來量化各token位置的信息內(nèi)容。使用Kullback-Leibler(KL)散度$D_{\text{KL}}$測量了token在位置$t$的概率分布與該位置預(yù)期分布之間的差異,并針對變長序列進(jìn)行處理,用均勻分布填充缺失token。為保證數(shù)值穩(wěn)定與權(quán)重可比性,團隊還采用最小-最大歸一化,引入超參數(shù)$\alpha$控制重要性縮放。最終,將$w_t$融入目標(biāo)函數(shù),實現(xiàn)位置敏感的優(yōu)化,使模型能根據(jù)token信息量調(diào)整學(xué)習(xí)信號,且無需額外評估模型。



圖2:TW-GRPO框架概述。圖示展示了前向傳播中的關(guān)鍵步驟,從視頻輸入開始,生成可能的補全,并計算獎勵,同時進(jìn)行最終目標(biāo)的調(diào)整和模型更新。具體而言,獎勵計算中融合了多層次軟獎勵,為部分正確性提供反饋。這些信號隨后被集成到最終目標(biāo)中,在此過程中應(yīng)用了token層次的重要性加權(quán),允許模型優(yōu)先關(guān)注更具信息量的token,從而提高整體性能。

  • 多選軟獎勵

單選問題中,二元獎勵信號效率較低。為解決這一問題,研究團隊采取兩步策略。首先,受標(biāo)準(zhǔn)化測試多選題格式啟發(fā),將單選QA任務(wù)重新表述為多選設(shè)置,使每個問題可能存在一個或多個正確答案。但此轉(zhuǎn)變面臨數(shù)據(jù)稀缺問題,團隊引入問答反轉(zhuǎn)(Question-Answer Inversion,QAI)數(shù)據(jù)增強技術(shù),通過否定問題和反轉(zhuǎn)答案將單選題轉(zhuǎn)化為多選題,并隨機去除正確選項,構(gòu)建了包含多個正確答案的多選NExT-GQA數(shù)據(jù)集,增加任務(wù)復(fù)雜性。

然而,多選設(shè)置帶來新挑戰(zhàn),傳統(tǒng)基于二元準(zhǔn)確度的獎勵機制在單選與多選問題間產(chǎn)生顯著獎勵波動,影響模型收斂。為此,研究團隊借鑒視頻定位任務(wù)中的交并比(IoU)獎勵,提出多層次軟獎勵。該獎勵依據(jù)預(yù)測答案與真實答案的重疊程度,為部分正確的預(yù)測賦予相應(yīng)分?jǐn)?shù),懲罰完全錯誤的預(yù)測,改善了細(xì)粒度的梯度估計和策略穩(wěn)定性,使模型在多選QA任務(wù)中獲得更有效的反饋。

通過在視頻推理任務(wù)和通用視頻基準(zhǔn)上的實驗,TW-GRPO框架展現(xiàn)出良好性能。與其他方法相比,TW-GRPO在獎勵標(biāo)準(zhǔn)差上收斂更快,學(xué)習(xí)過程更穩(wěn)定高效;同時,生成的輸出長度更短,推理更簡潔有效,驗證了框架改進(jìn)的有效性。

▍大量實驗研究:驗證TW-GRPO框架有效性

研究團隊以Qwen2.5-VL-7B為基礎(chǔ)模型,配備兩塊NVIDIA H800 GPU,在1000個CLEVRER反事實訓(xùn)練數(shù)據(jù)集上執(zhí)行500步強化學(xué)習(xí)訓(xùn)練。訓(xùn)練階段,視頻幀以128×28×28的分辨率進(jìn)行處理;進(jìn)入推理階段后,將幀分辨率提升至 256×28×28,并將單段視頻的最大幀數(shù)限制為16幀,以此優(yōu)化模型性能表現(xiàn)。為系統(tǒng)性評估TW-GRPO框架的有效性,研究團隊選取MVBench、TempCompass、VideoMME、MMVU、NExT-GQA和CLEVRE六大視頻基準(zhǔn)數(shù)據(jù)集開展測試,這些基準(zhǔn)涵蓋視頻語義理解、時序推理等多維度復(fù)雜任務(wù)。

  • TW-GRPO性能優(yōu)越性

實驗數(shù)據(jù)如表1所示,在視頻推理與整體理解任務(wù)中,TW-GRPO持續(xù)優(yōu)于現(xiàn)有模型,尤其在訓(xùn)練樣本有限的場景下依然表現(xiàn)出色。在CLEVRER、NExT-GQA和MMVU等推理任務(wù)基準(zhǔn)測試中,相較于未融入軟獎勵和token層次加權(quán)的原始GRPO模型,TW-GRPO展現(xiàn)出顯著優(yōu)勢。


表1:在視頻推理任務(wù)和通用視頻基準(zhǔn)上的模型性能對比。

推理任務(wù)表現(xiàn):在CLEVRER基準(zhǔn)上,TW-GRPO準(zhǔn)確率達(dá)到50.4%,較Video-R1提升超18%;在NExT-GQA和MMVU基準(zhǔn)上,分別超越Video-R1和VideoChat-R1,提升幅度為1.8% 和1.6%。

通用視頻理解任務(wù):在MVBench基準(zhǔn)上,TW-GRPO與Qwen2.5-VL-7B的零樣本性能(63.3%)相當(dāng),且優(yōu)于Video-R1和VideoChat-R1;在TempCompass基準(zhǔn)上,以73.3%的準(zhǔn)確率領(lǐng)先,超出表現(xiàn)最佳的基線模型0.4%;即使在VideoMME基準(zhǔn)上,TW-GRPO仍比VideoChat-R1高出 2.7%。

在相同訓(xùn)練條件下,TW-GRPO在五個基準(zhǔn)上均顯著優(yōu)于GRPO,充分體現(xiàn)了token 層次的重要性加權(quán)和多層次獎勵策略的有效性,使模型實現(xiàn)更高效穩(wěn)定的策略學(xué)習(xí),提升了在各類任務(wù)中的表現(xiàn)。

  • 訓(xùn)練動態(tài)與收斂行為

圖3展示了不同GRPO變體的訓(xùn)練動態(tài)。圖3(a)顯示,TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)更快收斂,學(xué)習(xí)過程更為穩(wěn)定。這得益于多層次軟獎勵和token加權(quán)策略的引入,使模型能夠更好地處理模糊問題。傳統(tǒng)GRPO在多選任務(wù)中,因固定準(zhǔn)確度獎勵導(dǎo)致收斂緩慢;而TW-GRPO的軟獎勵策略有效降低獎勵標(biāo)準(zhǔn)差,實現(xiàn)更穩(wěn)定的優(yōu)化。同時,token層次的重要性加權(quán)機制促使模型聚焦關(guān)鍵信息token,提升優(yōu)化效率,加速收斂進(jìn)程。



圖3:不同GRPO變體的訓(xùn)練動態(tài)。(a)TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)了更快的收斂,表明其學(xué)習(xí)更加穩(wěn)定和高效。(b)它還生成了consistently更短的輸出長度,反映出比其他方法更簡潔和有效的推理。

從圖3 (b)可見,TW-GRPO生成的輸出序列更短,表明其學(xué)會了更簡潔的推理方式,進(jìn)一步證明獎勵目標(biāo)與模型最終行為的高度契合,彰顯了訓(xùn)練設(shè)計的有效性。TW-GRPO通過精心設(shè)計的策略,實現(xiàn)了更平滑的收斂過程、更少的輸出token以及更高效的推理。

  • 推理路徑的定性分析

研究團隊選取MMVU數(shù)據(jù)集中基于物理的密度估計任務(wù),對T-GRPO和TW-GRPO的推理路徑進(jìn)行定性對比。該任務(wù)需先獲取石頭在空氣中(230克)和浸入水中(表觀重量138克)的重量,再運用阿基米德原理,根據(jù)92克的浮力推導(dǎo)排開體積,進(jìn)而計算密度。

T-GRPO模型在計算時錯誤假設(shè)體積為100 cm3,得出2.3 g/cm3 的錯誤密度;隨后又誤將2.5 g/cm3 認(rèn)定為最接近答案,即便嘗試反思也未能糾正錯誤,導(dǎo)致 token使用低效,甚至最終選擇2.7 g/cm3,與先前估計矛盾。


圖4:T-GRPO和TW-GRPO在MMVU樣本上的推理路徑對比。

而經(jīng)TW-GRPO訓(xùn)練的模型,能夠精準(zhǔn)提取視頻關(guān)鍵數(shù)值,正確運用物理原理推斷體積,并準(zhǔn)確匹配答案選項。這一實例直觀展現(xiàn)了TW-GRPO在基于動態(tài)視覺線索推理時,在推理準(zhǔn)確性、因果推理和定量推理方面的顯著提升。

參考文章:

https://arxiv.org/html/2505.24718v3#S3

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太突然!傳奇歌后去世

太突然!傳奇歌后去世

魯中晨報
2025-07-17 20:34:01
杭州市成立專班,宗馥莉娃哈哈董事長還坐得穩(wěn)嗎?

杭州市成立專班,宗馥莉娃哈哈董事長還坐得穩(wěn)嗎?

藍(lán)鯨新聞
2025-07-18 11:33:19
瘋了!連續(xù)8個20CM一字漲停,暴漲超過4倍,股民:坐等塌方

瘋了!連續(xù)8個20CM一字漲停,暴漲超過4倍,股民:坐等塌方

八百者也
2025-07-18 13:29:15
92%臺灣島民眾不支持統(tǒng)一,如果登島,解放軍會傷亡慘重嗎?

92%臺灣島民眾不支持統(tǒng)一,如果登島,解放軍會傷亡慘重嗎?

領(lǐng)悟看世界
2025-07-16 17:52:08
“山東省測繪局十五人到此一游”,黑神話悟空取景地佛像被刻字

“山東省測繪局十五人到此一游”,黑神話悟空取景地佛像被刻字

不掉線電波
2025-07-18 14:41:43
54歲王琳自曝“家丑”,被兒子打的牙出血,承認(rèn)自己水性楊花

54歲王琳自曝“家丑”,被兒子打的牙出血,承認(rèn)自己水性楊花

橙星文娛
2025-07-18 11:55:28
越野男別停辱罵摩托騎手后續(xù):山東老總身份被扒秒認(rèn)慫,騎手發(fā)聲

越野男別停辱罵摩托騎手后續(xù):山東老總身份被扒秒認(rèn)慫,騎手發(fā)聲

吭哧有力
2025-07-18 10:30:25
獸樓處丨娃娃娃娃哈哈

獸樓處丨娃娃娃娃哈哈

獸樓處
2025-07-18 13:09:28
深圳一電商園區(qū)停車場被泥水淹沒,停放的電動車受損

深圳一電商園區(qū)停車場被泥水淹沒,停放的電動車受損

極目新聞
2025-07-18 17:52:16
牛彈琴:全世界看得目瞪口呆

牛彈琴:全世界看得目瞪口呆

大象新聞
2025-07-18 07:48:38
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

阿傖說事
2025-07-18 09:09:24
劉慧被查!曾任寧夏自治區(qū)主席,是二十大以來落馬又一女正部

劉慧被查!曾任寧夏自治區(qū)主席,是二十大以來落馬又一女正部

南方都市報
2025-07-18 13:43:27
為討好特朗普,卡尼對華加稅25%,中方轉(zhuǎn)手將訂單交給了澳大利亞

為討好特朗普,卡尼對華加稅25%,中方轉(zhuǎn)手將訂單交給了澳大利亞

掌青說歷史
2025-07-18 16:03:15
強行阻擋救護(hù)車、消防車后續(xù)!老年暴走團拒不讓路,各方回應(yīng)

強行阻擋救護(hù)車、消防車后續(xù)!老年暴走團拒不讓路,各方回應(yīng)

奇思妙想草葉君
2025-07-18 15:13:35
特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

特朗普舉著孩子照片,對哭泣的母親承諾:我相信中國會執(zhí)行死刑的

江平舟
2025-07-18 12:34:25
宗慶后澳洲旅游照曝光,一家點4個菜,兒子宗繼盛三級運動員水平

宗慶后澳洲旅游照曝光,一家點4個菜,兒子宗繼盛三級運動員水平

古希臘掌管松餅的神
2025-07-18 08:31:56
局勢升級!伊朗批準(zhǔn)460億美元國防撥款,中國紅旗-9BE機會來了?

局勢升級!伊朗批準(zhǔn)460億美元國防撥款,中國紅旗-9BE機會來了?

胖福的小木屋
2025-07-17 16:47:19
中超巨大爭議!亞泰進(jìn)球被吹,蘇亞雷斯暴怒染黃,前國腳不滿判罰

中超巨大爭議!亞泰進(jìn)球被吹,蘇亞雷斯暴怒染黃,前國腳不滿判罰

奧拜爾
2025-07-18 17:39:45
極端高溫致河南室內(nèi)大量蚊子被熱死

極端高溫致河南室內(nèi)大量蚊子被熱死

魯中晨報
2025-07-18 09:16:05
大反轉(zhuǎn)!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

大反轉(zhuǎn)!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

南南說娛
2025-07-18 12:26:11
2025-07-18 18:12:49
機器人大講堂 incentive-icons
機器人大講堂
立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
5565文章數(shù) 4536關(guān)注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

女正部任上被查 今年已有6名正部級官員落馬

頭條要聞

女正部任上被查 今年已有6名正部級官員落馬

體育要聞

楊瀚森4戰(zhàn)43+20+15+9帽:開拓者4戰(zhàn)3勝

娛樂要聞

王琳自曝被兒子打,承認(rèn)自己水性楊花

財經(jīng)要聞

美國國會正式批準(zhǔn)穩(wěn)定幣法案

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達(dá)/車載無人機

態(tài)度原創(chuàng)

藝術(shù)
游戲
房產(chǎn)
數(shù)碼
健康

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

GSC推出索尼PSP掌機亞克力擺件 慶祝PS誕生30周年

房產(chǎn)要聞

一梯一戶純板樓!斷貨三年,海口這一核心區(qū),硬貨出場!

數(shù)碼要聞

iKKO 推出 Mind One AI 小手機:提供全鍵盤保護(hù)殼,299 美元

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 蓬溪县| 凭祥市| 邯郸县| 晋中市| 静安区| 中江县| 清徐县| 临漳县| 临海市| 文水县| 永康市| 西青区| 长岛县| 苍南县| 三亚市| 琼结县| 张家界市| 中牟县| 鹿泉市| 韩城市| 卢氏县| 秦皇岛市| 达孜县| 江陵县| 阿拉善盟| 郸城县| 克拉玛依市| 兴国县| 澎湖县| 来安县| 宁陕县| 太仆寺旗| 紫金县| 庄浪县| 凌源市| 鹿邑县| 上蔡县| 华容县| 开远市| 乐都县| 荃湾区|