隨著多模態(tài)大語言模型(MLLMs)的快速發(fā)展,其在視頻推理等前沿任務(wù)中快速進(jìn)化,不斷突破性能天花板。而強化學(xué)習(xí)(RL)作為推動這場技術(shù)革命的關(guān)鍵引擎,為大語言模型注入了強大的推理能力。
DeepSeek-R1憑借純RL優(yōu)化,讓模型推理能力實現(xiàn)質(zhì)的飛躍;VideoR1引入T-GRPO,賦予模型拆解視頻時空邏輯的 “透視眼”;VideoChat-R1借助基于 GRPO 的多任務(wù)聯(lián)合微調(diào),讓模型在視頻理解與多步推理上表現(xiàn)得更加 “聰明伶俐”,相關(guān)成果不斷涌現(xiàn)……
盡管基RL驅(qū)動的優(yōu)化在指標(biāo)提升上成績亮眼,但在面對復(fù)雜多模態(tài)任務(wù)時,依然存在兩大攔路虎:一方面,思維鏈推理應(yīng)用到多模態(tài)時“水土不服”,不僅產(chǎn)出的推理過程冗長沒重點,訓(xùn)練目標(biāo)還常忽略關(guān)鍵時空線索,拖慢學(xué)習(xí)效率;另一方面,現(xiàn)有依賴單選題問答的稀疏二元獎勵信號太“簡單粗暴”,只認(rèn)可全對答案,埋沒部分正確內(nèi)容。不過幸運的是,視頻定位研究已證實,軟獎勵信號能穩(wěn)定學(xué)習(xí)過程、提升精度。
▍提出TW-GRPO框架:革新加權(quán)機制與獎勵設(shè)計
面對多模態(tài)大語言模型在視頻推理任務(wù)中存在的推理質(zhì)量和獎勵粒度等挑戰(zhàn),來自中山大學(xué)、蘭州大學(xué)、合肥工業(yè)大學(xué)、香港大學(xué)和新加坡國立大學(xué)研究團隊的研究人員受傳統(tǒng)GRPO框架啟發(fā)提出了通過聚焦思維和密集獎勵粒度增強視覺推理的全新框架TW-GRPO。
圖1:TW-GRPO 集成了聚焦思維和多層次軟獎勵機制用于多選QA任務(wù)。
TW-GRPO框架在傳統(tǒng)GRPO基礎(chǔ)上進(jìn)行了關(guān)鍵改進(jìn),著重優(yōu)化了信息量加權(quán)和獎勵機制設(shè)計,并借鑒了視頻定位中的交并比(IoU)軟獎勵機制,將其應(yīng)用于視頻推理任務(wù)。具體而言:
- 動態(tài)加權(quán)機制
TW-GRPO通過動態(tài)加權(quán)機制,分析token位置的組內(nèi)信息熵評估重要性,優(yōu)先處理高信息密度的token,使模型精準(zhǔn)錨定推理關(guān)鍵內(nèi)容,規(guī)避前置聲明、重復(fù)驗證等通用短語的干擾,更加專注于有信息量的部分,從而提高了推理的精度和效率。
- 多層次獎勵機制
TW-GRPO重新定義了獎勵機制,將RL訓(xùn)練從傳統(tǒng)單選題QA任務(wù)拓展為多選QA任務(wù),借由源自視頻定位 IoU 的軟獎勵機制,以多層次獎勵區(qū)分答案部分正確性,實現(xiàn)更精細(xì)的梯度估計與穩(wěn)定的策略更新。新的軟獎勵設(shè)計,使得模型不僅能夠識別完全正確的答案,還能夠?qū)Σ糠终_的答案提供獎勵,大大改善了訓(xùn)練的穩(wěn)定性和效率。
- 問答反轉(zhuǎn)策略
針對多選數(shù)據(jù)稀缺問題,TW-GRPO引入了問答反轉(zhuǎn)(QAI)數(shù)據(jù)增強技術(shù),通過否定問題、反轉(zhuǎn)答案的方式,將單選題任務(wù)轉(zhuǎn)換為多選格式,有效擴充訓(xùn)練數(shù)據(jù)池。這種設(shè)計徹底顛覆傳統(tǒng)模型對token的等權(quán)重處理模式,以差異化信息處理與精細(xì)化獎勵反饋驅(qū)動模型訓(xùn)練效率與推理性能的雙重提升。
在六個基準(zhǔn)測試中開展大量實驗與消融研究,研究團隊驗證TW-GRPO在視頻推理和通用理解任務(wù)中的有效性。實驗結(jié)果顯示,應(yīng)用該框架的模型在CLEVRER、NExT-GQA和MMVU等基準(zhǔn)測試中,性能分別比Video-R1高出18.8%、1.8%和1.6%。定性分析則表明,TW-GRPO能精簡推理鏈,聚焦關(guān)鍵視覺和邏輯線索,多級獎勵機制降低了訓(xùn)練過程中的獎勵差異。
目前,該研究成果的相關(guān)論文預(yù)印本版本已以“Reinforcing Video Reasoning with Focused Thinking”為題發(fā)表在arXiv上(2505.24718)。論文第一作者為黨吉圣,共同作者還包括吳競擇、王騰、林軒輝、朱楠楠、陳洪波、鄭偉詩、汪萌、蔡達(dá)成。
▍方法具體解析:TW-GRPO框架的設(shè)計與實現(xiàn)
研究團隊提出TW-GRPO框架,主要針對現(xiàn)有GRPO算法存在的兩大問題,從兩個維度進(jìn)行改進(jìn):一方面,引入token層次的重要性加權(quán)機制,解決token重要性被忽視的問題;另一方面,將單選QA任務(wù)重新表述為多選設(shè)置,并設(shè)計多層次軟獎勵,克服二元獎勵的局限性,實現(xiàn)更精細(xì)的策略學(xué)習(xí)。
- Token 層次的重要性加權(quán)
在策略優(yōu)化過程中,有效區(qū)分token的信息性至關(guān)重要。常規(guī)的細(xì)粒度推理質(zhì)量評估依賴輔助評論模型,會增加參數(shù),削弱GRPO的優(yōu)勢。受相關(guān)研究啟發(fā),研究團隊提出基于信息熵的輕量級方法,通過token層次的分布差異識別關(guān)鍵推理 token。其核心在于,候選輸出中某些token位置的分布與預(yù)期分布差異越大,攜帶的信息可能越豐富,借此可估算token重要性,且無需引入額外模型組件。
研究團隊提出token重要性加權(quán)$w_t$來量化各token位置的信息內(nèi)容。使用Kullback-Leibler(KL)散度$D_{\text{KL}}$測量了token在位置$t$的概率分布與該位置預(yù)期分布之間的差異,并針對變長序列進(jìn)行處理,用均勻分布填充缺失token。為保證數(shù)值穩(wěn)定與權(quán)重可比性,團隊還采用最小-最大歸一化,引入超參數(shù)$\alpha$控制重要性縮放。最終,將$w_t$融入目標(biāo)函數(shù),實現(xiàn)位置敏感的優(yōu)化,使模型能根據(jù)token信息量調(diào)整學(xué)習(xí)信號,且無需額外評估模型。
圖2:TW-GRPO框架概述。圖示展示了前向傳播中的關(guān)鍵步驟,從視頻輸入開始,生成可能的補全,并計算獎勵,同時進(jìn)行最終目標(biāo)的調(diào)整和模型更新。具體而言,獎勵計算中融合了多層次軟獎勵,為部分正確性提供反饋。這些信號隨后被集成到最終目標(biāo)中,在此過程中應(yīng)用了token層次的重要性加權(quán),允許模型優(yōu)先關(guān)注更具信息量的token,從而提高整體性能。
- 多選軟獎勵
單選問題中,二元獎勵信號效率較低。為解決這一問題,研究團隊采取兩步策略。首先,受標(biāo)準(zhǔn)化測試多選題格式啟發(fā),將單選QA任務(wù)重新表述為多選設(shè)置,使每個問題可能存在一個或多個正確答案。但此轉(zhuǎn)變面臨數(shù)據(jù)稀缺問題,團隊引入問答反轉(zhuǎn)(Question-Answer Inversion,QAI)數(shù)據(jù)增強技術(shù),通過否定問題和反轉(zhuǎn)答案將單選題轉(zhuǎn)化為多選題,并隨機去除正確選項,構(gòu)建了包含多個正確答案的多選NExT-GQA數(shù)據(jù)集,增加任務(wù)復(fù)雜性。
然而,多選設(shè)置帶來新挑戰(zhàn),傳統(tǒng)基于二元準(zhǔn)確度的獎勵機制在單選與多選問題間產(chǎn)生顯著獎勵波動,影響模型收斂。為此,研究團隊借鑒視頻定位任務(wù)中的交并比(IoU)獎勵,提出多層次軟獎勵。該獎勵依據(jù)預(yù)測答案與真實答案的重疊程度,為部分正確的預(yù)測賦予相應(yīng)分?jǐn)?shù),懲罰完全錯誤的預(yù)測,改善了細(xì)粒度的梯度估計和策略穩(wěn)定性,使模型在多選QA任務(wù)中獲得更有效的反饋。
通過在視頻推理任務(wù)和通用視頻基準(zhǔn)上的實驗,TW-GRPO框架展現(xiàn)出良好性能。與其他方法相比,TW-GRPO在獎勵標(biāo)準(zhǔn)差上收斂更快,學(xué)習(xí)過程更穩(wěn)定高效;同時,生成的輸出長度更短,推理更簡潔有效,驗證了框架改進(jìn)的有效性。
▍大量實驗研究:驗證TW-GRPO框架有效性
研究團隊以Qwen2.5-VL-7B為基礎(chǔ)模型,配備兩塊NVIDIA H800 GPU,在1000個CLEVRER反事實訓(xùn)練數(shù)據(jù)集上執(zhí)行500步強化學(xué)習(xí)訓(xùn)練。訓(xùn)練階段,視頻幀以128×28×28的分辨率進(jìn)行處理;進(jìn)入推理階段后,將幀分辨率提升至 256×28×28,并將單段視頻的最大幀數(shù)限制為16幀,以此優(yōu)化模型性能表現(xiàn)。為系統(tǒng)性評估TW-GRPO框架的有效性,研究團隊選取MVBench、TempCompass、VideoMME、MMVU、NExT-GQA和CLEVRE六大視頻基準(zhǔn)數(shù)據(jù)集開展測試,這些基準(zhǔn)涵蓋視頻語義理解、時序推理等多維度復(fù)雜任務(wù)。
- TW-GRPO性能優(yōu)越性
實驗數(shù)據(jù)如表1所示,在視頻推理與整體理解任務(wù)中,TW-GRPO持續(xù)優(yōu)于現(xiàn)有模型,尤其在訓(xùn)練樣本有限的場景下依然表現(xiàn)出色。在CLEVRER、NExT-GQA和MMVU等推理任務(wù)基準(zhǔn)測試中,相較于未融入軟獎勵和token層次加權(quán)的原始GRPO模型,TW-GRPO展現(xiàn)出顯著優(yōu)勢。
表1:在視頻推理任務(wù)和通用視頻基準(zhǔn)上的模型性能對比。
推理任務(wù)表現(xiàn):在CLEVRER基準(zhǔn)上,TW-GRPO準(zhǔn)確率達(dá)到50.4%,較Video-R1提升超18%;在NExT-GQA和MMVU基準(zhǔn)上,分別超越Video-R1和VideoChat-R1,提升幅度為1.8% 和1.6%。
通用視頻理解任務(wù):在MVBench基準(zhǔn)上,TW-GRPO與Qwen2.5-VL-7B的零樣本性能(63.3%)相當(dāng),且優(yōu)于Video-R1和VideoChat-R1;在TempCompass基準(zhǔn)上,以73.3%的準(zhǔn)確率領(lǐng)先,超出表現(xiàn)最佳的基線模型0.4%;即使在VideoMME基準(zhǔn)上,TW-GRPO仍比VideoChat-R1高出 2.7%。
在相同訓(xùn)練條件下,TW-GRPO在五個基準(zhǔn)上均顯著優(yōu)于GRPO,充分體現(xiàn)了token 層次的重要性加權(quán)和多層次獎勵策略的有效性,使模型實現(xiàn)更高效穩(wěn)定的策略學(xué)習(xí),提升了在各類任務(wù)中的表現(xiàn)。
- 訓(xùn)練動態(tài)與收斂行為
圖3展示了不同GRPO變體的訓(xùn)練動態(tài)。圖3(a)顯示,TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)更快收斂,學(xué)習(xí)過程更為穩(wěn)定。這得益于多層次軟獎勵和token加權(quán)策略的引入,使模型能夠更好地處理模糊問題。傳統(tǒng)GRPO在多選任務(wù)中,因固定準(zhǔn)確度獎勵導(dǎo)致收斂緩慢;而TW-GRPO的軟獎勵策略有效降低獎勵標(biāo)準(zhǔn)差,實現(xiàn)更穩(wěn)定的優(yōu)化。同時,token層次的重要性加權(quán)機制促使模型聚焦關(guān)鍵信息token,提升優(yōu)化效率,加速收斂進(jìn)程。
圖3:不同GRPO變體的訓(xùn)練動態(tài)。(a)TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)了更快的收斂,表明其學(xué)習(xí)更加穩(wěn)定和高效。(b)它還生成了consistently更短的輸出長度,反映出比其他方法更簡潔和有效的推理。
從圖3 (b)可見,TW-GRPO生成的輸出序列更短,表明其學(xué)會了更簡潔的推理方式,進(jìn)一步證明獎勵目標(biāo)與模型最終行為的高度契合,彰顯了訓(xùn)練設(shè)計的有效性。TW-GRPO通過精心設(shè)計的策略,實現(xiàn)了更平滑的收斂過程、更少的輸出token以及更高效的推理。
- 推理路徑的定性分析
研究團隊選取MMVU數(shù)據(jù)集中基于物理的密度估計任務(wù),對T-GRPO和TW-GRPO的推理路徑進(jìn)行定性對比。該任務(wù)需先獲取石頭在空氣中(230克)和浸入水中(表觀重量138克)的重量,再運用阿基米德原理,根據(jù)92克的浮力推導(dǎo)排開體積,進(jìn)而計算密度。
T-GRPO模型在計算時錯誤假設(shè)體積為100 cm3,得出2.3 g/cm3 的錯誤密度;隨后又誤將2.5 g/cm3 認(rèn)定為最接近答案,即便嘗試反思也未能糾正錯誤,導(dǎo)致 token使用低效,甚至最終選擇2.7 g/cm3,與先前估計矛盾。
圖4:T-GRPO和TW-GRPO在MMVU樣本上的推理路徑對比。
而經(jīng)TW-GRPO訓(xùn)練的模型,能夠精準(zhǔn)提取視頻關(guān)鍵數(shù)值,正確運用物理原理推斷體積,并準(zhǔn)確匹配答案選項。這一實例直觀展現(xiàn)了TW-GRPO在基于動態(tài)視覺線索推理時,在推理準(zhǔn)確性、因果推理和定量推理方面的顯著提升。
參考文章:
https://arxiv.org/html/2505.24718v3#S3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.