TW-GRPO刷新視頻推理天花板，CLEVRER準(zhǔn)確率突破50.4%！

2025-07-06 16:00:03　來源: 機器人大講堂

安徽舉報

分享至

隨著多模態(tài)大語言模型（MLLMs）的快速發(fā)展，其在視頻推理等前沿任務(wù)中快速進(jìn)化，不斷突破性能天花板。而強化學(xué)習(xí)（RL）作為推動這場技術(shù)革命的關(guān)鍵引擎，為大語言模型注入了強大的推理能力。

DeepSeek-R1憑借純RL優(yōu)化，讓模型推理能力實現(xiàn)質(zhì)的飛躍；VideoR1引入T-GRPO，賦予模型拆解視頻時空邏輯的 “透視眼”；VideoChat-R1借助基于 GRPO 的多任務(wù)聯(lián)合微調(diào)，讓模型在視頻理解與多步推理上表現(xiàn)得更加 “聰明伶俐”，相關(guān)成果不斷涌現(xiàn)……

盡管基RL驅(qū)動的優(yōu)化在指標(biāo)提升上成績亮眼，但在面對復(fù)雜多模態(tài)任務(wù)時，依然存在兩大攔路虎：一方面，思維鏈推理應(yīng)用到多模態(tài)時“水土不服”，不僅產(chǎn)出的推理過程冗長沒重點，訓(xùn)練目標(biāo)還常忽略關(guān)鍵時空線索，拖慢學(xué)習(xí)效率；另一方面，現(xiàn)有依賴單選題問答的稀疏二元獎勵信號太“簡單粗暴”，只認(rèn)可全對答案，埋沒部分正確內(nèi)容。不過幸運的是，視頻定位研究已證實，軟獎勵信號能穩(wěn)定學(xué)習(xí)過程、提升精度。

▍提出TW-GRPO框架：革新加權(quán)機制與獎勵設(shè)計

面對多模態(tài)大語言模型在視頻推理任務(wù)中存在的推理質(zhì)量和獎勵粒度等挑戰(zhàn)，來自中山大學(xué)、蘭州大學(xué)、合肥工業(yè)大學(xué)、香港大學(xué)和新加坡國立大學(xué)研究團隊的研究人員受傳統(tǒng)GRPO框架啟發(fā)提出了通過聚焦思維和密集獎勵粒度增強視覺推理的全新框架TW-GRPO。

圖1：TW-GRPO 集成了聚焦思維和多層次軟獎勵機制用于多選QA任務(wù)。

TW-GRPO框架在傳統(tǒng)GRPO基礎(chǔ)上進(jìn)行了關(guān)鍵改進(jìn)，著重優(yōu)化了信息量加權(quán)和獎勵機制設(shè)計，并借鑒了視頻定位中的交并比（IoU）軟獎勵機制，將其應(yīng)用于視頻推理任務(wù)。具體而言：

動態(tài)加權(quán)機制

TW-GRPO通過動態(tài)加權(quán)機制，分析token位置的組內(nèi)信息熵評估重要性，優(yōu)先處理高信息密度的token，使模型精準(zhǔn)錨定推理關(guān)鍵內(nèi)容，規(guī)避前置聲明、重復(fù)驗證等通用短語的干擾，更加專注于有信息量的部分，從而提高了推理的精度和效率。

多層次獎勵機制

TW-GRPO重新定義了獎勵機制，將RL訓(xùn)練從傳統(tǒng)單選題QA任務(wù)拓展為多選QA任務(wù)，借由源自視頻定位 IoU 的軟獎勵機制，以多層次獎勵區(qū)分答案部分正確性，實現(xiàn)更精細(xì)的梯度估計與穩(wěn)定的策略更新。新的軟獎勵設(shè)計，使得模型不僅能夠識別完全正確的答案，還能夠?qū)Σ糠终_的答案提供獎勵，大大改善了訓(xùn)練的穩(wěn)定性和效率。

問答反轉(zhuǎn)策略

針對多選數(shù)據(jù)稀缺問題，TW-GRPO引入了問答反轉(zhuǎn)（QAI）數(shù)據(jù)增強技術(shù)，通過否定問題、反轉(zhuǎn)答案的方式，將單選題任務(wù)轉(zhuǎn)換為多選格式，有效擴充訓(xùn)練數(shù)據(jù)池。這種設(shè)計徹底顛覆傳統(tǒng)模型對token的等權(quán)重處理模式，以差異化信息處理與精細(xì)化獎勵反饋驅(qū)動模型訓(xùn)練效率與推理性能的雙重提升。

在六個基準(zhǔn)測試中開展大量實驗與消融研究，研究團隊驗證TW-GRPO在視頻推理和通用理解任務(wù)中的有效性。實驗結(jié)果顯示，應(yīng)用該框架的模型在CLEVRER、NExT-GQA和MMVU等基準(zhǔn)測試中，性能分別比Video-R1高出18.8%、1.8%和1.6%。定性分析則表明，TW-GRPO能精簡推理鏈，聚焦關(guān)鍵視覺和邏輯線索，多級獎勵機制降低了訓(xùn)練過程中的獎勵差異。

目前，該研究成果的相關(guān)論文預(yù)印本版本已以“Reinforcing Video Reasoning with Focused Thinking”為題發(fā)表在arXiv上(2505.24718)。論文第一作者為黨吉圣，共同作者還包括吳競擇、王騰、林軒輝、朱楠楠、陳洪波、鄭偉詩、汪萌、蔡達(dá)成。

▍方法具體解析：TW-GRPO框架的設(shè)計與實現(xiàn)

研究團隊提出TW-GRPO框架，主要針對現(xiàn)有GRPO算法存在的兩大問題，從兩個維度進(jìn)行改進(jìn)：一方面，引入token層次的重要性加權(quán)機制，解決token重要性被忽視的問題；另一方面，將單選QA任務(wù)重新表述為多選設(shè)置，并設(shè)計多層次軟獎勵，克服二元獎勵的局限性，實現(xiàn)更精細(xì)的策略學(xué)習(xí)。

Token 層次的重要性加權(quán)

在策略優(yōu)化過程中，有效區(qū)分token的信息性至關(guān)重要。常規(guī)的細(xì)粒度推理質(zhì)量評估依賴輔助評論模型，會增加參數(shù)，削弱GRPO的優(yōu)勢。受相關(guān)研究啟發(fā)，研究團隊提出基于信息熵的輕量級方法，通過token層次的分布差異識別關(guān)鍵推理 token。其核心在于，候選輸出中某些token位置的分布與預(yù)期分布差異越大，攜帶的信息可能越豐富，借此可估算token重要性，且無需引入額外模型組件。

研究團隊提出token重要性加權(quán)$w_t$來量化各token位置的信息內(nèi)容。使用Kullback-Leibler（KL）散度$D_{\text{KL}}$測量了token在位置$t$的概率分布與該位置預(yù)期分布之間的差異，并針對變長序列進(jìn)行處理，用均勻分布填充缺失token。為保證數(shù)值穩(wěn)定與權(quán)重可比性，團隊還采用最小-最大歸一化，引入超參數(shù)$\alpha$控制重要性縮放。最終，將$w_t$融入目標(biāo)函數(shù)，實現(xiàn)位置敏感的優(yōu)化，使模型能根據(jù)token信息量調(diào)整學(xué)習(xí)信號，且無需額外評估模型。

圖2：TW-GRPO框架概述。圖示展示了前向傳播中的關(guān)鍵步驟，從視頻輸入開始，生成可能的補全，并計算獎勵，同時進(jìn)行最終目標(biāo)的調(diào)整和模型更新。具體而言，獎勵計算中融合了多層次軟獎勵，為部分正確性提供反饋。這些信號隨后被集成到最終目標(biāo)中，在此過程中應(yīng)用了token層次的重要性加權(quán)，允許模型優(yōu)先關(guān)注更具信息量的token，從而提高整體性能。

多選軟獎勵

單選問題中，二元獎勵信號效率較低。為解決這一問題，研究團隊采取兩步策略。首先，受標(biāo)準(zhǔn)化測試多選題格式啟發(fā)，將單選QA任務(wù)重新表述為多選設(shè)置，使每個問題可能存在一個或多個正確答案。但此轉(zhuǎn)變面臨數(shù)據(jù)稀缺問題，團隊引入問答反轉(zhuǎn)（Question-Answer Inversion，QAI）數(shù)據(jù)增強技術(shù)，通過否定問題和反轉(zhuǎn)答案將單選題轉(zhuǎn)化為多選題，并隨機去除正確選項，構(gòu)建了包含多個正確答案的多選NExT-GQA數(shù)據(jù)集，增加任務(wù)復(fù)雜性。

然而，多選設(shè)置帶來新挑戰(zhàn)，傳統(tǒng)基于二元準(zhǔn)確度的獎勵機制在單選與多選問題間產(chǎn)生顯著獎勵波動，影響模型收斂。為此，研究團隊借鑒視頻定位任務(wù)中的交并比（IoU）獎勵，提出多層次軟獎勵。該獎勵依據(jù)預(yù)測答案與真實答案的重疊程度，為部分正確的預(yù)測賦予相應(yīng)分?jǐn)?shù)，懲罰完全錯誤的預(yù)測，改善了細(xì)粒度的梯度估計和策略穩(wěn)定性，使模型在多選QA任務(wù)中獲得更有效的反饋。

通過在視頻推理任務(wù)和通用視頻基準(zhǔn)上的實驗，TW-GRPO框架展現(xiàn)出良好性能。與其他方法相比，TW-GRPO在獎勵標(biāo)準(zhǔn)差上收斂更快，學(xué)習(xí)過程更穩(wěn)定高效；同時，生成的輸出長度更短，推理更簡潔有效，驗證了框架改進(jìn)的有效性。

▍大量實驗研究：驗證TW-GRPO框架有效性

研究團隊以Qwen2.5-VL-7B為基礎(chǔ)模型，配備兩塊NVIDIA H800 GPU，在1000個CLEVRER反事實訓(xùn)練數(shù)據(jù)集上執(zhí)行500步強化學(xué)習(xí)訓(xùn)練。訓(xùn)練階段，視頻幀以128×28×28的分辨率進(jìn)行處理；進(jìn)入推理階段后，將幀分辨率提升至 256×28×28，并將單段視頻的最大幀數(shù)限制為16幀，以此優(yōu)化模型性能表現(xiàn)。為系統(tǒng)性評估TW-GRPO框架的有效性，研究團隊選取MVBench、TempCompass、VideoMME、MMVU、NExT-GQA和CLEVRE六大視頻基準(zhǔn)數(shù)據(jù)集開展測試，這些基準(zhǔn)涵蓋視頻語義理解、時序推理等多維度復(fù)雜任務(wù)。

TW-GRPO性能優(yōu)越性

實驗數(shù)據(jù)如表1所示，在視頻推理與整體理解任務(wù)中，TW-GRPO持續(xù)優(yōu)于現(xiàn)有模型，尤其在訓(xùn)練樣本有限的場景下依然表現(xiàn)出色。在CLEVRER、NExT-GQA和MMVU等推理任務(wù)基準(zhǔn)測試中，相較于未融入軟獎勵和token層次加權(quán)的原始GRPO模型，TW-GRPO展現(xiàn)出顯著優(yōu)勢。

表1：在視頻推理任務(wù)和通用視頻基準(zhǔn)上的模型性能對比。

推理任務(wù)表現(xiàn)：在CLEVRER基準(zhǔn)上，TW-GRPO準(zhǔn)確率達(dá)到50.4%，較Video-R1提升超18%；在NExT-GQA和MMVU基準(zhǔn)上，分別超越Video-R1和VideoChat-R1，提升幅度為1.8% 和1.6%。

通用視頻理解任務(wù)：在MVBench基準(zhǔn)上，TW-GRPO與Qwen2.5-VL-7B的零樣本性能（63.3%）相當(dāng)，且優(yōu)于Video-R1和VideoChat-R1；在TempCompass基準(zhǔn)上，以73.3%的準(zhǔn)確率領(lǐng)先，超出表現(xiàn)最佳的基線模型0.4%；即使在VideoMME基準(zhǔn)上，TW-GRPO仍比VideoChat-R1高出 2.7%。

在相同訓(xùn)練條件下，TW-GRPO在五個基準(zhǔn)上均顯著優(yōu)于GRPO，充分體現(xiàn)了token 層次的重要性加權(quán)和多層次獎勵策略的有效性，使模型實現(xiàn)更高效穩(wěn)定的策略學(xué)習(xí)，提升了在各類任務(wù)中的表現(xiàn)。

訓(xùn)練動態(tài)與收斂行為

圖3展示了不同GRPO變體的訓(xùn)練動態(tài)。圖3(a)顯示，TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)更快收斂，學(xué)習(xí)過程更為穩(wěn)定。這得益于多層次軟獎勵和token加權(quán)策略的引入，使模型能夠更好地處理模糊問題。傳統(tǒng)GRPO在多選任務(wù)中，因固定準(zhǔn)確度獎勵導(dǎo)致收斂緩慢；而TW-GRPO的軟獎勵策略有效降低獎勵標(biāo)準(zhǔn)差，實現(xiàn)更穩(wěn)定的優(yōu)化。同時，token層次的重要性加權(quán)機制促使模型聚焦關(guān)鍵信息token，提升優(yōu)化效率，加速收斂進(jìn)程。

圖3：不同GRPO變體的訓(xùn)練動態(tài)。（a）TW-GRPO在獎勵標(biāo)準(zhǔn)差上實現(xiàn)了更快的收斂，表明其學(xué)習(xí)更加穩(wěn)定和高效。（b）它還生成了consistently更短的輸出長度，反映出比其他方法更簡潔和有效的推理。

從圖3 (b)可見，TW-GRPO生成的輸出序列更短，表明其學(xué)會了更簡潔的推理方式，進(jìn)一步證明獎勵目標(biāo)與模型最終行為的高度契合，彰顯了訓(xùn)練設(shè)計的有效性。TW-GRPO通過精心設(shè)計的策略，實現(xiàn)了更平滑的收斂過程、更少的輸出token以及更高效的推理。

推理路徑的定性分析

研究團隊選取MMVU數(shù)據(jù)集中基于物理的密度估計任務(wù)，對T-GRPO和TW-GRPO的推理路徑進(jìn)行定性對比。該任務(wù)需先獲取石頭在空氣中（230克）和浸入水中（表觀重量138克）的重量，再運用阿基米德原理，根據(jù)92克的浮力推導(dǎo)排開體積，進(jìn)而計算密度。

T-GRPO模型在計算時錯誤假設(shè)體積為100 cm3，得出2.3 g/cm3 的錯誤密度；隨后又誤將2.5 g/cm3 認(rèn)定為最接近答案，即便嘗試反思也未能糾正錯誤，導(dǎo)致 token使用低效，甚至最終選擇2.7 g/cm3，與先前估計矛盾。

圖4：T-GRPO和TW-GRPO在MMVU樣本上的推理路徑對比。

而經(jīng)TW-GRPO訓(xùn)練的模型，能夠精準(zhǔn)提取視頻關(guān)鍵數(shù)值，正確運用物理原理推斷體積，并準(zhǔn)確匹配答案選項。這一實例直觀展現(xiàn)了TW-GRPO在基于動態(tài)視覺線索推理時，在推理準(zhǔn)確性、因果推理和定量推理方面的顯著提升。

參考文章：

https://arxiv.org/html/2505.24718v3#S3

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.