網易首頁 > 網易號 > 正文申請入駐

3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限

2025-05-04 22:44:21　來源: 量子位

北京舉報

分享至

Video-XL-Pro團隊投稿
量子位 | 公眾號 QbitAI

3B模型超越Meta 7B模型，超長視頻理解SOTA刷新了！

來自上海交通大學、北京智源研究院、特倫托大學的聯合研究團隊推出了Video-XL-Pro，實現近一萬幀視頻的單卡處理，大海撈針準確率超98%。

現有的多模態大模型在超長視頻訓練和應用中仍存在顯著瓶頸：一方面，難以大規模訓練超長視頻；另一方面，在處理長視頻時，仍然面臨性能差和效率低的雙重挑戰。

對此，Video-XL-Pro創新采用“重構式token壓縮”技術，并且使用較少的訓練數據，在多個基準評測上超越了之前Meta發布的7B模型Apollo-7B，以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等，項目代碼，模型，訓練數據均已開源。

模型結構

Video-XL-Pro的核心在于其提出的重構性token壓縮技術（ReCoT），該技術通過自監督學習生成全面且緊湊的視頻token，顯著提升了視頻理解的效率和質量。

ReCoT包含兩個關鍵組件：動態token合成器（DTS）和語義引導掩碼（SGM）。

DTS通過輕量級的時空注意力塊對token進行壓縮，有效捕捉視頻中的動態運動；而SGM則通過自適應掩碼策略，減少冗余視覺token，從而優化重構學習過程。

這些創新設計使得模型在僅需3B參數的情況下，性能超越了許多7B參數的模型。

此外，為了增強模型對超長視頻理解能力，模型還引入了查詢選擇器，使得在輸入上下文超過限制時模型能夠選擇性關注和查詢有關的片段。

為了進一步提升訓練效率，研究團隊還提出了視頻數據集剪枝策略。

這些方法通過篩選高質量視頻數據，顯著降低了計算成本，同時保障模型的性能。

評測基準

Video-XL-Pro選用多個主流視頻理解評測基準，對模型進行了全面的評測，對于長視頻理解任務，評測了LongVideoBench、MLVU、Video-MME，TempCompass和VNbench。

其中MLVU，VideoMME，LongVideoBench集中在評測模型的長視頻理解能力。

VNbench則是兼顧長視頻與短視頻，TempCompass則是評測模型在視頻中的時間理解能力。

如表1所示，Video-XL-Pro在多個主流的長視頻評測基準上展現了卓越性能。

在MLVU的Dev、Test，以及TempCompass上，VIdeo-XL-Pro均斬獲了第一名，不光超越同參數量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等，也超越了一眾7B模型，包括Meta發布的7B模型Apollo-7B等。

在VideoMME，LongVideoBench，Video-XL-Pro也超越了絕大部分同參數量模型，并達到與7B模型相當的水準。

最后在VNbench上，VIdeo-XL-Pro也取得有競爭力的結果，說明模型在增強長視頻理解能力的同時，也能兼顧短視頻能力。

值得注意的是，VIdeo-XL-Pro只使用了相對較少的SFT數據（1M），低于Apollo的3.2M，遠低于Qwen2.5-VL，InternVL2.5等知名開源模型，進一步說明了方法的有效性。

Video-XL-Pro還進行了視頻「大海撈針」測試來評估其處理超長上下文的能力。

得益于ReCot模塊和查詢選擇器的設計，使得模型可以輸入極長的上下文序列，在相同硬件條件下，模型可以以8192幀為輸入，達到了近99%的準確率。

時間理解

為了更全面的評估模型性能，我們還選用了經典時間評測基準Charades-STA和最新的長視頻時間評測基準V-STaR。

V-STaR注重在極長視頻中找出與問題相關的片段，精準回答片段時間范圍，現有開源模型在V-STaR中很難取得很好的成績，即便是Qwen2.5-VL-7B，mIoU得分也僅為11.48。

Video-XL-Pro-3B在最新的V-STaR長視頻時間基準測試斬獲25.07的mIoU得分，在IoU>0.7時仍能達到15.58的準確率，遠上超越一眾知名開源模型，包括InternVL2.5-8B和Qwen2.5-VL-7B，并超越上一代冠軍Video-LLaMA3，展現了卓越的長視頻時間理解能力，并且在Charades-STA上也有著不俗的表現。

總結

該工作提出了Video-XL-Pro模型，利用自監督學習壓縮視覺標記，使用相對少量數據下訓練的3B模型就能獲得超越大多數7B模型的性能。

Video-XL-Pro在多個主流長視頻理解基準評測上表現優異。

模型有望在多個長視頻理解的應用場景中展現出廣泛的應用價值，成為得力的長視頻理解助手。

目前，模型、代碼、訓練數據均已開源，以促進長視頻理解社區的合作和發展。

論文鏈接：
https://arxiv.org/abs/2503.18478
代碼鏈接：
https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型鏈接：
https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
訓練數據鏈接：
https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.