3B模型逆襲7B巨頭！Video-XL-Pro刷新超長視頻理解SOTA

2025-06-19 18:40:21　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。，A800/H20等算力6.25元/卡時，支持在線微調(diào)訓練，及線部署和。

現(xiàn)有的多模態(tài)大模型在超長視頻訓練和應用中仍存在顯著瓶頸：一方面，難以大規(guī)模訓練超長視頻；另一方面，在處理長視頻時，仍然面臨性能差和效率低的雙重挑戰(zhàn)。

Video-XL-Pro創(chuàng)新采用了“重構(gòu)式token壓縮”技術(shù)，并且使用較少的訓練數(shù)據(jù)，在多個基準評測上超越了之前Meta發(fā)布的7B模型Apollo-7B，以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等，刷新了超長視頻理解SOTA！

這個項目來自上海交通大學、北京智源研究院、特倫托大學的聯(lián)合研究團隊，實現(xiàn)近一萬幀視頻的單卡處理，大海撈針準確率超98%。Video-XL-Pro已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型結(jié)構(gòu)

Video-XL-Pro的核心在于其提出的重構(gòu)性token壓縮技術(shù)（ReCoT），該技術(shù)通過自監(jiān)督學習生成全面且緊湊的視頻token，顯著提升了視頻理解的效率和質(zhì)量。

ReCoT包含兩個關(guān)鍵組件：動態(tài)token合成器（DTS）和語義引導掩碼（SGM）。DTS通過輕量級的時空注意力塊對token進行壓縮，有效捕捉視頻中的動態(tài)運動；而SGM則通過自適應掩碼策略，減少冗余視覺token，從而優(yōu)化重構(gòu)學習過程。

這些創(chuàng)新設(shè)計使得模型在僅需3B參數(shù)的情況下，性能超越了許多7B參數(shù)的模型。

此外，為了增強模型對超長視頻理解能力，模型還引入了查詢選擇器，使得在輸入上下文超過限制時模型能夠選擇性關(guān)注和查詢有關(guān)的片段。

為了進一步提升訓練效率，研究團隊還提出了視頻數(shù)據(jù)集剪枝策略。這些方法通過篩選高質(zhì)量視頻數(shù)據(jù)，顯著降低了計算成本，同時保障模型的性能。

02.

評測基準

Video-XL-Pro選用多個主流視頻理解評測基準，對模型進行了全面的評測，對于長視頻理解任務，評測了LongVideoBench、MLVU、Video-MME，TempCompass和VNbench。

其中MLVU，VideoMME，LongVideoBench集中在評測模型的長視頻理解能力。VNbench則是兼顧長視頻與短視頻，TempCompass則是評測模型在視頻中的時間理解能力。

如表1所示，Video-XL-Pro在多個主流的長視頻評測基準上展現(xiàn)了卓越性能。

在MLVU的Dev、Test，以及TempCompass上，VIdeo-XL-Pro均斬獲了第一名，不光超越同參數(shù)量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等，也超越了一眾7B模型，包括Meta發(fā)布的7B模型Apollo-7B等。

在VideoMME，LongVideoBench，Video-XL-Pro也超越了絕大部分同參數(shù)量模型，并達到與7B模型相當?shù)乃疁省?/p>

最后在VNbench上，VIdeo-XL-Pro也取得有競爭力的結(jié)果，說明模型在增強長視頻理解能力的同時，也能兼顧短視頻能力。

值得注意的是，VIdeo-XL-Pro只使用了相對較少的SFT數(shù)據(jù)（1M），低于Apollo的3.2M，遠低于Qwen2.5-VL，InternVL2.5等知名開源模型，進一步說明了方法的有效性。

Video-XL-Pro還進行了視頻「大海撈針」測試來評估其處理超長上下文的能力。得益于ReCot模塊和查詢選擇器的設(shè)計，使得模型可以輸入極長的上下文序列，在相同硬件條件下，模型可以以8192幀為輸入，達到了近99%的準確率。

03.

時間理解

為了更全面的評估模型性能，我們還選用了經(jīng)典時間評測基準Charades-STA和最新的長視頻時間評測基準V-STaR。

V-STaR注重在極長視頻中找出與問題相關(guān)的片段，精準回答片段時間范圍，現(xiàn)有開源模型在V-STaR中很難取得很好的成績，即便是Qwen2.5-VL-7B，mIoU得分也僅為11.48。

Video-XL-Pro-3B在最新的V-STaR長視頻時間基準測試斬獲25.07的mIoU得分，在IoU>0.7時仍能達到15.58的準確率，遠上超越一眾知名開源模型，包括InternVL2.5-8B和Qwen2.5-VL-7B，并超越上一代冠軍Video-LLaMA3，展現(xiàn)了卓越的長視頻時間理解能力，并且在Charades-STA上也有著不俗的表現(xiàn)。

04.

總結(jié)

該工作提出了Video-XL-Pro模型，利用自監(jiān)督學習壓縮視覺標記，使用相對少量數(shù)據(jù)下訓練的3B模型就能獲得超越大多數(shù)7B模型的性能。

Video-XL-Pro在多個主流長視頻理解基準評測上表現(xiàn)優(yōu)異。

模型有望在多個長視頻理解的應用場景中展現(xiàn)出廣泛的應用價值，成為得力的長視頻理解助手。

編輯：成蘊年

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級：

大賽報名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.