99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

3B模型逆襲7B巨頭!Video-XL-Pro突破長視頻理解極限

0
分享至

Video-XL-Pro團隊投稿
量子位 | 公眾號 QbitAI

3B模型超越Meta 7B模型,超長視頻理解SOTA刷新了!

來自上海交通大學、北京智源研究院、特倫托大學的聯合研究團隊推出了Video-XL-Pro,實現近一萬幀視頻的單卡處理,大海撈針準確率超98%。

現有的多模態大模型在超長視頻訓練和應用中仍存在顯著瓶頸:一方面,難以大規模訓練超長視頻;另一方面,在處理長視頻時,仍然面臨性能差和效率低的雙重挑戰。

對此,Video-XL-Pro創新采用“重構式token壓縮”技術,并且使用較少的訓練數據,在多個基準評測上超越了之前Meta發布的7B模型Apollo-7B,以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等,項目代碼,模型,訓練數據均已開源



模型結構



Video-XL-Pro的核心在于其提出的重構性token壓縮技術(ReCoT),該技術通過自監督學習生成全面且緊湊的視頻token,顯著提升了視頻理解的效率和質量。

ReCoT包含兩個關鍵組件:動態token合成器(DTS)和語義引導掩碼(SGM)。

DTS通過輕量級的時空注意力塊對token進行壓縮,有效捕捉視頻中的動態運動;而SGM則通過自適應掩碼策略,減少冗余視覺token,從而優化重構學習過程。

這些創新設計使得模型在僅需3B參數的情況下,性能超越了許多7B參數的模型。

此外,為了增強模型對超長視頻理解能力,模型還引入了查詢選擇器,使得在輸入上下文超過限制時模型能夠選擇性關注和查詢有關的片段。

為了進一步提升訓練效率,研究團隊還提出了視頻數據集剪枝策略。

這些方法通過篩選高質量視頻數據,顯著降低了計算成本,同時保障模型的性能。

評測基準

Video-XL-Pro選用多個主流視頻理解評測基準,對模型進行了全面的評測,對于長視頻理解任務,評測了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench

其中MLVU,VideoMME,LongVideoBench集中在評測模型的長視頻理解能力。

VNbench則是兼顧長視頻與短視頻,TempCompass則是評測模型在視頻中的時間理解能力。



如表1所示,Video-XL-Pro在多個主流的長視頻評測基準上展現了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斬獲了第一名,不光超越同參數量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一眾7B模型,包括Meta發布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了絕大部分同參數量模型,并達到與7B模型相當的水準。

最后在VNbench上,VIdeo-XL-Pro也取得有競爭力的結果,說明模型在增強長視頻理解能力的同時,也能兼顧短視頻能力。

值得注意的是,VIdeo-XL-Pro只使用了相對較少的SFT數據(1M),低于Apollo的3.2M,遠低于Qwen2.5-VL,InternVL2.5等知名開源模型,進一步說明了方法的有效性。



Video-XL-Pro還進行了視頻「大海撈針」測試來評估其處理超長上下文的能力。

得益于ReCot模塊和查詢選擇器的設計,使得模型可以輸入極長的上下文序列,在相同硬件條件下,模型可以以8192幀為輸入,達到了近99%的準確率。

時間理解

為了更全面的評估模型性能,我們還選用了經典時間評測基準Charades-STA和最新的長視頻時間評測基準V-STaR。

V-STaR注重在極長視頻中找出與問題相關的片段,精準回答片段時間范圍,現有開源模型在V-STaR中很難取得很好的成績,即便是Qwen2.5-VL-7B,mIoU得分也僅為11.48。

Video-XL-Pro-3B在最新的V-STaR長視頻時間基準測試斬獲25.07的mIoU得分,在IoU>0.7時仍能達到15.58的準確率,遠上超越一眾知名開源模型,包括InternVL2.5-8BQwen2.5-VL-7B,并超越上一代冠軍Video-LLaMA3,展現了卓越的長視頻時間理解能力,并且在Charades-STA上也有著不俗的表現。

總結

該工作提出了Video-XL-Pro模型,利用自監督學習壓縮視覺標記,使用相對少量數據下訓練的3B模型就能獲得超越大多數7B模型的性能。

Video-XL-Pro在多個主流長視頻理解基準評測上表現優異。

模型有望在多個長視頻理解的應用場景中展現出廣泛的應用價值,成為得力的長視頻理解助手。

目前,模型、代碼、訓練數據均已開源,以促進長視頻理解社區的合作和發展。

論文鏈接:
https://arxiv.org/abs/2503.18478
代碼鏈接:
https://github.com/VectorSpaceLab/Video-XL/tree/main/Video-XL-Pro
模型鏈接:
https://huggingface.co/MINT-SJTU/Video-XL-Pro-3B
訓練數據鏈接:
https://huggingface.co/datasets/MINT-SJTU/Video-XL-Pro-Training

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為什么德國萊茵金屬公司生產的155毫米炮管高達120萬美元一根?

為什么德國萊茵金屬公司生產的155毫米炮管高達120萬美元一根?

凱撒談兵
2025-05-04 22:12:40
揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

揪心!貴州黔西游船側翻:約70人落水,已搜救50余人,現場曝光

小人物看盡人間百態
2025-05-04 20:49:11
韓鋼:華國鋒主政時最大錯誤,是對何“謠言”處置不當

韓鋼:華國鋒主政時最大錯誤,是對何“謠言”處置不當

霹靂炮
2025-05-04 23:40:44
醫生怒斥:4種首飾別再戴了!等到患癌后悔都晚了,千萬要注意!

醫生怒斥:4種首飾別再戴了!等到患癌后悔都晚了,千萬要注意!

39健康網
2025-05-04 18:33:48
著名通訊專家項立剛這次徹底演砸了!他兒子初中就去了美國留學?

著名通訊專家項立剛這次徹底演砸了!他兒子初中就去了美國留學?

翻開歷史和現實
2025-05-04 19:07:04
一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

一爆再爆 沈騰是真的有問題了 馬麗都出來撇清關系 表示不再合作

小彭聊社會
2025-05-05 00:20:40
達赫迪:難以置信,趙心童正在摧毀斯諾克的標志性人物之一

達赫迪:難以置信,趙心童正在摧毀斯諾克的標志性人物之一

直播吧
2025-05-04 23:52:02
美國頂級預言家再出手!直言2025中美日命運!這個島最先出事!

美國頂級預言家再出手!直言2025中美日命運!這個島最先出事!

歷史八卦社
2025-05-04 20:47:01
被央視點名批評!燒光84億造不出一輛車,卻花5000萬給員工買零食

被央視點名批評!燒光84億造不出一輛車,卻花5000萬給員工買零食

聯友說娛
2025-05-04 16:15:14
侄子代辦老人喪事花光23萬遺產遭索賠 法院判了:鋪張浪費,賠償62500元

侄子代辦老人喪事花光23萬遺產遭索賠 法院判了:鋪張浪費,賠償62500元

封面新聞
2025-05-04 15:09:13
奪得職業生涯首冠后,凱恩第一時間社媒發布表情

奪得職業生涯首冠后,凱恩第一時間社媒發布表情

懂球帝
2025-05-05 01:51:39
中方高規格出席紅場閱兵,普京見證美印關系降級。

中方高規格出席紅場閱兵,普京見證美印關系降級。

老鼜尾聲電影解說
2025-05-04 21:33:56
上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
馬筱梅大量不雅照流出,葛斯齊曝幕后黑手S家,汪小菲評論區淪陷

馬筱梅大量不雅照流出,葛斯齊曝幕后黑手S家,汪小菲評論區淪陷

壹月情感
2025-05-04 20:42:50
“亞洲第一美”女星曬全裸下水照,重要兩點若隱若現

“亞洲第一美”女星曬全裸下水照,重要兩點若隱若現

葫蘆哥愛吐槽
2025-05-04 15:52:29
五一假期,又有媒體翻車了……

五一假期,又有媒體翻車了……

麥杰遜
2025-05-04 19:16:44
一直有打人沖動,但一直在克制!歐洲兩國不參加閱兵讓普京抓狂

一直有打人沖動,但一直在克制!歐洲兩國不參加閱兵讓普京抓狂

大風文字
2025-05-04 13:50:39
姆巴佩無解世界波!狂突20米臥射破門,沖擊金靴,僅落后萊萬2球

姆巴佩無解世界波!狂突20米臥射破門,沖擊金靴,僅落后萊萬2球

奧拜爾
2025-05-04 20:51:24
普京:俄羅斯有足夠實力結束烏克蘭戰爭

普京:俄羅斯有足夠實力結束烏克蘭戰爭

參考消息
2025-05-04 21:37:03
金正恩跪坦克開啟第二次裝甲武力革命!

金正恩跪坦克開啟第二次裝甲武力革命!

IN朝鮮
2025-05-04 16:13:43
2025-05-05 05:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10424文章數 176129關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

頭條要聞

游船側翻游客:要返航大家還有點失望 越到后面越害怕

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

本地
親子
藝術
數碼
公開課

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

親子要聞

假期作業不能停! 楊雪呀

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

多年來首次設計重構:微軟13英寸Surface Laptop曝光,5月6日發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通道| 澄城县| 庄河市| 健康| 方正县| 望江县| 云梦县| 乐都县| 平定县| 揭阳市| 黄大仙区| 汽车| 东乌珠穆沁旗| 科尔| 刚察县| 哈尔滨市| 醴陵市| 如东县| 古田县| 岳西县| 喀喇沁旗| 左贡县| 金溪县| 华安县| 陇南市| 洞口县| 浪卡子县| 衡水市| 吐鲁番市| 西贡区| 沾化县| 永城市| 简阳市| 尚义县| 北海市| 新巴尔虎右旗| 桃源县| 阿鲁科尔沁旗| 赞皇县| 社旗县| 淳化县|