99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

3B模型逆襲7B巨頭!Video-XL-Pro刷新超長視頻理解SOTA

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。,A800/H20等算力6.25元/卡時,支持在線微調(diào)訓練,及線部署和。


現(xiàn)有的多模態(tài)大模型在超長視頻訓練和應用中仍存在顯著瓶頸:一方面,難以大規(guī)模訓練超長視頻;另一方面,在處理長視頻時,仍然面臨性能差和效率低的雙重挑戰(zhàn)。

Video-XL-Pro創(chuàng)新采用了“重構(gòu)式token壓縮”技術(shù),并且使用較少的訓練數(shù)據(jù),在多個基準評測上超越了之前Meta發(fā)布的7B模型Apollo-7B,以及同尺寸的知名開源模型Qwen2.5-VL-3B、InternVL2.5-4B等,刷新了超長視頻理解SOTA!

這個項目來自上海交通大學、北京智源研究院、特倫托大學的聯(lián)合研究團隊,實現(xiàn)近一萬幀視頻的單卡處理,大海撈針準確率超98%。Video-XL-Pro已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://www.wisemodel.cn/models/lxrrrr/Video-XL-Pro

01.

模型結(jié)構(gòu)


Video-XL-Pro的核心在于其提出的重構(gòu)性token壓縮技術(shù)(ReCoT),該技術(shù)通過自監(jiān)督學習生成全面且緊湊的視頻token,顯著提升了視頻理解的效率和質(zhì)量。

ReCoT包含兩個關(guān)鍵組件:動態(tài)token合成器(DTS)和語義引導掩碼(SGM)。DTS通過輕量級的時空注意力塊對token進行壓縮,有效捕捉視頻中的動態(tài)運動;而SGM則通過自適應掩碼策略,減少冗余視覺token,從而優(yōu)化重構(gòu)學習過程。

這些創(chuàng)新設(shè)計使得模型在僅需3B參數(shù)的情況下,性能超越了許多7B參數(shù)的模型。

此外,為了增強模型對超長視頻理解能力,模型還引入了查詢選擇器,使得在輸入上下文超過限制時模型能夠選擇性關(guān)注和查詢有關(guān)的片段。

為了進一步提升訓練效率,研究團隊還提出了視頻數(shù)據(jù)集剪枝策略。這些方法通過篩選高質(zhì)量視頻數(shù)據(jù),顯著降低了計算成本,同時保障模型的性能。

02.

評測基準

Video-XL-Pro選用多個主流視頻理解評測基準,對模型進行了全面的評測,對于長視頻理解任務,評測了LongVideoBench、MLVU、Video-MME,TempCompass和VNbench。

其中MLVU,VideoMME,LongVideoBench集中在評測模型的長視頻理解能力。VNbench則是兼顧長視頻與短視頻,TempCompass則是評測模型在視頻中的時間理解能力。


如表1所示,Video-XL-Pro在多個主流的長視頻評測基準上展現(xiàn)了卓越性能。

在MLVU的Dev、Test,以及TempCompass上,VIdeo-XL-Pro均斬獲了第一名,不光超越同參數(shù)量的知名開源模型qwen2.5-VL-3B和internVL2.5-4B等,也超越了一眾7B模型,包括Meta發(fā)布的7B模型Apollo-7B等。

在VideoMME,LongVideoBench,Video-XL-Pro也超越了絕大部分同參數(shù)量模型,并達到與7B模型相當?shù)乃疁省?/p>

最后在VNbench上,VIdeo-XL-Pro也取得有競爭力的結(jié)果,說明模型在增強長視頻理解能力的同時,也能兼顧短視頻能力。

值得注意的是,VIdeo-XL-Pro只使用了相對較少的SFT數(shù)據(jù)(1M),低于Apollo的3.2M,遠低于Qwen2.5-VL,InternVL2.5等知名開源模型,進一步說明了方法的有效性。


Video-XL-Pro還進行了視頻「大海撈針」測試來評估其處理超長上下文的能力。得益于ReCot模塊和查詢選擇器的設(shè)計,使得模型可以輸入極長的上下文序列,在相同硬件條件下,模型可以以8192幀為輸入,達到了近99%的準確率。

03.

時間理解

為了更全面的評估模型性能,我們還選用了經(jīng)典時間評測基準Charades-STA和最新的長視頻時間評測基準V-STaR。

V-STaR注重在極長視頻中找出與問題相關(guān)的片段,精準回答片段時間范圍,現(xiàn)有開源模型在V-STaR中很難取得很好的成績,即便是Qwen2.5-VL-7B,mIoU得分也僅為11.48。

Video-XL-Pro-3B在最新的V-STaR長視頻時間基準測試斬獲25.07的mIoU得分,在IoU>0.7時仍能達到15.58的準確率,遠上超越一眾知名開源模型,包括InternVL2.5-8B和Qwen2.5-VL-7B,并超越上一代冠軍Video-LLaMA3,展現(xiàn)了卓越的長視頻時間理解能力,并且在Charades-STA上也有著不俗的表現(xiàn)。

04.

總結(jié)

該工作提出了Video-XL-Pro模型,利用自監(jiān)督學習壓縮視覺標記,使用相對少量數(shù)據(jù)下訓練的3B模型就能獲得超越大多數(shù)7B模型的性能。

Video-XL-Pro在多個主流長視頻理解基準評測上表現(xiàn)優(yōu)異。

模型有望在多個長視頻理解的應用場景中展現(xiàn)出廣泛的應用價值,成為得力的長視頻理解助手。

編輯:成蘊年

----- END -----


wisemodel相關(guān):

系統(tǒng)升級:

大賽報名:

系列模型:

8

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
二十屆中央第六輪巡視開始進駐

二十屆中央第六輪巡視開始進駐

界面新聞
2025-07-17 18:32:50
武漢上空出現(xiàn)雨幡奇觀,武昌氣溫2小時驟降5℃

武漢上空出現(xiàn)雨幡奇觀,武昌氣溫2小時驟降5℃

極目新聞
2025-07-17 17:34:06
招行金葵花用戶預約成都天府機場國際貴賓廳被要求驗資2000萬元,銀行回應:為保證服務品質(zhì),國內(nèi)僅此一地需驗資

招行金葵花用戶預約成都天府機場國際貴賓廳被要求驗資2000萬元,銀行回應:為保證服務品質(zhì),國內(nèi)僅此一地需驗資

上游新聞
2025-07-17 16:13:23
李在明:我謹代表政府,正式道歉

李在明:我謹代表政府,正式道歉

政知新媒體
2025-07-17 15:27:18
雅迪、九號全網(wǎng)下架多款電動自行車 經(jīng)銷商:要開始生產(chǎn)新國標款式了

雅迪、九號全網(wǎng)下架多款電動自行車 經(jīng)銷商:要開始生產(chǎn)新國標款式了

紅星資本局
2025-07-17 11:30:08
官方最新通報!“耳環(huán)事件”大反轉(zhuǎn)了?網(wǎng)友扒出3條漏洞打臉

官方最新通報!“耳環(huán)事件”大反轉(zhuǎn)了?網(wǎng)友扒出3條漏洞打臉

禾寒敘
2025-07-17 13:31:24
永州一女子被打還手后被處拘留,起訴公安局,法院:屬正當防衛(wèi),撤銷處罰

永州一女子被打還手后被處拘留,起訴公安局,法院:屬正當防衛(wèi),撤銷處罰

極目新聞
2025-07-17 10:21:16
川北醫(yī)學院本科生“逆天學術(shù)履歷”引爭議,校方通報

川北醫(yī)學院本科生“逆天學術(shù)履歷”引爭議,校方通報

界面新聞
2025-07-17 16:51:04
辱罵中國球迷!香港黑人前鋒再致歉:我的話被聽錯了 將捐20%薪水

辱罵中國球迷!香港黑人前鋒再致歉:我的話被聽錯了 將捐20%薪水

風過鄉(xiāng)
2025-07-17 13:09:35
“真是自取其辱”,寶媽帶娃去清華旅游,被40元套餐搞到心態(tài)崩潰

“真是自取其辱”,寶媽帶娃去清華旅游,被40元套餐搞到心態(tài)崩潰

熙熙說教
2025-07-16 20:14:11
杜建英在娃哈哈入職照片被扒出,沖宗慶后大笑,眼神耐人尋味

杜建英在娃哈哈入職照片被扒出,沖宗慶后大笑,眼神耐人尋味

探源歷史
2025-07-16 14:16:50
震驚!網(wǎng)傳鄭州一女子因酷熱不愿出門,讓外賣小哥接單幫自己遛狗

震驚!網(wǎng)傳鄭州一女子因酷熱不愿出門,讓外賣小哥接單幫自己遛狗

火山詩話
2025-07-17 08:26:25
徐正源炮轟蓉城:現(xiàn)在忍不下去了!不被俱樂部信任,無法袖手旁觀

徐正源炮轟蓉城:現(xiàn)在忍不下去了!不被俱樂部信任,無法袖手旁觀

奧拜爾
2025-07-17 17:26:32
知情人士:宗慶后,不止這四個孩子

知情人士:宗慶后,不止這四個孩子

鳳凰網(wǎng)財經(jīng)
2025-07-16 22:10:39
成本超2.8億,預售票房僅483萬,打不過大鵬,姜文要敗走暑期檔?

成本超2.8億,預售票房僅483萬,打不過大鵬,姜文要敗走暑期檔?

靠譜電影君
2025-07-15 18:20:32
炸裂!男子和48歲女子保持半年性關(guān)系,分手后女朋友竟是女子女兒

炸裂!男子和48歲女子保持半年性關(guān)系,分手后女朋友竟是女子女兒

丫頭舫
2025-07-17 15:16:35
鬧劇繼續(xù),娃哈哈成為“七彩葫蘆娃”!宗慶后被曝至少存在兩段婚史,共有7個孩子,宗慶后父母更喜歡孫子,宗慶后103歲母親尚健在

鬧劇繼續(xù),娃哈哈成為“七彩葫蘆娃”!宗慶后被曝至少存在兩段婚史,共有7個孩子,宗慶后父母更喜歡孫子,宗慶后103歲母親尚健在

金融界
2025-07-17 14:37:25
宗慶后疑有6個私生子,曝另一小情人身份,搞藝術(shù)的,很年輕

宗慶后疑有6個私生子,曝另一小情人身份,搞藝術(shù)的,很年輕

180視角
2025-07-17 12:39:17
深圳12家銀行罕見集體發(fā)聲明,與我行無關(guān)、無任何合作關(guān)系

深圳12家銀行罕見集體發(fā)聲明,與我行無關(guān)、無任何合作關(guān)系

湘財Plus
2025-07-16 06:51:53
長沙男子砸記者設(shè)備被刑拘,完整視頻公布后輿論反轉(zhuǎn):記者不是尋釁滋事?

長沙男子砸記者設(shè)備被刑拘,完整視頻公布后輿論反轉(zhuǎn):記者不是尋釁滋事?

小蘿卜絲
2025-07-16 20:17:47
2025-07-17 19:23:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
309文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

特朗普稱中國將對制造運輸芬太尼的人判死刑 中方回應

頭條要聞

特朗普稱中國將對制造運輸芬太尼的人判死刑 中方回應

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財經(jīng)要聞

杭州成立專班介入宗慶后遺產(chǎn)糾紛

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報信息曝光

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
游戲
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

機械革命耀世 Pro (2025) 游戲本新增 16 英寸款,可選 OLED 屏

杰洛特配音演員曬錄音照!白狼要回歸了?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 滨海县| 万宁市| 吉水县| 天全县| 阜宁县| 新邵县| 呼伦贝尔市| 久治县| 宜丰县| 金湖县| 铜陵市| 松溪县| 即墨市| 宝丰县| 滕州市| 桃江县| 武穴市| 莒南县| 怀宁县| 汉沽区| 冷水江市| 珠海市| 方正县| 张北县| 车致| 班戈县| 岑溪市| 吉水县| 伽师县| 化州市| 泊头市| 阿拉善左旗| 平南县| 阜城县| 中牟县| 平原县| 上饶县| 图片| 古丈县| 沧源| 耒阳市|