99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

萬幀視頻單卡跑通! Video-XL-2碾壓級效率定義長視頻新標準

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時,支持在線微調訓練,及線部署和。

長視頻理解是多模態大模型關鍵能力之一。盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領域取得顯著進展,當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。

智源研究院聯合上海交通大學等機構發布開源模型Video-XL-2,顯著提升長視頻理解能力,其核心亮點在于三個維度全面優化了開源多模態大模型對長視頻內容的理解能力:

效果更佳Video-XL-2在長視頻理解任務中表現出色,在MLVU、Video-MME、LVBench等主流評測基準上達到了同參數規模開源模型的領先水平。

長度更長新模型顯著擴展了可處理視頻的時長,支持在單張顯卡上高效處理長達萬幀的視頻輸入。

速度更快Video-XL-2大幅提升了處理效率,編碼2048幀視頻僅需12秒,顯著加速長視頻理解流程。

未來,該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。目前,Video-XL-2的模型權重已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/models/lxrrrr/Video-XL-2

01.

技術簡介

在模型架構設計上,Video-XL-2主要由三個核心組件構成:視覺編碼器(Visual Encoder)、動態Token合成模塊(Dynamic Token Synthesis, DTS)以及大語言模型(LLM)


Video-XL-2的模型架構示意圖

具體而言,Video-XL-2采用SigLIP-SO400M作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。

隨后,DTS模塊對這些視覺特征進行融合壓縮,并建模其時序關系,以提取更具語義的動態信息。

處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊后的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,并完成相應的下游任務。

在訓練策略上,Video-XL-2采用了四階段漸進式訓練的設計,逐步構建其強大的長視頻理解能力。

前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態對齊

第三階段則引入更大規模,更高質量的圖像與視頻描述數據,初步奠定模型對視覺內容的理解能力

第四階段,在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調,使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準確地理解和響應復雜的視覺指令。


Chunk-based Prefilling


Bi-granularity KV Decoding

此外,Video-XL-2還系統性設計了效率優化策略

首先,Video-XL-2引入了分段式的預裝填策略(Chunk-based Prefilling,如圖3所示):將超長視頻劃分為若干連續的片段(chunk),在每個chunk內部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息。

該設計顯著降低了預裝填階段的計算成本與顯存開銷。其次,Video-XL-2還設計了基于雙粒度KV的解碼機制(Bi-granularity KV Decoding,如圖4所示):在推理過程中,模型會根據任務需求,選擇性地對關鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs)。

這一機制有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于上述策略的協同優化,Video-XL-2實現了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應用場景中的實用性。

02.

實驗效果

在模型具體表現方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流長視頻評測基準上全面超越現有所有輕量級開源模型,達成當前最先進性能(SOTA),相較第一代 Video-XL 實現了顯著提升

尤其值得關注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數規模高達720億的大模型。

此外,在時序定位(Temporal Grounding)任務中,Video-XL-2也表現出色,在Charades-STA數據集上取得了領先的結果,進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。


Video-XL-2的全面對比結果

除了效果上的提升,Video-XL-2在視頻長度方面也展現出顯著優勢。如下圖所示,在單張24GB消費級顯卡(如 RTX 3090 / 4090)上,Video-XL-2可處理長達千幀的視頻;而在單張 80GB 高性能顯卡(如 A100 / H100)上,模型更支持萬幀級視頻輸入,遠超現有主流開源模型。


Video-XL-2輸入長度的對比展示

相較于VideoChat-Flash 和初代 Video-XL,Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復雜的視頻任務提供了有力的支撐。

最后,Video-XL-2在速度上也展現出卓越性能

Video-XL-2僅需12秒即可完成2048幀視頻的預填充。更重要的是,其預填充時間與輸入幀數之間呈現出近似線性增長,體現了其出色的可擴展性。


Video-XL-2 Prefilling速度和輸入幀數的關系圖

相比之下,Video-XL與VideoChat-Flash 在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。


Video-XL-2 Prefilling速度的對比展示

03.

應用潛力

得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應用場景中展現出很高的應用潛力。例如,它可廣泛應用于影視內容分析、劇情理解、監控視頻中的異常行為檢測與安全預警等任務,為現實世界中的復雜視頻理解需求提供高效、精準的技術支撐。

以下是一些具體的例子,將展示Video-XL-2在實際應用中的潛力:

Example 1:電影情節問答


Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer: The phone’s color is red

Example 2:監控異常檢測


Question: Is there any unexpected event happening in this surveillance footage?
Answer: There is physical altercation between the customers and the store employees

Example 3: 影視作品內容總結

Example4:游戲直播內容總結

----- END -----


wisemodel相關:

系統升級:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這是我認為最讓人眼前一亮的穿搭,堪稱“斬男套裝”,不接受異議

這是我認為最讓人眼前一亮的穿搭,堪稱“斬男套裝”,不接受異議

打球不如看啦啦隊
2025-07-02 22:11:02
記者:湖人好像對詹姆斯還沒下滑感到沮喪 每年都不相信可以爭冠

記者:湖人好像對詹姆斯還沒下滑感到沮喪 每年都不相信可以爭冠

直播吧
2025-07-17 09:27:46
還敢輕視嗎?11座洲際冠軍,完成足壇大滿貫,這隊已穩坐豪門王座

還敢輕視嗎?11座洲際冠軍,完成足壇大滿貫,這隊已穩坐豪門王座

籃球圈里的那些事
2025-07-16 17:11:05
收視率全國第二,《新聞聯播》花11秒強推,央視這部黑馬大劇炸了

收視率全國第二,《新聞聯播》花11秒強推,央視這部黑馬大劇炸了

夢涵影娛
2025-07-17 10:53:52
維生素B2,可橫掃老年人4大慢性問題!

維生素B2,可橫掃老年人4大慢性問題!

品讀時刻
2025-07-06 09:06:03
國羽一哥拒絕翻車!決勝局一波流,石宇奇2-1伍家朗晉級8強

國羽一哥拒絕翻車!決勝局一波流,石宇奇2-1伍家朗晉級8強

釘釘陌上花開
2025-07-17 12:08:08
92%臺灣島民眾不支持統一,如果登島,解放軍會傷亡慘重嗎?

92%臺灣島民眾不支持統一,如果登島,解放軍會傷亡慘重嗎?

領悟看世界
2025-07-16 17:52:08
詹姆斯:3巨頭時代早就有了 喬丹&伯德&張伯倫都是3巨頭模式

詹姆斯:3巨頭時代早就有了 喬丹&伯德&張伯倫都是3巨頭模式

直播吧
2025-07-17 10:00:45
網友網戀一個月奔現,花千元、見了親戚,房事時摸到男性生殖器

網友網戀一個月奔現,花千元、見了親戚,房事時摸到男性生殖器

社會醬
2025-07-13 17:33:17
意媒:國米想簽盧克曼,與勞塔羅和小圖拉姆組成三叉戟

意媒:國米想簽盧克曼,與勞塔羅和小圖拉姆組成三叉戟

雷速體育
2025-07-17 12:39:48
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
仲星火:為再婚和家人決裂,病逝仍未和解,二婚妻子選擇令人淚目

仲星火:為再婚和家人決裂,病逝仍未和解,二婚妻子選擇令人淚目

洛子帥品評
2025-07-16 12:28:47
TOP15位身高170以上的女神,演技、身材、顏值綜合榜

TOP15位身高170以上的女神,演技、身材、顏值綜合榜

吃瓜黨二號頭目
2025-06-15 10:02:35
做完手術人就廢了,4種手術不需要做,別讓無知害了自己

做完手術人就廢了,4種手術不需要做,別讓無知害了自己

牛鍋巴小釩
2025-06-27 16:15:41
兩位單身陪讀媽媽,為引導青春期兒子,達成了瘋狂而齷齪的決定

兩位單身陪讀媽媽,為引導青春期兒子,達成了瘋狂而齷齪的決定

金花食雜店秘聞
2025-07-13 15:49:58
惡心的一幕出現了!再看施幼珍曾經說過的話,現在才懂她有多高明

惡心的一幕出現了!再看施幼珍曾經說過的話,現在才懂她有多高明

娛樂看阿敞
2025-07-16 18:24:59
美學暴擊!強迫癥狂喜的年度神作來了!

美學暴擊!強迫癥狂喜的年度神作來了!

仙味少女心
2025-07-16 10:21:24
德國開始交付金牛座遠程導彈,數百枚地堡粉碎機抵達,俄擔心成真

德國開始交付金牛座遠程導彈,數百枚地堡粉碎機抵達,俄擔心成真

流年拾光
2025-07-14 21:46:15
一個1.6億,一個僅2500萬,皇馬與巴薩夏窗投入懸殊,令人驚嘆

一個1.6億,一個僅2500萬,皇馬與巴薩夏窗投入懸殊,令人驚嘆

星耀國際足壇
2025-07-16 20:48:37
上海2025年養老金調整方案將公布,1959年出生,漲130元難嗎?

上海2025年養老金調整方案將公布,1959年出生,漲130元難嗎?

虎哥閑聊
2025-07-17 08:17:22
2025-07-17 13:35:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
308文章數 12關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

藝術
本地
游戲
數碼
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

《使命召喚》啟動青少年模式

數碼要聞

好看又能打!技嘉雕妹精選主機套裝閃耀BW全場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 刚察县| 松潘县| 芦山县| 永修县| 东乡县| 忻州市| 修武县| 重庆市| 仁寿县| 临武县| 徐州市| 汉中市| 鹤壁市| 淳安县| 封丘县| 裕民县| 隆安县| 库尔勒市| 雷波县| 成武县| 丹棱县| 广宗县| 江川县| 大新县| 民和| 旺苍县| 体育| 永济市| 海晏县| 北安市| 鱼台县| 永顺县| 南安市| 通化县| 太康县| 西乌珠穆沁旗| 乌兰察布市| 林周县| 安岳县| 通榆县| 靖宇县|