網易首頁 > 網易號 > 正文申請入駐

單卡也能跑萬幀！智源發布Video-XL-2，速度、效果、長度全拉滿

2025-06-03 12:16:37　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧 Aeneas

【新智元導讀】智源研究院發布開源模型Video-XL-2，顯著提升長視頻理解能力。該模型在效果、處理長度與速度上全面優化，支持單卡處理萬幀視頻，編碼2048幀僅需12秒。

長視頻理解是多模態大模型關鍵能力之一。

盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領域取得顯著進展，當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。

近日，智源研究院聯合上海交通大學等機構，正式發布新一代超長視頻理解模型：Video-XL-2。相較于上一版本的Video-XL，該模型在多個維度全面優化了多模態大模型對長視頻內容的理解能力：

效果更佳：Video-XL-2在長視頻理解任務中表現出色，在MLVU、Video-MME、LVBench等主流評測基準上達到了同參數規模開源模型的領先水平。
長度更長：新模型顯著擴展了可處理視頻的時長，支持在單張顯卡上高效處理長達萬幀的視頻輸入。
速度更快：Video-XL-2大幅提升了處理效率，編碼2048幀視頻僅需12秒，顯著加速長視頻理解流程。

目前，Video-XL-2的模型權重已全面向社區開放。未來，該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。

項目主頁：https://unabletousegit.github.io/video-xl2.github.io/

模型HF鏈接：https://huggingface.co/BAAI/Video-XL-2

倉庫鏈接：https://github.com/VectorSpaceLab/Video-XL

技術簡介

圖1：Video-XL-2的模型架構示意圖

在模型架構設計上，Video-XL-2主要由三個核心組件構成：視覺編碼器（Visual Encoder）、動態Token合成模塊（Dynamic Token Synthesis, DTS）以及大語言模型（LLM）。

具體而言，Video-XL-2采用SigLIP-SO400M作為視覺編碼器，對輸入視頻進行逐幀處理，將每一幀編碼為高維視覺特征。

隨后，DTS模塊對這些視覺特征進行融合壓縮，并建模其時序關系，以提取更具語義的動態信息。

處理后的視覺表征通過平均池化與多層感知機（MLP）進一步映射到文本嵌入空間，實現模態對齊。最終，對齊后的視覺信息輸入至Qwen2.5-Instruct，以實現對視覺內容的理解與推理，并完成相應的下游任務。

圖2：Video-XL-2的訓練階段示意圖

在訓練策略上，Video-XL-2采用了四階段漸進式訓練的設計，逐步構建其強大的長視頻理解能力。

前兩個階段主要利用圖像/視頻-文本對，完成DTS模塊的初始化與跨模態對齊；

第三階段則引入更大規模，更高質量的圖像與視頻描述數據，初步奠定模型對視覺內容的理解能力；

第四階段，在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調，使Video-XL-2的視覺理解能力得到進一步提升與強化，從而能夠更準確地理解和響應復雜的視覺指令。

圖3. Chunk-based Prefilling

圖4. Bi-granularity KV Decoding

此外，Video-XL-2還系統性設計了效率優化策略。

首先，Video-XL-2引入了分段式的預裝填策略（Chunk-based Prefilling，如圖3所示）：將超長視頻劃分為若干連續的片段（chunk），在每個chunk內部使用稠密注意力機制進行編碼，而不同chunk之間則通過時間戳傳遞上下文信息。

該設計顯著降低了預裝填階段的計算成本與顯存開銷。其次，Video-XL-2還設計了基于雙粒度KV的解碼機制（Bi-granularity KV Decoding，如圖4所示）：在推理過程中，模型會根據任務需求，選擇性地對關鍵片段加載完整的KVs（dense KVs），而對其他次要片段僅加載降采樣后的稀疏的KVs（sparse KVs）。

這一機制有效縮短了推理窗口長度，從而大幅提升解碼效率。得益于上述策略的協同優化，Video-XL-2實現了在單張顯卡上對萬幀級視頻的高效推理，顯著增強了其在實際應用場景中的實用性。

實驗效果

圖5：Video-XL-2的主要對比結果

表1：Video-XL-2的全面對比結果

在模型具體表現方面，Video-XL-2在MLVU、VideoMME和LVBench等主流長視頻評測基準上全面超越現有所有輕量級開源模型，達成當前最先進性能（SOTA），相較第一代Video-XL實現了顯著提升。

尤其值得關注的是，在MLVU和LVBench上，Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數規模高達720億的大模型。

此外，在時序定位（Temporal Grounding）任務中，Video-XL-2也表現出色，在Charades-STA數據集上取得了領先的結果，進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。

圖6：Video-XL-2輸入長度的對比展示

除了效果上的提升，Video-XL-2在視頻長度方面也展現出顯著優勢。

如圖6所示，在單張24GB消費級顯卡（如RTX 3090 / 4090）上，Video-XL-2可處理長達千幀的視頻；而在單張80GB高性能顯卡（如A100 / H100）上，模型更支持萬幀級視頻輸入，遠超現有主流開源模型。

相較于VideoChat-Flash和初代Video-XL，Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求，為處理復雜的視頻任務提供了有力的支撐。

圖7：Video-XL-2 Prefilling速度的對比展示

圖8：Video-XL-2 Prefilling速度和輸入幀數的關系圖

最后，Video-XL-2在速度上也展現出卓越性能。如上圖8所示，Video-XL-2僅需12秒即可完成2048幀視頻的預填充。

更重要的是，其預填充時間與輸入幀數之間呈現出近似線性增長，體現了其出色的可擴展性。

相比之下，Video-XL與VideoChat-Flash在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。

應用潛力

以下是一些具體的例子，將展示Video-XL-2在實際應用中的巨大潛力：

Example 1：電影情節問答

Question:A bald man wearing a green coat is speaking on the phone. What color is the phone?

Answer:The phone’s color is red

Example 2：監控異常檢測

Question:Is there any unexpected event happening in this surveillance footage?

Answer:There is physical altercation between the customers and the store employees

Example 3: 影視作品內容總結

Example4：游戲直播內容總結

得益于出色的視頻理解能力與對超長視頻的高效處理性能，Video-XL-2在多種實際應用場景中展現出很高的應用潛力。

例如，它可廣泛應用于影視內容分析、劇情理解、監控視頻中的異常行為檢測與安全預警等任務，為現實世界中的復雜視頻理解需求提供高效、精準的技術支撐。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.