始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時,支持在線微調訓練,及線部署和。
長視頻理解是多模態大模型關鍵能力之一。盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領域取得顯著進展,當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。
智源研究院聯合上海交通大學等機構發布開源模型Video-XL-2,顯著提升長視頻理解能力,其核心亮點在于三個維度全面優化了開源多模態大模型對長視頻內容的理解能力:
效果更佳:Video-XL-2在長視頻理解任務中表現出色,在MLVU、Video-MME、LVBench等主流評測基準上達到了同參數規模開源模型的領先水平。
長度更長:新模型顯著擴展了可處理視頻的時長,支持在單張顯卡上高效處理長達萬幀的視頻輸入。
速度更快:Video-XL-2大幅提升了處理效率,編碼2048幀視頻僅需12秒,顯著加速長視頻理解流程。
未來,該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。目前,Video-XL-2的模型權重已上線始智AI-wisemodel開源社區,歡迎體驗。
模型地址
https://wisemodel.cn/models/lxrrrr/Video-XL-2
01.
技術簡介
在模型架構設計上,Video-XL-2主要由三個核心組件構成:視覺編碼器(Visual Encoder)、動態Token合成模塊(Dynamic Token Synthesis, DTS)以及大語言模型(LLM)。
Video-XL-2的模型架構示意圖
具體而言,Video-XL-2采用SigLIP-SO400M作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。
隨后,DTS模塊對這些視覺特征進行融合壓縮,并建模其時序關系,以提取更具語義的動態信息。
處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現模態對齊。最終,對齊后的視覺信息輸入至Qwen2.5-Instruct,以實現對視覺內容的理解與推理,并完成相應的下游任務。
在訓練策略上,Video-XL-2采用了四階段漸進式訓練的設計,逐步構建其強大的長視頻理解能力。
前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態對齊;
第三階段則引入更大規模,更高質量的圖像與視頻描述數據,初步奠定模型對視覺內容的理解能力;
第四階段,在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調,使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準確地理解和響應復雜的視覺指令。
Chunk-based Prefilling
Bi-granularity KV Decoding
此外,Video-XL-2還系統性設計了效率優化策略。
首先,Video-XL-2引入了分段式的預裝填策略(Chunk-based Prefilling,如圖3所示):將超長視頻劃分為若干連續的片段(chunk),在每個chunk內部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息。
該設計顯著降低了預裝填階段的計算成本與顯存開銷。其次,Video-XL-2還設計了基于雙粒度KV的解碼機制(Bi-granularity KV Decoding,如圖4所示):在推理過程中,模型會根據任務需求,選擇性地對關鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs)。
這一機制有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于上述策略的協同優化,Video-XL-2實現了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應用場景中的實用性。
02.
實驗效果
在模型具體表現方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流長視頻評測基準上全面超越現有所有輕量級開源模型,達成當前最先進性能(SOTA),相較第一代 Video-XL 實現了顯著提升。
尤其值得關注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數規模高達720億的大模型。
此外,在時序定位(Temporal Grounding)任務中,Video-XL-2也表現出色,在Charades-STA數據集上取得了領先的結果,進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。
Video-XL-2的全面對比結果
除了效果上的提升,Video-XL-2在視頻長度方面也展現出顯著優勢。如下圖所示,在單張24GB消費級顯卡(如 RTX 3090 / 4090)上,Video-XL-2可處理長達千幀的視頻;而在單張 80GB 高性能顯卡(如 A100 / H100)上,模型更支持萬幀級視頻輸入,遠超現有主流開源模型。
Video-XL-2輸入長度的對比展示
相較于VideoChat-Flash 和初代 Video-XL,Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復雜的視頻任務提供了有力的支撐。
最后,Video-XL-2在速度上也展現出卓越性能。
Video-XL-2僅需12秒即可完成2048幀視頻的預填充。更重要的是,其預填充時間與輸入幀數之間呈現出近似線性增長,體現了其出色的可擴展性。
Video-XL-2 Prefilling速度和輸入幀數的關系圖
相比之下,Video-XL與VideoChat-Flash 在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。
Video-XL-2 Prefilling速度的對比展示
03.
應用潛力
得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應用場景中展現出很高的應用潛力。例如,它可廣泛應用于影視內容分析、劇情理解、監控視頻中的異常行為檢測與安全預警等任務,為現實世界中的復雜視頻理解需求提供高效、精準的技術支撐。
以下是一些具體的例子,將展示Video-XL-2在實際應用中的潛力:
Example 1:電影情節問答
Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?
Answer: The phone’s color is red
Example 2:監控異常檢測
Question: Is there any unexpected event happening in this surveillance footage?
Answer: There is physical altercation between the customers and the store employees
Example 3: 影視作品內容總結
Example4:游戲直播內容總結
----- END -----
wisemodel相關:
系統升級:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.