網易首頁 > 網易號 > 正文申請入駐

ViLAMP-7B登頂長視頻理解，單卡解析3小時視頻

2025-05-27 18:19:51　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

在視覺語言模型（Vision-Language Models，VLMs）取得突破性進展的當下，長視頻理解的挑戰顯得愈發重要。以標準 24 幀率的標清視頻為例，僅需數分鐘即可產生逾百萬的視覺 token，這已遠超主流大語言模型 4K-128K 的上下文處理極限。

當面對影視級的長視頻內容時，傳統解決方案的不足愈加凸顯：粗放式的幀采樣策略往往造成關鍵幀信息遺漏，而特征融合方法雖能降低數據維度，卻不可避免地導致語義完整性受損。

近日，螞蟻和人大的研究團隊帶來了一個創新性的解決方案。他們提出視覺語言大模型 ViLAMP，實現了對超長視頻的高效處理。

這個方法的核心在于其獨特的 “混合精度” 策略：對視頻中的關鍵內容保持高精度分析，而對次要內容進行強力壓縮，就像人類在觀看視頻時會重點關注關鍵場景，而對過渡時空信息只做快速掃描一樣。ViLAMP已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/models/orangesk/ViLAMP-llava-qwen

01.

ViLAMP萬幀優解

ViLAMP 在 Video-MME 等五個主流視頻理解基準上實驗結果令人振奮，全面超越現有方案，特別是在處理長視頻時展現出顯著優勢。更重要的是，它可以在單張 A100 GPU 上連續處理長達 1 萬幀（按每秒 1 幀計算約 3 小時）的視頻內容，同時保持穩定的理解準確率。這一突破不僅大大提升了視頻處理效率，更為在線教育、視頻監控、直播分析等實際應用場景帶來了新的可能。

橫軸：處理的視頻幀數（從 0 到 10,000 幀），縱軸： GPU 內存使用量（MB）。測試在單塊 NVIDIA A100 GPU 上進行。

VideoNIAH（視頻版本大海撈針任務）測試結果。橫軸：視頻總長度（2K-10K 幀）；縱軸：表示目標視頻在完整視頻中的相對位置（0% 表示在開頭，100% 表示在結尾）。

02.

視頻信息的時空特性

為解決長視頻處理的效率問題，研究團隊首先對主流視覺語言模型（包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA）進行了系統性分析，發現了視頻信息在時間和空間上均存在顯著的稀疏性和冗余性：

1. 幀間注意力分析：在現有模型中，用戶 Query 對相應視頻的注意力高度集中 ——90% 的注意力僅分布在不到 5% 的視頻幀上（稱為關鍵幀）。更重要的是，這 5% 的關鍵幀之間往往存在很強的視覺相似度。

2. 幀內注意力分析：在每一幀的內部，模型的注意力也展現出相似的稀疏性質 ——50% 的 patch（幀劃分的最小單位）就承載了 80% 的模型注意力，但這些受關注的 patch 與關鍵幀中的對應 patch 具有遠超隨機基線水平的相似度。

這一發現表明現有模型在處理視頻時存在大量計算資源的浪費。實際上，處理長視頻不需要對每一幀、每個 patch 都投入同樣的計算量。基于此，研究團隊提出 “差分蒸餾原則”（Differential Distill Principle）：識別并保留重要的視頻信息，同時壓縮那些雖然相關但高度冗余的信息。

其中，重要信息應該同時滿足兩個條件：（1）高查詢相關性：與當前用戶 Query 高度相關；（2）低信息冗余性：包含獨特的視頻信息。這一原則為后續設計高效的視頻處理算法奠定了理論基礎。

03.

差分蒸餾雙精架構

前文的注意力分析揭示了一個關鍵問題：現有視覺語言模型對視頻中所有幀和 patch 都采用相同的處理方式，導致大量計算資源的浪費。基于這一認識，研究團隊提出了專門面向長視頻處理的高效架構 ViLAMP，它能夠根據信息的重要程度自適應地分配計算資源。

ViLAMP 模型結構圖

ViLAMP 通過層次化的壓縮框架實現這一策略：在幀級別，對重要的關鍵幀保留完整的視覺 token 表示，以捕獲關鍵信息；而對于非關鍵幀，則采用強力壓縮策略；在 patch 級別，通過差分機制增大重要 patch 的權重。

模型具體包含兩個核心機制：

1. 差分關鍵幀選擇（Differential Keyframe Selection，DKS）

為實現關鍵幀的高效識別，ViLAMP 采用了基于貪心策略的選擇算法。該算法在最大化與用戶 Query 的相關性的同時，通過差分機制降低幀間冗余，確保選中的關鍵幀既重要又多樣化。

2. 差分特征合并（Differential Feature Merging，DFM）

針對非關鍵幀的處理，ViLAMP 創新性地通過差分加權池化，將每個非關鍵幀壓縮為單個信息量最大化的 token。在壓縮過程中，模型賦予那些與用戶 Query 相關且具有獨特性的 patch 較高的權重，同時降低與相鄰的關鍵幀有顯著重復的 patch 的權重，從而在大幅降低計算量的同時保留關鍵信息。

這種雙層混合精度架構既確保了模型能夠準確捕獲視頻中的關鍵信息，又顯著降低了計算開銷。

04.

全面超越現有方案

在五個主流視頻理解基準上的實驗表明：

1. 高效能與強性能：ViLAMP 以 7B 參數量達到或超越了部分 70B 量級模型的表現，特別是在 Video-MME 長視頻子集上比現有最優模型提升 4.8%。

2.解決視頻長度不足的問題：針對當前視頻理解基準中視頻長度不足的問題，本文提出了面向視頻理解場景的 “大海撈針” 任務 ——VideoNIAH。該任務將一段目標短視頻（1 分鐘以內）插入到小時級別的長視頻中，要求模型在不依賴先驗信息的情況下，從超長視頻上下文中定位并理解該片段，進而回答相關問題。

與傳統基于文本的 NIAH 任務不同，VideoNIAH 中的答案無法直接從視頻對應的文本描述中提取。因此，該任務本質上更具挑戰性，難以達到語言模型在文本 NIAH 任務中所表現出的近乎完美的準確率（例如 99%）。

VideoNIAH 任務的性能上限受限于模型對目標短視頻原始 QA 的理解水平，進一步凸顯了該任務對視頻內容深層次理解能力的嚴格要求。

在這一新提出的超長視頻理解基準上，ViLAMP 在處理包含 10K 幀（約 3 小時）的視頻時仍能保持 58.15% 的準確率（原始 QA 數據集準確率 78.9%），超越 VideoChat-Flash 基線模型 12.82%，展現出較強的長視頻建模能力。

3. 計算效率顯著提升：內存消耗相比 LLaMA-VID 基線降低約 50%，在 8,192 幀情況下計算量減少 80% 以上。

4. 深入的消融實驗表明：與已有的關鍵幀選擇方案相比，DKS 在長視頻場景下表現出明顯優勢；與 Q-former 和平均池化等特征融合方案相比，DFM 在所有數據集上都展現出 3 個百分點以上的性能優勢。

模型表現

計算效率對比

ViLAMP 通過創新的差分蒸餾框架成功突破了長視頻處理的計算瓶頸，不僅在性能上實現了飛躍，更為視頻理解領域提供了新的研究思路。該工作的原理性貢獻和實用價值將推動視頻理解技術在更多實際場景中的落地應用。期待未來看到更多基于此框架的創新發展。

編輯丨趙雅鑫

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.