網易首頁 > 網易號 > 正文申請入駐

CVPR 2025 Highlight | AdaCM2：首個面向超長視頻理解的跨模態自適應記憶壓縮框架

2025-06-17 08:51:38　來源: 將門創投

北京舉報

分享至

近年來，大語言模型（LLM）持續刷新著多模態理解的邊界。當語言模型具備了「看視頻」的能力，視頻問答、視頻摘要和字幕生成等任務正逐步邁入真正的智能階段。但一個現實難題亟待解決——如何高效理解超長視頻？

為此，來自得克薩斯大學阿靈頓分校（UTA）計算機系研究團隊提出了 AdaCM2：首個支持超長視頻理解的跨模態記憶壓縮框架。該研究已被 CVPR 2025 正式接收，并榮獲 Highlight 論文（接收率為 3%），展示出其在技術創新與實際價值上的雙重突破。

論文標題： AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction 論文地址： https://arxiv.org/pdf/2411.12593

一、背景：LLM 強大，長視頻理解卻步

多模態視頻理解模型如 VideoLLaMA、VideoChat 等已經在短視頻（5–15 秒）場景中表現優異，能夠回答關于視頻內容的自然語言問題。但當視頻長度擴展至分鐘級甚至小時級，模型的顯存瓶頸和冗余信息干擾問題暴露無遺：

內存消耗呈指數級上升，難以部署；
視覺 Token 冗余嚴重，導致關鍵信息被淹沒；
文本與視頻之間缺乏精準對齊機制。

AdaCM2 正是為解決這些核心問題而生。

二、提出動機：兩大關鍵觀察揭示「壓縮冗余」的機會

AdaCM2 的提出建立在對視頻與文本交互過程中的兩個核心觀察基礎上，揭示了現有模型在超長視頻場景下的內在局限：

觀察一：幀內注意力稀疏性（Intra-Frame Sparsity）

在長視頻的任意一幀中，只有極少數視覺 Token 對當前文本提示具有強相關性。絕大多數視覺信息對于回答文本問題（如「她在和誰說話？」）是無關的。實驗發現，這些注意力得分呈現出尾部偏置分布，意味著高價值信息集中在少數 Token 中。

啟發：可以有選擇性地僅保留「重要的」視覺 Token，而無需一視同仁處理全部幀內容。

觀察二：層間語義冗余性（Layer-Wise Redundancy）

研究還發現，在深層網絡中，臨近幀之間的跨模態注意力相似度非常高，甚至在間隔較遠的幀之間也存在冗余。這種高相似性意味著：多個 Token 在不同時間或不同層次上表達了重復的語義信息。

啟發：應該在不同層次上使用差異化的壓縮策略，從而動態平衡信息保留與內存占用。

這兩大觀察構成了 AdaCM2 設計的基礎，驅動出一整套可調、可解釋、可擴展的「視頻記憶管理機制」。

三、創新：AdaCM2 提出跨模態動態壓縮機制

為應對長視頻帶來的內存挑戰，AdaCM2 首次引入了跨模態注意力驅動的層級記憶壓縮策略。其核心思想是：「僅保留那些對文本提示最有意義的視覺信息」，并通過跨層級的策略自適應完成壓縮，確保模型不丟關鍵信息。

關鍵技術點：

逐幀回歸式建模：AdaCM2 不再一次性輸入全部幀，而是逐幀處理并動態更新記憶緩存，實現輕量但語義連續的建模。
跨模態注意力打分：通過 Q-Former 模塊，模型在每一層中計算視覺 Token 與文本提示之間的注意力權重，只保留注意力得分高的「關鍵信息 Token」。
分層壓縮機制：針對不同 Transformer 層中 Token 的冗余程度，設置可調的壓縮參數（α 和 β），實現更精細的內存控制。

與 LLM 無縫對接：AdaCM2 支持與各種主流 LLM 對接，如 Vicuna-7B、FlanT5 等，僅需輕量微調 Q-Former 模塊即可完成端到端訓練。

四、實驗結果：性能超越 SOTA + 顯存下降 65%

AdaCM2 在多個長視頻標準數據集上進行了驗證，包括：

LVU 分類任務：平均 Top-1 準確率提升 4.5%，在「導演」「場景」等任務上領先所有方法；
COIN / Breakfast 行為理解任務：超過 MA-LMM，展示更強泛化能力；
MSVD 視頻字幕生成：達到 189.4 CIDEr，領先現有 SOTA；
內存效率：顯存使用下降 65%，在極端情況下依舊維持穩定推理，支持處理超 2 小時長視頻。

消融研究也顯示，若移除跨模態壓縮模塊或將其替換為隨機丟棄，模型性能將顯著下降，證明觀察驅動設計的有效性。

五、應用前景：多模態大模型的「長時記憶」引擎

AdaCM2 的提出，為多模態模型賦予了「可控的長時記憶能力」。這一能力不僅適用于傳統的視頻理解任務，還對以下未來應用場景具有重要意義：

智能交通監控：支持對全天候視頻的智能分析與摘要生成；
醫療手術記錄分析：自動分析長時間術中操作行為；
教育與會議記錄理解：提取關鍵片段并生成總結；
機器人感知：支持具備持續視覺記憶的具身智能體。

六、總結

AdaCM2 作為首個專注于極長視頻理解的跨模態記憶壓縮框架，在大語言模型和視覺編碼器之間架起了一座高效的信息篩選橋梁。它不僅優化了計算資源利用率，還拓展了多模態 AI 在實際應用中的邊界。隨著多模態大模型逐步走向落地，AdaCM2 的提出無疑將成為推動長視頻智能理解發展的關鍵技術。

作者：滿遠斌來源：公眾號【機器之心】

llustration From IconScout By Navved Hassain

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.