網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AdaCM2：首個(gè)面向超長(zhǎng)視頻理解的跨模態(tài)自適應(yīng)記憶壓縮框架

2025-06-09 19:39:27　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文第一作者為前阿里巴巴達(dá)摩院高級(jí)技術(shù)專家，現(xiàn)一年級(jí)博士研究生滿遠(yuǎn)斌，研究方向?yàn)楦咝Ф嗄B(tài)大模型推理和生成系統(tǒng)。通信作者為第一作者的導(dǎo)師，UTA 計(jì)算機(jī)系助理教授尹淼。尹淼博士目前帶領(lǐng) 7 人的研究團(tuán)隊(duì)，主要研究方向?yàn)槎嗄B(tài)空間智能系統(tǒng)，致力于通過(guò)軟件和系統(tǒng)的聯(lián)合優(yōu)化設(shè)計(jì)實(shí)現(xiàn)空間人工智能的落地。

近年來(lái)，大語(yǔ)言模型（LLM）持續(xù)刷新著多模態(tài)理解的邊界。當(dāng)語(yǔ)言模型具備了「看視頻」的能力，視頻問(wèn)答、視頻摘要和字幕生成等任務(wù)正逐步邁入真正的智能階段。但一個(gè)現(xiàn)實(shí)難題亟待解決——如何高效理解超長(zhǎng)視頻？

為此，來(lái)自得克薩斯大學(xué)阿靈頓分校（UTA）計(jì)算機(jī)系研究團(tuán)隊(duì)提出了AdaCM2：首個(gè)支持超長(zhǎng)視頻理解的跨模態(tài)記憶壓縮框架。該研究已被CVPR 2025 正式接收，并榮獲Highlight 論文（接收率為 3%），展示出其在技術(shù)創(chuàng)新與實(shí)際價(jià)值上的雙重突破。

論文標(biāo)題：AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
論文地址：https://arxiv.org/pdf/2411.12593

背景：LLM 強(qiáng)大，長(zhǎng)視頻理解卻步

多模態(tài)視頻理解模型如 VideoLLaMA、VideoChat 等已經(jīng)在短視頻（5–15 秒）場(chǎng)景中表現(xiàn)優(yōu)異，能夠回答關(guān)于視頻內(nèi)容的自然語(yǔ)言問(wèn)題。但當(dāng)視頻長(zhǎng)度擴(kuò)展至分鐘級(jí)甚至小時(shí)級(jí)，模型的顯存瓶頸和冗余信息干擾問(wèn)題暴露無(wú)遺：

內(nèi)存消耗呈指數(shù)級(jí)上升，難以部署；
視覺(jué) Token 冗余嚴(yán)重，導(dǎo)致關(guān)鍵信息被淹沒(méi)；
文本與視頻之間缺乏精準(zhǔn)對(duì)齊機(jī)制。

AdaCM2 正是為解決這些核心問(wèn)題而生。

提出動(dòng)機(jī)：兩大關(guān)鍵觀察揭示「壓縮冗余」的機(jī)會(huì)

AdaCM2 的提出建立在對(duì)視頻與文本交互過(guò)程中的兩個(gè)核心觀察基礎(chǔ)上，揭示了現(xiàn)有模型在超長(zhǎng)視頻場(chǎng)景下的內(nèi)在局限：

觀察一：幀內(nèi)注意力稀疏性（Intra-Frame Sparsity）

在長(zhǎng)視頻的任意一幀中，只有極少數(shù)視覺(jué) Token 對(duì)當(dāng)前文本提示具有強(qiáng)相關(guān)性。絕大多數(shù)視覺(jué)信息對(duì)于回答文本問(wèn)題（如「她在和誰(shuí)說(shuō)話？」）是無(wú)關(guān)的。實(shí)驗(yàn)發(fā)現(xiàn)，這些注意力得分呈現(xiàn)出尾部偏置分布，意味著高價(jià)值信息集中在少數(shù) Token 中。

啟發(fā)：可以有選擇性地僅保留「重要的」視覺(jué) Token，而無(wú)需一視同仁處理全部幀內(nèi)容。

觀察二：層間語(yǔ)義冗余性（Layer-Wise Redundancy）

研究還發(fā)現(xiàn)，在深層網(wǎng)絡(luò)中，臨近幀之間的跨模態(tài)注意力相似度非常高，甚至在間隔較遠(yuǎn)的幀之間也存在冗余。這種高相似性意味著：多個(gè) Token 在不同時(shí)間或不同層次上表達(dá)了重復(fù)的語(yǔ)義信息。

啟發(fā)：應(yīng)該在不同層次上使用差異化的壓縮策略，從而動(dòng)態(tài)平衡信息保留與內(nèi)存占用。

這兩大觀察構(gòu)成了 AdaCM2 設(shè)計(jì)的基礎(chǔ)，驅(qū)動(dòng)出一整套可調(diào)、可解釋、可擴(kuò)展的「視頻記憶管理機(jī)制」。

創(chuàng)新：AdaCM2 提出跨模態(tài)動(dòng)態(tài)壓縮機(jī)制

為應(yīng)對(duì)長(zhǎng)視頻帶來(lái)的內(nèi)存挑戰(zhàn)，AdaCM2 首次引入了跨模態(tài)注意力驅(qū)動(dòng)的層級(jí)記憶壓縮策略。其核心思想是：「僅保留那些對(duì)文本提示最有意義的視覺(jué)信息」，并通過(guò)跨層級(jí)的策略自適應(yīng)完成壓縮，確保模型不丟關(guān)鍵信息。

關(guān)鍵技術(shù)點(diǎn)：

逐幀回歸式建模：AdaCM2 不再一次性輸入全部幀，而是逐幀處理并動(dòng)態(tài)更新記憶緩存，實(shí)現(xiàn)輕量但語(yǔ)義連續(xù)的建模。
跨模態(tài)注意力打分：通過(guò) Q-Former 模塊，模型在每一層中計(jì)算視覺(jué) Token 與文本提示之間的注意力權(quán)重，只保留注意力得分高的「關(guān)鍵信息 Token」。
分層壓縮機(jī)制：針對(duì)不同 Transformer 層中 Token 的冗余程度，設(shè)置可調(diào)的壓縮參數(shù)（α 和 β），實(shí)現(xiàn)更精細(xì)的內(nèi)存控制。

與 LLM 無(wú)縫對(duì)接：AdaCM2 支持與各種主流 LLM 對(duì)接，如 Vicuna-7B、FlanT5 等，僅需輕量微調(diào) Q-Former 模塊即可完成端到端訓(xùn)練。

實(shí)驗(yàn)結(jié)果：性能超越 SOTA + 顯存下降 65%

AdaCM2 在多個(gè)長(zhǎng)視頻標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了驗(yàn)證，包括：

LVU 分類任務(wù)：平均 Top-1 準(zhǔn)確率提升 4.5%，在「導(dǎo)演」「場(chǎng)景」等任務(wù)上領(lǐng)先所有方法；
COIN / Breakfast 行為理解任務(wù)：超過(guò) MA-LMM，展示更強(qiáng)泛化能力；
MSVD 視頻字幕生成：達(dá)到 189.4 CIDEr，領(lǐng)先現(xiàn)有 SOTA；
內(nèi)存效率：顯存使用下降 65%，在極端情況下依舊維持穩(wěn)定推理，支持處理超 2 小時(shí)長(zhǎng)視頻。

消融研究也顯示，若移除跨模態(tài)壓縮模塊或?qū)⑵涮鎿Q為隨機(jī)丟棄，模型性能將顯著下降，證明觀察驅(qū)動(dòng)設(shè)計(jì)的有效性。

應(yīng)用前景：多模態(tài)大模型的「長(zhǎng)時(shí)記憶」引擎

AdaCM2 的提出，為多模態(tài)模型賦予了「可控的長(zhǎng)時(shí)記憶能力」。這一能力不僅適用于傳統(tǒng)的視頻理解任務(wù)，還對(duì)以下未來(lái)應(yīng)用場(chǎng)景具有重要意義：

智能交通監(jiān)控：支持對(duì)全天候視頻的智能分析與摘要生成；
醫(yī)療手術(shù)記錄分析：自動(dòng)分析長(zhǎng)時(shí)間術(shù)中操作行為；
教育與會(huì)議記錄理解：提取關(guān)鍵片段并生成總結(jié)；
機(jī)器人感知：支持具備持續(xù)視覺(jué)記憶的具身智能體。

總結(jié)

AdaCM2 作為首個(gè)專注于極長(zhǎng)視頻理解的跨模態(tài)記憶壓縮框架，在大語(yǔ)言模型和視覺(jué)編碼器之間架起了一座高效的信息篩選橋梁。它不僅優(yōu)化了計(jì)算資源利用率，還拓展了多模態(tài) AI 在實(shí)際應(yīng)用中的邊界。隨著多模態(tài)大模型逐步走向落地，AdaCM2 的提出無(wú)疑將成為推動(dòng)長(zhǎng)視頻智能理解發(fā)展的關(guān)鍵技術(shù)。

該論文已被 CVPR 2025 接收并評(píng)為 Highlight 論文，充分體現(xiàn)其在長(zhǎng)視頻多模態(tài)建模領(lǐng)域的前瞻性與影響力。更多相關(guān)研究成果也即將在未來(lái)發(fā)布，敬請(qǐng)關(guān)注！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.