99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CVPR 2025 Highlight | AdaCM2:首個面向超長視頻理解的跨模態自適應記憶壓縮框架

0
分享至

近年來,大語言模型(LLM)持續刷新著多模態理解的邊界。當語言模型具備了「看視頻」的能力,視頻問答、視頻摘要和字幕生成等任務正逐步邁入真正的智能階段。但一個現實難題亟待解決——如何高效理解超長視頻?

為此,來自得克薩斯大學阿靈頓分校(UTA)計算機系研究團隊提出了 AdaCM2:首個支持超長視頻理解的跨模態記憶壓縮框架。該研究已被 CVPR 2025 正式接收,并榮獲 Highlight 論文(接收率為 3%),展示出其在技術創新與實際價值上的雙重突破。


論文標題: AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction 論文地址: https://arxiv.org/pdf/2411.12593
一、背景:LLM 強大,長視頻理解卻步

多模態視頻理解模型如 VideoLLaMA、VideoChat 等已經在短視頻(5–15 秒)場景中表現優異,能夠回答關于視頻內容的自然語言問題。但當視頻長度擴展至分鐘級甚至小時級,模型的顯存瓶頸和冗余信息干擾問題暴露無遺:

  • 內存消耗呈指數級上升,難以部署;

  • 視覺 Token 冗余嚴重,導致關鍵信息被淹沒;

  • 文本與視頻之間缺乏精準對齊機制。

AdaCM2 正是為解決這些核心問題而生。


二、提出動機:兩大關鍵觀察揭示「壓縮冗余」的機會

AdaCM2 的提出建立在對視頻與文本交互過程中的兩個核心觀察基礎上,揭示了現有模型在超長視頻場景下的內在局限:


觀察一:幀內注意力稀疏性(Intra-Frame Sparsity)

在長視頻的任意一幀中,只有極少數視覺 Token 對當前文本提示具有強相關性。絕大多數視覺信息對于回答文本問題(如「她在和誰說話?」)是無關的。實驗發現,這些注意力得分呈現出尾部偏置分布,意味著高價值信息集中在少數 Token 中。

啟發: 可以有選擇性地僅保留「重要的」視覺 Token,而無需一視同仁處理全部幀內容。

觀察二:層間語義冗余性(Layer-Wise Redundancy)

研究還發現,在深層網絡中,臨近幀之間的跨模態注意力相似度非常高,甚至在間隔較遠的幀之間也存在冗余。這種高相似性意味著:多個 Token 在不同時間或不同層次上表達了重復的語義信息。

啟發: 應該在不同層次上使用差異化的壓縮策略,從而動態平衡信息保留與內存占用。

這兩大觀察構成了 AdaCM2 設計的基礎,驅動出一整套可調、可解釋、可擴展的「視頻記憶管理機制」。

三、創新:AdaCM2 提出跨模態動態壓縮機制

為應對長視頻帶來的內存挑戰,AdaCM2 首次引入了跨模態注意力驅動的層級記憶壓縮策略。其核心思想是:「僅保留那些對文本提示最有意義的視覺信息」,并通過跨層級的策略自適應完成壓縮,確保模型不丟關鍵信息。


關鍵技術點:

  • 逐幀回歸式建模:AdaCM2 不再一次性輸入全部幀,而是逐幀處理并動態更新記憶緩存,實現輕量但語義連續的建模。

  • 跨模態注意力打分:通過 Q-Former 模塊,模型在每一層中計算視覺 Token 與文本提示之間的注意力權重,只保留注意力得分高的「關鍵信息 Token」。

  • 分層壓縮機制:針對不同 Transformer 層中 Token 的冗余程度,設置可調的壓縮參數(α 和 β),實現更精細的內存控制。


  • 與 LLM 無縫對接:AdaCM2 支持與各種主流 LLM 對接,如 Vicuna-7B、FlanT5 等,僅需輕量微調 Q-Former 模塊即可完成端到端訓練。

四、實驗結果:性能超越 SOTA + 顯存下降 65%


AdaCM2 在多個長視頻標準數據集上進行了驗證,包括:

  • LVU 分類任務:平均 Top-1 準確率提升 4.5%,在「導演」「場景」等任務上領先所有方法;

  • COIN / Breakfast 行為理解任務:超過 MA-LMM,展示更強泛化能力;

  • MSVD 視頻字幕生成:達到 189.4 CIDEr,領先現有 SOTA;

  • 內存效率:顯存使用下降 65%,在極端情況下依舊維持穩定推理,支持處理超 2 小時長視頻。


消融研究也顯示,若移除跨模態壓縮模塊或將其替換為隨機丟棄,模型性能將顯著下降,證明觀察驅動設計的有效性。

五、應用前景:多模態大模型的「長時記憶」引擎

AdaCM2 的提出,為多模態模型賦予了「可控的長時記憶能力」。這一能力不僅適用于傳統的視頻理解任務,還對以下未來應用場景具有重要意義:

  • 智能交通監控:支持對全天候視頻的智能分析與摘要生成;

  • 醫療手術記錄分析:自動分析長時間術中操作行為;

  • 教育與會議記錄理解:提取關鍵片段并生成總結;

  • 機器人感知:支持具備持續視覺記憶的具身智能體。

六、總結

AdaCM2 作為首個專注于極長視頻理解的跨模態記憶壓縮框架,在大語言模型和視覺編碼器之間架起了一座高效的信息篩選橋梁。它不僅優化了計算資源利用率,還拓展了多模態 AI 在實際應用中的邊界。隨著多模態大模型逐步走向落地,AdaCM2 的提出無疑將成為推動長視頻智能理解發展的關鍵技術。

作者:滿遠斌 來源:公眾號【機器之心】

llustration From IconScout By Navved Hassain

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
闊別7年,姜文攥了一個全明星局!《你行!你上!》官宣定檔

闊別7年,姜文攥了一個全明星局!《你行!你上!》官宣定檔

現代快報
2025-06-25 17:07:20
太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
705分奪魁!695分登頂!2025河北高考高分段“井噴”!

705分奪魁!695分登頂!2025河北高考高分段“井噴”!

童言不輕
2025-06-25 15:27:47
六年前因批評鴻茅藥酒,被跨省追捕的醫學碩士,今生命進入倒計時

六年前因批評鴻茅藥酒,被跨省追捕的醫學碩士,今生命進入倒計時

素衣讀史
2024-12-25 11:12:50
歐豪,第二個謝霆鋒!

歐豪,第二個謝霆鋒!

宛沐
2025-06-25 16:00:07
清華學霸殺妻再開庭:早已感情破裂,大量細節披露,最后影像曝光

清華學霸殺妻再開庭:早已感情破裂,大量細節披露,最后影像曝光

壹月情感
2025-06-24 23:22:10
三笘薰與妻子在鐮倉舉辦婚禮,多名日本國腳出席

三笘薰與妻子在鐮倉舉辦婚禮,多名日本國腳出席

懂球帝
2025-06-25 11:08:47
湖南高分段600分以上1.8萬考生,為何難上湖大? 如何突圍報志愿?

湖南高分段600分以上1.8萬考生,為何難上湖大? 如何突圍報志愿?

戶外小阿隋
2025-06-25 16:01:36
賺麻了!當初綠軍8換2得到霍勒迪、波神,送出的球員發展如何?

賺麻了!當初綠軍8換2得到霍勒迪、波神,送出的球員發展如何?

大衛的籃球故事
2025-06-25 20:25:27
江青警衛回憶:雖沒有抱過外孫,卻不是沒有感情,跪求主席救李訥

江青警衛回憶:雖沒有抱過外孫,卻不是沒有感情,跪求主席救李訥

紀實文錄
2025-06-25 16:39:32
互聯網公司現海王總監,一人擁有200美女

互聯網公司現海王總監,一人擁有200美女

清暉有墨
2025-06-25 12:48:59
局地11級左右雷暴大風或弱龍卷!江蘇發布預警

局地11級左右雷暴大風或弱龍卷!江蘇發布預警

環球網資訊
2025-06-25 19:04:13
湖南某幼兒園監控下最觸目驚心的一幕:病態群體,早該曝光了

湖南某幼兒園監控下最觸目驚心的一幕:病態群體,早該曝光了

小椰子專欄
2025-06-25 13:04:17
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

未央看點
2025-06-24 01:32:07
黃埔拆遷戶:哭!我拿著250萬房票,買不到房

黃埔拆遷戶:哭!我拿著250萬房票,買不到房

童童聊娛樂啊
2025-06-25 14:39:54
博主探店一碗面558元還要收筷子費?杭州面館店長:明碼標價,配合拍4小時反遭網暴

博主探店一碗面558元還要收筷子費?杭州面館店長:明碼標價,配合拍4小時反遭網暴

瀟湘晨報
2025-06-24 12:31:54
烏克蘭量產新型彈道導彈 稱將給俄羅斯帶來新“驚喜”

烏克蘭量產新型彈道導彈 稱將給俄羅斯帶來新“驚喜”

財聯社
2025-06-25 19:52:08
北京一直在偷偷地救市

北京一直在偷偷地救市

地產八卦女
2025-06-25 17:44:41
研究預測:大批超級富翁將離開歐洲,前往…...

研究預測:大批超級富翁將離開歐洲,前往…...

萍聚德國
2025-06-25 00:17:45
2025-06-25 21:19:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

數碼
旅游
教育
房產
公開課

數碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

暑假趕緊讓孩子讀這些范文

房產要聞

三亞頂豪!內部資料曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜城市| 平顺县| 蒙城县| 临汾市| 肇源县| 调兵山市| 淮北市| 曲靖市| 昭觉县| 西宁市| 泸溪县| 四川省| 丁青县| 乌拉特前旗| 德令哈市| 莒南县| 海兴县| 巫溪县| 栾川县| 辽源市| 西昌市| 藁城市| 阳西县| 辉南县| 南康市| 永新县| 酒泉市| 栾城县| 五家渠市| 文水县| 庆安县| 当阳市| 叙永县| 安福县| 衢州市| 茌平县| 抚州市| 嘉荫县| 崇文区| 丰宁| 前郭尔|