99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AdaCM2:首個面向超長視頻理解的跨模態(tài)自適應記憶壓縮框架

0
分享至



本文第一作者為前阿里巴巴達摩院高級技術專家,現(xiàn)一年級博士研究生滿遠斌,研究方向為高效多模態(tài)大模型推理和生成系統(tǒng)。通信作者為第一作者的導師,UTA 計算機系助理教授尹淼。尹淼博士目前帶領 7 人的研究團隊,主要研究方向為多模態(tài)空間智能系統(tǒng),致力于通過軟件和系統(tǒng)的聯(lián)合優(yōu)化設計實現(xiàn)空間人工智能的落地。

近年來,大語言模型(LLM)持續(xù)刷新著多模態(tài)理解的邊界。當語言模型具備了「看視頻」的能力,視頻問答、視頻摘要和字幕生成等任務正逐步邁入真正的智能階段。但一個現(xiàn)實難題亟待解決——如何高效理解超長視頻?

為此,來自得克薩斯大學阿靈頓分校(UTA)計算機系研究團隊提出了AdaCM2:首個支持超長視頻理解的跨模態(tài)記憶壓縮框架。該研究已被CVPR 2025 正式接收,并榮獲Highlight 論文(接收率為 3%),展示出其在技術創(chuàng)新與實際價值上的雙重突破。



  • 論文標題:AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
  • 論文地址:https://arxiv.org/pdf/2411.12593

背景:LLM 強大,長視頻理解卻步

多模態(tài)視頻理解模型如 VideoLLaMA、VideoChat 等已經(jīng)在短視頻(5–15 秒)場景中表現(xiàn)優(yōu)異,能夠回答關于視頻內(nèi)容的自然語言問題。但當視頻長度擴展至分鐘級甚至小時級,模型的顯存瓶頸和冗余信息干擾問題暴露無遺:

  • 內(nèi)存消耗呈指數(shù)級上升,難以部署;
  • 視覺 Token 冗余嚴重,導致關鍵信息被淹沒;
  • 文本與視頻之間缺乏精準對齊機制。

AdaCM2 正是為解決這些核心問題而生。



提出動機:兩大關鍵觀察揭示「壓縮冗余」的機會

AdaCM2 的提出建立在對視頻與文本交互過程中的兩個核心觀察基礎上,揭示了現(xiàn)有模型在超長視頻場景下的內(nèi)在局限:



觀察一:幀內(nèi)注意力稀疏性(Intra-Frame Sparsity)

在長視頻的任意一幀中,只有極少數(shù)視覺 Token 對當前文本提示具有強相關性。絕大多數(shù)視覺信息對于回答文本問題(如「她在和誰說話?」)是無關的。實驗發(fā)現(xiàn),這些注意力得分呈現(xiàn)出尾部偏置分布,意味著高價值信息集中在少數(shù) Token 中。

啟發(fā):可以有選擇性地僅保留「重要的」視覺 Token,而無需一視同仁處理全部幀內(nèi)容。

觀察二:層間語義冗余性(Layer-Wise Redundancy)

研究還發(fā)現(xiàn),在深層網(wǎng)絡中,臨近幀之間的跨模態(tài)注意力相似度非常高,甚至在間隔較遠的幀之間也存在冗余。這種高相似性意味著:多個 Token 在不同時間或不同層次上表達了重復的語義信息。

啟發(fā):應該在不同層次上使用差異化的壓縮策略,從而動態(tài)平衡信息保留與內(nèi)存占用。

這兩大觀察構成了 AdaCM2 設計的基礎,驅動出一整套可調、可解釋、可擴展的「視頻記憶管理機制」。

創(chuàng)新:AdaCM2 提出跨模態(tài)動態(tài)壓縮機制

為應對長視頻帶來的內(nèi)存挑戰(zhàn),AdaCM2 首次引入了跨模態(tài)注意力驅動的層級記憶壓縮策略。其核心思想是:「僅保留那些對文本提示最有意義的視覺信息」,并通過跨層級的策略自適應完成壓縮,確保模型不丟關鍵信息。



關鍵技術點:

  • 逐幀回歸式建模:AdaCM2 不再一次性輸入全部幀,而是逐幀處理并動態(tài)更新記憶緩存,實現(xiàn)輕量但語義連續(xù)的建模。
  • 跨模態(tài)注意力打分:通過 Q-Former 模塊,模型在每一層中計算視覺 Token 與文本提示之間的注意力權重,只保留注意力得分高的「關鍵信息 Token」。
  • 分層壓縮機制:針對不同 Transformer 層中 Token 的冗余程度,設置可調的壓縮參數(shù)(α 和 β),實現(xiàn)更精細的內(nèi)存控制。



  • 與 LLM 無縫對接:AdaCM2 支持與各種主流 LLM 對接,如 Vicuna-7B、FlanT5 等,僅需輕量微調 Q-Former 模塊即可完成端到端訓練。

實驗結果:性能超越 SOTA + 顯存下降 65%



AdaCM2 在多個長視頻標準數(shù)據(jù)集上進行了驗證,包括:

  • LVU 分類任務:平均 Top-1 準確率提升 4.5%,在「導演」「場景」等任務上領先所有方法;
  • COIN / Breakfast 行為理解任務:超過 MA-LMM,展示更強泛化能力;
  • MSVD 視頻字幕生成:達到 189.4 CIDEr,領先現(xiàn)有 SOTA;
  • 內(nèi)存效率:顯存使用下降 65%,在極端情況下依舊維持穩(wěn)定推理,支持處理超 2 小時長視頻。



消融研究也顯示,若移除跨模態(tài)壓縮模塊或將其替換為隨機丟棄,模型性能將顯著下降,證明觀察驅動設計的有效性。

應用前景:多模態(tài)大模型的「長時記憶」引擎

AdaCM2 的提出,為多模態(tài)模型賦予了「可控的長時記憶能力」。這一能力不僅適用于傳統(tǒng)的視頻理解任務,還對以下未來應用場景具有重要意義:

  • 智能交通監(jiān)控:支持對全天候視頻的智能分析與摘要生成;
  • 醫(yī)療手術記錄分析:自動分析長時間術中操作行為;
  • 教育與會議記錄理解:提取關鍵片段并生成總結;
  • 機器人感知:支持具備持續(xù)視覺記憶的具身智能體。

總結

AdaCM2 作為首個專注于極長視頻理解的跨模態(tài)記憶壓縮框架,在大語言模型和視覺編碼器之間架起了一座高效的信息篩選橋梁。它不僅優(yōu)化了計算資源利用率,還拓展了多模態(tài) AI 在實際應用中的邊界。隨著多模態(tài)大模型逐步走向落地,AdaCM2 的提出無疑將成為推動長視頻智能理解發(fā)展的關鍵技術。

該論文已被 CVPR 2025 接收并評為 Highlight 論文,充分體現(xiàn)其在長視頻多模態(tài)建模領域的前瞻性與影響力。更多相關研究成果也即將在未來發(fā)布,敬請關注!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
消失已久的賴昌星侄子賴文峰又露面,這次不是帶貨,而是為楊鈺瑩

消失已久的賴昌星侄子賴文峰又露面,這次不是帶貨,而是為楊鈺瑩

偵姐有料
2025-06-08 12:07:04
隨著葡萄牙力壓西班牙,歐國聯(lián)奪冠!金球先生基本出爐:21球23助

隨著葡萄牙力壓西班牙,歐國聯(lián)奪冠!金球先生基本出爐:21球23助

球場沒跑道
2025-06-09 07:38:22
李連杰罕見談4個女兒:前倆養(yǎng)的很湊合,利智生的,疼愛卻很笨拙

李連杰罕見談4個女兒:前倆養(yǎng)的很湊合,利智生的,疼愛卻很笨拙

頭號劇委會
2025-06-09 19:03:18
9日凌晨,38枚巡航導彈斬首!俄媒:已鎖定澤連斯基地下指揮中心

9日凌晨,38枚巡航導彈斬首!俄媒:已鎖定澤連斯基地下指揮中心

影孖看世界
2025-06-09 21:41:48
中國男籃公布集訓名單:張鎮(zhèn)麟、周琦領銜,趙維倫成唯一旅外球員

中國男籃公布集訓名單:張鎮(zhèn)麟、周琦領銜,趙維倫成唯一旅外球員

雷速體育
2025-06-09 21:08:24
北電杜英哲強奸上百名學生后續(xù)!律師曝新進展,多數(shù)都是未成年人

北電杜英哲強奸上百名學生后續(xù)!律師曝新進展,多數(shù)都是未成年人

我娛有約
2025-06-09 21:56:23
“我祖籍泰州,馬上能出戰(zhàn)!”前國腳毛劍卿自薦踢蘇超,體育局回應

“我祖籍泰州,馬上能出戰(zhàn)!”前國腳毛劍卿自薦踢蘇超,體育局回應

極目新聞
2025-06-09 17:05:20
求錘得錘!金磚國家考慮將印度趕出組織!由印度尼西亞取而代之!

求錘得錘!金磚國家考慮將印度趕出組織!由印度尼西亞取而代之!

阿龍聊軍事
2025-06-09 21:00:25
廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

廣東一公職人員出軌女下屬,不雅照流出:女下屬顏值爆表

農(nóng)村情感故事
2025-06-09 17:43:44
男子花6w撿漏奔馳,去4s店保養(yǎng)時,售后人員:這里多了一根線

男子花6w撿漏奔馳,去4s店保養(yǎng)時,售后人員:這里多了一根線

如煙若夢
2025-06-09 17:09:47
美國總統(tǒng)下令把所有戴口罩的全部抓起來

美國總統(tǒng)下令把所有戴口罩的全部抓起來

爆角追蹤
2025-06-09 20:11:46
夜場女孩為什么拒絕接吻?網(wǎng)友:這是行業(yè)內(nèi)最后的一絲尊嚴!

夜場女孩為什么拒絕接吻?網(wǎng)友:這是行業(yè)內(nèi)最后的一絲尊嚴!

特約前排觀眾
2025-06-10 00:05:09
薇婭悄悄復出?客服確認:出鏡模特就是她

薇婭悄悄復出?客服確認:出鏡模特就是她

21世紀經(jīng)濟報道
2025-06-09 13:00:47
波蘭媒體:球員們對主帥撤掉萊萬國家隊隊長的決定報以掌聲

波蘭媒體:球員們對主帥撤掉萊萬國家隊隊長的決定報以掌聲

懂球帝
2025-06-09 16:54:08
剛剛,以色列確認已將愛國者防空系統(tǒng)移交烏克蘭

剛剛,以色列確認已將愛國者防空系統(tǒng)移交烏克蘭

山河路口
2025-06-09 23:31:27
惡心一幕出現(xiàn)!男孩高考數(shù)學未涂卡,母親精神崩潰,網(wǎng)友一邊倒

惡心一幕出現(xiàn)!男孩高考數(shù)學未涂卡,母親精神崩潰,網(wǎng)友一邊倒

鋭娛之樂
2025-06-09 12:16:03
哈蘭德一劍封喉,43戰(zhàn)狂造47球!1-0豪取4連勝,意大利空歡喜一場

哈蘭德一劍封喉,43戰(zhàn)狂造47球!1-0豪取4連勝,意大利空歡喜一場

我的護球最獨特
2025-06-10 04:46:36
婚檢結果保密,致男方患HIV,醫(yī)生被停職!婚檢坑的全是醫(yī)生?

婚檢結果保密,致男方患HIV,醫(yī)生被停職!婚檢坑的全是醫(yī)生?

醫(yī)眼觀察
2025-06-09 16:11:57
巴特勒帶美女牌手亮相賭城,享受休賽期,35歲簽1.1億人生贏家

巴特勒帶美女牌手亮相賭城,享受休賽期,35歲簽1.1億人生贏家

大西體育
2025-06-09 16:44:57
馬斯克給蘋果下最后通牒:50億美元72小時,要么投降要么開戰(zhàn)

馬斯克給蘋果下最后通牒:50億美元72小時,要么投降要么開戰(zhàn)

徐德文科學頻道
2025-06-09 21:11:22
2025-06-10 06:47:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10607文章數(shù) 142336關注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發(fā)布"十年一遇"設計革命

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

頭條要聞

特朗普:不清楚馬斯克是否在白宮使用過毒品

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經(jīng)要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態(tài)度原創(chuàng)

旅游
親子
游戲
本地
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

希望以后也有這樣的實力

007遇上47,這會是最好的影視改編游戲嗎?"/> 主站 商城 論壇 自運營 登錄 注冊 007遇上47,這會是最好的影視改編游戲嗎? 廉頗 2025-...

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 迁安市| 纳雍县| 容城县| 山丹县| 民县| 姜堰市| 隆林| 桐城市| 文山县| 河津市| 吉首市| 麟游县| 札达县| 老河口市| 宝鸡市| 芒康县| 河北省| 定南县| 建始县| 酉阳| 金沙县| 瑞安市| 莱西市| 渑池县| 高要市| 邵阳市| 韶山市| 七台河市| 濉溪县| 霍邱县| 深水埗区| 北京市| 丹凤县| 莱阳市| 甘德县| 皮山县| 图木舒克市| 邢台县| 古浪县| 康定县| 肇东市|