99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AdaCM2:首個(gè)面向超長(zhǎng)視頻理解的跨模態(tài)自適應(yīng)記憶壓縮框架

0
分享至



本文第一作者為前阿里巴巴達(dá)摩院高級(jí)技術(shù)專家,現(xiàn)一年級(jí)博士研究生滿遠(yuǎn)斌,研究方向?yàn)楦咝Ф嗄B(tài)大模型推理和生成系統(tǒng)。通信作者為第一作者的導(dǎo)師,UTA 計(jì)算機(jī)系助理教授尹淼。尹淼博士目前帶領(lǐng) 7 人的研究團(tuán)隊(duì),主要研究方向?yàn)槎嗄B(tài)空間智能系統(tǒng),致力于通過(guò)軟件和系統(tǒng)的聯(lián)合優(yōu)化設(shè)計(jì)實(shí)現(xiàn)空間人工智能的落地。

近年來(lái),大語(yǔ)言模型(LLM)持續(xù)刷新著多模態(tài)理解的邊界。當(dāng)語(yǔ)言模型具備了「看視頻」的能力,視頻問(wèn)答、視頻摘要和字幕生成等任務(wù)正逐步邁入真正的智能階段。但一個(gè)現(xiàn)實(shí)難題亟待解決——如何高效理解超長(zhǎng)視頻?

為此,來(lái)自得克薩斯大學(xué)阿靈頓分校(UTA)計(jì)算機(jī)系研究團(tuán)隊(duì)提出了AdaCM2:首個(gè)支持超長(zhǎng)視頻理解的跨模態(tài)記憶壓縮框架。該研究已被CVPR 2025 正式接收,并榮獲Highlight 論文(接收率為 3%),展示出其在技術(shù)創(chuàng)新與實(shí)際價(jià)值上的雙重突破。



  • 論文標(biāo)題:AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction
  • 論文地址:https://arxiv.org/pdf/2411.12593

背景:LLM 強(qiáng)大,長(zhǎng)視頻理解卻步

多模態(tài)視頻理解模型如 VideoLLaMA、VideoChat 等已經(jīng)在短視頻(5–15 秒)場(chǎng)景中表現(xiàn)優(yōu)異,能夠回答關(guān)于視頻內(nèi)容的自然語(yǔ)言問(wèn)題。但當(dāng)視頻長(zhǎng)度擴(kuò)展至分鐘級(jí)甚至小時(shí)級(jí),模型的顯存瓶頸和冗余信息干擾問(wèn)題暴露無(wú)遺:

  • 內(nèi)存消耗呈指數(shù)級(jí)上升,難以部署;
  • 視覺(jué) Token 冗余嚴(yán)重,導(dǎo)致關(guān)鍵信息被淹沒(méi);
  • 文本與視頻之間缺乏精準(zhǔn)對(duì)齊機(jī)制。

AdaCM2 正是為解決這些核心問(wèn)題而生。



提出動(dòng)機(jī):兩大關(guān)鍵觀察揭示「壓縮冗余」的機(jī)會(huì)

AdaCM2 的提出建立在對(duì)視頻與文本交互過(guò)程中的兩個(gè)核心觀察基礎(chǔ)上,揭示了現(xiàn)有模型在超長(zhǎng)視頻場(chǎng)景下的內(nèi)在局限:



觀察一:幀內(nèi)注意力稀疏性(Intra-Frame Sparsity)

在長(zhǎng)視頻的任意一幀中,只有極少數(shù)視覺(jué) Token 對(duì)當(dāng)前文本提示具有強(qiáng)相關(guān)性。絕大多數(shù)視覺(jué)信息對(duì)于回答文本問(wèn)題(如「她在和誰(shuí)說(shuō)話?」)是無(wú)關(guān)的。實(shí)驗(yàn)發(fā)現(xiàn),這些注意力得分呈現(xiàn)出尾部偏置分布,意味著高價(jià)值信息集中在少數(shù) Token 中。

啟發(fā):可以有選擇性地僅保留「重要的」視覺(jué) Token,而無(wú)需一視同仁處理全部幀內(nèi)容。

觀察二:層間語(yǔ)義冗余性(Layer-Wise Redundancy)

研究還發(fā)現(xiàn),在深層網(wǎng)絡(luò)中,臨近幀之間的跨模態(tài)注意力相似度非常高,甚至在間隔較遠(yuǎn)的幀之間也存在冗余。這種高相似性意味著:多個(gè) Token 在不同時(shí)間或不同層次上表達(dá)了重復(fù)的語(yǔ)義信息。

啟發(fā):應(yīng)該在不同層次上使用差異化的壓縮策略,從而動(dòng)態(tài)平衡信息保留與內(nèi)存占用。

這兩大觀察構(gòu)成了 AdaCM2 設(shè)計(jì)的基礎(chǔ),驅(qū)動(dòng)出一整套可調(diào)、可解釋、可擴(kuò)展的「視頻記憶管理機(jī)制」。

創(chuàng)新:AdaCM2 提出跨模態(tài)動(dòng)態(tài)壓縮機(jī)制

為應(yīng)對(duì)長(zhǎng)視頻帶來(lái)的內(nèi)存挑戰(zhàn),AdaCM2 首次引入了跨模態(tài)注意力驅(qū)動(dòng)的層級(jí)記憶壓縮策略。其核心思想是:「僅保留那些對(duì)文本提示最有意義的視覺(jué)信息」,并通過(guò)跨層級(jí)的策略自適應(yīng)完成壓縮,確保模型不丟關(guān)鍵信息。



關(guān)鍵技術(shù)點(diǎn):

  • 逐幀回歸式建模:AdaCM2 不再一次性輸入全部幀,而是逐幀處理并動(dòng)態(tài)更新記憶緩存,實(shí)現(xiàn)輕量但語(yǔ)義連續(xù)的建模。
  • 跨模態(tài)注意力打分:通過(guò) Q-Former 模塊,模型在每一層中計(jì)算視覺(jué) Token 與文本提示之間的注意力權(quán)重,只保留注意力得分高的「關(guān)鍵信息 Token」。
  • 分層壓縮機(jī)制:針對(duì)不同 Transformer 層中 Token 的冗余程度,設(shè)置可調(diào)的壓縮參數(shù)(α 和 β),實(shí)現(xiàn)更精細(xì)的內(nèi)存控制。



  • 與 LLM 無(wú)縫對(duì)接:AdaCM2 支持與各種主流 LLM 對(duì)接,如 Vicuna-7B、FlanT5 等,僅需輕量微調(diào) Q-Former 模塊即可完成端到端訓(xùn)練。

實(shí)驗(yàn)結(jié)果:性能超越 SOTA + 顯存下降 65%



AdaCM2 在多個(gè)長(zhǎng)視頻標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,包括:

  • LVU 分類任務(wù):平均 Top-1 準(zhǔn)確率提升 4.5%,在「導(dǎo)演」「場(chǎng)景」等任務(wù)上領(lǐng)先所有方法;
  • COIN / Breakfast 行為理解任務(wù):超過(guò) MA-LMM,展示更強(qiáng)泛化能力;
  • MSVD 視頻字幕生成:達(dá)到 189.4 CIDEr,領(lǐng)先現(xiàn)有 SOTA;
  • 內(nèi)存效率:顯存使用下降 65%,在極端情況下依舊維持穩(wěn)定推理,支持處理超 2 小時(shí)長(zhǎng)視頻。



消融研究也顯示,若移除跨模態(tài)壓縮模塊或?qū)⑵涮鎿Q為隨機(jī)丟棄,模型性能將顯著下降,證明觀察驅(qū)動(dòng)設(shè)計(jì)的有效性。

應(yīng)用前景:多模態(tài)大模型的「長(zhǎng)時(shí)記憶」引擎

AdaCM2 的提出,為多模態(tài)模型賦予了「可控的長(zhǎng)時(shí)記憶能力」。這一能力不僅適用于傳統(tǒng)的視頻理解任務(wù),還對(duì)以下未來(lái)應(yīng)用場(chǎng)景具有重要意義:

  • 智能交通監(jiān)控:支持對(duì)全天候視頻的智能分析與摘要生成;
  • 醫(yī)療手術(shù)記錄分析:自動(dòng)分析長(zhǎng)時(shí)間術(shù)中操作行為;
  • 教育與會(huì)議記錄理解:提取關(guān)鍵片段并生成總結(jié);
  • 機(jī)器人感知:支持具備持續(xù)視覺(jué)記憶的具身智能體。

總結(jié)

AdaCM2 作為首個(gè)專注于極長(zhǎng)視頻理解的跨模態(tài)記憶壓縮框架,在大語(yǔ)言模型和視覺(jué)編碼器之間架起了一座高效的信息篩選橋梁。它不僅優(yōu)化了計(jì)算資源利用率,還拓展了多模態(tài) AI 在實(shí)際應(yīng)用中的邊界。隨著多模態(tài)大模型逐步走向落地,AdaCM2 的提出無(wú)疑將成為推動(dòng)長(zhǎng)視頻智能理解發(fā)展的關(guān)鍵技術(shù)。

該論文已被 CVPR 2025 接收并評(píng)為 Highlight 論文,充分體現(xiàn)其在長(zhǎng)視頻多模態(tài)建模領(lǐng)域的前瞻性與影響力。更多相關(guān)研究成果也即將在未來(lái)發(fā)布,敬請(qǐng)關(guān)注!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
F1加拿大站排位賽:拉塞爾桿位,維斯塔潘第2,諾里斯第7

F1加拿大站排位賽:拉塞爾桿位,維斯塔潘第2,諾里斯第7

懂球帝
2025-06-15 05:17:56
伊朗稱若再受到襲擊將會(huì)封鎖霍爾木茲海峽 外交部回應(yīng)

伊朗稱若再受到襲擊將會(huì)封鎖霍爾木茲海峽 外交部回應(yīng)

新京報(bào)
2025-06-13 16:30:27
重大財(cái)務(wù)造假,頂格處罰!

重大財(cái)務(wù)造假,頂格處罰!

魯中晨報(bào)
2025-06-14 18:30:14
羅帥宇墜亡案仍在調(diào)查 父親:有人想用1500萬(wàn)封口

羅帥宇墜亡案仍在調(diào)查 父親:有人想用1500萬(wàn)封口

看看新聞Knews
2025-06-13 20:58:02
換鞋風(fēng)波引發(fā)觀眾不滿,鄭欽文直言吃驚,拉杜卡努采訪暗諷其不堪

換鞋風(fēng)波引發(fā)觀眾不滿,鄭欽文直言吃驚,拉杜卡努采訪暗諷其不堪

網(wǎng)球之家
2025-06-14 23:50:32
鄭欽文1-2出局,無(wú)緣倫敦站決賽!仍獲56萬(wàn)獎(jiǎng)金,輸球原因揭曉

鄭欽文1-2出局,無(wú)緣倫敦站決賽!仍獲56萬(wàn)獎(jiǎng)金,輸球原因揭曉

小火箭愛(ài)體育
2025-06-15 01:09:17
他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

他是化學(xué)博士,也是格斗冠軍!一拳把史泰龍打進(jìn)ICU的“學(xué)霸猛男”,晚年患癌卻讓死神敗退!

跑步心情
2025-06-14 18:48:12
鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會(huì)要涼?

鳳凰傳奇出事了,曾毅手表事件后又被爆出新料,青島演唱會(huì)要涼?

陳博世財(cái)經(jīng)
2025-06-14 14:28:17
落選世俱杯大名單,格拉利什秀肌肉:假期夜跑,感覺(jué)不錯(cuò)

落選世俱杯大名單,格拉利什秀肌肉:假期夜跑,感覺(jué)不錯(cuò)

懂球帝
2025-06-15 04:03:38
女優(yōu)吳夢(mèng)夢(mèng)曝出拍片內(nèi)幕:過(guò)程并不舒服,其實(shí)都是演出來(lái)的

女優(yōu)吳夢(mèng)夢(mèng)曝出拍片內(nèi)幕:過(guò)程并不舒服,其實(shí)都是演出來(lái)的

小徐講八卦
2025-06-06 17:05:02
實(shí)力升級(jí) 中國(guó)海軍三航母時(shí)代即將到來(lái)

實(shí)力升級(jí) 中國(guó)海軍三航母時(shí)代即將到來(lái)

新京報(bào)
2025-06-14 15:26:05
伊朗總統(tǒng)威脅報(bào)復(fù)以色列,但先在全國(guó)范圍內(nèi)停用互聯(lián)網(wǎng)

伊朗總統(tǒng)威脅報(bào)復(fù)以色列,但先在全國(guó)范圍內(nèi)停用互聯(lián)網(wǎng)

一種觀點(diǎn)
2025-06-13 21:34:45
勝負(fù)已分,特朗普被催交兵權(quán),紐森連下3封戰(zhàn)書,美國(guó)新總統(tǒng)要出

勝負(fù)已分,特朗普被催交兵權(quán),紐森連下3封戰(zhàn)書,美國(guó)新總統(tǒng)要出

娛樂(lè)的宅急便
2025-06-14 18:11:58
鄭新宇,央視新主播

鄭新宇,央視新主播

新京報(bào)政事兒
2025-06-14 17:45:01
Shams:范弗里特與火箭就長(zhǎng)期續(xù)約達(dá)成初步意向

Shams:范弗里特與火箭就長(zhǎng)期續(xù)約達(dá)成初步意向

雷速體育
2025-06-15 06:40:14
換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數(shù)據(jù)一清二楚

換鞋換拍!又換衣服!鄭欽文到底輸在了哪里,賽后的數(shù)據(jù)一清二楚

侃球熊弟
2025-06-15 02:11:33
全網(wǎng)追的“扁擔(dān)女孩”,找到一份時(shí)薪12元的暑假工工作

全網(wǎng)追的“扁擔(dān)女孩”,找到一份時(shí)薪12元的暑假工工作

瀟湘晨報(bào)
2025-06-14 08:07:31
七旬老人收養(yǎng)流浪狗,半夜發(fā)現(xiàn)狗總盯著地板,掀開(kāi)地板后全家愣住

七旬老人收養(yǎng)流浪狗,半夜發(fā)現(xiàn)狗總盯著地板,掀開(kāi)地板后全家愣住

秋風(fēng)專欄
2025-06-09 11:19:22
48小時(shí)封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計(jì)時(shí)!

48小時(shí)封殺令!知名女星高考特權(quán)頂包,牽連大佬集體落馬倒計(jì)時(shí)!

新語(yǔ)愛(ài)八卦
2025-06-13 16:30:57
安徽省委書記、省長(zhǎng)與蘇清棟、霍啟山等座談

安徽省委書記、省長(zhǎng)與蘇清棟、霍啟山等座談

政知新媒體
2025-06-14 19:58:25
2025-06-15 08:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10640文章數(shù) 142338關(guān)注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業(yè)陪葬?

頭條要聞

伊朗數(shù)小時(shí)內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

頭條要聞

伊朗數(shù)小時(shí)內(nèi)或再襲擊 以色列進(jìn)入"前所未有緊急狀態(tài)"

體育要聞

約戰(zhàn)天王山,步行者G4輸在了哪?

娛樂(lè)要聞

小S迎47歲生日,首個(gè)生日沒(méi)大S陪伴

財(cái)經(jīng)要聞

樓市權(quán)威發(fā)聲

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

數(shù)碼
游戲
家居
公開(kāi)課
軍事航空

數(shù)碼要聞

達(dá)爾優(yōu)高校電競(jìng)賽成都站12進(jìn)4晉級(jí)賽即將燃起!

屏幕很能挨砸!Switch 2被錘子砸了50次后還能正常玩

家居要聞

森林幾何 極簡(jiǎn)灰調(diào)原木風(fēng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊媒:以色列國(guó)防部大樓被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 赤峰市| 乌兰浩特市| 紫阳县| 城固县| 沾化县| 长泰县| 德化县| 双峰县| 永宁县| 台北县| 兰溪市| 通渭县| 湾仔区| 泾源县| 岳普湖县| 哈巴河县| 布尔津县| 浙江省| 漠河县| 江源县| 卓资县| 青浦区| 洱源县| 建水县| 招远市| 鄂伦春自治旗| 正宁县| 华亭县| 会宁县| 三原县| 惠东县| 星子县| 历史| 茶陵县| 天津市| 通城县| 门头沟区| 老河口市| 博乐市| 兰考县| 东乡族自治县|