99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ViLAMP-7B登頂長視頻理解,單卡解析3小時視頻

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。


在視覺語言模型(Vision-Language Models,VLMs)取得突破性進展的當下,長視頻理解的挑戰顯得愈發重要。以標準 24 幀率的標清視頻為例,僅需數分鐘即可產生逾百萬的視覺 token,這已遠超主流大語言模型 4K-128K 的上下文處理極限。

當面對影視級的長視頻內容時,傳統解決方案的不足愈加凸顯:粗放式的幀采樣策略往往造成關鍵幀信息遺漏,而特征融合方法雖能降低數據維度,卻不可避免地導致語義完整性受損。

近日,螞蟻和人大的研究團隊帶來了一個創新性的解決方案。他們提出視覺語言大模型 ViLAMP,實現了對超長視頻的高效處理

這個方法的核心在于其獨特的 “混合精度” 策略:對視頻中的關鍵內容保持高精度分析,而對次要內容進行強力壓縮,就像人類在觀看視頻時會重點關注關鍵場景,而對過渡時空信息只做快速掃描一樣。ViLAMP已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/models/orangesk/ViLAMP-llava-qwen

01.

ViLAMP萬幀優解

ViLAMP 在 Video-MME 等五個主流視頻理解基準上實驗結果令人振奮,全面超越現有方案,特別是在處理長視頻時展現出顯著優勢。更重要的是,它可以在單張 A100 GPU 上連續處理長達 1 萬幀(按每秒 1 幀計算約 3 小時)的視頻內容,同時保持穩定的理解準確率。這一突破不僅大大提升了視頻處理效率,更為在線教育、視頻監控、直播分析等實際應用場景帶來了新的可能。


橫軸:處理的視頻幀數(從 0 到 10,000 幀),縱軸: GPU 內存使用量(MB)。測試在單塊 NVIDIA A100 GPU 上進行。


VideoNIAH(視頻版本大海撈針任務)測試結果。橫軸:視頻總長度(2K-10K 幀);縱軸:表示目標視頻在完整視頻中的相對位置(0% 表示在開頭,100% 表示在結尾)。

02.

視頻信息的時空特性

為解決長視頻處理的效率問題,研究團隊首先對主流視覺語言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)進行了系統性分析,發現了視頻信息在時間和空間上均存在顯著的稀疏性和冗余性:

1. 幀間注意力分析:在現有模型中,用戶 Query 對相應視頻的注意力高度集中 ——90% 的注意力僅分布在不到 5% 的視頻幀上(稱為關鍵幀)。更重要的是,這 5% 的關鍵幀之間往往存在很強的視覺相似度。

2. 幀內注意力分析:在每一幀的內部,模型的注意力也展現出相似的稀疏性質 ——50% 的 patch(幀劃分的最小單位)就承載了 80% 的模型注意力,但這些受關注的 patch 與關鍵幀中的對應 patch 具有遠超隨機基線水平的相似度。

這一發現表明現有模型在處理視頻時存在大量計算資源的浪費。實際上,處理長視頻不需要對每一幀、每個 patch 都投入同樣的計算量。基于此,研究團隊提出 “差分蒸餾原則”(Differential Distill Principle):識別并保留重要的視頻信息,同時壓縮那些雖然相關但高度冗余的信息。

其中,重要信息應該同時滿足兩個條件:(1)高查詢相關性:與當前用戶 Query 高度相關;(2)低信息冗余性:包含獨特的視頻信息。這一原則為后續設計高效的視頻處理算法奠定了理論基礎。

03.

差分蒸餾雙精架構

前文的注意力分析揭示了一個關鍵問題:現有視覺語言模型對視頻中所有幀和 patch 都采用相同的處理方式,導致大量計算資源的浪費。基于這一認識,研究團隊提出了專門面向長視頻處理的高效架構 ViLAMP,它能夠根據信息的重要程度自適應地分配計算資源。


ViLAMP 模型結構圖

ViLAMP 通過層次化的壓縮框架實現這一策略:在幀級別,對重要的關鍵幀保留完整的視覺 token 表示,以捕獲關鍵信息;而對于非關鍵幀,則采用強力壓縮策略;在 patch 級別,通過差分機制增大重要 patch 的權重。

模型具體包含兩個核心機制:

1. 差分關鍵幀選擇(Differential Keyframe Selection,DKS)

為實現關鍵幀的高效識別,ViLAMP 采用了基于貪心策略的選擇算法。該算法在最大化與用戶 Query 的相關性的同時,通過差分機制降低幀間冗余,確保選中的關鍵幀既重要又多樣化。

2. 差分特征合并(Differential Feature Merging,DFM)

針對非關鍵幀的處理,ViLAMP 創新性地通過差分加權池化,將每個非關鍵幀壓縮為單個信息量最大化的 token。在壓縮過程中,模型賦予那些與用戶 Query 相關且具有獨特性的 patch 較高的權重,同時降低與相鄰的關鍵幀有顯著重復的 patch 的權重,從而在大幅降低計算量的同時保留關鍵信息。

這種雙層混合精度架構既確保了模型能夠準確捕獲視頻中的關鍵信息,又顯著降低了計算開銷。

04.

全面超越現有方案

在五個主流視頻理解基準上的實驗表明:

1. 高效能與強性能:ViLAMP 以 7B 參數量達到或超越了部分 70B 量級模型的表現,特別是在 Video-MME 長視頻子集上比現有最優模型提升 4.8%。

2.解決視頻長度不足的問題:針對當前視頻理解基準中視頻長度不足的問題,本文提出了面向視頻理解場景的 “大海撈針” 任務 ——VideoNIAH。該任務將一段目標短視頻(1 分鐘以內)插入到小時級別的長視頻中,要求模型在不依賴先驗信息的情況下,從超長視頻上下文中定位并理解該片段,進而回答相關問題。

與傳統基于文本的 NIAH 任務不同,VideoNIAH 中的答案無法直接從視頻對應的文本描述中提取。因此,該任務本質上更具挑戰性,難以達到語言模型在文本 NIAH 任務中所表現出的近乎完美的準確率(例如 99%)。

VideoNIAH 任務的性能上限受限于模型對目標短視頻原始 QA 的理解水平,進一步凸顯了該任務對視頻內容深層次理解能力的嚴格要求。

在這一新提出的超長視頻理解基準上,ViLAMP 在處理包含 10K 幀(約 3 小時)的視頻時仍能保持 58.15% 的準確率(原始 QA 數據集準確率 78.9%),超越 VideoChat-Flash 基線模型 12.82%,展現出較強的長視頻建模能力。

3. 計算效率顯著提升:內存消耗相比 LLaMA-VID 基線降低約 50%,在 8,192 幀情況下計算量減少 80% 以上。

4. 深入的消融實驗表明:與已有的關鍵幀選擇方案相比,DKS 在長視頻場景下表現出明顯優勢;與 Q-former 和平均池化等特征融合方案相比,DFM 在所有數據集上都展現出 3 個百分點以上的性能優勢。


模型表現



計算效率對比

ViLAMP 通過創新的差分蒸餾框架成功突破了長視頻處理的計算瓶頸,不僅在性能上實現了飛躍,更為視頻理解領域提供了新的研究思路。該工作的原理性貢獻和實用價值將推動視頻理解技術在更多實際場景中的落地應用。期待未來看到更多基于此框架的創新發展。

編輯丨趙雅鑫

----- END -----


wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
訪華前,英偉達CEO告訴強硬派:中國軍方根本不可能使用美國技術

訪華前,英偉達CEO告訴強硬派:中國軍方根本不可能使用美國技術

影史侃談
2025-07-16 09:44:52
終于明白為啥死囚被執行時比雞還順從!網友的回復讓我大開眼界!

終于明白為啥死囚被執行時比雞還順從!網友的回復讓我大開眼界!

特約前排觀眾
2025-07-16 05:34:34
名記:開拓者總經理克羅寧&利拉德已冰釋前嫌,力爭讓利拉德終老開拓者

名記:開拓者總經理克羅寧&利拉德已冰釋前嫌,力爭讓利拉德終老開拓者

雷速體育
2025-07-18 06:28:15
不打了!再見狀元和榜眼!全部退出NBA夏季聯賽

不打了!再見狀元和榜眼!全部退出NBA夏季聯賽

籃球實戰寶典
2025-07-17 08:37:12
剛復出就絕殺內馬爾第84分鐘上演絕殺,禁區內接球轉身破門!

剛復出就絕殺內馬爾第84分鐘上演絕殺,禁區內接球轉身破門!

直播吧
2025-07-17 09:06:34
上海34歲剩女相親失敗 , 回家后崩潰大哭:我又不丑 , 憑什么沒人要!

上海34歲剩女相親失敗 , 回家后崩潰大哭:我又不丑 , 憑什么沒人要!

三農老歷
2025-07-17 18:05:35
重磅:2025年江蘇省普通類本科批次投檔線之揚州大學篇

重磅:2025年江蘇省普通類本科批次投檔線之揚州大學篇

牛鍋巴小釩
2025-07-18 03:39:17
宗慶后爺爺做過漢奸,但娃哈哈多次打愛國牌

宗慶后爺爺做過漢奸,但娃哈哈多次打愛國牌

合贊歷史
2025-07-17 13:57:57
港警頭巾著裝引爭議:入鄉隨俗,規矩至上

港警頭巾著裝引爭議:入鄉隨俗,規矩至上

大道微言
2025-07-17 06:51:55
為什么大家不買華為手機了?手機店老板:3大原因很現實

為什么大家不買華為手機了?手機店老板:3大原因很現實

小8說科技
2025-07-08 15:43:06
戰火再起!以色列和土耳其,正面交手開始了!

戰火再起!以色列和土耳其,正面交手開始了!

大嘴說天下
2025-07-16 22:08:41
董璇再婚兩天就跟新老公爭吵沖上熱搜,董璇成熟張維伊太情緒化!

董璇再婚兩天就跟新老公爭吵沖上熱搜,董璇成熟張維伊太情緒化!

可樂談情感
2025-07-18 03:49:10
羅馬諾:加拉塔薩雷被規定兩年內不得將奧斯梅恩出售回意大利

羅馬諾:加拉塔薩雷被規定兩年內不得將奧斯梅恩出售回意大利

懂球帝
2025-07-18 03:59:13
網友拍到秦嶺山里有動物被熱死?官方回應:秦嶺溫度達不到,未收到相關反饋

網友拍到秦嶺山里有動物被熱死?官方回應:秦嶺溫度達不到,未收到相關反饋

封面新聞
2025-07-17 15:49:13
再見皇馬!2億頭牌被放棄!佛爺拒絕加薪,太無情,姆巴佩偷著樂

再見皇馬!2億頭牌被放棄!佛爺拒絕加薪,太無情,姆巴佩偷著樂

阿泰希特
2025-07-17 11:01:41
撈女經濟崩盤的元年,真的是實實在在的了

撈女經濟崩盤的元年,真的是實實在在的了

加油丁小文
2025-05-29 07:30:03
以色列對敘利亞首都發動空襲,敘利亞政權領導人首次發聲

以色列對敘利亞首都發動空襲,敘利亞政權領導人首次發聲

環球網資訊
2025-07-17 11:14:09
新片被舉報,“知三當三”的她翻不了身了!

新片被舉報,“知三當三”的她翻不了身了!

黎兜兜
2025-07-16 21:48:48
國羽10勝5負,男雙僅剩獨苗,李詩灃傷退,日本公開賽18日賽程

國羽10勝5負,男雙僅剩獨苗,李詩灃傷退,日本公開賽18日賽程

佑銘羽球
2025-07-18 03:48:15
上海房價持續下跌,到底是誰在砸盤?

上海房價持續下跌,到底是誰在砸盤?

環線房產咨詢
2025-07-17 20:15:58
2025-07-18 06:55:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
309文章數 12關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

家居
親子
房產
旅游
游戲

家居要聞

空間分明 時尚風格并存

親子要聞

雙胞胎寶寶準備自己動手煮面條,你們覺得我做的對嗎?

房產要聞

突發!海航陳峰被判12年,罰2.2億!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

魔獸懷舊服:HICC小怪削弱繼承,雙天賦出現BUG,0buff將持續四周

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 山阳县| 从江县| 周宁县| 城口县| 瓦房店市| 米林县| 平乡县| 曲阳县| 建平县| 肇州县| 淮安市| 梨树县| 洪湖市| 仁布县| 凯里市| 海宁市| 泰顺县| 阜康市| 曲沃县| 满洲里市| 桃源县| 上蔡县| 茌平县| 南汇区| 河津市| 德令哈市| 麟游县| 佛冈县| 休宁县| 大理市| 襄城县| 黑山县| 双柏县| 孟津县| 神池县| 寿光市| 科技| 石棉县| 临海市| 醴陵市| 鞍山市|