99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華&騰訊混元X發現「視覺頭」:僅5%注意力頭負責多模態視覺理解

0
分享至



本文的主要作者來自清華大學智能視覺實驗室(i-Vision Group)、騰訊混元 X 組。本文的共同第一作者為清華大學自動化系本科生王嘉輝和博士生劉祖炎,本文的通訊作者為清華大學自動化系魯繼文教授。

多模態大模型通常是在大型預訓練語言模型(LLM)的基礎上擴展而來。盡管原始的 LLM 并不具備視覺理解能力,但經過多模態訓練后,這些模型卻能在各類視覺相關任務中展現出強大的表現。

這引發了我們的思考:在多模態訓練過程中,LLM 基座的哪些內部結構,尤其是哪些多頭注意力單元,真正承擔了對視覺內容的理解?這些注意力頭是否存在可識別、可量化的視覺偏好或專業化功能?如果能夠識別出這些「視覺頭」,不僅有助于揭示多模態大模型內部的「黑箱」機制,也為模型結構優化和資源分配提供了理論依據。

在本文中,我們聚焦于注意力頭的視覺偏好,提出了一種基于 OCR 任務、無需額外訓練的方法,系統量化每個注意力頭對視覺內容的關注程度。我們發現,只有不到 5% 的注意力頭(我們稱之為視覺頭,Visual Head)在視覺理解任務中起到主導作用,這些頭能夠有效聚焦并提取圖片中的關鍵信息,而絕大多數注意力頭則主要關注文本信息或其他輔助特征。這一「視覺頭稀疏性」現象表明,模型的視覺理解能力高度依賴于極少數專門化的注意力頭。



  • 論文標題:SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
  • 論文:https://arxiv.org/abs/2506.05344
  • 代碼:https://github.com/CR400AF-A/SparseMM
  • 項目地址:https://cr400af-a.github.io/SparseMM/

基于這一發現,我們進一步提出了 SparseMM:一種利用視覺頭稀疏性進行 KV-Cache 優化的策略。考慮到多模態大模型輸入的視覺 token 遠多于文本 token,帶來了巨大的顯存壓力,我們對 KV-Cache 資源進行差異化分配。

具體地,SparseMM 將總緩存預算劃分為三部分:一部分保障所有頭的基本局部緩存,一部分按固定比例均勻分配,其余則根據視覺頭得分優先分配給視覺頭,從而在效率與性能之間取得更優平衡。

通過在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模態基準上的廣泛評測,SparseMM 相較于 SnapKV、AdaKV 等方法取得了更好的性能和效率的平衡。效率評估測試中實現了最高 1.87× 的解碼階段加速并降低了 52% 的峰值內存。此外,在極端緩存預算下,性能下降幅度更小,充分驗證了基于視覺頭的 KV-Cache 分配策略在效率-性能權衡上的優越性。

介紹

多模態大模型通過引入視覺編碼器模塊,使得原本不具備視覺能力的 LLM 能夠在圖文問答、文檔理解等多種場景下表現出色。但是模型內部究竟是如何實現這一跨模態遷移的,仍然是一個「黑箱」問題。我們認為,在多模態大模型訓練的過程中,部分注意力頭逐漸特化為了「視覺頭」,專門負責視覺信息的理解與交互。

在本文中,我們提出了一種基于 OCR 任務量化并識別視覺頭(Visual Head)的方法,并基于此提出了SparseMM——一種新穎的多模態模型推理加速方法。通過對視覺頭的深入分析,我們發現視覺頭在多模態大模型中占比很小。

也就是說,只有一小部分注意力頭真正承擔了對視覺內容進行深度理解并將其有效融入語言表征的核心任務,而大多數注意力頭更多地關注語言信息,或僅局限于局部上下文建模,對圖像內容的理解作用有限。

基于此,我們采用了一種注意力頭級別的緩存分配機制,對更關注視覺內容的注意力頭分配更多的緩存預算,以最大程度的保留視覺信息;對于不關注視覺內容的注意力頭則分配較少的緩存預算,使它們關注最近鄰的信息即可,從而實現了性能和速度的更優均衡。



圖 1:SparseMM 整體概覽

方法概覽

我們的方法主要分為兩部分:首先通過 OCR 任務定位視覺頭,然后為不同的注意力頭分配不同的緩存預算。

基于 OCR 的視覺頭定位方法



圖 2:SparseMM 基于 OCR 任務定位視覺頭的方法示意圖

為了深入探究多模態大模型在處理視覺內容時的注意力機制,我們提出了一種基于 OCR 任務的分析方法,并據此定義了「視覺得分」,用于量化模型在視覺內容上的注意力表現。基于視覺得分,本文能夠有效定位并分析模型內部對視覺內容高度敏感的注意力頭。



通過這一標注,可以將每個字符與其在圖片中的具體區域一一對應。接下來,按照多模態大模型對輸入圖片的分塊或 patch 劃分方式,進一步確定每個字符對應的視覺區域所映射到的視覺 token,并精確定位這些視覺令牌在整個輸入序列中的具體位置。





基于視覺頭的 KV-Cache 壓縮策略

在完成視覺頭的定位之后,我們進一步提出了一種基于視覺頭的 KV-Cache 分配與壓縮策略。傳統的 KV-Cache 機制為所有注意力頭和所有位置的 token 分配等量的緩存空間,這種方式雖然簡單,但在處理高分辨率圖像時顯得極為低效:大量不關注視覺內容的注意力頭被迫緩存完整視覺 token,造成了顯著的資源浪費。

為了解決這一問題,SparseMM 根據視覺得分設計了一個三部分的緩存分配機制:

  • Local Window Cache:為所有注意力頭分配固定窗口大小的緩存,只保留最近的若干個 token,確保基本的局部上下文建模能力;
  • Uniform-Based Cache:在所有注意力頭之間均勻分配一部分緩存預算,用于保底防止頭部信息過度丟失;
  • Score-Preferred Cache:將剩余的大部分緩存資源按照視覺頭在前一階段中的視覺得分按比例分配,使得關鍵的視覺頭能夠盡可能保留更多的歷史視覺 token,從而提升模型對圖像語義的保持能力。

這種差異化的緩存壓縮策略在不顯著犧牲模型性能的情況下,顯著減少了整體 KV-Cache 的內存使用。尤其在視覺 token 占比較高的輸入場景中,SparseMM 能夠更合理地分配資源,把計算和存儲集中在真正重要的視覺內容上。



圖 3:SparseMM 基于視覺頭的緩存壓縮方法

實驗結果

在 OCR-rich 的多模態數據集上的結果

在 OCR-rich 的數據集上(如 DocVQA、OCRBench 和 TextVQA),SparseMM 展現出顯著的性能優勢,充分驗證了其視覺頭識別策略的有效性。例如在 DocVQA 中,當鍵值緩存預算僅為輸入長度的 10% 左右時,LLaVA-NeXT-Vicuna-7B 與 Qwen2-VL-7B-Instruct 等模型仍能保持與全緩存配置幾乎一致的性能,而現有方法則普遍出現明顯精度下降,差距在低預算下進一步擴大,突出體現了視覺頭選擇的準確性和關鍵性。TextVQA 中的實驗同樣驗證了 SparseMM 的優勢,多個模型在低至 5% 至 10% 緩存預算的條件下依然保持優異性能,顯著優于 AdaKV、SnapKV 等方法。這些結果表明,SparseMM 尤其適用于文字密集、圖文關聯緊密的視覺任務,在處理高分辨率輸入與稀疏文本分布場景中具備顯著的推理效率與性能保持能力。



通用多模態任務上的分析

盡管本文的視覺頭識別方法基于 OCR 任務構建,但是為了進一步驗證其在更廣泛視覺場景中的適用性與泛化能力,我們在多個通用視覺任務基準(如 MMBench、GQA 和 VQAv2)上對該方法進行了系統性評估。

實驗結果顯示,本文方法在通用視覺任務中依然表現出極強的魯棒性與泛化能力。即便在非常受限的緩存預算的條件下,Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能維持與全緩存模型幾乎一致的性能;在 GQA 和 VQAv2 等具備復雜視覺推理能力要求的任務上,性能下降幅度也始終控制在 1% 以內,顯著優于現有壓縮方法。這些結果表明,盡管視覺頭的識別基于 OCR 場景完成,其關注的視覺區域和注意力機制卻具有高度的通用性,能夠在各類視覺理解任務中穩定發揮作用,為通用多模態模型的推理加速與緩存優化提供了一種高效、可靠且可推廣的解決方案。



推理速度評估

本文在不同輸入長度(2K 至 32K)場景下評估了 SparseMM 的計算效率,結果顯示該方法在提升推理速度和降低顯存占用方面均取得顯著提升。在 32K 輸入下,LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分別提升至 1.87× 和 1.60×,而峰值顯存占用分別減少約 15GB 和 2GB,表現出良好的擴展性與適應性。這充分說明 SparseMM 在高分辨率圖像或長上下文任務中,能夠有效降低推理開銷,提升多模態大模型的部署效率與實用性。

可視化視覺頭

我們可視化了 LLaVA-NeXT-Vicuna-7B 中識別到的一些視覺頭和非視覺頭,可以看出視覺頭能準確的定位到圖中的物體或文字,而非視覺頭往往不關注圖像信息或者關注到錯誤的區域,這直觀地體現了視覺頭和非視覺頭的差異性。



總結

我們提出了 SparseMM,這是一種基于視覺頭的 KV-Cache 緩存壓縮方法。我們通過在 OCR 任務中精確識別出對視覺信息最敏感的注意力頭,并據此設計差異化的緩存分配策略,在保證模型性能的同時顯著降低了推理階段的計算和內存開銷。

實驗結果表明,SparseMM 在多個視覺語言任務中均展現出卓越的準確性保持能力、優異的計算效率以及強大的泛化性,特別是在高分辨率圖像和長上下文輸入場景下具有顯著優勢。SparseMM 為多模態大模型的高效推理與實際部署提供了新的解決思路,我們也希望這項工作能啟發未來更多對多模態大模型推理加速的研究。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全網都在替宗馥莉出主意

全網都在替宗馥莉出主意

長三角momo
2025-07-14 17:32:24
宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學生家長聯合發聲力挺

宗婕莉慶生照曝光,打扮漂亮很像媽媽,多位學生家長聯合發聲力挺

古希臘掌管松餅的神
2025-07-14 20:43:56
甘肅“鉛中毒”再現,“血鉛檢測”造假才是提級調查的重點

甘肅“鉛中毒”再現,“血鉛檢測”造假才是提級調查的重點

空瓶子
2025-07-14 13:32:32
央視新聞的大愛:關注加沙地區的兒童比天水的兒童更多

央視新聞的大愛:關注加沙地區的兒童比天水的兒童更多

老頭和你隨便聊聊
2025-07-14 16:57:53
烏克蘭“人民戰爭”來了!烏克蘭民眾通過APP上傳坐標給俄軍,炸自家征兵處?

烏克蘭“人民戰爭”來了!烏克蘭民眾通過APP上傳坐標給俄軍,炸自家征兵處?

軍武速遞
2025-07-14 20:19:20
航天員聶海勝妻子:丈夫出征太空前結束婚姻,如今活出自我風采

航天員聶海勝妻子:丈夫出征太空前結束婚姻,如今活出自我風采

品茗談史論世事
2025-07-14 14:52:02
一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現的淋漓盡致

一次合體,人情冷暖、江湖地位,在46歲朱孝天身上體現的淋漓盡致

夢史
2025-07-14 12:41:20
反轉!當事人老外發文,透露更多細節,網友被質疑借"國格"搞網暴

反轉!當事人老外發文,透露更多細節,網友被質疑借"國格"搞網暴

派大星紀錄片
2025-07-14 18:29:26
國民黨的二號人物,毛主席唯獨不接受他投降,老蔣坦言也想干掉他

國民黨的二號人物,毛主席唯獨不接受他投降,老蔣坦言也想干掉他

南書房
2025-07-14 18:55:07
150億“繼承戰”上演!宗馥莉被起訴,娃哈哈發聲!

150億“繼承戰”上演!宗馥莉被起訴,娃哈哈發聲!

中國商報
2025-07-14 14:34:35
鬧大了!讓環衛工翻8噸垃圾找手表,當事人得意,領導發言窩火

鬧大了!讓環衛工翻8噸垃圾找手表,當事人得意,領導發言窩火

鋭娛之樂
2025-07-14 14:57:42
10.9億元!潮汕富豪把西班牙人俱樂部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

10.9億元!潮汕富豪把西班牙人俱樂部賣了!公司去年巨虧4.6億元,前不久靠“西甲撲救王”解約賺了1.6億元

每日經濟新聞
2025-07-14 22:16:07
一00后小伙子第一次坐飛機,一口氣發了18條朋友圈,結果悲劇了…

一00后小伙子第一次坐飛機,一口氣發了18條朋友圈,結果悲劇了…

明月雜談
2025-07-14 07:27:07
高考生被騙到緬北,和家人聊天記錄令人心酸,網友:已經回不來了

高考生被騙到緬北,和家人聊天記錄令人心酸,網友:已經回不來了

妍妍教育日記
2025-07-14 15:34:34
青海西寧曹家堡機場,你們這是在殺人!

青海西寧曹家堡機場,你們這是在殺人!

回旋鏢
2025-07-14 18:04:51
用鋼瓶在1萬米深海裝滿水后密封起來,撈上來后瓶內還有高壓嗎?

用鋼瓶在1萬米深海裝滿水后密封起來,撈上來后瓶內還有高壓嗎?

魅力科學君
2025-07-14 18:50:41
貴州道真縣通報“女童被車撞亡”:司機已被刑拘,不存在二次碾壓

貴州道真縣通報“女童被車撞亡”:司機已被刑拘,不存在二次碾壓

界面新聞
2025-07-15 09:16:12
朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵勤臉色鐵青

朱雨玲奪冠眾生相:前世一眼含熱淚,陳熠閉眼,王勵勤臉色鐵青

二哥聊球
2025-07-14 10:38:36
阿根廷正副總統“公開決裂”,法媒:這對本就脆弱的米萊執政聯盟構成沉重打擊

阿根廷正副總統“公開決裂”,法媒:這對本就脆弱的米萊執政聯盟構成沉重打擊

環球網資訊
2025-07-15 06:40:25
業務水平堪憂!國航客機險些與順豐貨機空中相撞,駕駛員事后頻繁爆粗口,并推卸責任

業務水平堪憂!國航客機險些與順豐貨機空中相撞,駕駛員事后頻繁爆粗口,并推卸責任

小蘿卜絲
2025-07-14 15:40:55
2025-07-15 09:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10856文章數 142377關注度
往期回顧 全部

科技要聞

高調挖人后,扎克伯格又出重拳

頭條要聞

石破茂演講被發現"在手背上打小抄":密密麻麻寫滿文字

頭條要聞

石破茂演講被發現"在手背上打小抄":密密麻麻寫滿文字

體育要聞

高考數學滿分的他,說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結束直奔魏大勛家

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

余承東親發預告:鴻蒙智行首款旅行車享界S9T來了

態度原創

藝術
教育
旅游
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

預警!英國一大學暫停國際招生,已發錄取緊急撤回!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏軍:史上首次 俄軍向機器人部隊投降

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洞头县| 扬中市| 裕民县| 栾城县| 石柱| 襄城县| 武安市| 紫阳县| 三亚市| 佛冈县| 星子县| 清涧县| 拜城县| 泰州市| 定远县| 西贡区| 长海县| 渭源县| 固镇县| 合山市| 余干县| 南丹县| 嫩江县| 乐清市| 宁远县| 珲春市| 乌鲁木齐县| 鹿泉市| 宁南县| 宁化县| 九龙城区| 东兴市| 潮安县| 阿尔山市| 沾化县| 化州市| 周至县| 甘洛县| 沂水县| 门头沟区| 新竹县|