網易首頁 > 網易號 > 正文申請入駐

清華&騰訊混元X發現「視覺頭」：僅5%注意力頭負責多模態視覺理解

2025-07-14 20:21:46　來源: 機器之心Pro

河北舉報

分享至

本文的主要作者來自清華大學智能視覺實驗室（i-Vision Group）、騰訊混元 X 組。本文的共同第一作者為清華大學自動化系本科生王嘉輝和博士生劉祖炎，本文的通訊作者為清華大學自動化系魯繼文教授。

多模態大模型通常是在大型預訓練語言模型（LLM）的基礎上擴展而來。盡管原始的 LLM 并不具備視覺理解能力，但經過多模態訓練后，這些模型卻能在各類視覺相關任務中展現出強大的表現。

這引發了我們的思考：在多模態訓練過程中，LLM 基座的哪些內部結構，尤其是哪些多頭注意力單元，真正承擔了對視覺內容的理解？這些注意力頭是否存在可識別、可量化的視覺偏好或專業化功能？如果能夠識別出這些「視覺頭」，不僅有助于揭示多模態大模型內部的「黑箱」機制，也為模型結構優化和資源分配提供了理論依據。

在本文中，我們聚焦于注意力頭的視覺偏好，提出了一種基于 OCR 任務、無需額外訓練的方法，系統量化每個注意力頭對視覺內容的關注程度。我們發現，只有不到 5% 的注意力頭（我們稱之為視覺頭，Visual Head）在視覺理解任務中起到主導作用，這些頭能夠有效聚焦并提取圖片中的關鍵信息，而絕大多數注意力頭則主要關注文本信息或其他輔助特征。這一「視覺頭稀疏性」現象表明，模型的視覺理解能力高度依賴于極少數專門化的注意力頭。

論文標題：SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs
論文：https://arxiv.org/abs/2506.05344
代碼：https://github.com/CR400AF-A/SparseMM
項目地址：https://cr400af-a.github.io/SparseMM/

基于這一發現，我們進一步提出了 SparseMM：一種利用視覺頭稀疏性進行 KV-Cache 優化的策略。考慮到多模態大模型輸入的視覺 token 遠多于文本 token，帶來了巨大的顯存壓力，我們對 KV-Cache 資源進行差異化分配。

具體地，SparseMM 將總緩存預算劃分為三部分：一部分保障所有頭的基本局部緩存，一部分按固定比例均勻分配，其余則根據視覺頭得分優先分配給視覺頭，從而在效率與性能之間取得更優平衡。

通過在 DocVQA、OCRBench、TextVQA、ChartQA、MMBench、GQA 等主流多模態基準上的廣泛評測，SparseMM 相較于 SnapKV、AdaKV 等方法取得了更好的性能和效率的平衡。效率評估測試中實現了最高 1.87× 的解碼階段加速并降低了 52% 的峰值內存。此外，在極端緩存預算下，性能下降幅度更小，充分驗證了基于視覺頭的 KV-Cache 分配策略在效率-性能權衡上的優越性。

介紹

多模態大模型通過引入視覺編碼器模塊，使得原本不具備視覺能力的 LLM 能夠在圖文問答、文檔理解等多種場景下表現出色。但是模型內部究竟是如何實現這一跨模態遷移的，仍然是一個「黑箱」問題。我們認為，在多模態大模型訓練的過程中，部分注意力頭逐漸特化為了「視覺頭」，專門負責視覺信息的理解與交互。

在本文中，我們提出了一種基于 OCR 任務量化并識別視覺頭（Visual Head）的方法，并基于此提出了SparseMM——一種新穎的多模態模型推理加速方法。通過對視覺頭的深入分析，我們發現視覺頭在多模態大模型中占比很小。

也就是說，只有一小部分注意力頭真正承擔了對視覺內容進行深度理解并將其有效融入語言表征的核心任務，而大多數注意力頭更多地關注語言信息，或僅局限于局部上下文建模，對圖像內容的理解作用有限。

基于此，我們采用了一種注意力頭級別的緩存分配機制，對更關注視覺內容的注意力頭分配更多的緩存預算，以最大程度的保留視覺信息；對于不關注視覺內容的注意力頭則分配較少的緩存預算，使它們關注最近鄰的信息即可，從而實現了性能和速度的更優均衡。

圖 1：SparseMM 整體概覽

方法概覽

我們的方法主要分為兩部分：首先通過 OCR 任務定位視覺頭，然后為不同的注意力頭分配不同的緩存預算。

基于 OCR 的視覺頭定位方法

圖 2：SparseMM 基于 OCR 任務定位視覺頭的方法示意圖

為了深入探究多模態大模型在處理視覺內容時的注意力機制，我們提出了一種基于 OCR 任務的分析方法，并據此定義了「視覺得分」，用于量化模型在視覺內容上的注意力表現。基于視覺得分，本文能夠有效定位并分析模型內部對視覺內容高度敏感的注意力頭。

通過這一標注，可以將每個字符與其在圖片中的具體區域一一對應。接下來，按照多模態大模型對輸入圖片的分塊或 patch 劃分方式，進一步確定每個字符對應的視覺區域所映射到的視覺 token，并精確定位這些視覺令牌在整個輸入序列中的具體位置。

基于視覺頭的 KV-Cache 壓縮策略

在完成視覺頭的定位之后，我們進一步提出了一種基于視覺頭的 KV-Cache 分配與壓縮策略。傳統的 KV-Cache 機制為所有注意力頭和所有位置的 token 分配等量的緩存空間，這種方式雖然簡單，但在處理高分辨率圖像時顯得極為低效：大量不關注視覺內容的注意力頭被迫緩存完整視覺 token，造成了顯著的資源浪費。

為了解決這一問題，SparseMM 根據視覺得分設計了一個三部分的緩存分配機制：

Local Window Cache：為所有注意力頭分配固定窗口大小的緩存，只保留最近的若干個 token，確保基本的局部上下文建模能力；
Uniform-Based Cache：在所有注意力頭之間均勻分配一部分緩存預算，用于保底防止頭部信息過度丟失；
Score-Preferred Cache：將剩余的大部分緩存資源按照視覺頭在前一階段中的視覺得分按比例分配，使得關鍵的視覺頭能夠盡可能保留更多的歷史視覺 token，從而提升模型對圖像語義的保持能力。

這種差異化的緩存壓縮策略在不顯著犧牲模型性能的情況下，顯著減少了整體 KV-Cache 的內存使用。尤其在視覺 token 占比較高的輸入場景中，SparseMM 能夠更合理地分配資源，把計算和存儲集中在真正重要的視覺內容上。

圖 3：SparseMM 基于視覺頭的緩存壓縮方法

實驗結果

在 OCR-rich 的多模態數據集上的結果

在 OCR-rich 的數據集上（如 DocVQA、OCRBench 和 TextVQA），SparseMM 展現出顯著的性能優勢，充分驗證了其視覺頭識別策略的有效性。例如在 DocVQA 中，當鍵值緩存預算僅為輸入長度的 10% 左右時，LLaVA-NeXT-Vicuna-7B 與 Qwen2-VL-7B-Instruct 等模型仍能保持與全緩存配置幾乎一致的性能，而現有方法則普遍出現明顯精度下降，差距在低預算下進一步擴大，突出體現了視覺頭選擇的準確性和關鍵性。TextVQA 中的實驗同樣驗證了 SparseMM 的優勢，多個模型在低至 5% 至 10% 緩存預算的條件下依然保持優異性能，顯著優于 AdaKV、SnapKV 等方法。這些結果表明，SparseMM 尤其適用于文字密集、圖文關聯緊密的視覺任務，在處理高分辨率輸入與稀疏文本分布場景中具備顯著的推理效率與性能保持能力。

通用多模態任務上的分析

盡管本文的視覺頭識別方法基于 OCR 任務構建，但是為了進一步驗證其在更廣泛視覺場景中的適用性與泛化能力，我們在多個通用視覺任務基準（如 MMBench、GQA 和 VQAv2）上對該方法進行了系統性評估。

實驗結果顯示，本文方法在通用視覺任務中依然表現出極強的魯棒性與泛化能力。即便在非常受限的緩存預算的條件下，Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能維持與全緩存模型幾乎一致的性能；在 GQA 和 VQAv2 等具備復雜視覺推理能力要求的任務上，性能下降幅度也始終控制在 1% 以內，顯著優于現有壓縮方法。這些結果表明，盡管視覺頭的識別基于 OCR 場景完成，其關注的視覺區域和注意力機制卻具有高度的通用性，能夠在各類視覺理解任務中穩定發揮作用，為通用多模態模型的推理加速與緩存優化提供了一種高效、可靠且可推廣的解決方案。

推理速度評估

本文在不同輸入長度（2K 至 32K）場景下評估了 SparseMM 的計算效率，結果顯示該方法在提升推理速度和降低顯存占用方面均取得顯著提升。在 32K 輸入下，LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分別提升至 1.87× 和 1.60×，而峰值顯存占用分別減少約 15GB 和 2GB，表現出良好的擴展性與適應性。這充分說明 SparseMM 在高分辨率圖像或長上下文任務中，能夠有效降低推理開銷，提升多模態大模型的部署效率與實用性。

可視化視覺頭

我們可視化了 LLaVA-NeXT-Vicuna-7B 中識別到的一些視覺頭和非視覺頭，可以看出視覺頭能準確的定位到圖中的物體或文字，而非視覺頭往往不關注圖像信息或者關注到錯誤的區域，這直觀地體現了視覺頭和非視覺頭的差異性。

總結

我們提出了 SparseMM，這是一種基于視覺頭的 KV-Cache 緩存壓縮方法。我們通過在 OCR 任務中精確識別出對視覺信息最敏感的注意力頭，并據此設計差異化的緩存分配策略，在保證模型性能的同時顯著降低了推理階段的計算和內存開銷。

實驗結果表明，SparseMM 在多個視覺語言任務中均展現出卓越的準確性保持能力、優異的計算效率以及強大的泛化性，特別是在高分辨率圖像和長上下文輸入場景下具有顯著優勢。SparseMM 為多模態大模型的高效推理與實際部署提供了新的解決思路，我們也希望這項工作能啟發未來更多對多模態大模型推理加速的研究。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.