99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

10倍吞吐提升無損性能:多模態適用的KV cache量化策略來了,即插即用無需改原模型

0
分享至


作者|CalibQuant 團隊

在 InternVL-2.5 上實現10 倍吞吐量提升,模型性能幾乎無損失。

最新 1-bit 多模態大模型 KV cache 量化方案CalibQuant來了。

通過結合后縮放和校準方法,可顯著降低顯存與計算成本,無需改動原模型即可直接使用


即插即用、無縫集成

多模態大語言模型在各種應用中展現出了卓越的性能。然而,它們在部署過程中的計算開銷仍然是一個關鍵瓶頸。

雖然 KV cache 通過用顯存換計算在一定程度上提高了推理效率,但隨著 KV cache 的增大,顯存占用不斷增加,吞吐量受到了極大限制。

為了解決這一挑戰,作者提出了 CalibQuant,一種簡單卻高效的視覺 KV cache 量化策略,能夠大幅降低顯存和計算開銷。具體來說,CalibQuant 引入了一種極端的 1 比特量化方案,采用了針對視覺 KV cache 內在模式設計的后縮放和校準技術,在保證高效性的同時,不犧牲模型性能

作者通過利用 Triton 進行 runtime 優化,在 InternVL-2.5 模型上實現了 10 倍的吞吐量提升。這一方法具有即插即用的特性,能夠無縫集成到各種現有的多模態大語言模型中。

動 機

當前的多模態大語言模型在實際應用中常常需要處理大尺寸、高分辨率的圖像或視頻數據,KV cache 機制雖然能提升效率,但其顯存占用與輸入長度(如視覺幀數、圖像尺寸等)成正比。

當輸入數據的規模增大(例如更多的視覺幀、更高的圖像分辨率)時,KV 緩存的顯存使用量迅速增加,成為限制吞吐量的瓶頸。盡管當前有些針對 LLM KV cache 量化的方法可以將其壓縮至 2 比特,但這些方法沒有針對多模態問題中特有的視覺冗余做分析優化,導致其無法在極限情況 1 比特下被使用

本文通過分析多模態大語言模型中的視覺 KV cache 的冗余,設計了適合多模態模型特有的 KV cache 量化方案。

方 法

本文在通道維度量化的基礎上提出了針對反量化計算順序的后縮放優化方案和針對注意力權重優化的校準策略。

1. 通道維度 KV cache 量化:

一種廣泛使用的方法是均勻整數量化。給定一個比特寬度 b>0 和一個輸入值 x,它位于某個范圍 [α,β] 內,則將其映射到一個離散整數,計算過程為:


這里的???表示取整運算符。最樸素的方法是使用全局統計量來計算這些極值,但是模型性能會受較大影響,作者選擇在通道維度上細化統計范圍。具體來說,令表示一個 K cache,其中 n 和 d 分別表示 token 的數量和 head 的維度。 定義兩個向量如下:

然后,通過上述過程對 K 中的每一行向量進行量化,其中乘法操作是逐元素進行的。作者同樣將這種按通道的量化方法應用于 V cache。

2. 后縮放 KV cache 管理策略:

量化后的 K cache 可以用離散化的整數值、一個縮放因子(scale factor)和一個偏置項(bias term)來表示。在解碼階段,這些值被用于對 K cache 進行反量化,并隨后與 Q 相乘。然而,通道維度的量化需要為每個通道分別指定不同的縮放因子和偏置向量,這將導致產生大量不同的數值,增加了反量化過程中的計算開銷。此外,這種方式也使得 CUDA 內核中的計算效率降低。作者觀察到量化后的 K 僅具有有限數量的離散取值(例如,對于 2 比特量化,其取值僅為 0、1、2、3),于是提出利用簡單的計算順序重排來減少存儲需求,并提高計算效率。具體過程如下:

設是 K cache 矩陣中的任意一行向量,

為其進行 b 比特整數量化后的結果,并伴隨有逐通道的縮放因子α,β。給定一個查詢向量,在生成 token 過程中注意力計算如下:


其中,符號?和⊙分別表示向量之間的內積和逐元素乘積。通道維度上的反量化操作被延遲執行,并高效地集成到后續的向量乘法運算中。因此,這種方法僅存儲經過 b 比特整數量化后的數值,并且避免了全精度反量化計算過程。這種方法確保了低比特反量化執行的高效性。這種后縮放方法也可以自然地應用到 V cache 的反量化過程中。

量化后的校準:

1 比特量化的一個限制是經過反量化之后的數值往往會包含大量的極端值。這是因為 1 比特量化的碼本總是包含了最小值和最大值,導致那些接近邊界的輸入值在反量化后直接映射到了極端值。

因此,重建后的 KV cache 通常包含過多的大絕對值,最終導致注意力分數產生明顯的失真。為了解決這個問題,作者提出了一種量化后校準方法,用于調整 softmax 之前注意力分數的峰值。具體來說,假設的所有元素都位于區間內。給定,定義一個線性變換 g 將區間圖片映射到圖片,其表達式如下:


隨后對注意力分數進行如下調整:


圖片如下圖所示,校準方法(Quant-C,紅色)有效減輕了極端值的影響,使調整后的注意分數分布相較于未經校準的量化方法(Quant,藍色)更接近全精度(Exact)分布。


實驗結果

作者將提出的量化方法分別應用在 LLaVA 和 InternVL model 上,測試了其在 captioning,VQA,Video QA 三個不同的任務上的性能。以 captioning 任務為例,下圖展示了本文所提出的方法在 cococaption benchmark 下和其他方法如 KIVI,VLCache 的對比。

在不同比特數(8,4,2,1)下,本文提出的方法在大部分測試指標上都優于其他兩種方法。例如對于 llava-1.5-7b,本文的方法在 8 比特下達到最高的 CIDEr 分數 1.105,與全精度持平,并在 1 比特下提升至 1.109,超過了 VLCache(1.053)。同樣地,對于 InternVL-2.5-26B,本文的方法在 4 比特和 2 比特下分別取得了最高的 CIDEr 分數 1.32 和 1.313,均優于 VLCache 和 KIVI。


Runtime 分析

為了展示本文提出的量化方法對解碼效率的影響,作者使用 InternVL-2.5 系列模型,將所提出的 1 比特量化方法與 16 比特基線進行了吞吐量評估(即每秒生成的 token 數)。作者考慮了兩種視覺 token 長度的情況:n=3328 和 8192。作者將 GPU 最大內存從 5GB 變化到 30GB,并在每種內存限制下,尋找能夠容納的最大 batch size,測量解碼階段的吞吐量。

如下圖展示,1 比特量化方法在所有顯存預算下始終優于基線方法。例如,當 n=3329 且使用 80 億參數模型時,本文的方法在 5GB 顯存下實現了 126.582tokens/s 的吞吐量(基線為 11.628tokens/s),在 30GB 下提升至 459.016tokens/s(基線為 40.816tokens/s)。這意味著相比基線,本文方法的吞吐量提升約為 9.88×到 11.24×,充分展示了該方法在受限顯存條件下顯著提升解碼速率。


總 結

本文探討了多模態大語言模型中視覺 KV cache 的壓縮方法。簡單地將量化應用到極低比特數常常會引發分布偏移,導致模型性能下降。為了解決這一問題,本文提出了一種新穎的校準策略,作用于 softmax 之前的注意力分數,有效緩解了量化帶來的失真。此外,本文還引入了一種高效的通道維度后縮放技術以提高計算和存儲效率。

作者在 InternVL 和 LLaVA 模型系列上,針對 COCO Caption、MMBench-Video 和 DocVQA 等基準任務進行了實驗,結果驗證了所提出方法的有效性。作者利用 Triton 實現了本文所提出的方法,runtime 分析表明本文提出的方法相較于全精度模型有大約 10 倍的吞吐量提升。

論文標題:CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs

論文地址:https://arxiv.org/abs/2502.14882

代碼地址:https://github.com/insuhan/calibquant

會議推薦

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美談判中斷?美方嚴重破壞日內瓦共識,中國商務部:馬上反擊

中美談判中斷?美方嚴重破壞日內瓦共識,中國商務部:馬上反擊

科技虎虎
2025-05-21 14:52:19
江蘇一設區市衛健委原主任落馬!

江蘇一設區市衛健委原主任落馬!

江海通報
2025-05-21 21:38:35
洛杉磯周期新希望!全國游泳冠軍賽:12歲小孩姐200蝶刷PB摘金

洛杉磯周期新希望!全國游泳冠軍賽:12歲小孩姐200蝶刷PB摘金

全景體育V
2025-05-21 19:54:43
對歪風邪氣來一次大清掃!多地部署專項整治

對歪風邪氣來一次大清掃!多地部署專項整治

環球網資訊
2025-05-21 16:20:13
朱媛媛臨終細節曝光:辛柏青看到妻子吃流食,以為她能恢復惹淚目

朱媛媛臨終細節曝光:辛柏青看到妻子吃流食,以為她能恢復惹淚目

娛樂圈圈圓
2025-05-21 22:47:10
“人口警報”拉響,二胎、三胎沒人生,專家建議不生就下調養老金

“人口警報”拉響,二胎、三胎沒人生,專家建議不生就下調養老金

河山銳新聞
2025-05-21 10:52:07
“兩證”取消已成定局,過路費或將全部取消?私家車主:不公平

“兩證”取消已成定局,過路費或將全部取消?私家車主:不公平

白馬驚天劍
2025-05-17 13:36:49
南航一客機觸地復飛!多次重度顛簸,乘客驚魂,航司最新回應

南航一客機觸地復飛!多次重度顛簸,乘客驚魂,航司最新回應

南方都市報
2025-05-21 22:47:09
實至名歸,亞歷山大擊敗約基奇成為2024-25賽季NBA最有價值球員

實至名歸,亞歷山大擊敗約基奇成為2024-25賽季NBA最有價值球員

好火子
2025-05-22 03:58:33
你知道"核酸大王"張核子的背景有多強大嗎?

你知道"核酸大王"張核子的背景有多強大嗎?

振華觀史
2025-05-20 13:43:58
史上最嚴“禁酒令”來了!國家帶頭過“緊日子”,白酒行業要變天

史上最嚴“禁酒令”來了!國家帶頭過“緊日子”,白酒行業要變天

溫讀史
2025-05-21 09:23:37
暴力革命是人類發明的最丑陋、最兇殘、最令人作嘔的機器

暴力革命是人類發明的最丑陋、最兇殘、最令人作嘔的機器

壹家言
2025-05-21 09:55:53
中國與東盟十國全面完成中國—東盟自貿區3.0版談判

中國與東盟十國全面完成中國—東盟自貿區3.0版談判

每日經濟新聞
2025-05-21 16:22:59
低谷!曼聯賽季表現:英超僅第16 足總杯、聯賽杯出局 歐聯亞軍

低谷!曼聯賽季表現:英超僅第16 足總杯、聯賽杯出局 歐聯亞軍

直播吧
2025-05-22 05:22:25
奔馳多款車型售價“打骨折”,C級起售價不到17萬元

奔馳多款車型售價“打骨折”,C級起售價不到17萬元

金融界
2025-05-21 18:08:29
媒體聲音:“高價耳環”成為“烏龍事件”的可能性正在上升

媒體聲音:“高價耳環”成為“烏龍事件”的可能性正在上升

南南說娛
2025-05-21 09:14:32
上海女主播留榜一大哥過夜,身體不適去檢查,醫生:從醫這么多年

上海女主播留榜一大哥過夜,身體不適去檢查,醫生:從醫這么多年

懸案解密檔案
2025-05-20 17:26:59
深圳男子在暴雨中蹚了一回水,結果燒到40℃!染上丹毒!

深圳男子在暴雨中蹚了一回水,結果燒到40℃!染上丹毒!

廣東活動
2025-05-21 12:09:05
究竟誰要出手教訓以色列?紅色預警要打大仗:要求中國人盡快撤離

究竟誰要出手教訓以色列?紅色預警要打大仗:要求中國人盡快撤離

說天說地說實事
2025-05-21 16:09:40
我猜到了520民政局會很火,但是沒猜到會火得這么徹底!

我猜到了520民政局會很火,但是沒猜到會火得這么徹底!

夢史
2025-05-21 08:33:08
2025-05-22 05:40:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

房產
藝術
手機
健康
親子

房產要聞

海口住建官宣:限價商品房上市交易細則要來了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

真我Neo7 Turbo手機定檔5月29日發布,號稱“強悍小透明”

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

小肚子大不是脂肪的鍋!是核心兜不住內臟了,產后和久坐人群必練

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高台县| 阳信县| 赤峰市| 沙洋县| 申扎县| 砚山县| 铅山县| 新闻| 祁门县| 潢川县| 霍城县| 徐水县| 富阳市| 池州市| 莱芜市| 沙洋县| 蒙阴县| 三门县| 长岛县| 漳平市| 静安区| 桐乡市| 阿巴嘎旗| 吉林省| 康保县| 荔波县| 吴川市| 汉川市| 阿鲁科尔沁旗| 本溪市| 板桥市| 易门县| 永州市| 明光市| 子长县| 海南省| 从化市| 甘南县| 昌吉市| 锦屏县| 连江县|