AAAI 2025 | 中山大學(xué)提出AIQViT：面向視覺Transformer的結(jié)構(gòu)感知后訓(xùn)練量化方法

2025-02-26 14:14:29　來源: 將門創(chuàng)投

北京舉報

分享至

訓(xùn)練后量化（PTQ）已成為降低 Vision Transformers（ViTs）存儲和計算成本的重要方法之一。現(xiàn)有方法主要聚焦量化器的設(shè)計來處理 ViTs 中的激活值，然而這些方法低估了權(quán)重量化帶來的信息損失，導(dǎo)致性能退化，特別是在低比特量化情況下。

此外，這些方法大多采用對數(shù)變換來量化 ViTs 中的 Softmax 層激活，然而對數(shù)變換優(yōu)先考慮零附近信息量較小的值，引入了額外的冗余，限制了方法的量化效率。

為了解決這些問題，本文提出了一種針對 ViTs 的 PTQ 方法，稱為 AIQViT。首先，我們設(shè)計了一種架構(gòu)感知的低秩補償機制，引入了可學(xué)習(xí)的低秩權(quán)重來補償權(quán)重量化引起的性能下降；其次，我們設(shè)計了一個動態(tài)聚焦量化器來適應(yīng) Softmax 層激活的不平衡分布，該量化器動態(tài)選擇最有價值的區(qū)間以獲得更高的量化分辨率。

我們在五個視覺任務(wù)（包括圖像分類、目標(biāo)檢測、實例分割、點云分類和點云組件分割）上對所提方法的有效性進行了驗證。論文信息如下：

論文題目： AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers 論文鏈接： https://arxiv.org/abs/2502.04628

一、準(zhǔn)備知識（Preliminaries）

ViT

ViT 主要由嵌入層和一些堆疊的 ViT 網(wǎng)絡(luò)塊組成，有助于捕捉隱藏在不同圖像塊中的長距離關(guān)系，在一個網(wǎng)絡(luò)塊中，其運行機制如下：

其中 MHSA 代表多頭注意力機制，MLP 代表多層感知機網(wǎng)絡(luò)。

量化器

均勻量化器得益于其良好的硬件兼容性，從而被廣泛使用，其定義為：

其中表示輸入浮點數(shù)，表示量化后的整數(shù)，代表量化尺度，表示量化原點。

低秩自適應(yīng)

低秩自適應(yīng)（Low-Rank Adaptation, LoRA）是一種在大語言模型參數(shù)高效微調(diào)領(lǐng)域廣泛使用的技術(shù)，其可以表示為：

其中 B 和 A 為兩個低秩矩陣，在微調(diào)過程中只需要對 B 和 A 進行更新，其具有參數(shù)量小、訓(xùn)練成本低的特點。

二、方法（Method）

結(jié)構(gòu)感知低秩補償機制

與 CNN 不同，ViT 由大量全連接（FC）層組成，這需要大量的計算和存儲資源。然而，由于 ViT 的架構(gòu)更為復(fù)雜，直接對這些層進行權(quán)重量化可能會導(dǎo)致關(guān)鍵信息的丟失，從而導(dǎo)致量化模型泛化能力下降。

為了解決這個問題，為 FC 層引入了一些可學(xué)習(xí)的權(quán)重來補償信息丟失。這些可學(xué)習(xí)的權(quán)重具有低秩的特點，有效地降低了優(yōu)化成本，同時防止了可能由有限數(shù)據(jù)引起的過擬合。低秩補償過程可以定義為：

其中，我們保持在訓(xùn)練時不被更新，而以以下方式更新 B 和 A：

其中，表示在第 t 次迭代時用以第 l 個網(wǎng)絡(luò)塊訓(xùn)練的數(shù)據(jù)。鑒于低秩權(quán)重在訓(xùn)練時可被更新，從而鼓勵量化模型學(xué)習(xí)與量化兼容的參數(shù)空間，并且顯著減輕了權(quán)重量化引起的重建誤差，而不會產(chǎn)生大量優(yōu)化開銷。

此外，在訓(xùn)練過程中，我們發(fā)現(xiàn)低秩矩陣的秩 r 對最終量化效果有著顯著的影響，收到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的啟發(fā)，我們設(shè)計了一種自動搜索得到 r 的方式。具體來說，首先給定候選低秩 r 的集合，對于全連接層，前向傳播的過程定義為：

其中是可學(xué)習(xí)的參數(shù)，代表著每個候選結(jié)構(gòu)的重要性，表示drop-path操作。同時，我們把矯正數(shù)據(jù)集劃分成和，并定義優(yōu)化過程如下：

上述優(yōu)化問題可以使用近似結(jié)構(gòu)梯度進行求解，完成求解后，最優(yōu)的秩可被確定為。上述過程如圖 1 所示。

圖1. 結(jié)構(gòu)感知低秩補償機制示意圖動態(tài)注意力量化器

如圖 2（a）所示，Softmax 層后的激活分布呈現(xiàn)出及其不平衡的分布，從而對量化造成了挑戰(zhàn)。

之前的工作多是采用基于 log2 的變換，即首先對激活進行變換然后對變換后的值進行量化，這種方法存在著如下局限性：靠近 0 的值往往具有較大的量化分辨率，但靠近 0 的值往往包含有更多的背景噪聲，這影響了量化的效率；此外，log2 量化器為每一層保持固定的間隔，這可能不是最佳解決方案。

基于上述分析，我們設(shè)計了一種動態(tài)注意力量化器（DFQ）動態(tài)地選擇最有價值的量化區(qū)間，并為該量化區(qū)間賦予更高的量化分辨率，其具體形式為：

其中為可學(xué)習(xí)的量化區(qū)間。通過動態(tài)選擇和，DFQ 將關(guān)注最有價值的區(qū)間，并相應(yīng)地優(yōu)先賦予更多比特。對于區(qū)間以外的值，DFQ 直接對其截斷，對于區(qū)間內(nèi)的值，DFQ 采用通用的均勻量化器，這不僅提升了量化效率，還避免了復(fù)雜的對數(shù)運算，降低了量化的運算開銷。

圖2. (a) DeiT-T中第一個MHSA模塊Softmax激活后的直方圖；(b) log2量化器（藍色）和DFQ（橙色）；(c) 在ImageNet上使用W3/A3量化的結(jié)果。優(yōu)化策略

受課程式學(xué)習(xí)啟發(fā)，在優(yōu)化目標(biāo)參數(shù)時，本文使用一種“先易后難”的優(yōu)化策略，在第 t 次迭代時，訓(xùn)練數(shù)據(jù)為：

其中 λ(t) 控制在第 t 次迭代時選取樣本的比例，在本文中，我們采取一種線性方式：

其中表示初始樣本選擇比例，T 表示總的迭代次數(shù)。因此，量化模型傾向于在早期訓(xùn)練階段學(xué)習(xí)高置信度區(qū)域，減輕異常值的負面影響，并為穩(wěn)定優(yōu)化準(zhǔn)備更有利的參數(shù)空間。

三、實驗（Experiment）

對比實驗

本文在五個視覺任務(wù)上進行了實驗，分別是圖像分類、目標(biāo)檢測、實例分割、點云分類、點云組件分割。實驗結(jié)果如表 1-4 所示。

實驗結(jié)果顯示，與先進的訓(xùn)練后量化方法相比，本文提出的 AIQViT 取得了更加優(yōu)越的性能，即使在低比特量化的情形下，所提出方法依舊可以保持較好的性能。

表1. ImageNet數(shù)據(jù)集量化實驗結(jié)果

表2. COCO數(shù)據(jù)集量化實驗結(jié)果

表3. ModelNet40數(shù)據(jù)集量化實驗結(jié)果

表4. ShapeNetPart數(shù)據(jù)集量化實驗結(jié)果
四、消融實驗

關(guān)鍵組件有效性分析

為了驗證 AIQViT 中關(guān)鍵組件的有效性，我們使用 DeiT-T 對 ImageNet 數(shù)據(jù)集進行消融研究。為了方便起見，架構(gòu)知情的低秩補償、動態(tài)聚焦量化器和課程學(xué)習(xí)策略分別縮寫為 AILoC、DFQ 和 CL。

定量實驗結(jié)果詳見表 5。當(dāng)不適用 DFQ 時，Softmax 后激活將采用統(tǒng)一量化器。結(jié)果表明，當(dāng)使用所有變體時，AIQViT 獲得了最佳結(jié)果。

具體而言，與 vanilla（排除所有變體）相比，AILoC 分別將 W3/A3、W4/A4 和 W6/A6 量化的測試準(zhǔn)確率提高了 15.31%、10.80% 和 7.61%，證實了 AILoC 中使用的低秩補償機制的有效性。此外，當(dāng) DFQ 不存在時，AIQViT 的準(zhǔn)確率下降了 11.93%，這表明 DFQ 在處理低位情況方面具有優(yōu)勢。

表5. 關(guān)鍵組件消融結(jié)果

此外，為了驗證結(jié)構(gòu)搜索的有效性，我們在 ImageNet 上進行了相關(guān)實驗，實驗結(jié)果如表 6 所示。從表 6 可以看出，具有自動搜索的 AIQViT 始終比具有固定 r 的 AIQiT 表現(xiàn)更好。這主要是由于可微架構(gòu)搜索，它為網(wǎng)絡(luò)量化帶來了更合適的架構(gòu)。

表6. 不同秩 r 對模型的影響

對于 DeiT-S，在 W4/A4 和 W6/A6 量化的情況下，r=20 的模型比 r=100 的模型高出 1.0% 和 0.3%，這表明直接增加 r 并不能保證更好的性能。

五、結(jié)論

本文提出了一種為 ViTs 設(shè)計的訓(xùn)練后量化方法 AIQViT。AIQViT 采用了一種結(jié)構(gòu)感知低秩補償機制，該機制分別使用網(wǎng)絡(luò)架構(gòu)搜索和課程式學(xué)習(xí)策略進行秩計算和穩(wěn)定優(yōu)化。

此外，提出了一種簡單而有效的 DFQ 來解決 Softmax 后激活的不平衡分布，避免了效率較低的對數(shù)運算，從而進一步提高了量化效率。在五個視覺任務(wù)的實驗表明，所提方法取得了比已有方法更優(yōu)異的性能，同時取得了更好的泛化性。

作者：姜潤青來源：公眾號【PaperWeekly 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（

www.techbeat.net

）。社區(qū)上線600+期talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門創(chuàng)投”公眾號，后臺回復(fù)“投稿”二字，獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.