訓(xùn)練后量化(PTQ)已成為降低 Vision Transformers(ViTs)存儲和計算成本的重要方法之一。現(xiàn)有方法主要聚焦量化器的設(shè)計來處理 ViTs 中的激活值,然而這些方法低估了權(quán)重量化帶來的信息損失,導(dǎo)致性能退化,特別是在低比特量化情況下。
此外,這些方法大多采用對數(shù)變換來量化 ViTs 中的 Softmax 層激活,然而對數(shù)變換優(yōu)先考慮零附近信息量較小的值,引入了額外的冗余,限制了方法的量化效率。
為了解決這些問題,本文提出了一種針對 ViTs 的 PTQ 方法,稱為 AIQViT。首先,我們設(shè)計了一種架構(gòu)感知的低秩補償機制,引入了可學(xué)習(xí)的低秩權(quán)重來補償權(quán)重量化引起的性能下降;其次,我們設(shè)計了一個動態(tài)聚焦量化器來適應(yīng) Softmax 層激活的不平衡分布,該量化器動態(tài)選擇最有價值的區(qū)間以獲得更高的量化分辨率。
我們在五個視覺任務(wù)(包括圖像分類、目標(biāo)檢測、實例分割、點云分類和點云組件分割)上對所提方法的有效性進行了驗證。論文信息如下:
論文題目: AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers 論文鏈接: https://arxiv.org/abs/2502.04628
一、準(zhǔn)備知識(Preliminaries)
ViT
ViT 主要由嵌入層和一些堆疊的 ViT 網(wǎng)絡(luò)塊組成,有助于捕捉隱藏在不同圖像塊中的長距離關(guān)系,在一個網(wǎng)絡(luò)塊中,其運行機制如下:
其中 MHSA 代表多頭注意力機制,MLP 代表多層感知機網(wǎng)絡(luò)。
量化器
均勻量化器得益于其良好的硬件兼容性,從而被廣泛使用,其定義為:
其中 表示輸入浮點數(shù), 表示量化后的整數(shù), 代表量化尺度, 表示量化原點。
低秩自適應(yīng)
低秩自適應(yīng)(Low-Rank Adaptation, LoRA)是一種在大語言模型參數(shù)高效微調(diào)領(lǐng)域廣泛使用的技術(shù),其可以表示為:
其中 B 和 A 為兩個低秩矩陣,在微調(diào)過程中只需要對 B 和 A 進行更新,其具有參數(shù)量小、訓(xùn)練成本低的特點。
二、方法(Method)
結(jié)構(gòu)感知低秩補償機制
與 CNN 不同,ViT 由大量全連接(FC)層組成,這需要大量的計算和存儲資源。然而,由于 ViT 的架構(gòu)更為復(fù)雜,直接對這些層進行權(quán)重量化可能會導(dǎo)致關(guān)鍵信息的丟失,從而導(dǎo)致量化模型泛化能力下降。
為了解決這個問題,為 FC 層引入了一些可學(xué)習(xí)的權(quán)重來補償信息丟失。這些可學(xué)習(xí)的權(quán)重具有低秩的特點,有效地降低了優(yōu)化成本,同時防止了可能由有限數(shù)據(jù)引起的過擬合。低秩補償過程可以定義為:
其中,我們保持 在訓(xùn)練時不被更新,而以以下方式更新 B 和 A:
其中, 表示在第 t 次迭代時用以第 l 個網(wǎng)絡(luò)塊訓(xùn)練的數(shù)據(jù)。鑒于低秩權(quán)重在訓(xùn)練時可被更新,從而鼓勵量化模型學(xué)習(xí)與量化兼容的參數(shù)空間,并且顯著減輕了權(quán)重量化引起的重建誤差,而不會產(chǎn)生大量優(yōu)化開銷。
此外,在訓(xùn)練過程中,我們發(fā)現(xiàn)低秩矩陣的秩 r 對最終量化效果有著顯著的影響,收到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的啟發(fā),我們設(shè)計了一種自動搜索得到 r 的方式。具體來說,首先給定候選低秩 r 的集合 ,對于全連接層,前向傳播的過程定義為:
其中 是可學(xué)習(xí)的參數(shù), 代表著每個候選結(jié)構(gòu)的重要性,表示drop-path操作。同時,我們把矯正數(shù)據(jù)集 劃分成 和 ,并定義優(yōu)化過程如下:
上述優(yōu)化問題可以使用近似結(jié)構(gòu)梯度進行求解,完成求解后,最優(yōu)的秩可被確定為 。上述過程如圖 1 所示。
圖1. 結(jié)構(gòu)感知低秩補償機制示意圖動態(tài)注意力量化器
如圖 2(a)所示,Softmax 層后的激活分布呈現(xiàn)出及其不平衡的分布,從而對量化造成了挑戰(zhàn)。
之前的工作多是采用基于 log2 的變換,即首先對激活進行變換然后對變換后的值進行量化,這種方法存在著如下局限性:靠近 0 的值往往具有較大的量化分辨率,但靠近 0 的值往往包含有更多的背景噪聲,這影響了量化的效率;此外,log2 量化器為每一層保持固定的間隔,這可能不是最佳解決方案。
基于上述分析,我們設(shè)計了一種動態(tài)注意力量化器(DFQ)動態(tài)地選擇最有價值的量化區(qū)間,并為該量化區(qū)間賦予更高的量化分辨率,其具體形式為:
其中 為可學(xué)習(xí)的量化區(qū)間。通過動態(tài)選擇 和 ,DFQ 將關(guān)注最有價值的區(qū)間,并相應(yīng)地優(yōu)先賦予更多比特。對于區(qū)間以外的值,DFQ 直接對其截斷,對于區(qū)間內(nèi)的值,DFQ 采用通用的均勻量化器,這不僅提升了量化效率,還避免了復(fù)雜的對數(shù)運算,降低了量化的運算開銷。
圖2. (a) DeiT-T中第一個MHSA模塊Softmax激活后的直方圖;(b) log2量化器(藍色)和DFQ(橙色);(c) 在ImageNet上使用W3/A3量化的結(jié)果。優(yōu)化策略
受課程式學(xué)習(xí)啟發(fā),在優(yōu)化目標(biāo)參數(shù)時,本文使用一種“先易后難”的優(yōu)化策略,在第 t 次迭代時,訓(xùn)練數(shù)據(jù)為:
其中 λ(t) 控制在第 t 次迭代時選取樣本的比例,在本文中,我們采取一種線性方式:
其中 表示初始樣本選擇比例,T 表示總的迭代次數(shù)。因此,量化模型傾向于在早期訓(xùn)練階段學(xué)習(xí)高置信度區(qū)域,減輕異常值的負面影響,并為穩(wěn)定優(yōu)化準(zhǔn)備更有利的參數(shù)空間。
三、實驗(Experiment)
對比實驗
本文在五個視覺任務(wù)上進行了實驗,分別是圖像分類、目標(biāo)檢測、實例分割、點云分類、點云組件分割。實驗結(jié)果如表 1-4 所示。
實驗結(jié)果顯示,與先進的訓(xùn)練后量化方法相比,本文提出的 AIQViT 取得了更加優(yōu)越的性能,即使在低比特量化的情形下,所提出方法依舊可以保持較好的性能。
表1. ImageNet數(shù)據(jù)集量化實驗結(jié)果
表2. COCO數(shù)據(jù)集量化實驗結(jié)果
表3. ModelNet40數(shù)據(jù)集量化實驗結(jié)果
表4. ShapeNetPart數(shù)據(jù)集量化實驗結(jié)果
四、消融實驗
關(guān)鍵組件有效性分析
為了驗證 AIQViT 中關(guān)鍵組件的有效性,我們使用 DeiT-T 對 ImageNet 數(shù)據(jù)集進行消融研究。為了方便起見,架構(gòu)知情的低秩補償、動態(tài)聚焦量化器和課程學(xué)習(xí)策略分別縮寫為 AILoC、DFQ 和 CL。
定量實驗結(jié)果詳見表 5。當(dāng)不適用 DFQ 時,Softmax 后激活將采用統(tǒng)一量化器。結(jié)果表明,當(dāng)使用所有變體時,AIQViT 獲得了最佳結(jié)果。
具體而言,與 vanilla(排除所有變體)相比,AILoC 分別將 W3/A3、W4/A4 和 W6/A6 量化的測試準(zhǔn)確率提高了 15.31%、10.80% 和 7.61%,證實了 AILoC 中使用的低秩補償機制的有效性。此外,當(dāng) DFQ 不存在時,AIQViT 的準(zhǔn)確率下降了 11.93%,這表明 DFQ 在處理低位情況方面具有優(yōu)勢。
表5. 關(guān)鍵組件消融結(jié)果
此外,為了驗證結(jié)構(gòu)搜索的有效性,我們在 ImageNet 上進行了相關(guān)實驗,實驗結(jié)果如表 6 所示。從表 6 可以看出,具有自動搜索的 AIQViT 始終比具有固定 r 的 AIQiT 表現(xiàn)更好。這主要是由于可微架構(gòu)搜索,它為網(wǎng)絡(luò)量化帶來了更合適的架構(gòu)。
表6. 不同秩 r 對模型的影響
對于 DeiT-S,在 W4/A4 和 W6/A6 量化的情況下,r=20 的模型比 r=100 的模型高出 1.0% 和 0.3%,這表明直接增加 r 并不能保證更好的性能。
五、結(jié)論
本文提出了一種為 ViTs 設(shè)計的訓(xùn)練后量化方法 AIQViT。AIQViT 采用了一種結(jié)構(gòu)感知低秩補償機制,該機制分別使用網(wǎng)絡(luò)架構(gòu)搜索和課程式學(xué)習(xí)策略進行秩計算和穩(wěn)定優(yōu)化。
此外,提出了一種簡單而有效的 DFQ 來解決 Softmax 后激活的不平衡分布,避免了效率較低的對數(shù)運算,從而進一步提高了量化效率。在五個視覺任務(wù)的實驗表明,所提方法取得了比已有方法更優(yōu)異的性能,同時取得了更好的泛化性。
作者:姜潤青 來源:公眾號【PaperWeekly 】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。
將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.