99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AAAI 2025 | 中山大學(xué)提出AIQViT:面向視覺Transformer的結(jié)構(gòu)感知后訓(xùn)練量化方法

0
分享至

訓(xùn)練后量化(PTQ)已成為降低 Vision Transformers(ViTs)存儲和計算成本的重要方法之一。現(xiàn)有方法主要聚焦量化器的設(shè)計來處理 ViTs 中的激活值,然而這些方法低估了權(quán)重量化帶來的信息損失,導(dǎo)致性能退化,特別是在低比特量化情況下。

此外,這些方法大多采用對數(shù)變換來量化 ViTs 中的 Softmax 層激活,然而對數(shù)變換優(yōu)先考慮零附近信息量較小的值,引入了額外的冗余,限制了方法的量化效率。

為了解決這些問題,本文提出了一種針對 ViTs 的 PTQ 方法,稱為 AIQViT。首先,我們設(shè)計了一種架構(gòu)感知的低秩補償機制,引入了可學(xué)習(xí)的低秩權(quán)重來補償權(quán)重量化引起的性能下降;其次,我們設(shè)計了一個動態(tài)聚焦量化器來適應(yīng) Softmax 層激活的不平衡分布,該量化器動態(tài)選擇最有價值的區(qū)間以獲得更高的量化分辨率。

我們在五個視覺任務(wù)(包括圖像分類、目標(biāo)檢測、實例分割、點云分類和點云組件分割)上對所提方法的有效性進行了驗證。論文信息如下:


論文題目: AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers 論文鏈接: https://arxiv.org/abs/2502.04628

一、準(zhǔn)備知識(Preliminaries)

ViT

ViT 主要由嵌入層和一些堆疊的 ViT 網(wǎng)絡(luò)塊組成,有助于捕捉隱藏在不同圖像塊中的長距離關(guān)系,在一個網(wǎng)絡(luò)塊中,其運行機制如下:


其中 MHSA 代表多頭注意力機制,MLP 代表多層感知機網(wǎng)絡(luò)。

量化器

均勻量化器得益于其良好的硬件兼容性,從而被廣泛使用,其定義為:


其中 表示輸入浮點數(shù), 表示量化后的整數(shù), 代表量化尺度, 表示量化原點。

低秩自適應(yīng)

低秩自適應(yīng)(Low-Rank Adaptation, LoRA)是一種在大語言模型參數(shù)高效微調(diào)領(lǐng)域廣泛使用的技術(shù),其可以表示為:


其中 B 和 A 為兩個低秩矩陣,在微調(diào)過程中只需要對 B 和 A 進行更新,其具有參數(shù)量小、訓(xùn)練成本低的特點。

二、方法(Method)

結(jié)構(gòu)感知低秩補償機制

與 CNN 不同,ViT 由大量全連接(FC)層組成,這需要大量的計算和存儲資源。然而,由于 ViT 的架構(gòu)更為復(fù)雜,直接對這些層進行權(quán)重量化可能會導(dǎo)致關(guān)鍵信息的丟失,從而導(dǎo)致量化模型泛化能力下降。

為了解決這個問題,為 FC 層引入了一些可學(xué)習(xí)的權(quán)重來補償信息丟失。這些可學(xué)習(xí)的權(quán)重具有低秩的特點,有效地降低了優(yōu)化成本,同時防止了可能由有限數(shù)據(jù)引起的過擬合。低秩補償過程可以定義為:


其中,我們保持 在訓(xùn)練時不被更新,而以以下方式更新 B 和 A:


其中, 表示在第 t 次迭代時用以第 l 個網(wǎng)絡(luò)塊訓(xùn)練的數(shù)據(jù)。鑒于低秩權(quán)重在訓(xùn)練時可被更新,從而鼓勵量化模型學(xué)習(xí)與量化兼容的參數(shù)空間,并且顯著減輕了權(quán)重量化引起的重建誤差,而不會產(chǎn)生大量優(yōu)化開銷。

此外,在訓(xùn)練過程中,我們發(fā)現(xiàn)低秩矩陣的秩 r 對最終量化效果有著顯著的影響,收到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的啟發(fā),我們設(shè)計了一種自動搜索得到 r 的方式。具體來說,首先給定候選低秩 r 的集合 ,對于全連接層,前向傳播的過程定義為:


其中 是可學(xué)習(xí)的參數(shù), 代表著每個候選結(jié)構(gòu)的重要性,表示drop-path操作。同時,我們把矯正數(shù)據(jù)集 劃分成 和 ,并定義優(yōu)化過程如下:


上述優(yōu)化問題可以使用近似結(jié)構(gòu)梯度進行求解,完成求解后,最優(yōu)的秩可被確定為 。上述過程如圖 1 所示。


圖1. 結(jié)構(gòu)感知低秩補償機制示意圖動態(tài)注意力量化器

如圖 2(a)所示,Softmax 層后的激活分布呈現(xiàn)出及其不平衡的分布,從而對量化造成了挑戰(zhàn)。

之前的工作多是采用基于 log2 的變換,即首先對激活進行變換然后對變換后的值進行量化,這種方法存在著如下局限性:靠近 0 的值往往具有較大的量化分辨率,但靠近 0 的值往往包含有更多的背景噪聲,這影響了量化的效率;此外,log2 量化器為每一層保持固定的間隔,這可能不是最佳解決方案。

基于上述分析,我們設(shè)計了一種動態(tài)注意力量化器(DFQ)動態(tài)地選擇最有價值的量化區(qū)間,并為該量化區(qū)間賦予更高的量化分辨率,其具體形式為:


其中 為可學(xué)習(xí)的量化區(qū)間。通過動態(tài)選擇 和 ,DFQ 將關(guān)注最有價值的區(qū)間,并相應(yīng)地優(yōu)先賦予更多比特。對于區(qū)間以外的值,DFQ 直接對其截斷,對于區(qū)間內(nèi)的值,DFQ 采用通用的均勻量化器,這不僅提升了量化效率,還避免了復(fù)雜的對數(shù)運算,降低了量化的運算開銷。


圖2. (a) DeiT-T中第一個MHSA模塊Softmax激活后的直方圖;(b) log2量化器(藍色)和DFQ(橙色);(c) 在ImageNet上使用W3/A3量化的結(jié)果。優(yōu)化策略

受課程式學(xué)習(xí)啟發(fā),在優(yōu)化目標(biāo)參數(shù)時,本文使用一種“先易后難”的優(yōu)化策略,在第 t 次迭代時,訓(xùn)練數(shù)據(jù)為:


其中 λ(t) 控制在第 t 次迭代時選取樣本的比例,在本文中,我們采取一種線性方式:


其中 表示初始樣本選擇比例,T 表示總的迭代次數(shù)。因此,量化模型傾向于在早期訓(xùn)練階段學(xué)習(xí)高置信度區(qū)域,減輕異常值的負面影響,并為穩(wěn)定優(yōu)化準(zhǔn)備更有利的參數(shù)空間。

三、實驗(Experiment)

對比實驗

本文在五個視覺任務(wù)上進行了實驗,分別是圖像分類、目標(biāo)檢測、實例分割、點云分類、點云組件分割。實驗結(jié)果如表 1-4 所示。

實驗結(jié)果顯示,與先進的訓(xùn)練后量化方法相比,本文提出的 AIQViT 取得了更加優(yōu)越的性能,即使在低比特量化的情形下,所提出方法依舊可以保持較好的性能。


表1. ImageNet數(shù)據(jù)集量化實驗結(jié)果


表2. COCO數(shù)據(jù)集量化實驗結(jié)果


表3. ModelNet40數(shù)據(jù)集量化實驗結(jié)果


表4. ShapeNetPart數(shù)據(jù)集量化實驗結(jié)果
四、消融實驗

關(guān)鍵組件有效性分析

為了驗證 AIQViT 中關(guān)鍵組件的有效性,我們使用 DeiT-T 對 ImageNet 數(shù)據(jù)集進行消融研究。為了方便起見,架構(gòu)知情的低秩補償、動態(tài)聚焦量化器和課程學(xué)習(xí)策略分別縮寫為 AILoC、DFQ 和 CL。

定量實驗結(jié)果詳見表 5。當(dāng)不適用 DFQ 時,Softmax 后激活將采用統(tǒng)一量化器。結(jié)果表明,當(dāng)使用所有變體時,AIQViT 獲得了最佳結(jié)果。

具體而言,與 vanilla(排除所有變體)相比,AILoC 分別將 W3/A3、W4/A4 和 W6/A6 量化的測試準(zhǔn)確率提高了 15.31%、10.80% 和 7.61%,證實了 AILoC 中使用的低秩補償機制的有效性。此外,當(dāng) DFQ 不存在時,AIQViT 的準(zhǔn)確率下降了 11.93%,這表明 DFQ 在處理低位情況方面具有優(yōu)勢。


表5. 關(guān)鍵組件消融結(jié)果

此外,為了驗證結(jié)構(gòu)搜索的有效性,我們在 ImageNet 上進行了相關(guān)實驗,實驗結(jié)果如表 6 所示。從表 6 可以看出,具有自動搜索的 AIQViT 始終比具有固定 r 的 AIQiT 表現(xiàn)更好。這主要是由于可微架構(gòu)搜索,它為網(wǎng)絡(luò)量化帶來了更合適的架構(gòu)。


表6. 不同秩 r 對模型的影響

對于 DeiT-S,在 W4/A4 和 W6/A6 量化的情況下,r=20 的模型比 r=100 的模型高出 1.0% 和 0.3%,這表明直接增加 r 并不能保證更好的性能。

五、結(jié)論

本文提出了一種為 ViTs 設(shè)計的訓(xùn)練后量化方法 AIQViT。AIQViT 采用了一種結(jié)構(gòu)感知低秩補償機制,該機制分別使用網(wǎng)絡(luò)架構(gòu)搜索和課程式學(xué)習(xí)策略進行秩計算和穩(wěn)定優(yōu)化。

此外,提出了一種簡單而有效的 DFQ 來解決 Softmax 后激活的不平衡分布,避免了效率較低的對數(shù)運算,從而進一步提高了量化效率。在五個視覺任務(wù)的實驗表明,所提方法取得了比已有方法更優(yōu)異的性能,同時取得了更好的泛化性。


作者:姜潤青 來源:公眾號【PaperWeekly 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(

www.techbeat.net
) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團隊由微軟創(chuàng)投在中國的創(chuàng)始團隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

未央看點
2025-06-24 01:32:07
太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
以伊十二日戰(zhàn)爭結(jié)束, 伊朗成最大贏家!!!

以伊十二日戰(zhàn)爭結(jié)束, 伊朗成最大贏家!!!

山河路口
2025-06-25 12:47:16
社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

稅海拾真
2025-06-25 09:42:30
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

星光看娛樂
2025-06-25 13:20:52
女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

懸案解密檔案
2025-06-21 09:33:54
首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

嘴炮體壇
2025-06-25 10:54:31
2-0!2-1!溫網(wǎng)第2天,中國金花2人同時晉級,36歲老將接近創(chuàng)歷史

2-0!2-1!溫網(wǎng)第2天,中國金花2人同時晉級,36歲老將接近創(chuàng)歷史

侃球熊弟
2025-06-24 22:38:56
世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

荊楚寰宇文樞
2025-06-24 23:52:04
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
國務(wù)院辦公廳關(guān)于進一步規(guī)范和提升12345熱線服務(wù)的意見

國務(wù)院辦公廳關(guān)于進一步規(guī)范和提升12345熱線服務(wù)的意見

新京報
2025-06-25 17:18:45
比亞迪經(jīng)銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

比亞迪經(jīng)銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

車市紅點
2025-06-24 15:41:51
65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當(dāng)場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當(dāng)場喪生

環(huán)球熱點快評
2025-06-24 09:03:00
斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

劉姚堯的文字城堡
2025-06-25 08:50:58
國家出手!大批醫(yī)院將退出醫(yī)保

國家出手!大批醫(yī)院將退出醫(yī)保

賽柏藍
2025-06-25 20:29:49
全國城管機構(gòu)大撤銷!百萬城管咋辦?六個方案能解決重就業(yè)問題?

全國城管機構(gòu)大撤銷!百萬城管咋辦?六個方案能解決重就業(yè)問題?

說宇宙
2025-06-22 11:20:03
失傳已久的手診口訣找到了,趕緊收藏

失傳已久的手診口訣找到了,趕緊收藏

鄉(xiāng)村白大褂之家
2025-06-24 20:52:56
2025-06-25 21:23:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2156文章數(shù) 591關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

手機
數(shù)碼
游戲
房產(chǎn)
旅游

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業(yè)首發(fā)單內(nèi)屏寶

數(shù)碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現(xiàn)!

房產(chǎn)要聞

三亞頂豪!內(nèi)部資料曝光!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 苍梧县| 阿勒泰市| 苗栗市| 闸北区| 九江市| 武鸣县| 元朗区| 商丘市| 德保县| 南木林县| 榆社县| 全州县| 三亚市| 河北区| 五大连池市| 富裕县| 岳阳县| 全州县| 万安县| 瑞丽市| 洛南县| 西青区| 巫山县| 荔波县| 比如县| 陕西省| 郓城县| 永定县| 南投市| 岗巴县| 分宜县| 冀州市| 台湾省| 吉首市| 沂水县| 阜南县| 嘉定区| 马关县| 从化市| 定远县| 昭通市|