99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為中科大聯(lián)創(chuàng)大模型低比特量化算法,1‰數(shù)據(jù)實(shí)現(xiàn)昇騰無損壓縮7倍

0
分享至


新智元報(bào)道

編輯:編輯部 XYH

【新智元導(dǎo)讀】大模型巨無霸體量,讓端側(cè)部署望而卻步?華為聯(lián)手中科大提出CBQ新方案,僅用0.1%的訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)7倍壓縮率,保留99%精度。

大模型,如今堪稱AI界的「吞金巨獸」。

從寫詩到解題,從對(duì)話到編程,它們幾乎無所不能,但動(dòng)輒千億甚至萬億參數(shù)的規(guī)模,讓部署成本高得離譜。

以FP16精度部署的DeepSeek-R1 671B為例,推理時(shí)大概需要1342GB的顯存,如果是32GB 5090顯卡,需要整整42張!

為了降低成本,天才工程師們想出了后訓(xùn)練量化(Post-training Quantization,PTQ)的方法它能夠在有限的校準(zhǔn)數(shù)據(jù)和計(jì)算資源下對(duì)模型進(jìn)行高效壓縮。

但是PTQ依然帶來新的問題——在極低比特精度(如W2A16、W4A4)時(shí)往往會(huì)出現(xiàn)明顯的性能下降,規(guī)模是降了,但是不好用了!

就在這關(guān)鍵時(shí)刻,華為諾亞方舟實(shí)驗(yàn)室聯(lián)合中科大亮出了「殺手锏」——CBQ(Cross-Block Quantization),一種基于跨塊重建的后訓(xùn)練量化方案


論文地址:https://openreview.net/pdf?id=eW4yh6HKz4

相比量化感知訓(xùn)練(QAT)所需數(shù)據(jù)量,CBQ僅用0.1%的訓(xùn)練數(shù)據(jù),一鍵壓縮大模型至1/7體積——浮點(diǎn)模型性能保留99%,真正實(shí)現(xiàn)「輕量不降智」。

值得一提的是,這項(xiàng)成果已榮登ICLR 2025 Spotlight(錄取率僅5%)。

它不僅展現(xiàn)了大模型壓縮領(lǐng)域的創(chuàng)新性和實(shí)用性,更像一顆信號(hào)彈,宣告大模型在國(guó)產(chǎn)算力上的普及時(shí)代已然來臨!

目前,CBQ已作為可調(diào)用的算法之一,正式加入昇騰模型壓縮工具包ModelSlim,幫助開發(fā)者在昇騰芯片上實(shí)現(xiàn)LLM的高效部署。

極低比特量化,為何如此難?

長(zhǎng)期以來,后訓(xùn)練量化(PTQ)一直是壓縮大語言模型的「黑科技」——通過解決異常值和采用layer-wise或block-wise的loss優(yōu)化技術(shù)取得了比較不錯(cuò)的結(jié)果。

但是當(dāng)把參數(shù)比特「壓得特別低」的時(shí)候,模型性能會(huì)嚴(yán)重下降。

為什么極低比特量化,如此困難?其實(shí),答案隱藏在大模型的復(fù)雜結(jié)構(gòu)中。

研究者們對(duì)LLM在低比特量化場(chǎng)景下的量化誤差進(jìn)行了深入分析,發(fā)現(xiàn)了問題的關(guān)鍵所在:

隨著模型參數(shù)數(shù)量的增加和量化bit數(shù)的減少,模型內(nèi)部的層間依賴(inter-layer dependencies)和層內(nèi)依賴(intra-layer dependencies)會(huì)顯著增強(qiáng),這嚴(yán)重影響了量化精度。

如下實(shí)驗(yàn)所示,清晰展示了LLAMA-7B層間與層內(nèi)的依賴關(guān)系。


圖1:Llama-7B內(nèi)部權(quán)重和層之間依賴關(guān)系的變化,以及層間縮放因子(scale)對(duì)誤差的影響

圖1(a)為L(zhǎng)LAMA-7B單一層中權(quán)重的Hessian矩陣絕對(duì)值可視化,2-bit圖比4-bit更模糊,非對(duì)角線噪聲增多,表示在低比特下權(quán)重間的「干擾」增強(qiáng)了。


圖1(b)為L(zhǎng)LAMA-7B 32層中損失相對(duì)于scale的Hessian矩陣可視化,2-bit量化中,非對(duì)角線明顯比4-bit更亮,說明層間依賴增強(qiáng),模型更容易因?yàn)橐粚拥恼`差影響到另一層。

以及圖1(c)LLAMA-7B前兩個(gè)Transformer塊的平均scale與相應(yīng)損失之間的關(guān)系,4-bit情況下,誤差平穩(wěn)區(qū)域大,模型對(duì) scale 不敏感。2-bit情況下,誤差對(duì)scale非常敏感,選擇不當(dāng)誤差急劇上升,黑色區(qū)域更集中、易出錯(cuò)。

總結(jié)來說,將模型參數(shù)從高精度壓縮到低精度,這一過程主要面臨三大核心挑戰(zhàn):

1.層間依賴的「雪球效應(yīng)」

大模型由多個(gè)Transformer層組成,各層參數(shù)之間存在復(fù)雜的相互依賴。

在極低比特量化時(shí),量化誤差會(huì)在層間不斷累積放大,就像「滾雪球」一樣,導(dǎo)致整體性能嚴(yán)重下降。

然而,傳統(tǒng)逐層量化的方法,無法有效捕捉這些層間依賴,進(jìn)而造成了精度損失。

2.層內(nèi)依賴的復(fù)雜性

同一層內(nèi)的參數(shù)并非獨(dú)立存在,而是存在緊密的關(guān)聯(lián)性。

極低比特量化會(huì)破壞這些精細(xì)的層內(nèi)依賴,導(dǎo)致模型在處理復(fù)雜任務(wù)時(shí)「力不從心」。

比如,大模型語義理解或推理能力,可能因參數(shù)精度的降低而顯著退化。

3.權(quán)重和激活的異常值

模型的權(quán)重和激活值中的異常值,在低比特量化時(shí)會(huì)引發(fā)較大的誤差。

傳統(tǒng)的方法無法精確識(shí)別和處理這些異常值,進(jìn)一步加劇了量化誤差。

可見,這些挑戰(zhàn)讓低比特量化,成為大模型壓縮的「攔路虎」。

那么,華為的CBQ方案,是如何突破這些瓶頸?讓我們一探究竟!

CBQ打破層間壁壘,精準(zhǔn)又高效

CBQ的核心思想是,通過跨塊依賴(Cross-Block Dependency, CBD)機(jī)制和自適應(yīng)LoRA-Rounding技術(shù),同時(shí)優(yōu)化多個(gè)Transformer塊的量化參數(shù),從而更好地保留模型內(nèi)部的依賴關(guān)系。


具體來說,它通過三大技術(shù)創(chuàng)新,為極低比特量化注入了全新活力。

跨塊依賴機(jī)制(CBD)

剛剛也提到,傳統(tǒng)量化方法采用逐層優(yōu)化,卻忽視了層間依賴的復(fù)雜性。

CBQ引入了CBD機(jī)制,通過滑動(dòng)窗口的方式,同時(shí)優(yōu)化多個(gè)Transformer塊,并且相鄰窗口之間會(huì)有重疊的塊,以確保塊之間的連接性和協(xié)作性。


這種方法,可以有效地捕捉到模型內(nèi)部的長(zhǎng)距離依賴關(guān)系,使得相鄰的塊能夠共同參與到量化過程中,從而提高整體的量化性能。

在實(shí)驗(yàn)中,隨著滑動(dòng)窗口中塊的數(shù)量增加,模型的性能也得到了顯著提升。

自適應(yīng)LoRA-Rounding技術(shù)

為了應(yīng)對(duì)層內(nèi)依賴的復(fù)雜性,CBQ提出了自適應(yīng)LoRA-Rounding技術(shù),通過兩個(gè)低秩矩陣來學(xué)習(xí)量化權(quán)重的自適應(yīng)補(bǔ)償值。


與傳統(tǒng)的AdaRound方法相比,LoRA-Rounding通過低秩分解大大減少了可學(xué)習(xí)參數(shù),訓(xùn)練速度更快,GPU內(nèi)存消耗更低。


這種方法能夠在訓(xùn)練過程中動(dòng)態(tài)調(diào)整權(quán)重的量化精度,從而更好地適應(yīng)模型的內(nèi)部結(jié)構(gòu)和數(shù)據(jù)分布。


粗到細(xì)的預(yù)處理策略(CFP)

針對(duì)異常值問題,CBQ采用了粗到細(xì)的預(yù)處理策略(Coarse-to-Fine Preprocessing, CFP)。

CFP策略從統(tǒng)計(jì)學(xué)的角度出發(fā),通過分階段檢測(cè)和處理權(quán)重和激活中的異常值。

在粗粒度檢測(cè)階段,通過計(jì)算四分位數(shù)和四分位距來初步估計(jì)異常值的范圍;在細(xì)粒度檢測(cè)階段,通過最小化異常值子集與正常值子集之間的距離,同時(shí)最大化子集內(nèi)部的方差,來精確識(shí)別異常值的位置。


這種分階段策略,有效減少了量化誤差,確保模型在低比特場(chǎng)景下依然「穩(wěn)如泰山」。

那么,CBQ在場(chǎng)景中的真實(shí)表現(xiàn)又如何呢?

實(shí)驗(yàn)結(jié)果:性能與效率的雙贏

一系列研究結(jié)果顯示,CBQ在華為盤古模型和開源模型的表現(xiàn)上,大放異彩。

盤古模型:端側(cè)部署「殺手锏」

CBQ量化技術(shù)已成功應(yīng)用于華為盤古大模型PanGu-7B和PanGu-1.5B的端側(cè)部署,憑借其高精度的量化性能,有效支撐了盤古大模型在多個(gè)業(yè)務(wù)場(chǎng)景的落地應(yīng)用。

如下表所示,在W8A8/W4A16精度下,PanGu-1.5B模型在中文(C-Eval/CMMLU)、多任務(wù)語言理解(MMLU)基準(zhǔn)中的表現(xiàn),毫不遜色于全精度模型的性能。

在中文、多語言理解、數(shù)學(xué)基準(zhǔn)中,PanGu-7B的表現(xiàn)同樣如此。


這些成果,足以讓盤古模型在手機(jī)等終端設(shè)備上,輕松運(yùn)行。

開源模型:超越最優(yōu)

此外,CBQ在多個(gè)開源LLM(如OPT、LLaMA)上也取得了SOTA。


例如,在W4A16、W2A16和W4A8等低比特量化設(shè)置下,CBQ的性能均優(yōu)于現(xiàn)有的最先進(jìn)方法,并且與全精度模型的性能差距縮小到了1%以內(nèi)。


更令人驚嘆的是,CBQ僅需4.3小時(shí)即可完成對(duì)4位權(quán)重的LLaMA1-65B模型的量化,展現(xiàn)了壓縮率與精度之間的完美平衡(trade-off)。


未來展望

華為的CBQ方案,以跨塊依賴機(jī)制、自適應(yīng)LoRA-Rounding技術(shù),以及粗到細(xì)的預(yù)處理策略,成功征服了極低比特量化的「三大高峰」。

這項(xiàng)創(chuàng)新有效地解決了,大模型在低比特量化場(chǎng)景下所面臨的層間依賴和層內(nèi)依賴難題。

它不僅在多種大語言模型和數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,成功縮小了與全精度模型之間的差距,還以高效的量化效率實(shí)現(xiàn)了復(fù)雜模型的快速壓縮。

最終,讓盤古和各類開源模型,成功實(shí)現(xiàn)了在昇騰硬件上的高效部署,并為更加廣泛的應(yīng)用鋪就坦途。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世乒賽決賽孫穎莎擊敗王曼昱原因浮出水面,不是運(yùn)氣,也不是戰(zhàn)術(shù)

世乒賽決賽孫穎莎擊敗王曼昱原因浮出水面,不是運(yùn)氣,也不是戰(zhàn)術(shù)

越嶺體育
2025-05-27 09:36:54
澳門人:內(nèi)地游客來澳門不要再亂穿馬路了

澳門人:內(nèi)地游客來澳門不要再亂穿馬路了

清游說娛
2025-05-27 11:29:35
章若楠錄《奔跑》與范丞丞玩游戲超有默契,白敬亭這舉動(dòng)被虧吃醋

章若楠錄《奔跑》與范丞丞玩游戲超有默契,白敬亭這舉動(dòng)被虧吃醋

小邵說劇
2025-05-26 19:38:37
光明網(wǎng)評(píng)論員:2.5天休假模式試行,承托民生期待

光明網(wǎng)評(píng)論員:2.5天休假模式試行,承托民生期待

澎湃新聞
2025-05-26 23:56:05
24歲女網(wǎng)紅猝死離世,疑似中毒身亡,家屬隱藏死亡真相

24歲女網(wǎng)紅猝死離世,疑似中毒身亡,家屬隱藏死亡真相

素素娛樂
2025-05-26 08:08:07
下樹!曼聯(lián)第1簽

下樹!曼聯(lián)第1簽

球文速遞
2025-05-27 09:17:56
女人對(duì)你“暴露”這4處,就是想和你在一起,男人別不懂!

女人對(duì)你“暴露”這4處,就是想和你在一起,男人別不懂!

伊人河畔
2025-04-14 09:53:46
善惡終有報(bào)!嫁大11歲清華教授的主持人海霞,走上了人生康莊大道

善惡終有報(bào)!嫁大11歲清華教授的主持人海霞,走上了人生康莊大道

七公子娛樂
2025-05-22 15:01:04
車行老板迎娶模特當(dāng)新娘,顏值出眾脾氣不小,網(wǎng)友:日后難以駕馭

車行老板迎娶模特當(dāng)新娘,顏值出眾脾氣不小,網(wǎng)友:日后難以駕馭

梅子的小情緒
2025-05-26 20:25:57
臺(tái)外事部門負(fù)責(zé)人表態(tài),愿與王毅外長(zhǎng)會(huì)面:會(huì)主動(dòng)伸出手和他握手

臺(tái)外事部門負(fù)責(zé)人表態(tài),愿與王毅外長(zhǎng)會(huì)面:會(huì)主動(dòng)伸出手和他握手

袁周院長(zhǎng)
2025-05-27 10:30:21
美軍司令警告:若菲律賓有一人被擊斃,美軍將介入

美軍司令警告:若菲律賓有一人被擊斃,美軍將介入

起喜電影
2025-05-04 03:08:43
球星黯然失色,角色球員反而大放異彩登堂入室,最佳角色球員是誰

球星黯然失色,角色球員反而大放異彩登堂入室,最佳角色球員是誰

康泳哥看體育
2025-05-27 23:31:02
角色球員燃盡了,核心球員卻遭針對(duì),他和SGA的差距肉眼可見

角色球員燃盡了,核心球員卻遭針對(duì),他和SGA的差距肉眼可見

大飛說籃球
2025-05-27 22:55:23
44歲基里連科現(xiàn)狀:瘦了很多,連任籃協(xié)主席,妻子很漂亮

44歲基里連科現(xiàn)狀:瘦了很多,連任籃協(xié)主席,妻子很漂亮

大西體育
2025-05-27 23:50:30
北京西單商場(chǎng)改建項(xiàng)目獲批 計(jì)劃2025年啟動(dòng)2027年竣工

北京西單商場(chǎng)改建項(xiàng)目獲批 計(jì)劃2025年啟動(dòng)2027年竣工

觀點(diǎn)機(jī)構(gòu)
2025-05-27 23:05:14
央視痛批電動(dòng)車解限速!可跑不快的25,誰能替騎車人說話

央視痛批電動(dòng)車解限速!可跑不快的25,誰能替騎車人說話

電動(dòng)車小辣椒
2025-05-25 07:04:56
救命啊,快給哈登打電話!!!

救命啊,快給哈登打電話!!!

風(fēng)子說個(gè)球
2025-05-26 11:44:31
正在被餓死的縣醫(yī)院們

正在被餓死的縣醫(yī)院們

醫(yī)客
2025-05-26 12:05:03
男子酒后誤開鄰居家門,與女主人發(fā)生關(guān)系,居然得逞……

男子酒后誤開鄰居家門,與女主人發(fā)生關(guān)系,居然得逞……

極品小牛肉
2024-03-01 22:37:49
誰還敢動(dòng)中國(guó)?安理會(huì)上演罕見一幕,美國(guó)代表閉嘴,全場(chǎng)鴉雀無聲

誰還敢動(dòng)中國(guó)?安理會(huì)上演罕見一幕,美國(guó)代表閉嘴,全場(chǎng)鴉雀無聲

熒惑手心
2025-05-26 09:29:59
2025-05-28 01:56:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12775文章數(shù) 66046關(guān)注度
往期回顧 全部

科技要聞

盧偉冰:YU7不會(huì)影響SU7銷量

頭條要聞

坐牢8年后無罪釋放 男子懸賞50萬元尋27年前的"真兇"

頭條要聞

坐牢8年后無罪釋放 男子懸賞50萬元尋27年前的"真兇"

體育要聞

用生命拼出8個(gè)世界冠軍,他還沒贏夠

娛樂要聞

兩姐妹點(diǎn)歌起爭(zhēng)執(zhí) 劉若英深夜發(fā)文道歉

財(cái)經(jīng)要聞

"得物搬磚"暴利騙局:大學(xué)生成底層"接盤俠"

汽車要聞

滿血版XNGP上車 試駕小鵬MONA M03 MAX

態(tài)度原創(chuàng)

家居
本地
親子
公開課
軍事航空

家居要聞

個(gè)性重塑 現(xiàn)代潮酷之家

本地新聞

春色滿城關(guān)不住 | 蘭亭拾光季:從莫奈花園到童話世界

親子要聞

孩子一生病,全家都亂套!兒科醫(yī)生教你帶娃不生病的黃金法則

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

殲-10C、殲-16等機(jī)型展開夜間對(duì)抗訓(xùn)練

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 肇州县| 平果县| 西昌市| 铜鼓县| 铜川市| 南陵县| 乳山市| 阿坝县| 石阡县| 淳安县| 溧阳市| 七台河市| 南康市| 崇阳县| 汉川市| 赤壁市| 如东县| 和静县| 江华| 郑州市| 德州市| 嵊泗县| 彰化市| 教育| 永年县| 西吉县| 盐源县| 绩溪县| 洛川县| 临高县| 常山县| 日喀则市| 鄂州市| 秦皇岛市| 贡嘎县| 浠水县| 台南县| 建宁县| 江川县| 怀宁县| 中江县|