99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別卡脖子,華為黑科技破局!昇騰推理加速1.6倍打破LLM降智魔咒

0
分享至


新智元報道

編輯:定慧 Aeneas

【新智元導(dǎo)讀】大模型越來越大,推理部署卻舉步維艱?就在剛剛,華為諾亞提出的Pangu Light框架,一舉打破了「剪枝即降智」魔咒,揭示出LLM瘦身的新路徑。毫無疑問,算法創(chuàng)新與國產(chǎn)平臺的結(jié)合,還將爆發(fā)出無法想象的巨大潛力!

LLM發(fā)展到今天,下一步該往哪個方向探索?

顯然,如今最明顯的一個問題就是,大模型的參數(shù)規(guī)模還是太大了——DeepSeek-V3的參數(shù)為671B,Llama 3.1系列最大為405B,GPT-4o為200B,Claude 3.5 Sonnet為175B。

參數(shù)規(guī)模在不斷增長,高昂的計算成本和推理延遲,該怎么破?

顯然,無論推理還是部署,離開了老黃的「卡」,都將寸步難行。

假設(shè)真到了這一天,我們將不得不面臨這一窘境時,不打無準(zhǔn)備之仗,就是最好的策略。

這里,就引出了一個關(guān)鍵問題——如何將算法創(chuàng)新,與國產(chǎn)AI計算平臺相結(jié)合。

具體來說,就是需要在保持模型性能的同時,實現(xiàn)高效的壓縮與加速。

裁員裁到大動脈?」

華為破悉關(guān)鍵

解決這個問題的關(guān)鍵之一,就是結(jié)構(gòu)化剪枝技術(shù)。

顧名思義,這種「激進(jìn)」的壓縮技術(shù),正是通過整個移除模型中的冗余組件(如注意力頭等)來實現(xiàn)的。

結(jié)構(gòu)化剪枝更適合硬件加速,因為它保持了模型的結(jié)構(gòu)規(guī)則性。

然而只是簡單粗暴的剪枝,卻往往會遭遇滑鐵盧,引發(fā)大問題。

實踐表明,當(dāng)嘗試對模型的寬度(網(wǎng)絡(luò)通道數(shù))、深度(層數(shù))等多個維度同時進(jìn)行激進(jìn)壓縮時,模型性能會斷崖式下跌——畢竟,大模型對于人類還是個黑盒:

激進(jìn)的剪枝操作會嚴(yán)重擾亂模型原有的參數(shù)分布平衡和精心學(xué)習(xí)到的信息流動路徑,使得剪枝后的模型結(jié)構(gòu)失穩(wěn),性能大打折扣,甚至難以通過后續(xù)微調(diào)恢復(fù)。

打個不恰當(dāng)?shù)谋确剑@就好像是裁員裁到了大動脈,或者刪除了看似不重要但起決定性作用的組件。

好在,面對這一難題,來自華為諾亞方舟實驗室的研究者們,直接洞察到了問題的核心——

在剪枝之后,必須對模型的剩余參數(shù)進(jìn)行精心的重新初始化與調(diào)整!

由此,他們推出了基于昇騰NPU的結(jié)構(gòu)化剪枝與優(yōu)化框架——Pangu Light。

通過創(chuàng)新性地引入了一系列權(quán)重調(diào)整與重置技術(shù),最終,他們成功填補(bǔ)了當(dāng)前方法在剪枝后模型穩(wěn)定與性能恢復(fù)機(jī)制上的關(guān)鍵空白。

Pangu Light的核心技術(shù)包括:

  • 旨在優(yōu)化深度剪枝的跨層注意力剪枝(CLAP

  • 針對寬度剪枝的穩(wěn)定化LayerNorm剪枝(SLNP

  • 為盤古模型「三明治」架構(gòu)量身定制的Post-RMSNorm融合優(yōu)化策略,并針對昇騰硬件平臺進(jìn)行了定制架構(gòu)優(yōu)化。

實驗結(jié)果表明,Pangu Light在壓縮率和推理速度方面取得了顯著提升。

并且,相較于一些已有的剪枝框架(如NVIDIA Minitron/PUZZLE的部分策略),Pangu Light展現(xiàn)出更優(yōu)的效果。

剪枝后的Pangu系列模型在多項基準(zhǔn)測試中,精度-效率曲線都超越了業(yè)界領(lǐng)先的LLM(如Qwen3系列)。

結(jié)構(gòu)化剪枝的「夢魘」:

為何模型越剪越「傷」?

大模型結(jié)構(gòu)化剪枝的初衷,當(dāng)然是美好的——通過移除不重要的參數(shù)或結(jié)構(gòu)單元,實現(xiàn)「瘦身健體」。

然而,當(dāng)剪枝的「手術(shù)刀」同時伸向模型的深度、寬度、注意力機(jī)制乃至前饋網(wǎng)絡(luò)(FFN)時,一場潛在的「噩夢」便可能開始。

傳統(tǒng)的剪枝方法大多依賴于某種重要性評分機(jī)制來決定「去留」,例如神經(jīng)元的激活值大小、權(quán)重的L2范數(shù)等。

雖然這些方法能夠識別出部分冗余組件,但在進(jìn)行大刀闊斧的多維度聯(lián)合剪枝時,卻往往忽略了一個致命問題:模型是一個高度耦合的復(fù)雜系統(tǒng)。

僅僅移除「看起來不重要」的部分,會像抽掉積木塔的底層積木一樣,導(dǎo)致整個模型的參數(shù)分布發(fā)生劇烈改變。

原本精心訓(xùn)練得到的權(quán)重,在移除了大量與之配合的「同事」后,其功能和意義可能已面目全非。

激活值的統(tǒng)計特性發(fā)生偏移,信息流在殘缺的網(wǎng)絡(luò)中傳遞受阻,最終導(dǎo)致剪枝后的模型性能大幅下降,陷入「一剪就壞,壞了難修」的困境,即便投入大量資源進(jìn)行后續(xù)微調(diào),也常常收效甚微。

正是因為洞察到這一「剪枝后穩(wěn)定性」的核心癥結(jié),Pangu Light框架祭出了兩大「殺手锏」——跨層注意力剪枝(CLAP)和穩(wěn)定化LayerNorm剪枝(SLNP)。

這兩大技術(shù),正是為了從根本上解決剪枝帶來的模型失穩(wěn)問題。

Pangu Light核心技術(shù)解析:

穩(wěn)定勝于一切

Pangu Light的成功,關(guān)鍵在于其獨(dú)特的「剪枝」后「修復(fù)與重建」哲學(xué),即通過精密的參數(shù)重置與結(jié)構(gòu)調(diào)整,確保模型在「瘦身」后依然「筋骨強(qiáng)健」。

跨層注意力剪枝(CLAP):層剪枝后的「智慧縫合」

當(dāng)整個網(wǎng)絡(luò)層被移除(深度剪枝)時,其承載的注意力計算單元通常被完全丟棄,這對模型的信息處理能力無疑是巨大打擊。

傳統(tǒng)的逐層獨(dú)立剪枝未能充分利用被剪層的信息,相比之下,Pangu Light的CLAP技術(shù)卻展現(xiàn)了一種更為精妙的「跨層智慧」。

在研究者看來,即便一個層被判定為可剪枝,其內(nèi)部的某些注意力頭(特別是KV group)可能依然承載著不可或缺的關(guān)鍵信息。


因此,在剪去第 l+1層時,CLAP并不會將其注意力機(jī)制完全拋棄,而是會聯(lián)合評估第l層和第l+1層中所有KV group的重要性。

這種重要性基于其內(nèi)部尚存的Query Head的初始重要性:


式中, 表示 query head的初始重要性,表示一個KV group中保留的query head的集合,表示KV group中保留的query的數(shù)量。

從這兩層的所有KV group中,選取Top-K最重要的KV group,將其參數(shù)「移植」并整合到第l層。

這相當(dāng)于將被剪層l+1的「精華」注意力權(quán)重,巧妙地「縫合」并重新初始化到保留層l的注意力機(jī)制中,實現(xiàn)了信息的跨層保留與結(jié)構(gòu)功能的有效重組。

穩(wěn)定化LayerNorm剪枝(SLNP):寬度剪枝后的「定海神針」

當(dāng)網(wǎng)絡(luò)寬度被壓縮,即隱藏層通道被剪枝時,RMSNorm(或LayerNorm)層中的可學(xué)習(xí)仿射參數(shù)γ的維度也隨之減少。

這一變化看似簡單,實則極易引發(fā)「蝴蝶效應(yīng)」:γ的L2范數(shù)(即其整體尺度)可能發(fā)生劇變,進(jìn)而顯著改變RMSNorm層的輸出激活值的統(tǒng)計分布。

這種分布的漂移會逐層傳遞、放大,最終導(dǎo)致整個網(wǎng)絡(luò)內(nèi)部的激活狀態(tài)極不穩(wěn)定,嚴(yán)重阻礙剪枝后模型的收斂和性能恢復(fù)。

怎么辦?為此,研究者們提出了SLNP技術(shù),這套權(quán)重重置方案有效地直接針對了這一問題。


他們發(fā)現(xiàn),通過精確調(diào)控剪枝后RMSNorm層γ參數(shù)的L2范數(shù),使其恢復(fù)到剪枝前的水平,對于維持模型穩(wěn)定性至關(guān)重要。

具體而言,對于每個被剪枝的RMSNorm層l,SLNP會計算一個重初始化標(biāo)量:


(分子和分母分別為剪枝前后參數(shù)γ的L2范數(shù))。然后,用這個標(biāo)量重新縮放剪枝后的γ參數(shù)。

這一簡單的重初始化步驟,卻如「定海神針」一般有效。

它校正了輸出尺度,顯著提升了模型在剪枝后的穩(wěn)定性與后續(xù)微調(diào)的收斂性。

Post-RMSNorm融合優(yōu)化策略

另外,Pangu系列大模型還采用了一種獨(dú)特的「三明治」歸一化(Depth-Scaled Sandwich-Norm, DSSN)架構(gòu),即在每個Transformer塊的注意力模塊和FFN模塊之后都額外增加了一個RMSNorm層。


這一設(shè)計極大地增強(qiáng)了大規(guī)模模型訓(xùn)練的穩(wěn)定性,甚至實現(xiàn)了「零訓(xùn)練毛刺(zero loss spikes)」的佳績。

然而,這種歸一化也無可避免地帶來了額外的推理計算開銷。

標(biāo)準(zhǔn)的RMSNorm計算公式如下:


RMSNorm會實時計算每一個輸入token的統(tǒng)計值,這極大影響了模型的推理效率。

為此,針對這種額外引入的Post-RMSNorm,研究者通過少量校準(zhǔn)集求取該統(tǒng)計值的均值,并將該均值替換RMSNorm的實時計算,其表達(dá)式如下:


替換后,歸一化層的計算公式表示如下:

這一變換有效地將 Post-RMSNorm 層替換為一個常數(shù)的逐通道縮放操作。

同時,這一縮放操作可以將歸一化層的參數(shù)融入線性投影層的權(quán)重矩陣中,消除了PostNorm額外引入的參數(shù)。

實驗驗證

為了驗證Pangu Light框架的實際效果,研究團(tuán)隊以Pangu 38B模型為基準(zhǔn),在華為昇騰NPU AI處理器上進(jìn)行了一系列詳盡的模型壓縮實驗。



從實驗結(jié)果可以看出,Pangu Light在不同的壓縮比例下,均能非常有效地保持模型的精度。

與參數(shù)量相近的業(yè)界知名模型Qwen3-32B相比,Pangu Light壓縮后的模型在多項任務(wù)上展現(xiàn)出更強(qiáng)的競爭力,平均精度更優(yōu)。

在同樣加速2.1x的情況下,Pangu Light保留了高達(dá)98.9%的原始模型推理能能力,超越英偉達(dá)提出的PUZZLE壓縮方案(保持98.4%的精度)。


在推理吞吐量方面,研究團(tuán)隊在昇騰NPU 的配置下進(jìn)行了測試。

結(jié)果顯示,Pangu Light剪枝后的模型在昇騰硬件平臺上表現(xiàn)出卓越的親和力。

以32B規(guī)模的模型為例,Pangu Light-32B的吞吐量相較于Qwen3-32B提升了接近16.2%(2585 vs 2225 tokens/s)。

這就充分證明了其軟硬協(xié)同優(yōu)化的有效性,實現(xiàn)了模型性能與推理速度的更優(yōu)平衡。

消融實驗


為了進(jìn)一步驗證Pangu Light中各項創(chuàng)新技術(shù)的獨(dú)立貢獻(xiàn),研究團(tuán)隊還精心設(shè)計了消融實驗。

在一項基于14B規(guī)模模型的少量數(shù)據(jù)微調(diào)評測中,對比僅基于激活值進(jìn)行剪枝的策略(NVIDIA Minitron方案的),同時采用CLAP和SLNP這兩種「寬深調(diào)整」(實為權(quán)重重置與結(jié)構(gòu)調(diào)整)技術(shù)的Pangu Light模型,在平均精度上實現(xiàn)了高達(dá)3.6個百分點(diǎn)的提升。

這一顯著差距,充分證明了在剪枝之后進(jìn)行系統(tǒng)性的參數(shù)調(diào)整與重置的極端重要性,以及Pangu Light所提方法的優(yōu)越性。


為了深入探究Pangu Light剪枝方法學(xué)對模型內(nèi)部參數(shù)的影響,特別是其核心的SLNP權(quán)重重置策略如何維持穩(wěn)定性,研究者們還細(xì)致分析了模型歸一化層的仿射縮放參數(shù)γ在剪枝前后的分布變化。

分析著重聚焦于那些在剪枝后被保留下來的通道和層所對應(yīng)的γ參數(shù)。

結(jié)果清晰地顯示,在應(yīng)用了Pangu Light的剪枝和SLNP重置策略后,這些被保留的γ參數(shù)的均值和標(biāo)準(zhǔn)差在每一層都與剪枝前保持了高度的一致性。

這一現(xiàn)象有力地說明,Pangu Light的剪枝與權(quán)重重置方法能夠有效維持這些關(guān)鍵縮放參數(shù)學(xué)習(xí)到的統(tǒng)計特性,避免了劇烈的分布漂移。

這種參數(shù)層面的穩(wěn)定性,是剪枝后模型整體魯棒性和行為可預(yù)測性的重要基石。

昇騰賦能,華為引領(lǐng)AI普惠之路

可見Pangu Light框架的提出,無疑為LLM的高效部署領(lǐng)域注入了強(qiáng)勁的新動能。

它結(jié)合了系統(tǒng)性的結(jié)構(gòu)化剪枝與創(chuàng)新性的「剪枝后權(quán)重重置與結(jié)構(gòu)調(diào)整」理念,尤其強(qiáng)調(diào)了在激進(jìn)剪枝后對模型進(jìn)行「再穩(wěn)定化」的核心步驟。

由此,這個框架就成功破解了長期困擾業(yè)界的「一剪就壞」難題。

甚至,在昇騰AI處理器的強(qiáng)大算力支持下,Pangu Light不僅實現(xiàn)了超高的模型壓縮率和推理加速,更難能可貴地保持了極具競爭力的模型精度,展現(xiàn)了卓越的「精度-效率」均衡藝術(shù)。

可以說,這項由華為諾亞方舟實驗室主導(dǎo)的研究成果,是軟硬件協(xié)同設(shè)計(「軟硬協(xié)同」)理念的又一次成功實踐,充分彰顯了算法創(chuàng)新與國產(chǎn)AI計算平臺(昇騰)深度融合所能爆發(fā)出的巨大潛力。

從此,不僅Pangu系列大模型有了強(qiáng)大的「瘦身」與加速工具,業(yè)界更是有了一條極有前途的路徑——

在保證高性能前提下,大模型應(yīng)用的門檻,還將繼續(xù)大幅降低!

參考資料:

https://arxiv.org/abs/2505.20155


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友自曝女友是他人女奴,交往一年的性愛短片,全都發(fā)給主人看

網(wǎng)友自曝女友是他人女奴,交往一年的性愛短片,全都發(fā)給主人看

社會醬
2025-05-28 18:04:31
游客稱武陵山天池底部竟為304不銹鋼,網(wǎng)友驚呆!景區(qū):確有此事

游客稱武陵山天池底部竟為304不銹鋼,網(wǎng)友驚呆!景區(qū):確有此事

有趣的火烈鳥
2025-05-28 19:09:13
薩巴倫卡慌了?不僅因為鄭欽文2:0輕取阿蘭戈,更因為這三點(diǎn)!

薩巴倫卡慌了?不僅因為鄭欽文2:0輕取阿蘭戈,更因為這三點(diǎn)!

田先生籃球
2025-05-28 23:56:08
邱毅,早勸你回頭不聽勸,如今回頭已無路

邱毅,早勸你回頭不聽勸,如今回頭已無路

呼呼歷史論
2025-05-29 00:32:19
唇語專家破譯法國總統(tǒng)馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

唇語專家破譯法國總統(tǒng)馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

愛意隨風(fēng)起呀
2025-05-29 00:50:32
利好突襲!深夜,大漲!

利好突襲!深夜,大漲!

證券時報
2025-05-29 00:14:05
A股:震蕩普跌,大資金緊發(fā)4大信號!所有人做好準(zhǔn)備,大變盤將至

A股:震蕩普跌,大資金緊發(fā)4大信號!所有人做好準(zhǔn)備,大變盤將至

虎哥閑聊
2025-05-28 11:38:28
43歲上海男子失業(yè)后逆襲,開辟新賽道,收入是當(dāng)外企高管時兩三倍

43歲上海男子失業(yè)后逆襲,開辟新賽道,收入是當(dāng)外企高管時兩三倍

上觀新聞
2025-05-28 22:14:00
田徑亞錦賽第2日:日本飛人千分之2秒勝泰將奪冠 中國隊再得6金

田徑亞錦賽第2日:日本飛人千分之2秒勝泰將奪冠 中國隊再得6金

勁爆體壇
2025-05-28 21:01:14
洪秀柱直飛北京參會,馬英九心腹發(fā)現(xiàn),賴清德或不想打仗

洪秀柱直飛北京參會,馬英九心腹發(fā)現(xiàn),賴清德或不想打仗

小鬼頭體育
2025-05-29 01:24:30
電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區(qū)炸裂

電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區(qū)炸裂

派大星紀(jì)錄片
2025-05-28 17:00:51
反轉(zhuǎn)來了,中美交易生變,對華智囊被迫離職,特朗普七寸被掐住!

反轉(zhuǎn)來了,中美交易生變,對華智囊被迫離職,特朗普七寸被掐住!

科技有趣事
2025-05-28 09:37:07
77歲梁小龍現(xiàn)身深圳,和小20歲妻子低調(diào)坐地鐵

77歲梁小龍現(xiàn)身深圳,和小20歲妻子低調(diào)坐地鐵

安山客
2025-05-28 17:46:32
新冠再次爆發(fā),可能不發(fā)燒!提醒:出現(xiàn) 5 個癥狀,病毒或已來敲門

新冠再次爆發(fā),可能不發(fā)燒!提醒:出現(xiàn) 5 個癥狀,病毒或已來敲門

健身狂人
2025-05-28 13:41:50
吃相難看!朱媛媛去世僅11天,讓人作嘔的事就再次出現(xiàn),不止一件

吃相難看!朱媛媛去世僅11天,讓人作嘔的事就再次出現(xiàn),不止一件

姩姩有娛呀
2025-05-27 21:44:11
痛別!今天凌晨,她因病逝世,享年68歲

痛別!今天凌晨,她因病逝世,享年68歲

魯中晨報
2025-05-28 16:02:16
廣東燙碗令人惡心后續(xù):汪教授再發(fā)聲,原因曝光,原來我們誤會了

廣東燙碗令人惡心后續(xù):汪教授再發(fā)聲,原因曝光,原來我們誤會了

清游說娛
2025-05-28 13:45:36
大駝背、躲鏡頭、鼻尖分家,芭莎這一夜,楊冪的狀態(tài)和格局全暴露

大駝背、躲鏡頭、鼻尖分家,芭莎這一夜,楊冪的狀態(tài)和格局全暴露

萌神木木
2025-05-28 19:59:21
U16國足開門紅!帥惟浩壓哨絕殺,260天首勝沙特,連破3魔咒

U16國足開門紅!帥惟浩壓哨絕殺,260天首勝沙特,連破3魔咒

奧拜爾
2025-05-28 21:37:48
0-1!曼聯(lián)太慘了 連東南亞全明星都踢不過 26人登場全場機(jī)會寥寥

0-1!曼聯(lián)太慘了 連東南亞全明星都踢不過 26人登場全場機(jī)會寥寥

狍子歪解體壇
2025-05-28 22:41:43
2025-05-29 04:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12781文章數(shù) 66046關(guān)注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學(xué)生簽證面談 留學(xué)中介回應(yīng)

頭條要聞

美國政府暫停新的留學(xué)生簽證面談 留學(xué)中介回應(yīng)

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經(jīng)要聞

74歲王石罕見發(fā)聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態(tài)度原創(chuàng)

旅游
教育
健康
手機(jī)
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

QS100以外的英國大學(xué)還值得去嗎?

唇皰疹和口腔潰瘍是"同伙"嗎?

手機(jī)要聞

守護(hù)數(shù)字生態(tài)!蘋果App Store五年阻止90億美元欺詐交易

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 扎赉特旗| 宁南县| 盘山县| 东兴市| 乌兰察布市| 鞍山市| 翼城县| 玛曲县| 双鸭山市| 长顺县| 隆尧县| 湖口县| 廉江市| 宿松县| 平湖市| 诏安县| 乳山市| 上犹县| 通山县| 沂源县| 西乌珠穆沁旗| 左权县| 塔河县| 固原市| 海原县| 岑溪市| 桐城市| 台南县| 芒康县| 余庆县| 常宁市| 奉化市| 英超| 渭源县| 定安县| 乳山市| 灵寿县| 洛扎县| 闽清县| 房产| 深圳市|