新智元報道
編輯:定慧 Aeneas
【新智元導(dǎo)讀】大模型越來越大,推理部署卻舉步維艱?就在剛剛,華為諾亞提出的Pangu Light框架,一舉打破了「剪枝即降智」魔咒,揭示出LLM瘦身的新路徑。毫無疑問,算法創(chuàng)新與國產(chǎn)平臺的結(jié)合,還將爆發(fā)出無法想象的巨大潛力!
LLM發(fā)展到今天,下一步該往哪個方向探索?
顯然,如今最明顯的一個問題就是,大模型的參數(shù)規(guī)模還是太大了——DeepSeek-V3的參數(shù)為671B,Llama 3.1系列最大為405B,GPT-4o為200B,Claude 3.5 Sonnet為175B。
參數(shù)規(guī)模在不斷增長,高昂的計算成本和推理延遲,該怎么破?
顯然,無論推理還是部署,離開了老黃的「卡」,都將寸步難行。
假設(shè)真到了這一天,我們將不得不面臨這一窘境時,不打無準(zhǔn)備之仗,就是最好的策略。
這里,就引出了一個關(guān)鍵問題——如何將算法創(chuàng)新,與國產(chǎn)AI計算平臺相結(jié)合。
具體來說,就是需要在保持模型性能的同時,實現(xiàn)高效的壓縮與加速。
「裁員裁到大動脈?」
華為破悉關(guān)鍵
解決這個問題的關(guān)鍵之一,就是結(jié)構(gòu)化剪枝技術(shù)。
顧名思義,這種「激進(jìn)」的壓縮技術(shù),正是通過整個移除模型中的冗余組件(如注意力頭等)來實現(xiàn)的。
結(jié)構(gòu)化剪枝更適合硬件加速,因為它保持了模型的結(jié)構(gòu)規(guī)則性。
然而只是簡單粗暴的剪枝,卻往往會遭遇滑鐵盧,引發(fā)大問題。
實踐表明,當(dāng)嘗試對模型的寬度(網(wǎng)絡(luò)通道數(shù))、深度(層數(shù))等多個維度同時進(jìn)行激進(jìn)壓縮時,模型性能會斷崖式下跌——畢竟,大模型對于人類還是個黑盒:
激進(jìn)的剪枝操作會嚴(yán)重擾亂模型原有的參數(shù)分布平衡和精心學(xué)習(xí)到的信息流動路徑,使得剪枝后的模型結(jié)構(gòu)失穩(wěn),性能大打折扣,甚至難以通過后續(xù)微調(diào)恢復(fù)。
打個不恰當(dāng)?shù)谋确剑@就好像是裁員裁到了大動脈,或者刪除了看似不重要但起決定性作用的組件。
好在,面對這一難題,來自華為諾亞方舟實驗室的研究者們,直接洞察到了問題的核心——
在剪枝之后,必須對模型的剩余參數(shù)進(jìn)行精心的重新初始化與調(diào)整!
由此,他們推出了基于昇騰NPU的結(jié)構(gòu)化剪枝與優(yōu)化框架——Pangu Light。
通過創(chuàng)新性地引入了一系列權(quán)重調(diào)整與重置技術(shù),最終,他們成功填補(bǔ)了當(dāng)前方法在剪枝后模型穩(wěn)定與性能恢復(fù)機(jī)制上的關(guān)鍵空白。
Pangu Light的核心技術(shù)包括:
旨在優(yōu)化深度剪枝的跨層注意力剪枝(CLAP)
針對寬度剪枝的穩(wěn)定化LayerNorm剪枝(SLNP)
為盤古模型「三明治」架構(gòu)量身定制的Post-RMSNorm融合優(yōu)化策略,并針對昇騰硬件平臺進(jìn)行了定制架構(gòu)優(yōu)化。
實驗結(jié)果表明,Pangu Light在壓縮率和推理速度方面取得了顯著提升。
并且,相較于一些已有的剪枝框架(如NVIDIA Minitron/PUZZLE的部分策略),Pangu Light展現(xiàn)出更優(yōu)的效果。
剪枝后的Pangu系列模型在多項基準(zhǔn)測試中,精度-效率曲線都超越了業(yè)界領(lǐng)先的LLM(如Qwen3系列)。
結(jié)構(gòu)化剪枝的「夢魘」:
為何模型越剪越「傷」?
大模型結(jié)構(gòu)化剪枝的初衷,當(dāng)然是美好的——通過移除不重要的參數(shù)或結(jié)構(gòu)單元,實現(xiàn)「瘦身健體」。
然而,當(dāng)剪枝的「手術(shù)刀」同時伸向模型的深度、寬度、注意力機(jī)制乃至前饋網(wǎng)絡(luò)(FFN)時,一場潛在的「噩夢」便可能開始。
傳統(tǒng)的剪枝方法大多依賴于某種重要性評分機(jī)制來決定「去留」,例如神經(jīng)元的激活值大小、權(quán)重的L2范數(shù)等。
雖然這些方法能夠識別出部分冗余組件,但在進(jìn)行大刀闊斧的多維度聯(lián)合剪枝時,卻往往忽略了一個致命問題:模型是一個高度耦合的復(fù)雜系統(tǒng)。
僅僅移除「看起來不重要」的部分,會像抽掉積木塔的底層積木一樣,導(dǎo)致整個模型的參數(shù)分布發(fā)生劇烈改變。
原本精心訓(xùn)練得到的權(quán)重,在移除了大量與之配合的「同事」后,其功能和意義可能已面目全非。
激活值的統(tǒng)計特性發(fā)生偏移,信息流在殘缺的網(wǎng)絡(luò)中傳遞受阻,最終導(dǎo)致剪枝后的模型性能大幅下降,陷入「一剪就壞,壞了難修」的困境,即便投入大量資源進(jìn)行后續(xù)微調(diào),也常常收效甚微。
正是因為洞察到這一「剪枝后穩(wěn)定性」的核心癥結(jié),Pangu Light框架祭出了兩大「殺手锏」——跨層注意力剪枝(CLAP)和穩(wěn)定化LayerNorm剪枝(SLNP)。
這兩大技術(shù),正是為了從根本上解決剪枝帶來的模型失穩(wěn)問題。
Pangu Light核心技術(shù)解析:
穩(wěn)定勝于一切
Pangu Light的成功,關(guān)鍵在于其獨(dú)特的「剪枝」后「修復(fù)與重建」哲學(xué),即通過精密的參數(shù)重置與結(jié)構(gòu)調(diào)整,確保模型在「瘦身」后依然「筋骨強(qiáng)健」。
跨層注意力剪枝(CLAP):層剪枝后的「智慧縫合」
當(dāng)整個網(wǎng)絡(luò)層被移除(深度剪枝)時,其承載的注意力計算單元通常被完全丟棄,這對模型的信息處理能力無疑是巨大打擊。
傳統(tǒng)的逐層獨(dú)立剪枝未能充分利用被剪層的信息,相比之下,Pangu Light的CLAP技術(shù)卻展現(xiàn)了一種更為精妙的「跨層智慧」。
在研究者看來,即便一個層被判定為可剪枝,其內(nèi)部的某些注意力頭(特別是KV group)可能依然承載著不可或缺的關(guān)鍵信息。
因此,在剪去第 l+1層時,CLAP并不會將其注意力機(jī)制完全拋棄,而是會聯(lián)合評估第l層和第l+1層中所有KV group的重要性。
這種重要性基于其內(nèi)部尚存的Query Head的初始重要性:
式中, 表示 query head的初始重要性,表示一個KV group中保留的query head的集合,表示KV group中保留的query的數(shù)量。
從這兩層的所有KV group中,選取Top-K最重要的KV group,將其參數(shù)「移植」并整合到第l層。
這相當(dāng)于將被剪層l+1的「精華」注意力權(quán)重,巧妙地「縫合」并重新初始化到保留層l的注意力機(jī)制中,實現(xiàn)了信息的跨層保留與結(jié)構(gòu)功能的有效重組。
穩(wěn)定化LayerNorm剪枝(SLNP):寬度剪枝后的「定海神針」
當(dāng)網(wǎng)絡(luò)寬度被壓縮,即隱藏層通道被剪枝時,RMSNorm(或LayerNorm)層中的可學(xué)習(xí)仿射參數(shù)γ的維度也隨之減少。
這一變化看似簡單,實則極易引發(fā)「蝴蝶效應(yīng)」:γ的L2范數(shù)(即其整體尺度)可能發(fā)生劇變,進(jìn)而顯著改變RMSNorm層的輸出激活值的統(tǒng)計分布。
這種分布的漂移會逐層傳遞、放大,最終導(dǎo)致整個網(wǎng)絡(luò)內(nèi)部的激活狀態(tài)極不穩(wěn)定,嚴(yán)重阻礙剪枝后模型的收斂和性能恢復(fù)。
怎么辦?為此,研究者們提出了SLNP技術(shù),這套權(quán)重重置方案有效地直接針對了這一問題。
他們發(fā)現(xiàn),通過精確調(diào)控剪枝后RMSNorm層γ參數(shù)的L2范數(shù),使其恢復(fù)到剪枝前的水平,對于維持模型穩(wěn)定性至關(guān)重要。
具體而言,對于每個被剪枝的RMSNorm層l,SLNP會計算一個重初始化標(biāo)量:
(分子和分母分別為剪枝前后參數(shù)γ的L2范數(shù))。然后,用這個標(biāo)量重新縮放剪枝后的γ參數(shù)。
這一簡單的重初始化步驟,卻如「定海神針」一般有效。
它校正了輸出尺度,顯著提升了模型在剪枝后的穩(wěn)定性與后續(xù)微調(diào)的收斂性。
Post-RMSNorm融合優(yōu)化策略
另外,Pangu系列大模型還采用了一種獨(dú)特的「三明治」歸一化(Depth-Scaled Sandwich-Norm, DSSN)架構(gòu),即在每個Transformer塊的注意力模塊和FFN模塊之后都額外增加了一個RMSNorm層。
這一設(shè)計極大地增強(qiáng)了大規(guī)模模型訓(xùn)練的穩(wěn)定性,甚至實現(xiàn)了「零訓(xùn)練毛刺(zero loss spikes)」的佳績。
然而,這種歸一化也無可避免地帶來了額外的推理計算開銷。
標(biāo)準(zhǔn)的RMSNorm計算公式如下:
RMSNorm會實時計算每一個輸入token的統(tǒng)計值,這極大影響了模型的推理效率。
為此,針對這種額外引入的Post-RMSNorm,研究者通過少量校準(zhǔn)集求取該統(tǒng)計值的均值,并將該均值替換RMSNorm的實時計算,其表達(dá)式如下:
替換后,歸一化層的計算公式表示如下:
這一變換有效地將 Post-RMSNorm 層替換為一個常數(shù)的逐通道縮放操作。
同時,這一縮放操作可以將歸一化層的參數(shù)融入線性投影層的權(quán)重矩陣中,消除了PostNorm額外引入的參數(shù)。
實驗驗證
為了驗證Pangu Light框架的實際效果,研究團(tuán)隊以Pangu 38B模型為基準(zhǔn),在華為昇騰NPU AI處理器上進(jìn)行了一系列詳盡的模型壓縮實驗。
從實驗結(jié)果可以看出,Pangu Light在不同的壓縮比例下,均能非常有效地保持模型的精度。
與參數(shù)量相近的業(yè)界知名模型Qwen3-32B相比,Pangu Light壓縮后的模型在多項任務(wù)上展現(xiàn)出更強(qiáng)的競爭力,平均精度更優(yōu)。
在同樣加速2.1x的情況下,Pangu Light保留了高達(dá)98.9%的原始模型推理能能力,超越英偉達(dá)提出的PUZZLE壓縮方案(保持98.4%的精度)。
在推理吞吐量方面,研究團(tuán)隊在昇騰NPU 的配置下進(jìn)行了測試。
結(jié)果顯示,Pangu Light剪枝后的模型在昇騰硬件平臺上表現(xiàn)出卓越的親和力。
以32B規(guī)模的模型為例,Pangu Light-32B的吞吐量相較于Qwen3-32B提升了接近16.2%(2585 vs 2225 tokens/s)。
這就充分證明了其軟硬協(xié)同優(yōu)化的有效性,實現(xiàn)了模型性能與推理速度的更優(yōu)平衡。
消融實驗
為了進(jìn)一步驗證Pangu Light中各項創(chuàng)新技術(shù)的獨(dú)立貢獻(xiàn),研究團(tuán)隊還精心設(shè)計了消融實驗。
在一項基于14B規(guī)模模型的少量數(shù)據(jù)微調(diào)評測中,對比僅基于激活值進(jìn)行剪枝的策略(NVIDIA Minitron方案的),同時采用CLAP和SLNP這兩種「寬深調(diào)整」(實為權(quán)重重置與結(jié)構(gòu)調(diào)整)技術(shù)的Pangu Light模型,在平均精度上實現(xiàn)了高達(dá)3.6個百分點(diǎn)的提升。
這一顯著差距,充分證明了在剪枝之后進(jìn)行系統(tǒng)性的參數(shù)調(diào)整與重置的極端重要性,以及Pangu Light所提方法的優(yōu)越性。
為了深入探究Pangu Light剪枝方法學(xué)對模型內(nèi)部參數(shù)的影響,特別是其核心的SLNP權(quán)重重置策略如何維持穩(wěn)定性,研究者們還細(xì)致分析了模型歸一化層的仿射縮放參數(shù)γ在剪枝前后的分布變化。
分析著重聚焦于那些在剪枝后被保留下來的通道和層所對應(yīng)的γ參數(shù)。
結(jié)果清晰地顯示,在應(yīng)用了Pangu Light的剪枝和SLNP重置策略后,這些被保留的γ參數(shù)的均值和標(biāo)準(zhǔn)差在每一層都與剪枝前保持了高度的一致性。
這一現(xiàn)象有力地說明,Pangu Light的剪枝與權(quán)重重置方法能夠有效維持這些關(guān)鍵縮放參數(shù)學(xué)習(xí)到的統(tǒng)計特性,避免了劇烈的分布漂移。
這種參數(shù)層面的穩(wěn)定性,是剪枝后模型整體魯棒性和行為可預(yù)測性的重要基石。
昇騰賦能,華為引領(lǐng)AI普惠之路
可見Pangu Light框架的提出,無疑為LLM的高效部署領(lǐng)域注入了強(qiáng)勁的新動能。
它結(jié)合了系統(tǒng)性的結(jié)構(gòu)化剪枝與創(chuàng)新性的「剪枝后權(quán)重重置與結(jié)構(gòu)調(diào)整」理念,尤其強(qiáng)調(diào)了在激進(jìn)剪枝后對模型進(jìn)行「再穩(wěn)定化」的核心步驟。
由此,這個框架就成功破解了長期困擾業(yè)界的「一剪就壞」難題。
甚至,在昇騰AI處理器的強(qiáng)大算力支持下,Pangu Light不僅實現(xiàn)了超高的模型壓縮率和推理加速,更難能可貴地保持了極具競爭力的模型精度,展現(xiàn)了卓越的「精度-效率」均衡藝術(shù)。
可以說,這項由華為諾亞方舟實驗室主導(dǎo)的研究成果,是軟硬件協(xié)同設(shè)計(「軟硬協(xié)同」)理念的又一次成功實踐,充分彰顯了算法創(chuàng)新與國產(chǎn)AI計算平臺(昇騰)深度融合所能爆發(fā)出的巨大潛力。
從此,不僅Pangu系列大模型有了強(qiáng)大的「瘦身」與加速工具,業(yè)界更是有了一條極有前途的路徑——
在保證高性能前提下,大模型應(yīng)用的門檻,還將繼續(xù)大幅降低!
參考資料:
https://arxiv.org/abs/2505.20155
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.