“華為最新的兩個重要推理技術(shù)結(jié)合,還會激發(fā)出哪些AI創(chuàng)新?”
作者丨李希
大模型推理來到加速時代
隨著以DeepSeek V3/R1 為代表的超大規(guī)模M oE 模型走向主流,如果對如此超高參數(shù)量的模型進(jìn)行推理優(yōu)化成了業(yè)界普遍關(guān)注的議題。作為目前普遍采用的大模型推理加速技術(shù)之一,投機(jī)推理為大模型生成推理草稿,一次生成多個token,但面臨調(diào)度時延過高,算力浪費(fèi)的問題,就此華為團(tuán)隊提出投機(jī)推理框架 FusionSpec,持續(xù)提升 MTP 投機(jī)在昇騰上的推理性能,使其調(diào)度耗時從10ms降為1ms;而作為另一加速推理的技術(shù),量化技術(shù)是DeepSeek模型采用FP8進(jìn)行訓(xùn)練的核心,而推理時采用Int8部署,亟需突破FP8到int8的無損量化,為此華為團(tuán)隊也提出了O pti Quant量化框架和算法,讓INT 8 性能可以打平FP 8 。下面就分別介紹華為團(tuán)隊的這兩個創(chuàng)新技術(shù)
高吞吐推理投機(jī),昇騰超大規(guī)模MoE模型推理的加速利器
1、何為投機(jī)推理技術(shù)?
在大語言模型(LLMs)的應(yīng)用中,推理速度是影響用戶體驗和應(yīng)用效率的關(guān)鍵因素。傳統(tǒng)的自回歸解碼方式,每次僅能生成一個輸出 token,且需將歷史輸出作為輸入進(jìn)行下一步解碼,導(dǎo)致推理過程串行、效率低下。為解決這一問題,投機(jī)推理技術(shù)應(yīng)運(yùn)而生。投機(jī)推理(Speculative Inference),也被稱為推測性解碼,其核心思想是利用計算代價遠(yuǎn)低于大模型的小模型,先行對后續(xù)可能的輸出進(jìn)行猜測,然后由大模型對這些猜測結(jié)果進(jìn)行驗證,從而實現(xiàn)并行化推理,提升整體推理速度。
如果打個比方的話,就像你寫作文時,先在草稿紙上列幾個可能的句子(小模型猜測),再挑出合適的句子寫到作文里(大模型驗證),寫錯了就擦掉重寫(回退修正)。這種 “先試錯再優(yōu)化” 的思路,讓大模型能更快、更準(zhǔn)地給出回答。
2、現(xiàn)有投機(jī)推理技術(shù)類型
(1)獨(dú)立草稿生成(Independent Drafting)
在這種方式下,小模型獨(dú)立運(yùn)行,對大模型未來可能生成的多個 token 進(jìn)行預(yù)測,形成候選序列。
(2)自我草稿生成(Self - Drafting)
自我草稿生成是一種相對新穎的方式,它利用大模型自身的某些機(jī)制或中間層輸出來生成候選 token。
(3)樹形驗證(Token Tree Verification)
當(dāng)小模型生成多個候選序列后,將這些序列組織成樹形結(jié)構(gòu),可有效減少冗余存儲開銷。SpecInfer 提出的樹形注意力(Tree Attention)計算方法是樹形驗證的典型代表。
3、投機(jī)推理面臨的困難
(1)推測準(zhǔn)確性與草稿生成效率的權(quán)衡
小模型的主要任務(wù)是快速生成可能的輸出,但這往往與生成結(jié)果的準(zhǔn)確性相矛盾。如何在兩者之間找到最佳平衡點,是投機(jī)推理技術(shù)面臨的一大挑戰(zhàn)。
(2)批處理推理場景的適配問題
在實際應(yīng)用中,批處理推理可以提高系統(tǒng)的整體吞吐量。然而,投機(jī)推理技術(shù)在批處理場景下的應(yīng)用并不簡單。投機(jī)推理本質(zhì)上來說是用空閑的算力換取更高的吞吐,需要處理好投機(jī)模型和投機(jī)框架引入的耗時,不然無法發(fā)揮投機(jī)推理在批處理場景下的加速潛力。
4、昇騰高吞吐推理投機(jī)框架FusionSpec
針對投機(jī)推理在模型解碼階段的高計算密度天然匹配昇騰高計算帶寬比的特點,為了充分發(fā)揮這一優(yōu)勢,在低時延大并發(fā)場景下實現(xiàn)高吞吐,解決上面提到的諸多問題,華為團(tuán)隊提出了投機(jī)推理框架 FusionSpec 深度優(yōu)化 MTP 在昇騰上的推理性能,框架耗時從1 0 ms優(yōu)化至小于1ms,其主要特性為:
(1)投機(jī)框架優(yōu)化
為了充分發(fā)揮昇騰的計算能力,減少 NPU 的空閑時間,我們對投機(jī)推理的框架進(jìn)行了優(yōu)化:
考慮 DeepSeek 的模型架構(gòu),MTP 層需要主體模型的最后一層結(jié)果作為輸入,將 MTP 層的執(zhí)行直接排在主體模型執(zhí)行之后。
- 優(yōu)化后的調(diào)度順序避免了推理的步間數(shù)據(jù)傳輸
- 同時在 PD 分離的部署場景下也有效減少了節(jié)點間的數(shù)據(jù)傳輸。
參考 MTP 層訓(xùn)練模式,將 MTP 層視為模型的一部分,注意力算子復(fù)用主體模型的控制參數(shù)。參數(shù)復(fù)用省去了控制參數(shù)的重新構(gòu)造,降低了框架耗時。
通過優(yōu)化點1和2,我們壓縮了單步推理內(nèi)主體模型與投機(jī)模型間的框架耗時,實現(xiàn)了較低時延下的高并發(fā)、大吞吐。為了進(jìn)一步壓縮框架內(nèi)的前后處理耗時,無論是 Multi-step 還是前后處理全異步方案,都需要提供投機(jī)場景昇騰上的輕量步間準(zhǔn)備能力。
我們通過 NPU 上的輕量步間準(zhǔn)備,實現(xiàn)了 MTP 場景下的 CPU 單次準(zhǔn)備、NPU 多次推理,進(jìn)一步降低了步間的框架耗時。
(2)投機(jī)場景算子優(yōu)化
為了在投機(jī)推理開啟時進(jìn)一步發(fā)揮昇騰的計算能力,壓縮端到端時間,我們對采樣操作以及投機(jī)場景的多頭潛在注意力(MLA)計算進(jìn)行了優(yōu)化。
5、投機(jī)推理的發(fā)展方向
(1)多頭投機(jī)
DeepSeek V3 在訓(xùn)練中使用了多層 MTP,并開源了第一層 MTP 的權(quán)重。我們利用輕量的算子,使用該層 MTP 權(quán)重,實現(xiàn)了對復(fù)數(shù) token 的自回歸預(yù)測。當(dāng)然,也可以使用多層 MTP 進(jìn)行復(fù)數(shù) token 的投機(jī),未來我們會對此進(jìn)行支持。
(2)拒絕采樣的昇騰適配加速
投機(jī) token 的接受率直接決定了投機(jī)推理的收益上限。在保證主體模型生成概率不變的情況下,提升投機(jī)的接受率是進(jìn)一步提升 FusionSpec 的關(guān)鍵所在。
當(dāng)前 FusionSpec 采用直接判定主體生成的 token 與投機(jī) token 是否一致這一基本方案。該方案的優(yōu)勢在于無需維護(hù)投機(jī) token 的生成概率,但其接受率在模型的信息熵較大時較低。但事實上,只要投機(jī)模型的 token 生成概率接近主體模型的生成概率時,就應(yīng)當(dāng)盡可能接受投機(jī) token 。Rejection Sampling方案就基于投機(jī)模型的生成概率,提升了投機(jī) token 的接受率,但也同時極大增加了 PD 分離場景下節(jié)點間的數(shù)據(jù)傳輸量和 decode 步驟間的數(shù)據(jù)維護(hù)量。為此,我們將進(jìn)一步優(yōu)化FusionSpec 框架:1)增量維護(hù) decode 階段的概率矩陣;2)優(yōu)化昇騰算子提升計算效率。
(3)采樣優(yōu)化
采樣操作一般包含溫度、TopK、TopP 三步,其中 TopK、TopP 樸素算法需對長度為詞表大小(在 DeepSeek V3 模型中為 129280)的概率表進(jìn)行排序、計算前綴和,是采樣操作的瓶頸。未來可以采用流式過濾策略、利用昇騰歸并排序API,優(yōu)化TopK、TopP的計算,避免全量排序、全量前綴和。
OptiQuant量化框架和算法,加速昇騰大模型MoE推理性能
1、何為大模型量化技術(shù)
大模型量化技術(shù)是一種用于減少 A I模型大小和提高其運(yùn)行效率的技術(shù)。通過量化,模型的權(quán)重從高精度的浮點數(shù)轉(zhuǎn)換為比特數(shù)更少的整數(shù)或浮點數(shù)表示,從而減少模型的存儲需求 、帶寬 和計算量 。 將模型權(quán)重、激活值、以及 KV cache 量化為低精度格式(如 INT4 或 INT8 )成為緩解資源約束、優(yōu)化部署效率的關(guān)鍵手段 , 能夠在 大幅壓縮 顯存占用的同時盡量 保留 模型 的原始能力 ,使得 諸如DeepSeek類的大 模型的高效部署成為可能。
2、現(xiàn)有的大模型量化技術(shù)
大模型量化技術(shù)可以分為兩類:激活值無感的權(quán)重量化和激活值感知的量化。 經(jīng)典的量化不需要使用校準(zhǔn) 技術(shù) ,不依賴于大模型的輸入數(shù)據(jù)及其分布,而直接對模型參數(shù)進(jìn)行量化。 Qser ve 提出一種雙階段量化策略,針對W 4A8 量化場景,基于截斷范圍參數(shù)和縮放系數(shù)優(yōu)化int 4 參數(shù); HQQ 提出基于Lp - 范數(shù)的稀疏優(yōu)化模型調(diào)整量化的縮放系數(shù)和偏移量。
激活值感知的權(quán)重量化算法需要通過校準(zhǔn)集逐層生成對應(yīng)的激活值。該激活值可以被用來分析異常值分布,進(jìn)而設(shè)計量化算法及參數(shù)。在異常值抑制算法中,可以根據(jù)校準(zhǔn)集的性質(zhì)設(shè)計算法將校準(zhǔn)集的激活數(shù)據(jù)平滑化,使真實數(shù)據(jù)的激活值更容易量化。由于校準(zhǔn)集的統(tǒng)計特性反映了真實數(shù)據(jù)的統(tǒng)計特性,從而校準(zhǔn)集的選取至關(guān)重要。S moothQuant 通過構(gòu)造數(shù)學(xué)等價變換,使能激活值的c hannel 維度縮放。然而存在Channel維度的數(shù)值縮放無法充分抑制異常值, O s tQuant 采用了c hannel 維度縮放和正交旋轉(zhuǎn)相結(jié)合的異常值抑制技術(shù)。 G PTQ 通過二階Hess ian 信息對剩余權(quán)重進(jìn)行矯正,補(bǔ)償量化引入的誤差,從而最小化量化前后模型的輸出差異。該方法存在泛化性能力不足的問題。
3、研究動機(jī)
DeepSeek等大模型的出現(xiàn)給昇騰系統(tǒng)帶來了新的問題:1)基于BF16的DeepSeek需要1.3T B 的顯存空間,同時導(dǎo)致極大的算力和跨機(jī)通信開銷;2)校準(zhǔn)集的泛化性缺失導(dǎo)致了在很多任務(wù)上難以達(dá)到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴(yán)重;3)如何設(shè)計昇騰親和的量化算法,以發(fā)揮硬件性能。激活無感的權(quán)重量化導(dǎo)致參數(shù)量化時無法考慮激活的異常值分布,在低比特量化時造成了推理精度損失;激活感知的權(quán)重可以通過數(shù)據(jù)校準(zhǔn)實現(xiàn)精度補(bǔ)償,然而過度補(bǔ)償導(dǎo)致了在部分?jǐn)?shù)據(jù)集精度偏高,部分?jǐn)?shù)據(jù)集精度偏低。此外,一些偽量化算法的反量化實現(xiàn)在分離式架構(gòu)上會導(dǎo)致多次訪存,帶來性能下降。
為了應(yīng)對上述挑戰(zhàn),我們提出了OptiQuant量化框架,并設(shè)計了創(chuàng)新算法和算子,在保證模型精度的同時顯著提升推理效率:
1)層間自動混精:基于模型權(quán)重的四分位極差統(tǒng)計,動態(tài)選擇最優(yōu)量化策略;
2)混合校準(zhǔn):利用多樣化校準(zhǔn)數(shù)據(jù)增強(qiáng)泛化性,確保關(guān)鍵業(yè)務(wù)的高精度;
3)離群值轉(zhuǎn)移:通過數(shù)學(xué)等價變換,將激活中的導(dǎo)致量化誤差的離群值轉(zhuǎn)移到參數(shù);
4)可學(xué)習(xí)截斷閾值:逐層最小化量化MSE,求解最優(yōu)截斷系數(shù)以降低整數(shù)量化誤差;
5)SSZW算法:采用梯度下降法依次迭代優(yōu)化縮放因子( s )、零點偏移( z )及量化權(quán)重( W );
6 ) 昇騰親和的量化算子:根據(jù)昇騰Cube和Vector分離、內(nèi)存總線、集群互聯(lián)的硬件特征,設(shè)計相應(yīng)的硬件友好的算子,極大發(fā)揮硬件計算能力。
4、解決方案
(1)量化框架 OptiQuant
OptiQuant是一個基于華為昇騰芯片模型量化算法的精度 解決方案 。除了支持業(yè)界主流量化算法功能之外,它新增支持以下三個功能:1)支持接入自定義量化算法和數(shù)值類型,可以將多種量化算法的自由組合搭配使用 ; 2)支持業(yè)內(nèi)主流評測數(shù)據(jù)集 和用戶自定義的數(shù)據(jù)校準(zhǔn)集; 3)支持?jǐn)?shù)據(jù)并行和流水并行,針對不同大小的大語言模型實現(xiàn)精度驗證性能加速。
圖1:OptiQuant量化整體框架
如 圖 1 所示 , OptiQuant框架主要由以下幾個模塊組 成:
1)量化 類型 和數(shù)值類型 : OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型,支持業(yè)界的Qserve,HQQ,LUT等量化方法 ,在此基礎(chǔ)上 提出了可學(xué)習(xí)截斷和量化參數(shù)優(yōu)化等算法,進(jìn)一步減少了量化誤差。
2) 多樣化測試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:OptiQuant支持了判斷題,問答題,代碼題和數(shù)學(xué)題等多種測試類別,語種上支持了十種常見語言。此外,OptiQuant支持用戶自定義校準(zhǔn)集,提升模型量化過程中的泛化性。
3 ) 量化權(quán)重生成 : OptiQuant提出了自適應(yīng)層間混精算法,并且根據(jù)對應(yīng)的量化配置生成對應(yīng)的權(quán)重參數(shù),通過去冗余技術(shù)減少參數(shù)保存的參數(shù)量;OptiQuant進(jìn)一步提出了FlexSQ等算法,在數(shù)據(jù)校準(zhǔn)過程中, 對大模型激活異常值進(jìn)行了平滑處理,有助于對激活做低比特量化。
5、實驗結(jié)果
基于A tlas 800I A 2 服務(wù)器的精度測試結(jié)果如下: 對于Dee pSeek-V3-0324 模型,W 8A8C16 和W 4A8C16 均采用Per -channel 量化,實現(xiàn)推理精度與F P8-GPU 持平。
表1:DeepSeek-R1模型精度測試結(jié)果
注1:如無特殊說明, 測試為單次結(jié)果
注 2 :測試 3 次以上結(jié)果取平均
注 3 :單次測試結(jié)果
表 2:DeepSeek-V3-0324模型精度測試結(jié)果
注1:單次測試結(jié)果
6、量化技術(shù)總結(jié)與展望
通過 OptiQuant和相關(guān)優(yōu)化算法, 實現(xiàn) 了 W8A8C16/W4A8C16 的模型 精度持平FP8的 模型 精度 ,并充分發(fā)揮了昇騰硬件性能。 在后續(xù)的研究中,將 探索 PD 差異量化 、KV cache量化、TopK專家剪枝、通用的等價變換建模、和量化微調(diào)等方向,實現(xiàn)更高效、更低比特的權(quán)重 、 激活 和K V cache 的量化模型推理技術(shù) :
PD 差異量化: 由于大模型Pre fill 階段和De code 階段具有不同的計算和訪存特性,并且對誤差的容忍程度不同,可以對P D 設(shè)計差異化的量化策略,極致平衡大模型的推理性能和精度。
多維度異常值抑制算法:對于前文所述的各類量化算法,如通道維度縮放、矩陣旋轉(zhuǎn)變換、數(shù)值截斷、量化參數(shù)尋優(yōu)等,可通過上述模型進(jìn)行合并和統(tǒng)一。基于逐層誤差或端到端的量化誤差作為訓(xùn)練損失函數(shù),學(xué)習(xí)得到各策略下的最優(yōu)參數(shù)值,可進(jìn)一步提升方案的量化精度。
KV cache/MLA全量化:KV cache量化技術(shù)可以進(jìn)一步降低顯存,使能大batch場景,提升推理吞吐性能。然而,DeepSeek-V3架構(gòu)的Cache共享機(jī)制使得上述量化方式失效。因此,需要設(shè)計切實可行的KV cache量化方案,進(jìn)一步壓縮Cache顯存。此外,采用MLA全量化可以利用Cube-Core算力,降低推理時延。
量化微調(diào): 量化微調(diào)是一類常用的量化保精方法,針對 DeepSeek-V3 架構(gòu),量化微調(diào)一方面需要解決 相比后訓(xùn)練量化(PTQ)技術(shù)更加 高效 資源 利用率,另一方面 為了避免模型因過擬合部分任務(wù)而犧牲通用能力,需要構(gòu)建更加全面的指令微調(diào)數(shù)據(jù)集,兼顧模型在各個領(lǐng)域上的能力。
專家剪枝: 在DeepSeek-V3架構(gòu)下,可以設(shè)計合適的專家剪枝策略,在模型量化的基礎(chǔ)上進(jìn)一步提升參數(shù)壓縮率,降低數(shù)據(jù)的通信量和計算量,提升推理性能。
結(jié)語
能夠?qū)崿F(xiàn)高吞吐的投機(jī)推理和低比特實現(xiàn)足夠精度運(yùn)算的量化技術(shù),是超大規(guī)模M oE 模型推理部署中的技術(shù)難點,華為團(tuán)隊通過推出基于昇騰的FusionSpec投機(jī)推理框架以及OptiQuant量化框架,給出了全新的解決方案和思路,相信這兩個技術(shù)會對大模型推理技術(shù)的發(fā)展產(chǎn)生巨大的推動作用,兩個技術(shù)潛在的有機(jī)結(jié)合也會帶來更多的創(chuàng)新。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.