沒有人不在期待大模型能夠成為下一個電動車,作為代表中國的新興產業,在世界范圍內掀起狂瀾。
然而主流的MoE架構大模型,卻苦于其結構上的“先天不足”:巨大的硬件成本與多重拖累效率的環節,使得中國企業在這場芯片堆砌與效率挖掘的苦徑上難以提速。
作為智能基礎設施提供商,華為在這場戰役中另辟蹊徑,利用其在數學算法和工程領域的深厚積累,為DeepSeek顯著提升了效率及用戶體驗。
山就在那里,但中國企業找到了不一樣的登頂之路。
近期,虎嗅將打造《華為技術披露集》系列內容,全面揭秘超大規模MoE模型推理部署技術,通過一連串的技術報告,首次全面披露技術細節。
希望本系列內容能為業界起到參考價值,也希望更多人能與華為一起,共同打造長期持續的開放協作生態環境,讓昇騰生態在中國茁壯成長。
《華為技術披露集》系列 VOL.3 :投機推理
隨著以DeepSeek V3/R1為代表的超大規模MoE模型走向主流,如何對如此超高參數量的模型進行推理優化,成了業界普遍關注的議題。
作為目前普遍采用的大模型推理加速技術之一,投機推理為大模型生成推理草稿,一次生成多個token,但面臨調度時延過高,算力浪費的問題,就此華為團隊提出投機推理框架 FusionSpec,持續提升 MTP 投機在昇騰上的推理性能,使其調度耗時從10ms降為1ms。
而作為另一加速推理的技術,量化技術是DeepSeek模型采用FP8進行訓練的核心,而推理時采用Int8部署,亟需突破FP8到int8的無損量化,為此華為團隊也提出了OptiQuant量化框架和算法,讓INT8性能可以打平FP8。
下面就分別介紹華為團隊的這兩個創新技術。
高吞吐推理投機
昇騰超大規模MoE模型推理的加速利器
在大語言模型(LLMs)的應用中,推理速度是影響用戶體驗和應用效率的關鍵因素。(回想下你一直苦等結果的時候)
傳統的自回歸解碼方式,每次僅能生成一個輸出 token,且需將歷史輸出作為輸入進行下一步解碼,導致推理過程串行、效率低下。
為解決這一問題,投機推理技術應運而生。投機推理(Speculative Inference),也被稱為推測性解碼,其核心思想是利用計算代價遠低于大模型的小模型,先行對后續可能的輸出進行猜測,然后由大模型對這些猜測結果進行驗證,從而實現并行化推理,提升整體推理速度。
打個比方,就像你寫作文時,先在草稿紙上列幾個可能的句子(小模型猜測),再挑出合適的句子寫到作文里(大模型驗證),寫錯了就擦掉重寫(回退修正)。這種 “先試錯再優化” 的思路,讓大模型能更快、更準地給出回答?,F有的投機推理技術,為以下幾種類型:
獨立草稿生成(Independent Drafting):在這種方式下,小模型獨立運行,對大模型未來可能生成的多個 token 進行預測,形成候選序列。
自我草稿生成(Self - Drafting):自我草稿生成是一種相對新穎的方式,它利用大模型自身的某些機制或中間層輸出來生成候選 token。
樹形驗證(Token Tree Verification):當小模型生成多個候選序列后,將這些序列組織成樹形結構,可有效減少冗余存儲開銷。SpecInfer 提出的樹形注意力(Tree Attention)計算方法是樹形驗證的典型代表。
投機推理面臨的困難,主要在于以下兩方面:
其一是推測準確性與草稿生成效率的權衡。小模型的主要任務是快速生成可能的輸出,但這往往與生成結果的準確性相矛盾。需要在這兩者之間找到最佳平衡點。
其二是批處理推理場景的適配問題。在實際應用中,批處理推理可以提高系統的整體吞吐量。然而,投機推理技術在批處理場景下的應用并不簡單。投機推理本質上來說是用空閑的算力換取更高的吞吐,需要處理好投機模型和投機框架引入的耗時,不然無法發揮投機推理在批處理場景下的加速潛力。
針對投機推理在模型解碼階段的高計算密度、天然匹配昇騰高計算帶寬比的特點,為了充分發揮這一優勢,在低時延大并發場景下實現高吞吐,解決上面提到的諸多問題,華為團隊提出了投機推理框架 FusionSpec 深度優化 MTP 在昇騰上的推理性能,框架耗時從10ms優化至小于1ms,其主要特性為:投機框架優化、投機場景算子優化。
先看前者。
為了充分發揮昇騰的計算能力,減少 NPU 的空閑時間,團隊對投機推理的框架進行了優化:
1. 考慮 DeepSeek 的模型架構,MTP 層需要主體模型的最后一層結果作為輸入,將 MTP 層的執行直接排在主體模型執行之后。
· 優化后的調度順序避免了推理的步間數據傳輸
· 同時在 PD 分離的部署場景下也有效減少了節點間的數據傳輸。
2. 參考 MTP 層訓練模式,將 MTP 層視為模型的一部分,注意力算子復用主體模型的控制參數。參數復用省去了控制參數的重新構造,降低了框架耗時。
通過優化點1和2,團隊壓縮了單步推理內主體模型與投機模型間的框架耗時,實現了較低時延下的高并發、大吞吐。為了進一步壓縮框架內的前后處理耗時,無論是 Multi-step 還是前后處理全異步方案,都需要提供投機場景昇騰上的輕量步間準備能力。
3. 團隊通過 NPU 上的輕量步間準備,實現了 MTP 場景下的 CPU 單次準備、NPU 多次推理,進一步降低了步間的框架耗時。
再看另一點,投機場景算子優化。
為了在投機推理開啟時進一步發揮昇騰的計算能力,壓縮端到端時間,團隊對采樣操作以及投機場景的多頭潛在注意力(MLA)計算進行了優化。
未來,投機推理的發展方向有三點。
首先是多頭投機。DeepSeek V3 在訓練中使用了多層 MTP,并開源了第一層 MTP 的權重。團隊利用輕量的算子,使用該層 MTP 權重,實現了對復數 token 的自回歸預測。當然,也可以使用多層 MTP 進行復數 token 的投機,未來華為會對此進行支持。
其次是拒絕采樣的昇騰適配加速。投機 token 的接受率直接決定了投機推理的收益上限。在保證主體模型生成概率不變的情況下,提升投機的接受率是進一步提升 FusionSpec 的關鍵所在。
當前 FusionSpec 采用直接判定主體生成的 token 與投機 token 是否一致這一基本方案。該方案的優勢在于無需維護投機 token 的生成概率,但其接受率在模型的信息熵較大時較低。
但事實上,只要投機模型的 token 生成概率接近主體模型的生成概率時,就應當盡可能接受投機 token 。Rejection Sampling 方案就基于投機模型的生成概率,提升了投機 token 的接受率,但也同時極大增加了 PD 分離場景下節點間的數據傳輸量和 decode 步驟間的數據維護量。為此,團隊將進一步優化FusionSpec 框架:1)增量維護 decode 階段的概率矩陣;2)優化昇騰算子提升計算效率。
最后是采樣優化。采樣操作一般包含溫度、TopK、TopP 三步,其中 TopK、TopP 樸素算法需對長度為詞表大小(在 DeepSeek V3 模型中為 129280)的概率表進行排序、計算前綴和,是采樣操作的瓶頸。未來可以采用流式過濾策略、利用昇騰歸并排序API,優化TopK、TopP的計算,避免全量排序、全量前綴和。
OptiQuant量化框架和算法
加速昇騰大模型MoE推理性能
大模型量化技術是一種用于減少AI模型大小和提高其運行效率的技術。
通過量化,模型的權重從高精度的浮點數轉換為比特數更少的整數或浮點數表示,從而減少模型的存儲需求、帶寬和計算量。將模型權重、激活值、以及KV cache量化為低精度格式(如INT4或INT8)成為緩解資源約束、優化部署效率的關鍵手段,能夠在大幅壓縮顯存占用的同時盡量保留模型的原始能力,使得諸如DeepSeek類的大模型的高效部署成為可能。
現有的大模型量化技術可以分為兩類:激活值無感的權重量化和激活值感知的量化。經典的量化不需要使用校準技術,不依賴于大模型的輸入數據及其分布,而直接對模型參數進行量化。Qserve提出一種雙階段量化策略,針對W4A8量化場景,基于截斷范圍參數和縮放系數優化int4參數;HQQ提出基于Lp-范數的稀疏優化模型調整量化的縮放系數和偏移量。
激活值感知的權重量化算法需要通過校準集逐層生成對應的激活值。該激活值可以被用來分析異常值分布,進而設計量化算法及參數。在異常值抑制算法中,可以根據校準集的性質設計算法將校準集的激活數據平滑化,使真實數據的激活值更容易量化。由于校準集的統計特性反映了真實數據的統計特性,因此,校準集的選取至關重要。SmoothQuant通過構造數學等價變換,使能激活值的channel維度縮放。
然而存在Channel維度的數值縮放無法充分抑制異常值,OstQuant采用了channel維度縮放和正交旋轉相結合的異常值抑制技術。GPTQ通過二階Hessian信息對剩余權重進行矯正,補償量化引入的誤差,從而最小化量化前后模型的輸出差異。該方法存在泛化性能力不足的問題。
為什么要研究大模型量化技術?
DeepSeek等大模型的出現給昇騰系統帶來了新的問題:
其一,基于BF16的DeepSeek需要1.3TB的顯存空間,同時導致極大的算力和跨機通信開銷。
其二,校準集的泛化性缺失導致了在很多任務上難以達到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴重。
其三,如何設計昇騰親和的量化算法,以發揮硬件性能。激活無感的權重量化導致參數量化時無法考慮激活的異常值分布,在低比特量化時造成了推理精度損失;激活感知的權重可以通過數據校準實現精度補償,然而過度補償導致了部分數據集精度偏高,部分數據集精度偏低。
此外,一些偽量化算法的反量化實現在分離式架構上會導致多次訪存,帶來性能下降。
為了應對上述挑戰,團隊提出了OptiQuant量化框架,并設計了創新算法和算子,在保證模型精度的同時顯著提升推理效率:
層間自動混精:基于模型權重的四分位極差統計,動態選擇最優量化策略。
混合校準:利用多樣化校準數據增強泛化性,確保關鍵業務的高精度。
離群值轉移:通過數學等價變換,將激活中的導致量化誤差的離群值轉移到參數。
可學習截斷閾值:逐層最小化量化MSE,求解最優截斷系數以降低整數量化誤差。
SSZW算法:采用梯度下降法依次迭代優化縮放因子(s)、零點偏移(z)及量化權重(W);
昇騰親和的量化算子:根據昇騰Cube和Vector分離、內存總線、集群互聯的硬件特征,設計相應的硬件友好的算子,極大發揮硬件計算能力。
具體的解決方案如下:
OptiQuant是一個基于華為昇騰芯片模型量化算法的精度解決方案。除了支持業界主流量化算法功能之外,它新增支持以下三個功能:
1. 支持接入自定義量化算法和數值類型,可以將多種量化算法的自由組合搭配使用;
2. 支持業內主流評測數據集和用戶自定義的數據校準集;
3. 支持數據并行和流水并行,針對不同大小的大語言模型實現精度驗證性能加速。
圖:OptiQuant量化整體框架
如圖所示,OptiQuant框架主要由以下幾個模塊組成:
1. 量化類型和數值類型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等數據類型,支持業界的Qserve,HQQ,LUT等量化方法,在此基礎上提出了可學習截斷和量化參數優化等算法,進一步減少了量化誤差。
2. 多樣化測試數據集和用戶自定義校準集:OptiQuant支持了判斷題,問答題,代碼題和數學題等多種測試類別,語種上支持了十種常見語言。此外,OptiQuant支持用戶自定義校準集,提升模型量化過程中的泛化性。
3. 量化權重生成:OptiQuant提出了自適應層間混精算法,并且根據對應的量化配置生成對應的權重參數,通過去冗余技術減少參數保存的參數量;OptiQuant進一步提出了FlexSQ等算法,在數據校準過程中,對大模型激活異常值進行了平滑處理,有助于對激活做低比特量化。
基于Atlas 800I A2服務器的精度測試結果如下:對于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,實現推理精度與FP8-GPU持平。
通過OptiQuant和相關優化算法,實現了W8A8C16/W4A8C16的模型精度持平FP8的模型精度,并充分發揮了昇騰硬件性能。
在后續的研究中,團隊將探索PD差異量化、KV cache量化、TopK專家剪枝、通用的等價變換建模、和量化微調等方向,實現更高效、更低比特的權重、激活和KV cache的量化模型推理技術:
PD差異量化:由于大模型Prefill階段和Decode階段具有不同的計算和訪存特性,并且對誤差的容忍程度不同,可以對PD設計差異化的量化策略,極致平衡大模型的推理性能和精度。
多維度異常值抑制算法:對于前文所述的各類量化算法,如通道維度縮放、矩陣旋轉變換、數值截斷、量化參數尋優等,可通過上述模型進行合并和統一?;谥饘诱`差或端到端的量化誤差作為訓練損失函數,學習得到各策略下的最優參數值,可進一步提升方案的量化精度。
KV cache/MLA全量化:KV cache量化技術可以進一步降低顯存,使能大batch場景,提升推理吞吐性能。然而,DeepSeek-V3架構的Cache共享機制使得上述量化方式失效。因此,需要設計切實可行的KV cache量化方案,進一步壓縮Cache顯存。此外,采用MLA全量化可以利用Cube-Core算力,降低推理時延。
量化微調:量化微調是一類常用的量化保精方法,針對DeepSeek-V3架構,量化微調一方面需要解決相比后訓練量化(PTQ)技術更加高效資源利用率,另一方面為了避免模型因過擬合部分任務而犧牲通用能力,需要構建更加全面的指令微調數據集,兼顧模型在各個領域上的能力。
專家剪枝:在DeepSeek-V3架構下,可以設計合適的專家剪枝策略,在模型量化的基礎上進一步提升參數壓縮率,降低數據的通信量和計算量,提升推理性能。
能夠實現高吞吐的投機推理和低比特實現足夠精度運算的量化技術,是超大規模MoE模型推理部署中的技術難點,華為團隊通過推出基于昇騰的FusionSpec投機推理框架以及OptiQuant量化框架,給出了全新的解決方案和思路,相信這兩個技術會對大模型推理技術的發展產生巨大的推動作用,同時給用戶帶來更流暢的體驗。
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4375745.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.