99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

華為曝光兩大黑科技!打破推理延遲魔咒,大模型從此「秒回」

0
分享至


新智元報道

編輯:編輯部 XYH

【新智元導讀】剛剛,昇騰兩大技術創新,突破速度瓶頸重塑AI推理。FusionSpec創新的框架設計配合昇騰強大的計算能力,將投機推理框架耗時降至毫秒級,打破延遲魔咒。OptiQuant支持靈活量化,讓推理性價比更高。

「前DeepSeek」時代,人們普遍認為「有卡才能推理,沒卡寸步難行」。

而DeepSeek卻憑借一系列軟件層面的架構創新,把這一硬性門檻直接抬走,同時開創了中國人自己的AI大航海時代。

不過,雖然諸如V3和R1等超大規模MoE性能卓越,但在部署時卻存在著非常大的挑戰——推理的速度和延遲

心理學和行業實驗一致表明,LLM吐出第一個token所用的時間(TTFT),以及每秒生成的速度直接決定了用戶的「等候感」。超過100毫秒即可感知,超過2秒即可打斷思考。

對于AI應用來說,這里有一個簡單的公式可以說明:更快速度+更低延遲=更高滿意度+更高轉化率。


為了解決這一核心問題,華為通過兩個全新的方法和思路,對MoE模型進行了專門的推理優化,讓中國模型在中國的服務器上的推理速度來到了全新的高度!

  • FusionSpec打破了大模型推理「延遲魔咒」,依托于昇騰「超高」計算帶寬比的特點,創新性地重塑了主模型和投機模型的流程,結合輕量級步間準備,將投機推理框架耗時做到了1ms。

  • OptiQuant不僅支持主流量化算法,同時具備靈活的自定義組合能力,涵蓋了業內主流評測數據集,為大模型推理提供了更強性價比。

華為挑戰MoE推理的「兩把刷子」

早期LLM的推理通常使用自回歸解碼方式,即「每次只能預測下一個token」。

且需將歷史輸出作為輸入進行下一步解碼,導致推理過程串行、效率低下、計算密集度低。

如何解決這個問題?投機推理技術應運而生。

投機推理(Speculative Inference),也被稱為推測性解碼,其核心思想是利用計算代價遠低于大模型的小模型(也稱為投機模型),先行對后續可能的輸出進行猜測,然后由大模型對這些猜測結果進行驗證,從而實現并行化推理,提升整體推理速度。

這個道理其實也簡單,就像寫作文的時候,你先在草稿上「預測」幾個可能句子(投機模型猜測),再挑出合適的句子寫到正式作文里(大模型或者叫主模型驗證)。


如果草稿上預測的都不對,那就把作文里的擦掉重寫就好了(回退修正)。但要是預測對了,寫作文的速度(大模型的輸出速度)就能更快——畢竟草稿紙上的修改成本遠低于正式作文。

這種「先試錯再優化」的思路,讓大模型能更快、更準的給出答案(也就是推理速度又快又好)。

然而,是想要完美將投機模型和主模型相結合,依然面臨很大的困難。

1.推測準確性與草稿生成效率的權衡

小模型的主要任務是快速生成可能的輸出,但這往往與生成結果的準確性相矛盾。如何在兩者之間找到最佳平衡點,是投機推理技術面臨的一大挑戰。

2.批處理推理場景的適配

在實際應用中,批處理推理可以提高系統的整體吞吐量。投機推理本質上來說是用空閑的算力換取更高的吞吐,需要處理好投機模型和投機框架引入的耗時,不然無法發揮投機推理在批處理場景下的加速潛力。

另一方面,僅有投機推理技術也不夠,推理性能提升還需與模型壓縮、量化、增量式解碼等有效集成。

超大規模MoE動輒百億、千億參數量,對顯存帶寬、計算能力和互聯網帶寬需求,提出了極高要求。尤其長序列推理中的KV cache,更是堪稱顯存「無底洞」。

在此背景下,量化技術就成了緩解資源約束、優化部署效率的「救命稻草」——在大幅降低資源占用的同時,還能盡量保留模型精度。

以INT8量化為例:

  • 權重量化可以將模型參數的顯存需求降低50%,配合激活值量化,利用Cube-Core的INT8算力加速矩陣乘運算。

  • KV cache量化則進一步壓縮了顯存占用,支持更長的序列和更高的并發請求,大幅提升了Decode階段的系統吞吐量。

盡管低比特量化被視為LLM推理的靈丹妙藥,但若要實現高質高效的量化,并非易事。

1.精度損失

將模型參數從高精度壓縮到低精度,不可避免會導致精度下降。尤其是,在極低比特數(如二值)情況下更為明顯。

2.算法「兩難抉擇」

如何去設計高效、抗噪的量化算法,在保持精度同時,降低計算和訪存復雜度,依舊是行業研究重點。

過于復雜的算法,雖能提升精度,但會增加計算開銷,抵銷量化的效率優勢。而過于簡單的算法,又會犧牲過多精度,最終導致模型效果不佳。

3.硬件兼容適配

量化后的模型還需與硬件深度適配,而現有的量化算法在昇騰硬件上還有很多創新優化的空間。

此外,量化誤差的控制和推理過程中的動態調整策略,也充滿了挑戰。

4.校準集泛化性缺失

校準集的泛化性缺失導致了在很多任務上,難以達到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴重。

不論是投機推理,還是低比特量化,都是推理優化過程核心,它們所面臨的難題,是LLM飆速推理路上最大的絆腳石。

而現在,華為的這套方案,徹底攻克所有挑戰,解鎖了AI模型的中國速度。

投機推理框架FusionSpec

創1ms奇跡

具體來說,在投機推理方面,華為團隊提出了投機推理框架FusionSpec

FusionSpec充分利用了昇騰服務器高計算帶寬比的特點,在低時延大并發場景下,深度優化了DeepSeek提出的MTP在昇騰上的推理性能,將投機推理框架耗時減小至1ms,并在三個方面進行了重大創新:


1.考慮到DeepSeek的模型架構,MTP層需要主體模型的最后一層結果作為輸入,將MTP層的執行直接排在主體模型執行之后。

這樣做帶來兩個優勢:

  • 優化后的調度順序避免了推理的步間數據傳輸

  • PD分離的部署場景下,投機模型的后置解耦了PD分離系統與投機框架,同時有效減少了節點間的數據傳輸


昇騰基于PD分離部署的vLLM框架調度示意圖

2.參考MTP層訓練模式,將MTP層視為模型的一部分,注意力算子復用主體模型的控制參數。

DeepSeek V3/R1為代表的主流的大語言模型采用旋轉位置編碼RoPE。在使用投機模型進行預測時,會按實際推理的token個數進行位置編碼。

但對MTP層而言,計算時會忽略輸入的第0個token。因此,研究團隊把MTP層輸入的第0個token舍去,前移其余token,并復用主體模型的控制參數。

而RoPE保證了對所有token進行平移后的attention score不發生改變。這樣,就可以保證MTP層的正確計算,同時節省CPU上的準備時間,并簡化整個系統的block管理。

·參數復用省去了控制參數的重新構造,降低了框架耗時

通過主體模型前置與流程拼接,將單步投機推理中輸入準備從兩次降低為一次,避免主體模型和投機模型之間CPU同步打斷流水,壓縮了單步推理內主體模型與投機模型間的框架耗時,使得投機推理的整體框架時延與非投機場景一致。

基于上述優化,FusionSpec框架實現了在較低時延下的高并發、大吞吐。

3.實現了NPU上的輕量步間準備,支撐了vLLM v0的multi-step以及vLLM v1前后處理全異步,進一步降低了步間的框架耗時。


除了模型結構和框架設計優化外,在算子級別的細化加速同樣關鍵——這就是FusionSpec進一步優化的重點。

· 投機場景MLA算子加速

DeepSeek提出的對多頭潛注意力機制MLA,通過對Key和Value的低秩聯合壓縮,不僅大幅減少了所需的KV緩存量,同時性能還超過了傳統的MHA。

為了充分利用昇騰的計算能力,壓縮端到端輸出時間,FusionSpec進一步優化了投機場景MLA計算流程,減少矩陣的搬運時間。


投機場景下多頭潛在注意力MLA算子優化

·TopK、TopP算子加速

在投機推理場景中,若預測m個token,單步推理需進行1+m次詞表采樣操作,所以采樣操作的速度變得更加重要。

采樣操作一般包含溫度、TopK、TopP三步,其中TopK、TopP需要排序,并且計算前綴和,這些是采樣操作的瓶頸。

未來,FusionSpec將采用流式過濾策略、昇騰歸并排序API優化TopK、TopP計算。

量化框架OptiQuant

讓MoE巨獸飛起來

在量化方面,華為團隊則提出了OptiQuant量化框架。

它不僅兼容業界主流量化算法,通過一系列功能創新,為高效部署提供了強力支撐。具體來說,它有四大核心亮點:

· 豐富的量化和數值類型

OptiQuant支持了Int2/4/8和FP8/HiFloat8等數據類型,與業界Qserve、HQQ、LUT等主流量化方法兼容。

在此基礎上,OptiQuant創新性提出「可學習截斷」、「量化參數優化」等算法,將量化誤差進一步降低。

· 業內主流評測數據集

OptiQuant支持多樣化評測任務,包括判斷題、問答題、代碼題和數學題等多個方向,覆蓋了十種常見的語言。

為了提升量化模型的泛化能力,OptiQuant還引入了混合校準集的方法,按一定的比例混合不同數據集。

· 量化權重以及元數據的生成

OptiQuant提出了自適應層間混精算法和PD分離量化權重,并且根據對應的量化配置生成對應的權重參數,通過去冗余技術減少參數保存的參數量。

同時,FlexSmoothQuant等算法在數據校準過程中,將搜索到的元數據進行保存,并用于后續推理過程。

· 量化權重推理

OptiQuant提出了KVCache量化和MoE TopK專家剪枝技術。

結合昇騰親和的量化算子,OptiQuant通過高效數據并行/流水并行,針對不同大小的大語言模型實現精度驗證性能加速,將對各個數據集精度評估性能提高了5x以上。

此外,OptiQuant還支持Vector Quantization、DFloat11、可逆變換、量化模型微調等技術點。


OptiQuant量化框架

通過OptiQuant和相關優化算法,華為實現了W8A8C16/W4A8C16的模型精度,媲美FP8精度的效果,并充分發揮了昇騰硬件性能。

表1:DeepSeek-R1模型精度測試結果


注1:如無特殊說明, 測試為單次結果

注2:測試3次以上結果取平均

注3:單次測試結果

表2:DeepSeek-V3-0324模型精度測試結果


注1:單次測試結果

下一步,團隊還將探索PD差異量化、KV cache量化、TopK專家剪枝、通用的等價變換建模、和量化微調等方向,實現更高效、更低比特的權重、激活和KV cache的量化模型推理技術。

總而言之,FusionSpec和OptiQuant的雙劍合璧,將為超大規模MoE模型推理開辟了全新路徑。

這兩大框架的提出,打破了LLM推理的延遲魔咒、資源瓶頸。

這不僅僅是一次技術的突破,更是中國AI在全球舞臺上的一次強勢發聲。

未來,FusionSpec推理框架和OptiQuant量化框架有機融合,將促使更多的創新涌現出來。

技術報告:

FuionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/%E6%98%87%E8%85%BE%E9%AB%98%E5%90%9E%E5%90%90%E6%8A%95%E6%9C%BA%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6FusionSpec.pdf

OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/OptiQuant-%E6%98%87%E8%85%BE%E4%BA%B2%E5%92%8C%E7%9A%84DeepSeek%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96%E6%8A%80%E6%9C%AF.pdf

技術博客:

FusionSpec:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/FusionSpec/ascend-inference-cluster-fusionspec.md

OptiQuant:https://gitcode.com/ascend-tribe/ascend-inference-cluster/blob/main/OptiQuant/ascend-inference-cluster-optiquant.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
金卡戴珊法學院畢業,有資格考律師了!然而被群嘲:3年課硬念6年,真好意思...

金卡戴珊法學院畢業,有資格考律師了!然而被群嘲:3年課硬念6年,真好意思...

英國那些事兒
2025-05-22 23:14:32
大圣來了!貝爾現場解說歐聯杯決賽,短發造型發量濃密

大圣來了!貝爾現場解說歐聯杯決賽,短發造型發量濃密

直播吧
2025-05-22 02:55:20
海南一地4名黨員干部和公職人員酒駕醉駕被通報

海南一地4名黨員干部和公職人員酒駕醉駕被通報

魯中晨報
2025-05-22 19:48:03
為華為捏一把汗

為華為捏一把汗

關爾東
2025-05-21 20:30:55
中央21號文件是真的

中央21號文件是真的

霹靂炮
2025-05-22 22:50:35
網紅小英曝生病瘦到35公斤,因持續頭疼就醫,此前公開譴責第三者

網紅小英曝生病瘦到35公斤,因持續頭疼就醫,此前公開譴責第三者

半島晨報
2025-05-22 13:27:27
看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

韓胖說裝修
2025-05-20 23:54:58
你知道"核酸大王"張核子的背景有多強大嗎?

你知道"核酸大王"張核子的背景有多強大嗎?

振華觀史
2025-05-20 13:43:58
湖人A計劃曝光!不是凱斯勒也不是艾頓,佩林卡已搞定2019年狀元

湖人A計劃曝光!不是凱斯勒也不是艾頓,佩林卡已搞定2019年狀元

埃文凱爾
2025-05-22 16:03:14
陳小紜|肉絲 身材真好

陳小紜|肉絲 身材真好

手工制作阿殲
2025-05-22 10:38:11
2比4廣廈不到24小時,周琦做出重大決定,曝北京三冠功臣決定退役

2比4廣廈不到24小時,周琦做出重大決定,曝北京三冠功臣決定退役

璞玉話體壇
2025-05-22 19:15:03
摩根吐槽:史上最差歐戰決賽,然而這些廢物之一會參加明年歐冠

摩根吐槽:史上最差歐戰決賽,然而這些廢物之一會參加明年歐冠

直播吧
2025-05-22 04:50:12
夫妻二人被家中蚊香送進搶救室!這起悲劇,給所有人敲響警鐘!

夫妻二人被家中蚊香送進搶救室!這起悲劇,給所有人敲響警鐘!

小晨同學啊
2025-05-21 00:24:47
毛主席 14 字狂草神作寫了啥?有人知道嗎?全認出必是神人

毛主席 14 字狂草神作寫了啥?有人知道嗎?全認出必是神人

茶韻浮生
2025-05-20 14:02:28
成本20賣價500!央視最新曝光,3萬余人被騙10億,趕緊告訴家里人

成本20賣價500!央視最新曝光,3萬余人被騙10億,趕緊告訴家里人

明月聊史
2025-05-22 15:54:23
LG杯8強韓占6席,內戰均是酣戰,中國和日本棋手均上上簽!

LG杯8強韓占6席,內戰均是酣戰,中國和日本棋手均上上簽!

L76號
2025-05-22 16:02:07
形勢有多嚴峻?小區單親媽媽店鋪倒閉,交不起物業費被逼迫...

形勢有多嚴峻?小區單親媽媽店鋪倒閉,交不起物業費被逼迫...

慧翔百科
2025-05-21 06:42:02
朱媛媛告別儀式!劉敏濤改名悼念,崩潰成淚人,93表演班集體追憶

朱媛媛告別儀式!劉敏濤改名悼念,崩潰成淚人,93表演班集體追憶

觀星賞月
2025-05-22 16:06:13
多哈世乒賽:男單16強出爐!國乒3人日本1人,張本智和等名將敗北

多哈世乒賽:男單16強出爐!國乒3人日本1人,張本智和等名將敗北

面包夾知識
2025-05-22 23:08:11
四川慈善總會回應“230萬”耳環事件:辦公室主任和黃楊鈿甜父親不是同一人

四川慈善總會回應“230萬”耳環事件:辦公室主任和黃楊鈿甜父親不是同一人

揚子晚報
2025-05-20 12:11:25
2025-05-23 00:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12746文章數 66041關注度
往期回顧 全部

科技要聞

小米YU7發布,雷軍:沒有30萬下不來

頭條要聞

雷軍發布3nm旗艦芯片 現場安檢空前嚴格連紙都要寄存

頭條要聞

雷軍發布3nm旗艦芯片 現場安檢空前嚴格連紙都要寄存

體育要聞

孫興慜的圓夢之夜 曼聯丟最后遮羞布

娛樂要聞

朱媛媛喪事一切從簡,親戚剛知她去世

財經要聞

美債、日債都要崩盤?

汽車要聞

吉利銀河M9登陸米蘭 重新定義AI科技大六座旗艦SUV

態度原創

藝術
本地
健康
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

巴基斯坦與印度互相驅逐對方一名外交官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安化县| 阜新| 甘肃省| 三明市| 惠州市| 松溪县| 嘉荫县| 尖扎县| 高青县| 肃宁县| 若羌县| 昌宁县| 渭南市| 西吉县| 芷江| 读书| 城市| 九寨沟县| 隆德县| 三门峡市| 霞浦县| 乌兰察布市| 金山区| 辽宁省| 津市市| 西峡县| 张家川| 安康市| 佛山市| 台州市| 邢台县| 博白县| 海淀区| 富民县| 黔西县| 广昌县| 岫岩| 习水县| 双鸭山市| 阜康市| 鄂托克前旗|