網易首頁 > 網易號 > 正文申請入駐

華為創造AI算力新紀錄：萬卡集群訓練98%可用度，秒級恢復

2025-06-10 13:36:49　來源: 量子位

北京舉報

分享至

金磊發自凹非寺
量子位 | 公眾號 QbitAI

大模型的落地能力，核心在于性能的穩定輸出，而性能穩定的底層支撐，是強大的算力集群。其中，構建萬卡級算力集群，已成為全球公認的頂尖技術挑戰。

但是，在華為，昇騰萬卡算力集群，已經可以做到近乎“永不罷工”了：

訓練可用度達98%：這就好比你開著一輛車，全年365天里，有358天無論刮風下雨都能一腳油門就出發，從不掉鏈子，有問題可以隨時檢修，幾乎不會耽誤你的任何行程。
線性度超95%：比如用1000臺算力卡干活比用100臺快9.5倍以上，疊加更多算力，訓練速度近似等比提升，不浪費資源。
秒級恢復、分鐘級診斷：不論訓練還是推理，故障后幾秒鐘就可恢復；幾分鐘內定位到具體是哪臺機器、哪個部件出問題。

或許有小伙伴要問了：AI算力需要如此24小時不間斷的運作嗎？

答案是肯定的，需要，且有必要。

因為小到我們用手機導個航，背后都會有幾十個AI模型在發力來分析路況、預測擁堵；再如醫院用AI輔助診斷癌癥，系統得在瞬間處理掉成百上千的CT照片。

這些看似簡單的智能應用，其實都離不開如 “超級大腦” 般的AI算力集群，需要它們全天候不停歇地運轉著。

而要保證有這樣的能力，高訓練可用度、高線性度、快速消除故障，就相當于給AI發動機上了一份強有力的保險。

更嚴格來說，AI推理的可用度甚至還需要達到99.95%的程度。

那么華為又是如何做到這點的？

關于這一切背后的秘密，華為在今天首次把技術給公開了出來。

高可用的核心：三套“智能保險系統”

AI大集群出問題時，定位故障特別麻煩；畢竟系統規模龐大，軟件和硬件組成的技術棧錯綜復雜，而且調用鏈條還很長。

要解決問題，首先得確定故障出在哪個大的領域，接著再在這個領域內部一步步排查，確定具體的故障位置。在整個故障診斷過程中，面臨的挑戰非常大。

以往技術人員進行故障定位時，短則需數小時，長則可能耗時數天。這一過程不僅對技術人員的專業技能要求頗高，且往往難以快速鎖定故障設備及根本原因。

為此，華為團隊針對AI大集群面臨的復雜挑戰，構建了三大基礎能力。

首先是全棧可觀測能力。

它像是給集群裝了一套“火眼金睛”監控系統（故障感知），主要包含這幾部分：

集群運行視圖：實時查看集群整體運行狀態，哪里 “卡殼” 一目了然；
告警視圖：哪里出問題了，系統會主動 “打報告”，快速發出警報；
網絡鏈路監控：盯著網絡連接的 “血管”，確保數據傳輸順暢；
告警接入和配置：統一管理各種警報信息，還能根據需求靈活設置提醒規則；
網絡流可觀測能力：追蹤數據在網絡中的 “流動軌跡”，哪里堵了馬上能發現。

同時，華為還拿出了一套“故障診斷組合拳”，包含四大核心能力：

全棧故障模式庫：就像一本 “故障字典”，收錄了各種可能的問題模式，方便快速對照排查；
跨域故障診斷：不管故障藏在哪個 “領域”（軟件、硬件、網絡等），都能跨區域 “聯合破案”；
計算節點故障診斷：精準定位計算單元（比如服務器）的具體問題，揪出 “罷工” 的節點；
網絡故障診斷：專門對付網絡里的 “疑難雜癥”，比如斷網、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效，就像給工程師配了 “智能偵探工具”，大大縮短了找問題的時間。

最后，是一套“鋼鐵韌帶”自愈系統（容錯設計）。

想要把超平面網絡的厲害之處完全發揮出來，超節點的規模就得足夠大。不過到現在，還沒有哪個團隊能用光鏈路搭建超節點并成功的。

于是，華為團隊就琢磨出一套超節點光鏈路軟件容錯的好辦法。

這套辦法就像給超節點穿上了好幾層 “防護鎧甲”，用上 “超時代答”“綠色通道” 這些關鍵技術后，超節點基本不會出現大故障。

同時，又通過鏈路級重傳、光模塊動態調整Lane、重新執行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調度等技術，讓超節點對光模塊突然中斷這類故障的承受能力變得超強，能容忍超過99%的光模塊閃斷情況。

哪怕超節點里的光模塊數量一下子增加了10倍還多，依靠軟件提升可靠性的手段，再配合光鏈路壓力測試技術，光模塊閃斷的概率能降低到和傳統電鏈路差不多的水平，穩穩保障超平面網絡不出問題。

而且，華為團隊還打造出Step級重調度能力，以前遇到頻繁的 HBM 多比特 ECC 故障，修復可能要花很長時間，現在1分鐘內就能搞定，用戶因為故障損失的算力也減少了5%，實實在在地省下了不少 “計算力”。

計算卡再多，也不影響效率

線性度指標，簡單來說就是看算力卡數量增加后，訓練任務的速度或效率能提高多少（比如完成時間縮短的比例）。

舉個例子：如果算力卡增加2倍，訓練速度也能接近2倍，說明線性度高；如果速度只提高1.2倍，就說明線性度差，資源沒被充分利用。

為了讓訓練效率隨著算力卡增多而 “更成正比地提升”，華為團隊研發了四項關鍵技術：

TACO（拓撲感知的協同編排技術）：就像給算力卡 “排兵布陣”，根據硬件連接結構（比如網絡拓撲）智能分配任務，避免 “通信堵車”。
NSF（網絡級網存算融合技術）：把網絡傳輸、數據存儲和計算能力 “打包優化”，讓數據在算力卡之間流動更順暢，減少等待時間。
NB（拓撲感知的層次化集合通信技術）：針對大規模集群設計 “分層通信策略”，比如讓同一區域的算力卡先快速協作，再跨區域同步，提升整體通信效率。
AICT（無侵入通信跨層測量與診斷技術）：不干擾正常訓練的前提下，實時 “監控” 通信鏈路，快速發現哪里 “卡頓” 并修復，確保數據傳輸穩定。

通過這四項技術，華為讓Pangu大模型的訓練線性度（即效率隨算力卡增加的提升比例）明顯提高。

整體方案的思路大概如下圖所示：

實驗及理論分析結果顯示，訓練Pangu Ultra 135B稠密模型時，4K卡Atlas 800T A2集群相比256卡基線，線性度為96%。

訓練Pangu Ultra MoE 718B稀疏模型時，8K卡Atlas 800T A2集群相比512卡基線，線性度95.05%；4K卡CloudMatrix 集群相比256卡基線，線性度96.48%。

具備秒級恢復的能力

在大規模AI集群運行時，經常會因為各種硬件或軟件故障，導致訓練任務突然中斷。

目前行業里常用的辦法是，在訓練過程中定期保存 “進度存檔”（CKPT），等故障修復后從存檔點繼續訓練。

華為則憑借軟硬件全方面的技術創新，打造了一套“分層分級”的訓練任務故障快速恢復系統。

簡單來說，就是針對不同類型、不同程度的故障，制定了對應的 “快速重啟方案”，讓訓練任務能更快 “續上”。

不同層級的故障恢復能力可以參考下面這張圖：

除此之外，華為采用了一系列提速 “黑科技”：比如優化數據集查找速度、緩存模型編譯結果、加快通信鏈路建立、提升訓練進度保存效率。

這些技術效果顯著：如果是萬卡規模的超大型集群，從故障中恢復訓練，10分鐘內就能搞定；要是用 “進程級重調度恢復” 方法，3分鐘內就能接著訓練；要是用更厲害的 “進程級在線恢復”，30秒就能重新開始訓練。

而且，不管集群規模有多大，模型有多復雜，恢復時間基本不受影響，還能把因為故障導致的訓練進度倒退時間，壓縮到一次訓練循環的時長。

這么一來，AI集群能用的時間大大增加，大模型訓練的效率也快了很多。

在訓練階段后的推理，也有諸多問題亟待解決。

當千億級MoE模型不斷升級，模型部署的網絡結構也跟著變了。以前單機8卡就足夠跑一個推理實例，如今，大EP模型架構下，需要數十乃至上百張卡才能支撐推理運行。

但新架構帶來個麻煩：用的設備越多，出故障的可能性就越大，而且一旦有問題，影響的范圍會特別廣。

只要有一個硬件出故障，整個Decode實例（可以理解成模型運行的一個 “小團隊”）就沒法工作了，直接導致AI推理業務出問題，嚴重的話整個業務都會停擺。

為了解決大EP推理架構容易出故障的難題，華為團隊想出了一個分三步的 “保險計劃”：

第一步是實例間切換，就像給業務準備了 “備用團隊”，一個實例不行了，馬上換另一個頂上；
第二步是實例內重啟恢復，發現實例里有問題，快速重啟內部程序，讓它重新正常工作；
第三步是實例內無損恢復，即使出故障也不丟失數據，在不影響業務的情況下修復問題。

這三步方案需要芯片驅動、框架軟件、平臺系統各個層面緊密配合，組成一套完整的 “防護網”。遇到不同類型的故障，就用最合適的恢復方法，盡可能減少對用戶的影響，讓AI推理業務穩穩運行。

在實例內重啟恢復技術中，通過構建帶內快速故障感知和重調度機制，搭配參數權重預熱和鏡像預熱技術，能把實例內部的重啟恢復時間壓縮到5分鐘以內。

還有一項很厲害的TOKEN級重試技術，當遇到HBM KV Cache故障時，從故障發生到重新輸出Token的整個恢復過程不到10秒。

對比業界通常需要10分鐘才能恢復實例的情況，這項技術能將故障帶來的影響降低60倍，幾乎讓用戶感覺不到故障發生，極大提升了系統的穩定性和用戶體驗。

總結來看，針對AI算力集群的高可用性，華為團隊創新性提出了“3+3”雙維度技術體系，即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力，以及集群線性度、訓練快恢、推理快恢等三大業務支撐能力。

這六大創新均帶來了非常可觀的收益，比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

技術報告地址：

https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/HighAvailability/ascend-cluster-infra-ha.md

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

敢說永不掉線、秒級恢復，華為的底氣是什么？

虎嗅APP 2025-06-10 18:37:10
1 跟貼 1
華為版《黑客帝國》首次亮相：訓推復雜AI前先“彩排”

量子位 2025-06-11 13:32:52
3 跟貼 3

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1

小紅書開源首個大模型，中文評測超越DeepSeek-V3

智東西 2025-06-10 19:38:26
24 跟貼 24
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0

Meta推出開源最新世界模型，運行速度是英偉達Cosmos的30倍

DeepTech深科技 2025-06-12 13:47:10
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
大模型智能體如何突破規模化應用瓶頸，核心在于Agentic ROI

機器之心Pro 2025-05-30 19:30:03
0 跟貼 0

科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
從高考到實戰，豆包大模型交卷了

機器之心Pro 2025-06-12 15:23:04
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
地瓜機器人發布首款單SoC算控一體化機器人開發套件，已同超20家頭部客戶達成合作｜最前線

36氪 2025-06-12 18:41:19
0 跟貼 0
何愷明改進了謝賽寧的REPA：極大簡化但性能依舊強悍

機器之心Pro 2025-06-12 18:19:39
0 跟貼 0
“甲方快樂模型”成平面設計新SOTA！多條件一鍵生成 |復旦＆字節

量子位 2025-06-12 16:42:23
0 跟貼 0
首款主動對話AI陪伴機器人落地上海浦東

財聯社 2025-06-12 18:51:15
0 跟貼 0
上海人工智能研究院副總工程師沈灝：AI正重塑制造業，需要挖掘更多“真實場景”

每日經濟新聞 2025-06-12 18:03:53
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
394 跟貼 394
任正非稱美國夸大了華為的成績

白話頻道 2025-06-10 14:24:28
74 跟貼 74
任正非：美國是夸大了華為的成績華為還沒有這么厲害

財聯社 2025-06-10 12:15:00
0 跟貼 0
任正非霸氣喊話歐美國家華為很多的東西你們非買不可

智能相對論 2025-06-10 19:02:00
7 跟貼 7
臺媒討論華為新手機，蔡正元教授得意掏出他的三折疊，很可愛哈哈

常青Dx 2025-06-10 12:49:30
0 跟貼 0
任正非：被罵了會更清醒要允許別人罵華為

網易科技態度見聞 2025-06-10 11:19:31
0 跟貼 0
外國網友看中國華為智駕

大白話時尚 2025-06-11 13:38:41
0 跟貼 0
余承東紀念入職華為32年，感慨變老

界面新聞 2025-06-10 19:43:44
11 跟貼 11
最大的開源GraphRag：知識圖譜完全自主構建｜港科大＆華為

量子位 2025-06-12 16:29:29
1 跟貼 1
廣汽豐田接入小米“人車家”生態，鉑智 7 將率先開放硬件接口

IT之家 2025-06-12 12:39:11
2 跟貼 2
現場太穩啦！單依純在華為Pura 80系列發布會獻唱

熱點科技 2025-06-11 17:52:06
0 跟貼 0
華為發布Pura 80系列：搭載“史上最貴相機模組”，余承東稱對得起那四個字

每日經濟新聞 2025-06-11 23:07:10
0 跟貼 0
3大升級！華為Pura 80 Ultra現場上手體驗

熱點科技 2025-06-11 22:09:28
0 跟貼 0
除了自研芯片+華為HUD，小鵬G7還有什么亮點？｜智能車指南

吳佩頻道 2025-06-11 10:00:00
0 跟貼 0
兩分鐘發布會|首次突破華為 Pura 80系列一鏡兩目超大底雙長焦

科技美學 2025-06-12 04:17:00
0 跟貼 0
大展宏圖！一部關于華為MateBook Fold的百科全書

IT168 2025-06-09 17:34:25
0 跟貼 0
頂配2.69萬元，華為鴻蒙折疊電腦真機實探

每日經濟新聞 2025-05-19 21:14:35
198 跟貼 198
中美倫敦交鋒！華為通信設備攻頂！遼寧艦亮劍第二島鏈拒止美國！

人猿星球觀察 2025-06-11 15:31:08
0 跟貼 0
蔡正元-賣臺積電=臺殲賣臺

招財的喵桑 2025-06-11 12:56:38
0 跟貼 0
拒絕華為的男人稚暉君

編織教程啊 2025-06-12 13:10:36
0 跟貼 0
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
13 跟貼 13
蘋果宣布：所有系統統一用年份命名！

每日經濟新聞 2025-06-10 09:42:59
4 跟貼 4
華為Pura80 Ultra拍照到底有多強？

愛范兒 2025-06-11 19:09:25
55 跟貼 55
特朗普警告馬斯克，不許支持民主黨，不排除先拿特斯拉“動刀”

曹興教授TALK 2025-06-10 21:06:47
14 跟貼 14

量子位

追蹤人工智能動態

10647文章數 176167關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

手機

藝術

親子

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

華為創造AI算力新紀錄：萬卡集群訓練98%可用度，秒級恢復

高可用的核心：三套“智能保險系統”

計算卡再多，也不影響效率

具備秒級恢復的能力

一鏡雙目捅破天，華為最快明年Q2超越蘋果

國家鐵路局局長費東斌被查 一周前曾出席會議

國家鐵路局局長費東斌被查 一周前曾出席會議

沒有人會不喜歡TJ-麥康奈爾

鄧紫棋自爆因官司6年沒收到版稅， 重錄舊作反擊

車圈恒大論、60天賬期，意味著什么？

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

精致奢華 豐富的連貫空間

小米 618「人車家全生態」科技展亮相央視《央央好物嗨購派》

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

早餐這樣吃，讓孩子輕松追高10厘米

國家鐵路局局長費東斌被查一周前曾出席會議

國家鐵路局局長費東斌被查一周前曾出席會議

鄧紫棋自爆因官司6年沒收到版稅，重錄舊作反擊

精致奢華豐富的連貫空間