99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

華為創造AI算力新紀錄:萬卡集群訓練98%可用度,秒級恢復

0
分享至

金磊 發自 凹非寺
量子位 | 公眾號 QbitAI

大模型的落地能力,核心在于性能的穩定輸出,而性能穩定的底層支撐,是強大的算力集群。其中,構建萬卡級算力集群,已成為全球公認的頂尖技術挑戰。

但是,在華為,昇騰萬卡算力集群,已經可以做到近乎“永不罷工”了:

  • 訓練可用度達98%:這就好比你開著一輛車,全年365天里,有358天無論刮風下雨都能一腳油門就出發,從不掉鏈子,有問題可以隨時檢修,幾乎不會耽誤你的任何行程。
  • 線性度超95%:比如用1000臺算力卡干活比用100臺快9.5倍以上,疊加更多算力,訓練速度近似等比提升,不浪費資源。
  • 秒級恢復、分鐘級診斷:不論訓練還是推理,故障后幾秒鐘就可恢復;幾分鐘內定位到具體是哪臺機器、哪個部件出問題。



或許有小伙伴要問了:AI算力需要如此24小時不間斷的運作嗎?

答案是肯定的,需要,且有必要。

因為小到我們用手機導個航,背后都會有幾十個AI模型在發力來分析路況、預測擁堵;再如醫院用AI輔助診斷癌癥,系統得在瞬間處理掉成百上千的CT照片。

這些看似簡單的智能應用,其實都離不開如 “超級大腦” 般的AI算力集群,需要它們全天候不停歇地運轉著。

而要保證有這樣的能力,高訓練可用度、高線性度、快速消除故障,就相當于給AI發動機上了一份強有力的保險。

更嚴格來說,AI推理的可用度甚至還需要達到99.95%的程度。

那么華為又是如何做到這點的?

關于這一切背后的秘密,華為在今天首次把技術給公開了出來。

高可用的核心:三套“智能保險系統”

AI大集群出問題時,定位故障特別麻煩;畢竟系統規模龐大,軟件和硬件組成的技術棧錯綜復雜,而且調用鏈條還很長。

要解決問題,首先得確定故障出在哪個大的領域,接著再在這個領域內部一步步排查,確定具體的故障位置。在整個故障診斷過程中,面臨的挑戰非常大。

以往技術人員進行故障定位時,短則需數小時,長則可能耗時數天。這一過程不僅對技術人員的專業技能要求頗高,且往往難以快速鎖定故障設備及根本原因。

為此,華為團隊針對AI大集群面臨的復雜挑戰,構建了三大基礎能力。

首先是全棧可觀測能力

它像是給集群裝了一套“火眼金睛”監控系統(故障感知),主要包含這幾部分:

  • 集群運行視圖:實時查看集群整體運行狀態,哪里 “卡殼” 一目了然;
  • 告警視圖:哪里出問題了,系統會主動 “打報告”,快速發出警報;
  • 網絡鏈路監控:盯著網絡連接的 “血管”,確保數據傳輸順暢;
  • 告警接入和配置:統一管理各種警報信息,還能根據需求靈活設置提醒規則;
  • 網絡流可觀測能力:追蹤數據在網絡中的 “流動軌跡”,哪里堵了馬上能發現。



同時,華為還拿出了一套“故障診斷組合拳”,包含四大核心能力:

  1. 全棧故障模式庫:就像一本 “故障字典”,收錄了各種可能的問題模式,方便快速對照排查;
  2. 跨域故障診斷:不管故障藏在哪個 “領域”(軟件、硬件、網絡等),都能跨區域 “聯合破案”;
  3. 計算節點故障診斷:精準定位計算單元(比如服務器)的具體問題,揪出 “罷工” 的節點;
  4. 網絡故障診斷:專門對付網絡里的 “疑難雜癥”,比如斷網、延遲高、鏈路異常等。

這套組合拳讓集群故障診斷更高效,就像給工程師配了 “智能偵探工具”,大大縮短了找問題的時間。

最后,是一套“鋼鐵韌帶”自愈系統(容錯設計)。

想要把超平面網絡的厲害之處完全發揮出來,超節點的規模就得足夠大。不過到現在,還沒有哪個團隊能用光鏈路搭建超節點并成功的。

于是,華為團隊就琢磨出一套超節點光鏈路軟件容錯的好辦法。

這套辦法就像給超節點穿上了好幾層 “防護鎧甲”,用上 “超時代答”“綠色通道” 這些關鍵技術后,超節點基本不會出現大故障。

同時,又通過鏈路級重傳、光模塊動態調整Lane、重新執行HCCL算子、借軌通信、雙層路由快速恢復、Step級重新調度等技術,讓超節點對光模塊突然中斷這類故障的承受能力變得超強,能容忍超過99%的光模塊閃斷情況。

哪怕超節點里的光模塊數量一下子增加了10倍還多,依靠軟件提升可靠性的手段,再配合光鏈路壓力測試技術,光模塊閃斷的概率能降低到和傳統電鏈路差不多的水平,穩穩保障超平面網絡不出問題。

而且,華為團隊還打造出Step級重調度能力,以前遇到頻繁的 HBM 多比特 ECC 故障,修復可能要花很長時間,現在1分鐘內就能搞定,用戶因為故障損失的算力也減少了5%,實實在在地省下了不少 “計算力”。

計算卡再多,也不影響效率

線性度指標,簡單來說就是看算力卡數量增加后,訓練任務的速度或效率能提高多少(比如完成時間縮短的比例)。

舉個例子:如果算力卡增加2倍,訓練速度也能接近2倍,說明線性度高;如果速度只提高1.2倍,就說明線性度差,資源沒被充分利用。

為了讓訓練效率隨著算力卡增多而 “更成正比地提升”,華為團隊研發了四項關鍵技術:

  1. TACO(拓撲感知的協同編排技術):就像給算力卡 “排兵布陣”,根據硬件連接結構(比如網絡拓撲)智能分配任務,避免 “通信堵車”。
  2. NSF(網絡級網存算融合技術):把網絡傳輸、數據存儲和計算能力 “打包優化”,讓數據在算力卡之間流動更順暢,減少等待時間。
  3. NB(拓撲感知的層次化集合通信技術):針對大規模集群設計 “分層通信策略”,比如讓同一區域的算力卡先快速協作,再跨區域同步,提升整體通信效率。
  4. AICT(無侵入通信跨層測量與診斷技術):不干擾正常訓練的前提下,實時 “監控” 通信鏈路,快速發現哪里 “卡頓” 并修復,確保數據傳輸穩定。

通過這四項技術,華為讓Pangu大模型的訓練線性度(即效率隨算力卡增加的提升比例)明顯提高。

整體方案的思路大概如下圖所示:



實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%

訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%

具備秒級恢復的能力

在大規模AI集群運行時,經常會因為各種硬件或軟件故障,導致訓練任務突然中斷。

目前行業里常用的辦法是,在訓練過程中定期保存 “進度存檔”(CKPT),等故障修復后從存檔點繼續訓練。

華為則憑借軟硬件全方面的技術創新,打造了一套“分層分級”的訓練任務故障快速恢復系統。

簡單來說,就是針對不同類型、不同程度的故障,制定了對應的 “快速重啟方案”,讓訓練任務能更快 “續上”。

不同層級的故障恢復能力可以參考下面這張圖:



除此之外,華為采用了一系列提速 “黑科技”:比如優化數據集查找速度、緩存模型編譯結果、加快通信鏈路建立、提升訓練進度保存效率。

這些技術效果顯著:如果是萬卡規模的超大型集群,從故障中恢復訓練,10分鐘內就能搞定;要是用 “進程級重調度恢復” 方法,3分鐘內就能接著訓練;要是用更厲害的 “進程級在線恢復”,30秒就能重新開始訓練。

而且,不管集群規模有多大,模型有多復雜,恢復時間基本不受影響,還能把因為故障導致的訓練進度倒退時間,壓縮到一次訓練循環的時長。

這么一來,AI集群能用的時間大大增加,大模型訓練的效率也快了很多。

在訓練階段后的推理,也有諸多問題亟待解決。

當千億級MoE模型不斷升級,模型部署的網絡結構也跟著變了。以前單機8卡就足夠跑一個推理實例,如今,大EP模型架構下,需要數十乃至上百張卡才能支撐推理運行。

但新架構帶來個麻煩:用的設備越多,出故障的可能性就越大,而且一旦有問題,影響的范圍會特別廣。

只要有一個硬件出故障,整個Decode實例(可以理解成模型運行的一個 “小團隊”)就沒法工作了,直接導致AI推理業務出問題,嚴重的話整個業務都會停擺。

為了解決大EP推理架構容易出故障的難題,華為團隊想出了一個分三步的 “保險計劃”:

  • 第一步是實例間切換,就像給業務準備了 “備用團隊”,一個實例不行了,馬上換另一個頂上;
  • 第二步是實例內重啟恢復,發現實例里有問題,快速重啟內部程序,讓它重新正常工作;
  • 第三步是實例內無損恢復,即使出故障也不丟失數據,在不影響業務的情況下修復問題。

這三步方案需要芯片驅動、框架軟件、平臺系統各個層面緊密配合,組成一套完整的 “防護網”。遇到不同類型的故障,就用最合適的恢復方法,盡可能減少對用戶的影響,讓AI推理業務穩穩運行。



在實例內重啟恢復技術中,通過構建帶內快速故障感知和重調度機制,搭配參數權重預熱和鏡像預熱技術,能把實例內部的重啟恢復時間壓縮到5分鐘以內。

還有一項很厲害的TOKEN級重試技術,當遇到HBM KV Cache故障時,從故障發生到重新輸出Token的整個恢復過程不到10秒。

對比業界通常需要10分鐘才能恢復實例的情況,這項技術能將故障帶來的影響降低60倍,幾乎讓用戶感覺不到故障發生,極大提升了系統的穩定性和用戶體驗。

總結來看,針對AI算力集群的高可用性,華為團隊創新性提出了“3+3”雙維度技術體系,即故障感知診斷、故障管理、集群光鏈路容錯等三大基礎能力,以及集群線性度、訓練快恢、推理快恢等三大業務支撐能力。

這六大創新均帶來了非常可觀的收益,比如萬卡集群訓練可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

技術報告地址:

https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/HighAvailability/ascend-cluster-infra-ha.md

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南夫妻瑞典超市打工:一天干6.5小時,月入3.6萬,9年國外買房

河南夫妻瑞典超市打工:一天干6.5小時,月入3.6萬,9年國外買房

清游說娛
2025-06-11 09:32:08
中東局勢要變了,俄高官:只要打以色列,俄羅斯敞開供應先進導彈

中東局勢要變了,俄高官:只要打以色列,俄羅斯敞開供應先進導彈

揚子的故事屋
2025-06-12 16:09:54
湖北兩處火車站,正式更名!

湖北兩處火車站,正式更名!

極目新聞
2025-06-12 13:28:35
寶雞兩輛快遞無人車鬧市互不相讓,網友稱像“吵架”,公司:監測到異常會有技術或人為干預處置

寶雞兩輛快遞無人車鬧市互不相讓,網友稱像“吵架”,公司:監測到異常會有技術或人為干預處置

極目新聞
2025-06-12 16:19:56
作為黃金配角的狄龍  曾被灰熊掃地出門 為何能在火箭取得成功

作為黃金配角的狄龍 曾被灰熊掃地出門 為何能在火箭取得成功

大話火箭隊
2025-06-12 18:14:25
烏克蘭拒收陣亡士兵遺體,不要只聽俄羅斯的一面之詞:事情有內幕

烏克蘭拒收陣亡士兵遺體,不要只聽俄羅斯的一面之詞:事情有內幕

鷹眼Defence
2025-06-08 16:59:30
印度航空一架787-8飛機起飛時墜毀!這是波音787第1次墜毀事故!

印度航空一架787-8飛機起飛時墜毀!這是波音787第1次墜毀事故!

悠閑歷史
2025-06-12 17:39:46
奔馳終于“妥協了”!暴跌至27萬,配2.0T+四驅,30天賣出10537輛

奔馳終于“妥協了”!暴跌至27萬,配2.0T+四驅,30天賣出10537輛

泠泠說史
2025-06-12 11:14:01
特朗普下令大撤退,伊朗做好開戰準備,中俄已經攔不住一場惡戰?

特朗普下令大撤退,伊朗做好開戰準備,中俄已經攔不住一場惡戰?

奇思妙想生活家
2025-06-12 17:34:39
中國正在瘋狂加碼理工科,但普通人要警惕下一個“土木工程”

中國正在瘋狂加碼理工科,但普通人要警惕下一個“土木工程”

智谷趨勢
2025-06-11 17:19:53
原中央委員、省委書記涉嫌受賄,數額特別巨大!由上海檢察機關提起公訴

原中央委員、省委書記涉嫌受賄,數額特別巨大!由上海檢察機關提起公訴

上觀新聞
2025-06-11 11:03:03
解說員孔祥宇被要求離婚!女方曬出腿照!聲稱遭其家暴!

解說員孔祥宇被要求離婚!女方曬出腿照!聲稱遭其家暴!

直播吧
2025-06-12 09:34:51
烏克蘭將3架“廢鐵”賣給我國,凈賺4700萬!不料我國掙得更多

烏克蘭將3架“廢鐵”賣給我國,凈賺4700萬!不料我國掙得更多

谷盟
2025-06-11 17:37:38
兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

兒子剛走出高考考場,媽媽竟然對兒子大喊:我兩個老死不要往來了

南南說娛
2025-06-11 09:36:38
2025年廣東的養老金將調整,年滿72歲每月領4900元,預估漲多少?

2025年廣東的養老金將調整,年滿72歲每月領4900元,預估漲多少?

碎月導師
2025-06-12 09:00:03
局面已經變了,外媒已經有所察覺!

局面已經變了,外媒已經有所察覺!

靜思有我
2025-06-10 15:01:01
看了管虎鏡頭下袒胸露臂的朱一龍和倪妮,才明白啥叫“為戲獻身”

看了管虎鏡頭下袒胸露臂的朱一龍和倪妮,才明白啥叫“為戲獻身”

一娛三分地
2025-06-12 11:29:55
“絲里絲”組合精致搭配,通勤約會兩不誤!

“絲里絲”組合精致搭配,通勤約會兩不誤!

白宸侃片
2025-06-06 10:21:02
董明珠“老人味空調”曝光,網友:比玫瑰款更讓人繃不住!

董明珠“老人味空調”曝光,網友:比玫瑰款更讓人繃不住!

MICU設計
2025-06-10 21:43:48
汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

汪東興晚年懊悔:我當年怎么就瞎了眼,推薦了這樣一個人給毛主席

方圓文史
2023-10-23 19:32:54
2025-06-12 19:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10647文章數 176167關注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

國家鐵路局局長費東斌被查 一周前曾出席會議

頭條要聞

國家鐵路局局長費東斌被查 一周前曾出席會議

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

車圈恒大論、60天賬期,意味著什么?

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

家居
手機
藝術
親子
公開課

家居要聞

精致奢華 豐富的連貫空間

手機要聞

小米 618「人車家全生態」科技展亮相央視《央央好物嗨購派》

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

早餐這樣吃,讓孩子輕松追高10厘米

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 凌云县| 茌平县| 楚雄市| 太保市| 耒阳市| 乐至县| 靖边县| 青海省| 黔东| 和平区| 潞城市| 泰兴市| 迭部县| 襄城县| 南和县| 海盐县| 凤凰县| 铜陵市| 潮安县| 谢通门县| 吴堡县| 襄城县| 化德县| 苏尼特左旗| 达尔| 蓬溪县| 博野县| 峨眉山市| 黄平县| 信阳市| 新野县| 南通市| 赤峰市| 林周县| 铜鼓县| 赞皇县| 卓尼县| 衡东县| 玉树县| 太仆寺旗| 松溪县|