1.萬卡集群可用度達到98%,集群秒級快恢(訓練+推理)
2.集群線性度達到95%+
3.千種故障模式庫,分鐘級故障診斷
想象一下,你正在用手機導航規劃長途路線,背后可能有幾十個AI模型同時在分析路況、預測擁堵;醫院用AI輔助診斷癌癥時,系統需要瞬間處理成百上千張CT影像。這些看似簡單的智能應用,背后都依賴著像“超級大腦”一樣的AI算力集群在24小時地不停運轉。
如果把AI算力集群比作一個大型工廠的生產線,高可用性就相當于讓這條生產線具備“永不罷工”的能力,給AI算力集群上了一份“保險”,讓這個支撐智能時代的“數字發動機”既能承受日常的“小磕小碰”,又能在遇到突發故障時保持穩定運行。只有確保算力資源隨時可用、持續輸出,才能讓AI真正成為驅動業務創新的可靠引擎,而不是隨時可能熄火的“半成品”。
高可用核心基礎面向超節點的故障感知、管理及容錯
AI大集群問題定位復雜,系統規模大、軟硬技術棧復雜、調用鏈長,先要跨域故障定界,然后各域內部故障定界定位,故障診斷面臨巨大挑戰;當前定位時間從數小時到數天,技能要求高,難以找到故障設備和根因。華為團隊為了讓集群運維工具能夠快速找到問題原因,有效提升現網問題的閉環效率,提出了全棧可觀測能力,構建了大規模集群的故障感知能力,主要由集群運行視圖、告警視圖、網絡鏈路監控、告警接入和配置、網絡流可觀測能力組成;同時還提出了包括全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷四大能力的故障診斷技術。
在當前行業水平下,萬卡級別的AI集群平均每天會出現一次甚至多次故障,這不僅嚴重影響了訓練效率,還導致了算力資源的大量浪費。為解決這一問題,華為團隊通過建立AI集群全系統可靠性分析模型,實現對可靠性指標的預計評估和分配分解。從可分析、可增強、可驗證、可診斷等方面,持續構建可靠性系統工程能力,突破關鍵可靠性技術,實現CloudMatrix超節點萬卡集群MTBF大于24小時的硬件高可靠能力。
超節點需要做大超節點規模,才能充分發揮超平面網絡的優勢,目前業界沒有使用光鏈路來構建超節點的成功案例,因此華為團隊提出了相應的超節點光鏈路軟件容錯方案。通過多層防護體系,借助超時代答、綠色通道等關鍵技術實現無超節點級故障,通過鏈路級重傳,光模塊動態升降Lane,HCCL算子重執行,借軌通信,雙層路由收斂,Step級重調度等特性,實現光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測技術等,實現光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構建Step級重調度能力,高頻的HBM多比特ECC故障恢復時間縮短至1min,對于因為故障造成的用戶算力損失下降5%。
高可用助力業務萬卡集群上千億模型的線性度和訓推快恢
線性度指標用于衡量訓練任務速度或吞吐的提高比例(即完成時間縮短比例)隨算力卡數增長比例的比值。華為團隊提出拓撲感知的協同編排技術TACO、網絡級網存算融合技術NSF、拓撲感知的層次化集合通信技術NB、無侵入通信跨層測量與診斷技術AICT四項關鍵技術,實現Pangu訓練線性度提升。總體方案如下圖所示:
實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度為95.05%;4K卡CloudMatrix集群相比256卡基線,線性度為96.48%。
大規模AI集群運行過程中頻繁因為各類硬件、軟件故障導致訓練任務中斷,業界通常使用訓練過程中周期保存的CKPT恢復訓練任務。華為基于軟硬件全棧的技術方案創新打造了如下分層分級的訓練任務故障快恢系統,不同層級的故障恢復能力如下圖所示。
通過數據集索引構建加速、模型編譯緩存加速、集合通信建鏈加速、存儲CKPT加速等關鍵技術優化,萬卡集群的訓練恢復時間可以做到10min以內,進程級重調度恢復能夠有效縮短訓練恢復時間到3min以內,進程級在線恢復進一步縮短訓練恢復時間到30s以內,同時可以降低訓練回滾時間到一個訓練迭代的時間,且與集群規模、模型規模基本無關,極大提升了AI集群可用度和大模型訓練效率。
隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,目前在大EP組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。
針對大EP推理架構的可靠性難題,華為團隊提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從芯片驅動層、框架層、平臺層相互協作,構筑端到端可靠性體系。在不同的故障場景下,采用不同的容錯恢復手段,可以最小化用戶損失。
其中實例內重啟恢復技術,可構筑帶內快速故障感知和重調度、參數權重和鏡像預熱技術等技術,將實例內重啟恢復時間壓縮到5min內。TOKEN級重試技術,基于DeepSeekV3 1P2D多機CloudMatrix 384場景下,針對HBM KV Cache故障,故障恢復時長(從故障發生到Token重新輸出時間),小于10s。相較于業界的10min恢復實例,TLR可將故障影響減少60倍。
總結與展望
針對AI算力集群的高可用性,華為團隊提出了六大創新方案,即故障感知診斷、故障管理、集群光鏈路容錯等高可用所需要的三大基礎能力,以及集群線性度、訓練快恢、推理快恢等高可用為業務帶來的三大支撐能力。這六大創新均帶來了非常可觀的收益,比如萬卡集群可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。
面向未來,華為團隊會持續在以場景多元化與復合化為代表的新應用驅動、異構融合與對資源池化為代表的新架構突破、極致可觀可測與智能自治免維代表的新工程范式三個方向進行探索,帶來更多的創新成果。
文/駱敏
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.