機(jī)器之心發(fā)布
機(jī)器之心編輯部
你是否注意到,現(xiàn)在的 AI 越來越 "聰明" 了?能寫小說、做翻譯、甚至幫醫(yī)生看 CT 片,這些能力背后離不開一個(gè)默默工作的 "超級(jí)大腦工廠"——AI 算力集群。
隨著人工智能從簡(jiǎn)單規(guī)則判斷進(jìn)化到能處理萬億參數(shù)的大模型,單臺(tái)計(jì)算機(jī)的算力就像小舢板面對(duì)汪洋大海,而算力集群則是把上萬臺(tái)甚至幾十萬臺(tái)計(jì)算機(jī)像搭積木一樣連接起來,形成一艘能承載巨量計(jì)算任務(wù)的 "算力航空母艦"。
當(dāng)我們把上萬臺(tái)計(jì)算機(jī)整合成一個(gè)有機(jī)整體時(shí),需要解決一系列世界級(jí)難題:如何讓它們像精密鐘表一樣協(xié)同工作?如何在部分設(shè)備故障時(shí)依然保持高效運(yùn)行?如何快速修復(fù)大規(guī)模訓(xùn)練中的中斷問題?
接下來我們將逐一揭秘這些支撐 AI 算力集群的關(guān)鍵特性,看看華為團(tuán)隊(duì)如何用工程智慧馴服這頭算力巨獸。
技術(shù)報(bào)告地址:https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/Overview/%E6%98%87%E8%85%BE%E9%9B%86%E7%BE%A4%E5%9F%BA%E7%A1%80%E8%AE%BE%E6%96%BD%E7%BB%BC%E8%BF%B0.pdf
超節(jié)點(diǎn)高可用
24 小時(shí)不停工的智能工廠
就像醫(yī)院的急診系統(tǒng)必須時(shí)刻在線,AI 訓(xùn)練和推理也不能輕易中斷。算力集群里每臺(tái)計(jì)算機(jī)都有 "備用替身",當(dāng)某臺(tái)機(jī)器出現(xiàn)故障(比如突然斷電或硬件損壞),系統(tǒng)會(huì)立刻啟動(dòng)備用機(jī)接管任務(wù),就像接力賽中接力棒無縫傳遞,確保自動(dòng)駕駛訓(xùn)練、語音識(shí)別等任務(wù)持續(xù)運(yùn)行,不會(huì)因?yàn)閭€(gè)別設(shè)備故障而全盤停止。
針對(duì) CloudMatrix 384 超節(jié)點(diǎn),華為團(tuán)隊(duì)提出面向整個(gè)超節(jié)點(diǎn)的故障容錯(cuò)方案,分為 “系統(tǒng)層容錯(cuò)”、“業(yè)務(wù)層容錯(cuò)”,以及后續(xù) “運(yùn)維層容錯(cuò)”,核心思想就是 將故障問題轉(zhuǎn)為亞健康問題,通過運(yùn)維手段優(yōu)雅消除:
(1) 系統(tǒng)層容錯(cuò):通過超時(shí)代答欺騙 OS + 網(wǎng)絡(luò)路由切換,防系統(tǒng)藍(lán)屏,同時(shí)避免整個(gè)超節(jié)點(diǎn)級(jí)故障。
(2) 業(yè)務(wù)層容錯(cuò):租戶無感知下,通過重試容忍網(wǎng)絡(luò)閃斷,將系統(tǒng)故障轉(zhuǎn)為亞健康,
(3) 運(yùn)維層容錯(cuò):主要構(gòu)筑亞健康感知和優(yōu)雅恢復(fù)技術(shù),通過主動(dòng)方式將消減亞健康事件影響。
集群線性度:人多力量大的完美協(xié)作
理想情況下,100 臺(tái)計(jì)算機(jī)的算力應(yīng)該是 1 臺(tái)的 100 倍,1000 臺(tái)就是 1000 倍,這就是 "線性度"。算力集群通過精密的任務(wù)分配算法,讓每臺(tái)計(jì)算機(jī)都像 orchestra(交響樂團(tuán))的樂手一樣各司其職,避免出現(xiàn) "三臺(tái)和尚沒水喝" 的混亂。比如訓(xùn)練一個(gè)需要萬億次計(jì)算的模型時(shí),萬臺(tái)計(jì)算機(jī)能像整齊劃一地劃槳的龍舟隊(duì),讓算力隨規(guī)模增長(zhǎng)而幾乎同步提升。
華為團(tuán)隊(duì)提出拓?fù)涓兄膮f(xié)同編排技術(shù) TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù) NSF、拓?fù)涓兄膶哟位贤ㄐ偶夹g(shù) NB、無侵入通信跨層測(cè)量與診斷技術(shù) AICT 等四項(xiàng)關(guān)鍵技術(shù),實(shí)現(xiàn)盤古模型訓(xùn)練線性度提升。
實(shí)驗(yàn)及理論分析結(jié)果顯示,訓(xùn)練Pangu Ultra 135B 稠密模型時(shí),4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%。訓(xùn)練Pangu Ultra MoE 718B 稀疏模型時(shí),8K 卡 Atlas 800T A2 集群相比 512 卡基線,線性度 95.05%;4K 卡 CloudMatrix 384 集群相比 256 卡基線,線性度 96.48%。
萬卡集群訓(xùn)練快速恢復(fù)
帶 "存檔功能" 的訓(xùn)練師
當(dāng)用上萬個(gè)計(jì)算單元(俗稱 "萬卡")訓(xùn)練超大規(guī)模模型時(shí),偶爾有幾臺(tái)機(jī)器 "罷工" 是難免的。這時(shí)系統(tǒng)會(huì)像游戲存檔一樣,自動(dòng)記錄最近的訓(xùn)練進(jìn)度。一旦檢測(cè)到故障,能快速定位出問題的計(jì)算單元,跳過故障部分,從最新的存檔點(diǎn)繼續(xù)訓(xùn)練,避免從頭再來的巨大浪費(fèi)。比如訓(xùn)練一個(gè)需要 30 天的模型,即使中間有設(shè)備故障,也能在幾分鐘內(nèi)恢復(fù)進(jìn)度,就像視頻播放可以隨時(shí)續(xù)播。
為了使萬卡集群訓(xùn)練可以達(dá)到分鐘級(jí)快恢,華為團(tuán)隊(duì)提出了以下多個(gè)創(chuàng)新:
(1) 進(jìn)程級(jí)重調(diào)度恢復(fù):正常節(jié)點(diǎn)通過參數(shù)面網(wǎng)絡(luò)將臨終 CKPT 傳遞到備用節(jié)點(diǎn)上,完成參數(shù)狀態(tài)恢復(fù)后繼續(xù)訓(xùn)練,能夠有效縮短訓(xùn)練恢復(fù)時(shí)間到 3min 以內(nèi)。
(2) 進(jìn)程級(jí)在線恢復(fù):針對(duì)硬件 UCE 故障,通過業(yè)務(wù)面昇騰 CANN 軟件、框架軟件、MindCluster 軟件配合實(shí)現(xiàn)故障地址在線修復(fù),進(jìn)一步縮短訓(xùn)練恢復(fù)時(shí)間到 30s 以內(nèi)。
(3) 算子級(jí)在線恢復(fù):針對(duì) CloudMatrix 384 產(chǎn)品 HCCS 網(wǎng)絡(luò)、ROCE 參數(shù)面網(wǎng)絡(luò)提供 HCCL 算子重試能力,容忍更長(zhǎng)時(shí)間的網(wǎng)絡(luò)異常,實(shí)現(xiàn)網(wǎng)絡(luò)故障影響的通信算子秒級(jí)重執(zhí)行,訓(xùn)練任務(wù)不中斷。
超大規(guī)模 MoE 模型推理分鐘級(jí)恢復(fù)
各路英豪來幫忙
隨著千億 MOE 模型架構(gòu)演進(jìn),實(shí)例部署的組網(wǎng)架構(gòu)從傳統(tǒng)的一機(jī)八卡演進(jìn)為大 EP 組網(wǎng)架構(gòu),將多且小的專家部署在多個(gè)服務(wù)器節(jié)點(diǎn)上緩解顯存帶寬壓力,目前在大 EP 組網(wǎng)架構(gòu)下主要面臨部署規(guī)模擴(kuò)大導(dǎo)致的故障概率數(shù)量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會(huì)導(dǎo)致整個(gè) Decode 實(shí)例不可用,進(jìn)而導(dǎo)致推理業(yè)務(wù)受損,甚至中斷。
針對(duì)當(dāng)前超大規(guī)模 MoE 模型帶來的大 EP 推理架構(gòu)的可靠性難題,華為提出三級(jí)容錯(cuò)方案,實(shí)例間切換、實(shí)例內(nèi)重啟恢復(fù)、實(shí)例內(nèi)無損恢復(fù),從硬件驅(qū)動(dòng)層、框架層、平臺(tái)層相互協(xié)作,構(gòu)筑端到端可靠性體系。在不同的故障場(chǎng)景下,采用不同的容錯(cuò)恢復(fù)手段,可以最小化用戶損失。
(1) 實(shí)例內(nèi)快速重啟恢復(fù)技術(shù):根據(jù)實(shí)際環(huán)境測(cè)試驗(yàn)證,該技術(shù)將實(shí)例恢復(fù)時(shí)間從 20min 降低 5min。
(2) TOKEN 級(jí)重試:基于 DeepSeekV3 在 CloudMatrix 384 超節(jié)點(diǎn)場(chǎng)景下,驗(yàn)證 30~60s 實(shí)現(xiàn)實(shí)例恢復(fù)。
(3) 減卡彈性恢復(fù)技術(shù):作為當(dāng)前進(jìn)行工作,解決硬件故障下業(yè)務(wù)中斷問題,通過專家遷移,實(shí)現(xiàn)故障時(shí)推理進(jìn)程不退出,以減卡為容錯(cuò)手段,動(dòng)態(tài)調(diào)整推理實(shí)例規(guī)模,在用戶無感知情況下秒級(jí)恢復(fù)。
故障管理與感知診斷
24 小時(shí)在線的設(shè)備醫(yī)生
算力集群里有一套實(shí)時(shí)監(jiān)控系統(tǒng),就像給每臺(tái)計(jì)算機(jī)安裝了 "健康手環(huán)",持續(xù)監(jiān)測(cè)溫度、算力利用率、數(shù)據(jù)傳輸速度等指標(biāo)。一旦發(fā)現(xiàn)某臺(tái)設(shè)備運(yùn)行異常(比如散熱不良導(dǎo)致速度變慢),系統(tǒng)會(huì)立即發(fā)出警報(bào),并像醫(yī)生一樣分析故障原因 —— 是硬件老化?網(wǎng)絡(luò)擁堵?還是軟件 bug?快速定位問題并啟動(dòng)修復(fù)機(jī)制,防止小故障演變成大停機(jī)。
針對(duì)面向算力集群的硬件故障管理,華為團(tuán)隊(duì)提供了一套完整的解決方案:基于 CloudMatrix 384 超節(jié)點(diǎn)的設(shè)備物理形態(tài)和組網(wǎng)方案的昇騰 AI 硬件災(zāi)備高可靠架構(gòu)設(shè)計(jì)、涵蓋基礎(chǔ)檢錯(cuò)糾錯(cuò)能力、故障隔離能力、故障容錯(cuò)能力以及深度巡檢與故障預(yù)測(cè)能力的昇騰 RAS 統(tǒng)一故障管理容錯(cuò)框架、進(jìn)一步提升光鏈路的可靠性的網(wǎng)絡(luò)自診斷可靠性管理、以及綠色低碳、穩(wěn)定可靠和安全可信的云數(shù)據(jù)中心管理體系。
針對(duì)面向算力集群的故障感知能力,華為團(tuán)隊(duì)構(gòu)建了大規(guī)模集群在線故障感知(全棧可觀測(cè))和故障診斷(全棧故障模式庫(kù)、跨域故障診斷、計(jì)算節(jié)點(diǎn)故障診斷、網(wǎng)絡(luò)故障診斷)技術(shù):
(1) 全棧可觀測(cè)能力:構(gòu)建了大規(guī)模集群的故障感知能力,主要由集群運(yùn)行視圖、告警視圖、網(wǎng)絡(luò)鏈路監(jiān)控、告警接入和配置、網(wǎng)絡(luò)流可觀測(cè)能力組成
(2) 故障診斷能力:包括全棧故障模式庫(kù)、跨域故障診斷、計(jì)算節(jié)點(diǎn)故障診斷、網(wǎng)絡(luò)故障診斷;
建模仿真
算力底座的 “數(shù)字化風(fēng)洞”
在正式開展復(fù)雜 AI 模型的訓(xùn)推之前,算力集群可以先在虛擬環(huán)境的 “數(shù)字化風(fēng)洞” 中 "彩排"。比如研發(fā)一個(gè)新藥篩選模型時(shí),先通過模擬不同的算法參數(shù)、數(shù)據(jù)輸入和計(jì)算資源分配方案,預(yù)測(cè)模型在真實(shí)場(chǎng)景中的表現(xiàn),就像電影導(dǎo)演用動(dòng)畫預(yù)演復(fù)雜鏡頭。這種 "先模擬后實(shí)戰(zhàn)" 的方式,能提前發(fā)現(xiàn)計(jì)算系統(tǒng)的瓶頸點(diǎn)和邏輯漏洞,并提出相應(yīng)優(yōu)化手段,節(jié)省大量真實(shí)訓(xùn)推的時(shí)間和資源。
華為團(tuán)隊(duì)創(chuàng)新性提出系統(tǒng)化、可擴(kuò)展的馬爾科夫建模仿真平臺(tái),圍繞對(duì)訓(xùn)練、推理、高可用三大核心領(lǐng)域?qū)崿F(xiàn)多維度系統(tǒng)性建模分析與性能預(yù)測(cè)調(diào)優(yōu),實(shí)現(xiàn)集群資源高效配置與動(dòng)態(tài)優(yōu)化,達(dá)成算力極致利用與系統(tǒng)長(zhǎng)期穩(wěn)定可靠運(yùn)行。
(1) Sim2Train 訓(xùn)練建模仿真:馬爾科夫訓(xùn)練集群建模仿真平臺(tái),AdaptPack 編排優(yōu)化長(zhǎng)序列 PP 空泡,吞吐提升 4.5%-8.24%。通信與計(jì)算協(xié)同場(chǎng)景,引入 AdaptS/R 技術(shù),通信暴露時(shí)間降 89.84%,單步總時(shí)長(zhǎng)縮短 3.25%;MoE 通過 AdaptExpert 提升端到端性能 7.5%。
(2) Sim2Infer 推理建模仿真:面向昇騰復(fù)雜推理系統(tǒng)的馬爾科夫建模仿真平臺(tái),實(shí)現(xiàn)了從高層算子描述到底層硬件指令的自動(dòng)化映射與仿真,平均誤差低至 6.6%。
(3) Sim2Availability 高可用建模仿真:馬爾科夫高可用建模仿真框架,通過離散時(shí)間步長(zhǎng)仿真,建模單步時(shí)長(zhǎng)內(nèi)的故障性能劣化影響與恢復(fù)耗時(shí),模擬復(fù)雜系統(tǒng)訓(xùn)練任務(wù)中的故障場(chǎng)景及運(yùn)維響應(yīng),實(shí)現(xiàn)對(duì)訓(xùn)練過程性能表現(xiàn)與故障恢復(fù)狀態(tài)的全周期監(jiān)控仿真。
框架遷移
給模型跑車換更酷炫輪胎
自從 2020 年 3 月全面開源以來,華為推出的全場(chǎng)景 AI 框架昇思 MindSpore 一路高歌猛進(jìn),開發(fā)者生態(tài)迅速成長(zhǎng)。除了為基于昇騰 + 昇思的自主創(chuàng)新外,昇思 MindSpore 也提供了擁抱主流生態(tài)的兼容方案,適應(yīng)大模型時(shí)代的挑戰(zhàn)和需求。
(1) 訓(xùn)練階段,MindSpore 構(gòu)建了 MSAdapter 生態(tài)適配工具,覆蓋 90% 以上 PyTorch 接口,實(shí)現(xiàn)第三方框架的無縫遷移,并針對(duì)動(dòng)態(tài)圖執(zhí)行效率的問題,通過多級(jí)流水線技術(shù)與即時(shí)編譯(JIT)優(yōu)化顯著提升執(zhí)行效率。
(2) 推理階段,MindSpore 基于主流生態(tài)的 HuggingFace 權(quán)重配置,無需修改即可實(shí)現(xiàn)一鍵部署,通過 vllm-MindSpore 插件對(duì)接 vLLM 框架,支持大模型推理服務(wù)化能力。實(shí)現(xiàn)盤古 72B 模型快速部署,實(shí)現(xiàn)推理性能提升。
總結(jié)與展望
綜上所述,華為團(tuán)隊(duì)針對(duì)昇騰算力集群基礎(chǔ)設(shè)施,提出了針對(duì)超節(jié)點(diǎn)高可用、集群線性度、萬卡集群訓(xùn)練快速恢復(fù)、萬億 MoE 模型推理容錯(cuò)、集群故障感知及感知診斷、集群仿真建模、框架遷移等方面的全維度的創(chuàng)新方案。
隨著新型應(yīng)用快速變化,硬件系統(tǒng)持續(xù)創(chuàng)新,系統(tǒng)架構(gòu)不斷演進(jìn),工程能力走向智能化,未來算力基礎(chǔ)設(shè)施的演進(jìn)將走上算法 - 算力 - 工程協(xié)同進(jìn)化的道路,有可能形成形成 “應(yīng)用需求→硬件創(chuàng)新→工程反哺” 的閉環(huán),算法層驅(qū)動(dòng)算力專用化(如復(fù)合 AI 需異構(gòu)加速),算力層通過架構(gòu)革新(如光電混合)釋放性能潛力,工程層以智能化手段(如 AI 運(yùn)維)彌合復(fù)雜度鴻溝,最終實(shí)現(xiàn)高效、彈性、自愈的下一代算力基礎(chǔ)設(shè)施。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.