金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
就在剛剛,華為首次亮相了一套“虛”的技術——
數字化風洞,一個在正式訓推復雜AI模型之前,可以在電腦中“彩排”的虛擬環境平臺。
這套有種《黑客帝國》意味般的技術(都是通過虛擬世界預演現實),是由華為馬爾科夫建模仿真團隊構建,可以小時級預演萬卡集群方案。
而之所以要在真槍實彈訓推復雜AI模型之前來這么一個步驟,是因為華為研究團隊發現,超過60%的算力浪費在硬件資源錯配與系統耦合上。
于是,就像汽車設計師用風洞測試新車性能一樣,華為通過這個平臺在電腦里模擬AI大模型訓練和推理的過程,便提前發現問題并優化配置。
一言蔽之,為的就是避免浪費時間和算力。
更具體來看,如果把運行大模型類比成開一輛高性能賽車,那么當下的痛點就主要集中在三點:
- 訓練階段:類似猛踩油門,但算力、內存、通信如果搭配不當,效率會暴跌;
- 推理階段:任務差異極大,既要短問答(像城市超跑),又要長文本生成(像越野耐力賽),硬件很難同時滿足;
- 萬卡集群:好比管理一個龐大車隊,要避免“堵車”、“故障”,確保長時間穩定運行。
而數字化風洞在這個過程中起到的作用,就像是一位讓AI算力“少踩坑、跑得更快更穩”的智能調度專家。
并且是對上述三大痛點逐一擊破的那種。
Sim2Train:小時級自動尋優
訓練大模型這件事可以說是越來越復雜,例如由于參數量越發龐大,就會對硬件提出更高的要求,傳統的調度策略沒法充分發揮它們的潛力。
因此,華為團隊提出了一個叫做Sim2Train的仿真平臺,用來模擬訓練過程,找到最優的硬件配置和訓練策略,讓昇騰設備跑得更快、更高效。
這個平臺主要的發力點在兩個方面。
首先是模擬訓練過程。
具體的方法叫做動靜態融合的大規模訓練集群建模仿真,可以通過模塊化拼裝AI任務流程,像搭積木一樣靈活構建復雜模型,快速分析計算、內存和通信的資源消耗。
再結合對昇騰硬件的深度適配能力,靜態規劃與動態調優雙管齊下,精準提升大規模訓練集群的運行效率。
其次是自動尋找最優方案。
它可以實現面向昇騰平臺的模型結構智能搜索與優化,做到模型性能與功能能力的最優均衡。
面對CloudMatrix昇騰超節點復雜拓撲結構,Sim2Train還可以做到芯片級、拓撲級與負載級的全棧架構建模與策略聯合優化。
并且基于實時數據采集與自動反饋校準機制,完成對硬件的細粒度抽象建模,全面支撐昇騰集群在多樣化負載場景下的高效部署策略自動求解與智能生成。
△Sim2Train訓練仿真系統框架
Sim2Infer:分鐘級動態加速
除了訓練階段,華為在仿真推理過程中也有妙招——Sim2Infer,讓端到端推理性能提升30%。
它是一個多層級的推理系統建模仿真,核心能力可以分為五點:
- 模擬負載特征:把不同模型和輸入數據的計算、內存訪問、通信需求用數學模型表示出來。比如,MoE 模型中,不同專家被激活的頻率、數據在不同設備間的傳輸量等。
- 分析硬件架構:從芯片微架構(如3D Cube張量加速引擎)到整個集群的網絡拓撲(如多臺服務器怎么互聯),全方位模擬硬件性能。
- 描述部署策略:支持配置各種推理策略,比如數據并行(多個設備處理不同數據)、張量并行(拆分計算任務)等,看哪種策略在昇騰上效率最高。
- 驅動仿真運行:用 “離散事件” 模擬推理過程,比如某個算子何時開始計算、數據何時傳輸,精確計算整個推理流程的耗時。
- 自動搜索優化:給定約束條件(如延遲不超過20ms),自動搜索最優的模型結構、部署策略和硬件配置。
除此之外,Sim2Infer還通過軟硬協同的建模仿真驅動一系列的推理系統創新優化。包括:
- 建模分析系統參數與模型設計因素的關聯關系,提出昇騰推理親和的MoE模型結構建議。
- 大EP場景MoE模型的最佳推理部署方案尋優。
- 通過多維代價模型建模,從訪存優化、負載均衡、計算通信掩蓋、算子融合等多維度實現基于昇騰平臺的軟硬件協同推理加速創新。
△Sim2Infer推理仿真系統框架
Sim2Availability:秒級故障定位
除了訓推之外,如何保證大模型在諸如萬卡集群上穩定、有效運行,也是一個關鍵問題——高可用。
為此,同樣是以仿真的形式,華為的解法便是Sim2Availability。
就像用電腦模擬天氣一樣,這個框架通過建立馬爾科夫模型,在計算機里 “虛擬” 出一個集群,模擬各種故障發生,檢測及后續影響和恢復的過程,從而分析如何提升可用度。
Sim2Availability在做模擬的關鍵環節包括:
- 故障 “生成器”:模擬各種硬件故障,比如NPU出錯、內存錯誤、光模塊閃斷等,還能模擬多種故障同時發生的情況。
- 故障 “探測器”:模擬如何檢測這些故障,比如通過算法判斷網絡是否變慢、硬件是否異常,檢測的準確性會影響恢復效率。
- 故障 “影響分析”:比如NPU故障會讓訓練中斷,需要重啟;光模塊故障會讓網絡傳輸變慢,導致訓練速度下降。
- 恢復 “策略庫”:針對不同故障設計不同恢復方法,比如 “Step級回滾”(只回退一步訓練數據)、“進程級恢復”(只重啟有問題的進程)、“全量恢復”(整個作業重啟)等。
這些環節可以高效精準構建集群系統對計算、存儲、網絡的“狀態監控”,通過馬爾科夫鏈刻畫系統的隨機行為,將系統離散化為有限狀態(如“健康”、“亞健康”、“故障”等),并基于事件驅動構建狀態轉移模型,從宏觀視角掌控全局硬件系統狀態。
△Sim2Availability高可用仿真系統框架
以上便是關于華為“數字化風洞”的大致內容,更多詳情可戳。
技術報告地址:
https://gitcode.com/ascend-tribe/ascend-cluster-infra/blob/main/SystemSim/ascend-cluster-infra-sim.md
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.