隨著人工智能的持續(xù)發(fā)展,異構(gòu)計算與分布式系統(tǒng)逐漸普及,使得整個系統(tǒng)的復(fù)雜度顯著提升。精準(zhǔn)掌控AI業(yè)務(wù)的各類性能指標(biāo)、日志信息及應(yīng)用鏈路的可觀測性,成為當(dāng)前大模型訓(xùn)練和推理中的關(guān)鍵環(huán)節(jié),這對于保障系統(tǒng)的高效、穩(wěn)定以及可調(diào)試性至關(guān)重要。元腦服務(wù)器操作系統(tǒng)KeyarchOS(簡稱KOS)全新推出了低成本、高靈活性、零侵入的AI系統(tǒng)分析工具,實現(xiàn)了對GPU與CPU資源的融合監(jiān)控和統(tǒng)一分析,有效提升了系統(tǒng)的觀測能力與智能化水平,助力用戶實現(xiàn)數(shù)據(jù)分析提速與故障智能預(yù)測,進(jìn)一步推動AI應(yīng)用性能持續(xù)優(yōu)化。
AI系統(tǒng)性能分析邁向集成化:GPU與CPU融合觀測手段亟需完善
目前,異構(gòu)計算成為AI計算的主流架構(gòu),硬件多樣性(CPU+GPU+DPU)提升了系統(tǒng)觀測的復(fù)雜度,而GPU與CPU的融合觀測將異構(gòu)系統(tǒng)轉(zhuǎn)化為“透明可計算的統(tǒng)一體”,打破了“設(shè)備孤島”,通過跨設(shè)備、全棧式的數(shù)據(jù)關(guān)聯(lián)與分析,實現(xiàn)異構(gòu)計算的高效協(xié)同與透明化管理。
以AI推理場景為例,顯示GPU利用率低,但無法確定是CPU數(shù)據(jù)供給不足、PCIe帶寬受限,還是內(nèi)核調(diào)度延遲所致。通過GPU與CPU融合觀測同步采集CPU線程調(diào)度、GPU Kernel執(zhí)行時間、PCIe傳輸延遲,發(fā)現(xiàn)根因是CPU預(yù)處理線程被OS搶占,從而高效、精準(zhǔn)定位性能瓶頸。
為了更加準(zhǔn)確高效掌握系統(tǒng)運行狀態(tài),GPU與CPU融合觀測成為大勢所趨,但是要實現(xiàn)融合觀測,還需要解決如下幾個挑戰(zhàn):
■ 觀測數(shù)據(jù)割裂:CPU和GPU計算類型不兼容,硬件指標(biāo)截然不同,CPU為基于多級流水線、亂序執(zhí)行的通用計算,觀測指標(biāo)如IPC、緩存命中率,GPU為SIMT(單指令多線程)架構(gòu),關(guān)注SM利用率、Warp調(diào)度效率,兩者缺乏統(tǒng)一的性能指標(biāo)體系,導(dǎo)致觀測結(jié)果無法對齊。CPU和GPU時鐘源不一致,CPU依賴系統(tǒng)時鐘(如x86的TSC),可能受頻率縮放影響。GPU采用獨立時鐘域,與CPU存在微秒級漂移,導(dǎo)致跨設(shè)備事件排序錯誤,如誤判GPU Kernel等待CPU數(shù)據(jù)的時間。
■ 工具碎片化:系統(tǒng)分析工具存在廠商鎖定,缺乏統(tǒng)一標(biāo)準(zhǔn),各GPU廠商提供獨立的性能分析工具(如Nsight System、vTune、Radeon GPU Profiler),指標(biāo)口徑和采集方式不統(tǒng)一,CPU廠商的性能監(jiān)控單元編程接口各異,運維人員需在多個工具間切換(如Perf、Nsight System、PyTorch Profiler等),操作便捷性差。
■ 占用系統(tǒng)開銷:現(xiàn)有工具存在資源占用率過高問題,監(jiān)測過程本身可能影響大語言模型推理性能。如GPU的性能計數(shù)器讀取可能中斷計算流水線(CUPTI工具采集精細(xì)的性能指標(biāo)時需要動態(tài)插樁或異步回調(diào)操作,有可能導(dǎo)致kernel短暫暫停,影響推理性能),而CPU采樣(如Perf)也可能引發(fā)上下文切換,兩者同時觀測時,干擾可能疊加。
KOS打造高效AI系統(tǒng)分析工具,實現(xiàn)GPU與CPU融合觀測與統(tǒng)一分析
針對以上問題,基于龍蜥一站式操作系統(tǒng)運維平臺SysOM,KOS構(gòu)建了AI系統(tǒng)分析工具,實現(xiàn)跨硬件的融合觀測和統(tǒng)一分析,提供了更全面的系統(tǒng)性能視圖,幫助運維人員深入理解GPU和CPU之間的交互和資源分配情況,精準(zhǔn)捕捉任務(wù)切換與資源利用率變化,從而提升性能調(diào)優(yōu)效率。
GPU與CPU融合觀測火焰圖
該工具對AI作業(yè)運行過程中的算子、調(diào)度與內(nèi)核函數(shù)等信息進(jìn)行采集與綜合分析,實現(xiàn)了零侵入、高靈活且低開銷的AI作業(yè)觀測,為AI系統(tǒng)的性能監(jiān)控與優(yōu)化提供了強(qiáng)有力的支持。
首先,AI系統(tǒng)分析工具將GPU核函數(shù)與CPU進(jìn)程調(diào)用棧進(jìn)行匹配和融合,全面呈現(xiàn)了各項與系統(tǒng)性能相關(guān)指標(biāo),包括GPU、CPU、內(nèi)存、網(wǎng)絡(luò)流量等,還涵蓋了模型訓(xùn)練與推理相關(guān)監(jiān)控,如吞吐量、并發(fā)度、時延分布、緩存命中率、重計算次數(shù)等,以及OOM、請求處理超時、CUDA API調(diào)用失敗、序列中斷等異常事件。
其次,在通用性方面,工具可以全面觀測業(yè)界主流CPU、GPU產(chǎn)品,具備高靈活、廣兼容的特點,支持多種數(shù)據(jù)采集模式及動態(tài)采樣技術(shù),能夠適應(yīng)不同場景需求。工具提供用戶友好型界面,通過直觀的布局與交互式引導(dǎo),降低了運維人員的使用成本,其強(qiáng)大的數(shù)據(jù)可視化能力則將復(fù)雜運行狀態(tài)轉(zhuǎn)化為清晰圖表,助力運維人員快速定位問題。
第三,針對性能觀測帶來的開銷損耗問題,工具采用零侵入性設(shè)計,確保在不修改代碼、不干擾業(yè)務(wù)運行的前提下實現(xiàn)全面監(jiān)控,極大降低了部署成本和資源開銷。
目前,KOS AI系統(tǒng)分析工具已廣泛服務(wù)于模型開發(fā)、訓(xùn)練調(diào)優(yōu)、推理上線與日常資源管理等多個核心場景。依托這一工具,運維團(tuán)隊能夠?qū)I作業(yè)的運行狀況進(jìn)行實時監(jiān)測與深入分析,精準(zhǔn)鎖定性能瓶頸并從容應(yīng)對,極大提升硬件資源利用效率,降低設(shè)備故障概率,為AI大規(guī)模實際應(yīng)用提供了堅實的可觀測性保障。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.