隨著人工智能的持續發展,異構計算與分布式系統逐漸普及,使得整個系統的復雜度顯著提升。精準掌控AI業務的各類性能指標、日志信息及應用鏈路的可觀測性,成為當前大模型訓練和推理中的關鍵環節,這對于保障系統的高效、穩定以及可調試性至關重要。元腦服務器操作系統KeyarchOS(簡稱KOS)全新推出了低成本、高靈活性、零侵入的AI系統分析工具,實現了對GPU與CPU資源的融合監控和統一分析,有效提升了系統的觀測能力與智能化水平,助力用戶實現數據分析提速與故障智能預測,進一步推動AI應用性能持續優化。
AI系統性能分析邁向集成化:GPU與CPU融合觀測手段亟需完善
目前,異構計算成為AI計算的主流架構,硬件多樣性(CPU+GPU+DPU)提升了系統觀測的復雜度,而GPU與CPU的融合觀測將異構系統轉化為“透明可計算的統一體”,打破了“設備孤島”,通過跨設備、全棧式的數據關聯與分析,實現異構計算的高效協同與透明化管理。
以AI推理場景為例,顯示GPU利用率低,但無法確定是CPU數據供給不足、PCIe帶寬受限,還是內核調度延遲所致。通過GPU與CPU融合觀測同步采集CPU線程調度、GPU Kernel執行時間、PCIe傳輸延遲,發現根因是CPU預處理線程被OS搶占,從而高效、精準定位性能瓶頸。
為了更加準確高效掌握系統運行狀態,GPU與CPU融合觀測成為大勢所趨,但是要實現融合觀測,還需要解決如下幾個挑戰:
■ 觀測數據割裂:CPU和GPU計算類型不兼容,硬件指標截然不同,CPU為基于多級流水線、亂序執行的通用計算,觀測指標如IPC、緩存命中率,GPU為SIMT(單指令多線程)架構,關注SM利用率、Warp調度效率,兩者缺乏統一的性能指標體系,導致觀測結果無法對齊。CPU和GPU時鐘源不一致,CPU依賴系統時鐘(如x86的TSC),可能受頻率縮放影響。GPU采用獨立時鐘域,與CPU存在微秒級漂移,導致跨設備事件排序錯誤,如誤判GPU Kernel等待CPU數據的時間。
■ 工具碎片化:系統分析工具存在廠商鎖定,缺乏統一標準,各GPU廠商提供獨立的性能分析工具(如Nsight System、vTune、Radeon GPU Profiler),指標口徑和采集方式不統一,CPU廠商的性能監控單元編程接口各異,運維人員需在多個工具間切換(如Perf、Nsight System、PyTorch Profiler等),操作便捷性差。
■ 占用系統開銷:現有工具存在資源占用率過高問題,監測過程本身可能影響大語言模型推理性能。如GPU的性能計數器讀取可能中斷計算流水線(CUPTI工具采集精細的性能指標時需要動態插樁或異步回調操作,有可能導致kernel短暫暫停,影響推理性能),而CPU采樣(如Perf)也可能引發上下文切換,兩者同時觀測時,干擾可能疊加。
KOS打造高效AI系統分析工具,實現GPU與CPU融合觀測與統一分析
針對以上問題,基于龍蜥一站式操作系統運維平臺SysOM,KOS構建了AI系統分析工具,實現跨硬件的融合觀測和統一分析,提供了更全面的系統性能視圖,幫助運維人員深入理解GPU和CPU之間的交互和資源分配情況,精準捕捉任務切換與資源利用率變化,從而提升性能調優效率。
GPU與CPU融合觀測火焰圖
該工具對AI作業運行過程中的算子、調度與內核函數等信息進行采集與綜合分析,實現了零侵入、高靈活且低開銷的AI作業觀測,為AI系統的性能監控與優化提供了強有力的支持。
首先,AI系統分析工具將GPU核函數與CPU進程調用棧進行匹配和融合,全面呈現了各項與系統性能相關指標,包括GPU、CPU、內存、網絡流量等,還涵蓋了模型訓練與推理相關監控,如吞吐量、并發度、時延分布、緩存命中率、重計算次數等,以及OOM、請求處理超時、CUDA API調用失敗、序列中斷等異常事件。
其次,在通用性方面,工具可以全面觀測業界主流CPU、GPU產品,具備高靈活、廣兼容的特點,支持多種數據采集模式及動態采樣技術,能夠適應不同場景需求。工具提供用戶友好型界面,通過直觀的布局與交互式引導,降低了運維人員的使用成本,其強大的數據可視化能力則將復雜運行狀態轉化為清晰圖表,助力運維人員快速定位問題。
第三,針對性能觀測帶來的開銷損耗問題,工具采用零侵入性設計,確保在不修改代碼、不干擾業務運行的前提下實現全面監控,極大降低了部署成本和資源開銷。
目前,KOS AI系統分析工具已廣泛服務于模型開發、訓練調優、推理上線與日常資源管理等多個核心場景。依托這一工具,運維團隊能夠對AI作業的運行狀況進行實時監測與深入分析,精準鎖定性能瓶頸并從容應對,極大提升硬件資源利用效率,降低設備故障概率,為AI大規模實際應用提供了堅實的可觀測性保障。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.