元腦服務器操作系統KOS通過創新架構設計,突破傳統算力觀測局限,實現GPU與CPU異構計算資源的全鏈路可視化追蹤。該系統采用智能調度算法構建算力資源池,可精準捕獲AI訓練場景中張量運算的微秒級波動,為開發者提供從芯片指令集到應用層的立體化性能診斷圖譜。
日前,元腦服務器操作系統KeyarchOS(簡稱KOS)推出了零侵入、高靈活、低開銷的AI系統分析工具,實現GPU與CPU的融合觀測、統一分析,增強了系統的可觀測性與智能化水平,為用戶提供更加高效的數據分析與故障預測工具,從而實現系統的整體優化,讓AI應用更加高效。
AI系統性能分析邁向集成化:GPU與CPU融合觀測手段亟需完善
目前,異構計算成為AI計算的主流架構,硬件多樣性(CPU+GPU+DPU)提升了系統觀測的復雜度,而GPU與CPU的融合觀測將異構系統轉化為“透明可計算的統一體”,打破了“設備孤島”,通過跨設備、全棧式的數據關聯與分析,實現異構計算的高效協同與透明化管理。
以AI推理場景為例,顯示GPU利用率低,但無法確定是CPU數據供給不足、PCIe帶寬受限,還是內核調度延遲所致。通過GPU與CPU融合觀測同步采集CPU線程調度、GPU Kernel執行時間、PCIe傳輸延遲,發現根因是CPU預處理線程被OS搶占,從而高效、精準定位性能瓶頸。
為了更加準確高效掌握系統運行狀態,GPU與CPU融合觀測成為大勢所趨,但是要實現融合觀測,還需要解決如下幾個挑戰:
■ 觀測數據割裂:CPU和GPU計算類型不兼容,硬件指標截然不同,CPU為基于多級流水線、亂序執行的通用計算,觀測指標如IPC、緩存命中率,GPU為SIMT(單指令多線程)架構,關注SM利用率、Warp調度效率,兩者缺乏統一的性能指標體系,導致觀測結果無法對齊。CPU和GPU時鐘源不一致,CPU依賴系統時鐘(如x86的TSC),可能受頻率縮放影響。GPU采用獨立時鐘域,與CPU存在微秒級漂移,導致跨設備事件排序錯誤,如誤判GPU Kernel等待CPU數據的時間。
■ 工具碎片化:系統分析工具存在廠商鎖定,缺乏統一標準,各GPU廠商提供獨立的性能分析工具(如Nsight System、vTune、Radeon GPU Profiler),指標口徑和采集方式不統一,CPU廠商的性能監控單元編程接口各異,運維人員需在多個工具間切換(如Perf、Nsight System、PyTorch Profiler等),操作便捷性差。
■ 占用系統開銷:現有工具存在資源占用率過高問題,監測過程本身可能影響大語言模型推理性能。如GPU的性能計數器讀取可能中斷計算流水線(CUPTI工具采集精細的性能指標時需要動態插樁或異步回調操作,有可能導致kernel短暫暫停,影響推理性能),而CPU采樣(如Perf)也可能引發上下文切換,兩者同時觀測時,干擾可能疊加。
KOS打造高效AI系統分析工具,實現GPU與CPU融合觀測與統一分析
針對以上問題,基于龍蜥一站式操作系統運維平臺SysOM,KOS構建了AI系統分析工具,實現跨硬件的融合觀測和統一分析,提供了更全面的系統性能視圖,幫助運維人員深入理解GPU和CPU之間的交互和資源分配情況,精準捕捉任務切換與資源利用率變化,從而提升性能調優效率。
GPU與CPU融合觀測火焰圖
該工具對AI作業運行過程中的算子、調度與內核函數等信息進行采集與綜合分析,實現了零侵入、高靈活且低開銷的AI作業觀測,為AI系統的性能監控與優化提供了強有力的支持。
首先,AI系統分析工具將GPU核函數與CPU進程調用棧進行匹配和融合,全面呈現了各項與系統性能相關指標,包括GPU、CPU、內存、網絡流量等,還涵蓋了模型訓練與推理相關監控,如吞吐量、并發度、時延分布、緩存命中率、重計算次數等,以及OOM、請求處理超時、CUDA API調用失敗、序列中斷等異常事件。
其次,在通用性方面,工具可以全面觀測業界主流CPU、GPU產品,具備高靈活、廣兼容的特點,支持多種數據采集模式及動態采樣技術,能夠適應不同場景需求。工具提供用戶友好型界面,通過直觀的布局與交互式引導,降低了運維人員的使用成本,其強大的數據可視化能力則將復雜運行狀態轉化為清晰圖表,助力運維人員快速定位問題。
第三,針對性能觀測帶來的開銷損耗問題,工具采用零侵入性設計,確保在不修改代碼、不干擾業務運行的前提下實現全面監控,極大降低了部署成本和資源開銷。
作為AI基礎設施領域的重要突破,元腦服務器操作系統已成功支撐多個千卡級智算集群的穩定運行。其獨創的資源熵值評估模型,可動態優化顯存與內存的協同分配策略,使混合精度訓練任務效率提升達47%,為大規模AI模型部署提供可靠的底層觀測保障。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.