驚爆:訓推性能最高提升35%!
春節過后,國鑫宣布:通過全棧垂直優化技術,國鑫全系列8卡GPU服務器的 NCCL(NVIDIA Collective Communications Library)性能最高提升35%,整機NCCL帶寬最高達26GB,AI推理效率與能效比實現跨越式突破。
并且,基于DeepSeek、llama2/3大模型實測驗證,國鑫服務器在千億參數級模型推理場景中效率最高能獲得35%的提升,TCO(總體擁有成本)降低近30%。這一成果不僅刷新了國產服務器在AI算力領域的性能標桿,也意味著國鑫為大模型廠商的大模型推理的‘最后一公里’提供了關鍵助力。
垂直優化突破極限,NCCL性能直擊大模型痛點
在AI大模型訓練與推理中,多卡GPU間的通信效率是制約算力釋放的核心瓶頸。國鑫研發團隊針對NCCL底層通信協議、硬件拓撲結構與數據流調度機制展開全棧重構,通過動態負載均衡算法與低延遲通信路徑優化。這一突破直接解決了大規模分布式訓練中常見的“通信墻”問題,使千億參數模型訓推性能最高提升35%,為DeepSeek等超大規模模型的快速迭代提供了硬件級加速引擎。
DeepSeek大模型實測:推理效率/能效雙飛躍
為驗證技術突破的實際價值,國鑫研發團隊在DeepSeek 大模型上進行了全場景壓力測試。結果顯示:推理吞吐量最高提升35%:在相同硬件配置下,國鑫服務器支持每秒處理的Tokens數量顯著增加,實時推理響應速度逼近毫秒級;
能效比優化35%:通過智能功耗調控算法與通信負載優化,單次推理任務能耗降低超1/3,助力企業實現綠色算力轉型;長上下文任務優勢凸顯:在DeepSeek 擅長的長文本生成、復雜邏輯推理場景中,通信延遲降低使模型輸出連貫性提升15%,用戶體驗顯著優化。
TCO降幅可達30%:性能提升直接轉化為企業降本增效——以單臺服務器支撐的日均推理請求量計算,TCO降幅可達30%,這對規模化AI應用落地具有戰略意義。”
<優化前>
<優化后>
行業共振:開啟AI普惠化新紀元
隨著AI大模型向萬億參數邁進,算力成本與效率已成為制約行業發展的核心矛盾。國鑫此次技術突破,直擊“算力平民化”痛點——以30%的TCO降幅,企業可用同等預算部署多30%的算力節點,或將大模型推理成本拉入“分/千Token”時代,客戶模型部署成本可降低數百萬/年,AI應用 ROI(投資回報率)提升2倍以上。未來,國鑫將持續推動算力普惠化進程,探索更大規模集群的效能極限,為AGI(通用人工智能)時代夯實算力地基。
(來源:國鑫)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.