新浪科技訊 5月7日晚間消息,新浪科技獲悉,騰訊技術團隊針對DeepSeek開源的DeepEP通信框架進行深度優化,使其在多種網絡環境下均實現顯著性能提升。經測試,優化后的通信框架性能在RoCE網絡環境提升100%,IB網絡環境提升30%,為企業開展AI大模型訓練提供更高效的解決方案。該技術方案獲得了DeepSeek公開致謝,稱這是一次“huge speedup”代碼貢獻。
自今年2月DeepSeek開源包括DeepEP在內的五大代碼庫以來,該團隊便向業界展示了如何利用有限的硬件資源實現接近萬卡集群的性能。在這些技術中,DeepEP憑借突破性的方法提升了300%的通信效率,成功解決了MoE架構大模型對英偉達NCCL的依賴問題。但該技術在成本較低、適用面更廣的RoCE網絡環境中表現不佳,限制了其在更廣泛場景的應用。這一痛點引發了開源社區的持續討論。
據悉,騰訊星脈網絡團隊在DeepEP開源后便展開技術攻關,發現兩大關鍵瓶頸:一是對于雙端口網卡帶寬利用率不足,二是CPU控制面交互存在時延。
在騰訊的技術優化下,DeepEP不僅在RoCE網絡實現性能翻倍,反哺到IB(InfiniBand)網絡時更使原有通信效率再提升30%。
目前,該技術已全面開源,并成功應用于騰訊混元大模型等項目的訓練推理,在騰訊星脈與H20服務器構建的高性能環境中,這套方案展現出出色的通用性。(文猛)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.