【科技明說 | 科技熱點關注】
大家可能還記得5月7日那天的事情,DeepSeek公開致謝騰訊技術團隊。
我看了一下,騰訊對開源DeepSeek的DeepEP通信框架進行了深度優化,顯著提升了該框架在多種網絡環境下的性能表現,解決了此前在低成本RoCE網絡中的瓶頸問題,并推動其更廣泛的應用。
按道理,這樣的優化本來就是DeepSeek自己的事情,反而讓騰訊技術團隊搶了先,這是為什么呢?
可能,不少人和我一樣百思不得解中。
騰訊技術團隊還是真給力的,在RoCE網絡環境中,優化后的DeepEP通信框架性能提升了100%,而在InfiniBand(IB)網絡環境中,性能也提升了30%。這一優化大幅降低了AI大模型訓練的通信成本,為企業提供了更高效的解決方案。
從而,騰訊技術團隊為DeepSeek解決了原有技術痛點。
這里需要明確一下DeepEP框架,最初是在MoE架構大模型中通過突破性方法實現了300%的通信效率提升,減少對英偉達NCCL的依賴,但是這在成本更低的RoCE網絡中表現不佳,帶寬利用率低且存在CPU控制面延遲問題,限制了實際應用。
騰訊星脈網絡團隊針對兩大關鍵瓶頸展開攻關,也是令人刮目相看。
一是,針對雙端口網卡帶寬利用率不足,通過拓撲感知的多QP建鏈技術的智能分配數據流,實現最大化利用帶寬。
二是,針對CPU控制面交互延遲的挑戰,采用基于IBGDA技術的優化,繞過CPU中轉,降低延遲和能耗。
可見,兩個方面的技術攻關都基本很到位了。
就此,騰訊還提出了QP內時序鎖機制,解決GPU數據傳輸順序混亂問題,即使同時處理上千任務也能保證順序精準。
值得一提的是,近水樓臺先得月。優化后的代碼已全面開源,并成功應用于騰訊混元大模型的訓練與推理,驗證了其在高性能計算環境,如騰訊星脈網絡與H20服務器中的通用性。
在公開致謝中,DeepSeek稱騰訊這次優化是“huge speedup”,標志著開源社區協作的重要成果,也為AI大模型的分布式訓練提供了更優選擇。
再次為騰訊技術團隊點贊。
因此,通過解決DeepEP在RoCE網絡中的性能瓶頸并顯著提升效率,推動了該框架的廣泛應用,這是DeepSeek致謝的核心原因。
由此可見,開源大模型的技術創新迭代不僅要靠DeepSeek這樣的創新公司,也需要騰訊等技術生態伙伴的共同努力。
眾人拾柴火焰高,AI創新助力靠大家。期待開源大模型迎來更大的技術突破。
阿明書法:眾人拾柴火焰高
你怎么看?
歡迎文末評論補充!
【科技明說|全球存儲觀察 |全球云觀察|阿明觀察】專注科技公司分析,用數據說話,帶你看懂科技。本文和作者回復僅代表個人觀點,不構成任何投資建議。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.