大數據文摘出品
當AI大模型越來越“吃”硬件,把內存、算力、帶寬逼到極限,追趕者們,或者說整個行業,除了干等硬件升級,還能怎么辦?
ChatGPT橫空出世,大模型競賽白熱化。英偉達的GPU成了硬通貨,算力就是一切。各大公司和研究機構瘋狂堆砌資源,試圖追趕甚至超越。
但到了2024、2025年,大家發現,硬件的升級速度,似乎有點跟不上模型的膨脹速度了。內存墻、功耗墻、帶寬墻,每一堵都讓人頭疼。
Deepseek,一家圍繞“現有硬件的極限優化”和“軟硬件協同設計”,對抗“暴力堆料”的領先者,最近發布了一篇關于DeepSeek-V3的論文。
論文由梁文鋒署名
論文標題翻譯成中文是《洞察DeepSeek-V3:規模化挑戰與AI架構硬件的思考》,主要展示了如何在內存、計算和互聯帶寬都受限的情況下,通過硬件感知的模型協同設計,實現高性價比的大規模訓練和推理。
那些信奉“完美硬件”或者試圖用“無限金錢”抹平一切技術挑戰的思路,可能在DeepSeek-V3這樣的實踐面前,顯得不那么“經濟適用”了。
DeepSeek-V3的“武功秘籍”主要有這么幾招:
多頭隱注意力 (MLA)——提升內存效率
大幅壓縮KV緩存,解決內存瓶頸。別人還在愁顯存不夠用的時候,DeepSeek-V3通過MLA技術,讓每個token的KV緩存低至70KB,比LLaMA-3.1 405B(516KB)和Qwen-2.5 72B(327KB)少得多。這相當于,在有限的“土地”上種出了更多的“糧食”。
專家混合 (MoE) 架構優化——優化計算與通信平衡
在擴大模型總參數量的同時,只激活一小部分專家參數進行計算。DeepSeek-V3有6710億參數,但每個token只激活370億。這既保證了模型的“大塊頭”,又控制了實際運算的“飯量”,實現了計算和通信的更優平衡。
FP8混合精度訓練——充分釋放硬件潛能
大膽采用更低精度的FP8進行訓練,進一步降低了計算和內存開銷。同時,通過細粒度的量化和高精度累加等技術,把精度損失控制在極小范圍。這要求硬件對低精度計算有更好的支持,論文也對此提出了明確的建議。
多平面網絡拓撲——最小化集群網絡開銷
針對大規模集群的網絡開銷問題,設計了多平面胖樹網絡,用兩層胖樹實現了傳統三層胖樹的擴展能力,同時降低了成本和延遲。
圖注:DeepSeek-V3 的基礎架構。在 DeepSeek-V2 的 MLA 和 DeepSeekMoE 基礎上,DeepSeek-V3 引入了多Token預測模塊(Multi-Token Prediction Module)以及 FP8 混合精度訓練
DeepSeek-V3的這些創新,很多都是在現有硬件的“條條框框”里“憋”出來的。比如,H800的NVLink帶寬相較H100有所縮減,他們就強化了Pipeline并行和Expert并行,并針對性地設計了“節點限制路由”策略,優先利用節點內的高帶寬。 這就像一位經驗豐富的大廚,手頭只有普通的食材,卻能烹飪出令人驚艷的菜肴。
圖注:八平面兩層胖樹擴展網絡結構。每個 GPU 與 IB 網卡(NIC)配對后,歸屬于一個網絡平面。跨平面流量必須通過另一張網卡,并借助 PCIe 或 NVLink 在節點內部進行轉發。
訓練DeepSeek-V3的成本雖然沒有具體公布,但其明確強調了“高性價比”。 論文中提到,MoE模型的計算成本遠低于同等激活參數量的密集模型,DeepSeek-V3每token的訓練計算成本約為250 GFLOPS,而參數量小得多的Qwen-72B(密集模型)則需要394 GFLOPS。
“改變AI硬件的設計思路”
作為基礎設施,大模型的底層硬件架構很大程度上決定了其效率和成本。DeepSeek-V3的實踐,不僅是模型設計的勝利,更是對未來AI硬件設計方向的深刻反思和具體建議。
論文花了大量篇幅,從DeepSeek-V3開發中遇到的硬件瓶頸出發,向硬件廠商提出了改進建議:
低精度計算單元要更“精準”:比如FP8累加精度要夠,要原生支持細粒度量化。
內外互聯要“融合”:別讓CPU和GPU之間、節點內外之間的數據搬運那么費勁,要統一管理,減少軟件復雜度和資源浪費。
網絡要“智能”且“低延遲”:無論是IB還是RoCE,都要優化路由、擁塞控制,并且最好能原生支持一些通信壓縮和網絡內計算。
系統魯棒性要加強:別動不動就因為硬件小毛病導致訓練中斷。
這幾乎是在說:“硬件大佬們,請看看我們應用端的需求吧!我們需要的是能更好配合我們的硬件,而不僅僅是更高頻率、更大顯存的‘傻大個’。”
就像當年Android通過開源團結了眾多手機廠商對抗iOS的封閉生態一樣,DeepSeek-V3所代表的這種通過極致的軟硬件協同設計來對抗單純的硬件軍備競賽的思路,也可能為AI領域帶來新的競爭格局。 它不是直接提供一個“開源平替”,而是提供了一種“更聰明的追趕方式”。
在這種新的競爭態勢下,即使是硬件領先者,也需要思考如何讓自己的產品更好地被“用盡潛能”。 論文中對未來硬件的展望,如內存語義通信、網絡內計算、DRAM堆疊加速器等,都指向了一個趨勢:未來的AI系統,一定是軟硬件高度協同、深度優化的產物。
論文地址:https://arxiv.org/pdf/2505.09343
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.