作者|子川
來源|AI先鋒官
居然還有?原以為為期5天的Deepseek開源周在昨天已經徹底結束。
想不到今天突然又來了一個彩蛋——
DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統背后的秘密。
DeepSeek-V3/R1 模型的優化目標很明確:提高吞吐量和降低延遲。
為了實現這兩個目標,Deepseek采用了跨節點專家并行(EP)技術,這項技術有兩個顯著優勢:
擴大批量大小:EP 能顯著擴大批量大小,從而提升 GPU 矩陣計算效率,增強吞吐量。
降低延遲:通過將專家分布在不同 GPU 上,每個 GPU 只處理一小部分專家,減少了內存訪問需求,進而降低延遲。
正好通過EP正好完美解決Deepseek團隊的需求。
但是!EP 也帶來了系統復雜性增加的問題。
主要體現在兩個方面:
一是引入了跨節點通信,為了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行。
二是涉及多個節點,需要數據并行(DP),并要在不同的 DP 實例之間進行負載均衡。
為了解決 EP 帶來的復雜性,主要通過三個黑科技提升性能:
大規??绻濣c專家并行(EP)
由于 DeepSeek-V3/R1 模型中專家數量眾多, (256個專家中只有8個被激活!),模型的高稀疏性要求整體批量大小必須足夠大,以確保每個專家都有足夠的批量大小,才能實現更高的吞吐量和更低的延遲。
因此,大規模跨節點專家并行 (EP) 是必不可少的。
在預填充(prefilling)和解碼(decoding)階段,系統采用了不同的并行程度:
預填充階段:每個部署單元跨越 4 個節點,有 32 個冗余路由專家,每個 GPU 處理 9 個路由專家和 1 個共享專家。
解碼階段:每個部署單元跨越 18 個節點,有 32 個冗余路由專家,每個 GPU 管理 2 個路由專家和 1 個共享專家。
計算與通信重疊
大規??绻濣c EP 會帶來顯著的通信開銷。
為了減輕這種開銷,系統采用了雙批次重疊策略,就是把一個大的請求 Batch 分成兩個 Micro-Batch,交替執行。
這樣,一個 Micro-Batch 的通信開銷就可以巧妙地隱藏在另一個 Micro-Batch 的計算過程中!
簡單來說就是一邊炒菜一邊接電話,兩件事不互相干擾。
而在解碼階段,由于不同階段的執行時間不平衡,系統將注意力層細分為兩個步驟,并使用 5 階段流水線,實現無縫的通信和計算重疊。
這就像是你做飯時,先切菜再炒菜,每一步都有條不紊地進行,不會浪費時間。
盡可能實現最佳負載均衡
大規模并行 (DP + EP) 帶來的另一個挑戰就是 負載均衡,如果單個 GPU 的計算或通信負載過重,就會成為性能瓶頸,拖慢整個系統,同時讓其他 GPU 空閑,造成整體利用率下降。
為了最大化資源利用率,DeepSeek 團隊在負載均衡方面也做了很多優化,主要包括以下三個方面:
預填充負載均衡器:由于不同 DP 實例之間的請求數量和序列長度不同,會導致核心注意力計算和分發發送負載不平衡。
優化目標:各GPU的KVCache占用量盡量相同(core-attention計算負載均衡)、請求數量盡量相同(dispatch發送量負載均衡)
解碼負載均衡器:不同 DP 實例之間的請求數量和序列長度不均,會導致核心注意力計算(與 KVCache 使用相關)和分發發送負載存在差異。
優化目標:平衡 GPU 之間的 KVCache 使用,均衡每個 GPU 的請求數量。
專家并行負載均衡器:對于給定的 MoE 模型,存在一些天然的高負載專家(expert),導致不同 GPU 之間的專家計算工作負載不平衡。
優化目標:平衡每個 GPU 上的專家計算,即盡量減少所有 GPU 中的最大分發接收負載。
DeepSeek - V3/R1 推理服務都用 H800 GPU,精度和訓練時一樣。具體說,矩陣乘法、分發傳輸用 FP8 格式,核心 MLA 計算、組合傳輸用 BF16 格式,
這樣能最大程度保證了服務效果。
因為白天忙、晚上閑,系統白天高峰時在所有節點部署推理服務,晚上負載低時減少節點,把資源給研究和訓練。
過去 24 小時,V3 和 R1 推理服務的峰值節點占用量達到 278 個,平均占用量為 226.75 個節點(每個節點包含 8 個 H800 GPU)。
若 1 個 H800 GPU 每小時租 2 美元,一天成本 87,072 美元。
其他關鍵數據:
總輸入 Tokens:608B,其中 342B (56.3%) 命中 On-disk KV 緩存
總輸出 Tokens:168B。
平均輸出速度:20-22 tokens/秒。
平均每個輸出 Token 的 KVCache 長度:4,989 tokens
從經濟效益來看,如果所有 token 都按 DeepSeek-R1 的定價計費,總日收入將達到 562,027 美元,成本利潤率高達 545%。
不過實際收入要低得多,原因包括 DeepSeek-V3 的定價遠低于 R1,只有部分服務實現了貨幣化(網頁和 APP 訪問仍然免費),以及在非高峰時段會自動應用夜間折扣。
附 DeepSeek 官方原文
https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA
當看到DeepSeek這么便宜,成本利潤率還表現這么突出,相比之下,GPT4.5 的價格卻高達 DeepSeek 的近 300 倍,嚴重懷疑隔壁的Close AI在搶劫.....
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.