網易首頁 > 網易號 > 正文申請入駐

Deepseek開源周“彩蛋”（附前 5 天匯總）:硬核揭秘V3/R1推理系統，成本利潤率545%

2025-03-01 18:56:46　來源: AI先鋒官

北京舉報

分享至

作者｜子川

來源｜AI先鋒官

居然還有？原以為為期5天的Deepseek開源周在昨天已經徹底結束。

想不到今天突然又來了一個彩蛋——

DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統背后的秘密。

DeepSeek-V3/R1 模型的優化目標很明確：提高吞吐量和降低延遲。

為了實現這兩個目標，Deepseek采用了跨節點專家并行（EP）技術，這項技術有兩個顯著優勢：

擴大批量大小：EP 能顯著擴大批量大小，從而提升 GPU 矩陣計算效率，增強吞吐量。
降低延遲：通過將專家分布在不同 GPU 上，每個 GPU 只處理一小部分專家，減少了內存訪問需求，進而降低延遲。

正好通過EP正好完美解決Deepseek團隊的需求。

但是！EP 也帶來了系統復雜性增加的問題。

主要體現在兩個方面：

一是引入了跨節點通信，為了優化吞吐，需要設計合適的計算流程使得傳輸和計算可以同步進行。

二是涉及多個節點，需要數據并行（DP），并要在不同的 DP 實例之間進行負載均衡。

為了解決 EP 帶來的復雜性，主要通過三個黑科技提升性能：

大規?？绻濣c專家并行（EP）

由于 DeepSeek-V3/R1 模型中專家數量眾多， (256個專家中只有8個被激活！)，模型的高稀疏性要求整體批量大小必須足夠大，以確保每個專家都有足夠的批量大小，才能實現更高的吞吐量和更低的延遲。

因此，大規模跨節點專家并行（EP）是必不可少的。

在預填充（prefilling）和解碼（decoding）階段，系統采用了不同的并行程度：

預填充階段：每個部署單元跨越 4 個節點，有 32 個冗余路由專家，每個 GPU 處理 9 個路由專家和 1 個共享專家。
解碼階段：每個部署單元跨越 18 個節點，有 32 個冗余路由專家，每個 GPU 管理 2 個路由專家和 1 個共享專家。

計算與通信重疊

大規?？绻濣c EP 會帶來顯著的通信開銷。

為了減輕這種開銷，系統采用了雙批次重疊策略，就是把一個大的請求 Batch 分成兩個 Micro-Batch，交替執行。

這樣，一個 Micro-Batch 的通信開銷就可以巧妙地隱藏在另一個 Micro-Batch 的計算過程中！

簡單來說就是一邊炒菜一邊接電話，兩件事不互相干擾。

而在解碼階段，由于不同階段的執行時間不平衡，系統將注意力層細分為兩個步驟，并使用 5 階段流水線，實現無縫的通信和計算重疊。

這就像是你做飯時，先切菜再炒菜，每一步都有條不紊地進行，不會浪費時間。

盡可能實現最佳負載均衡

大規模并行 (DP + EP) 帶來的另一個挑戰就是負載均衡，如果單個 GPU 的計算或通信負載過重，就會成為性能瓶頸，拖慢整個系統，同時讓其他 GPU 空閑，造成整體利用率下降。

為了最大化資源利用率，DeepSeek 團隊在負載均衡方面也做了很多優化，主要包括以下三個方面：

預填充負載均衡器：由于不同 DP 實例之間的請求數量和序列長度不同，會導致核心注意力計算和分發發送負載不平衡。
優化目標：各GPU的KVCache占用量盡量相同（core-attention計算負載均衡）、請求數量盡量相同（dispatch發送量負載均衡）
解碼負載均衡器：不同 DP 實例之間的請求數量和序列長度不均，會導致核心注意力計算（與 KVCache 使用相關）和分發發送負載存在差異。
優化目標：平衡 GPU 之間的 KVCache 使用，均衡每個 GPU 的請求數量。
專家并行負載均衡器：對于給定的 MoE 模型，存在一些天然的高負載專家（expert），導致不同 GPU 之間的專家計算工作負載不平衡。
優化目標：平衡每個 GPU 上的專家計算，即盡量減少所有 GPU 中的最大分發接收負載。

DeepSeek - V3/R1 推理服務都用 H800 GPU，精度和訓練時一樣。具體說，矩陣乘法、分發傳輸用 FP8 格式，核心 MLA 計算、組合傳輸用 BF16 格式，

這樣能最大程度保證了服務效果。

因為白天忙、晚上閑，系統白天高峰時在所有節點部署推理服務，晚上負載低時減少節點，把資源給研究和訓練。

過去 24 小時，V3 和 R1 推理服務的峰值節點占用量達到 278 個，平均占用量為 226.75 個節點（每個節點包含 8 個 H800 GPU）。

若 1 個 H800 GPU 每小時租 2 美元，一天成本 87,072 美元。

其他關鍵數據：

總輸入 Tokens：608B，其中 342B (56.3%) 命中 On-disk KV 緩存
總輸出 Tokens：168B。
平均輸出速度：20-22 tokens/秒。
平均每個輸出 Token 的 KVCache 長度：4,989 tokens

從經濟效益來看，如果所有 token 都按 DeepSeek-R1 的定價計費，總日收入將達到 562,027 美元，成本利潤率高達 545%。

不過實際收入要低得多，原因包括 DeepSeek-V3 的定價遠低于 R1，只有部分服務實現了貨幣化（網頁和 APP 訪問仍然免費），以及在非高峰時段會自動應用夜間折扣。

附 DeepSeek 官方原文

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

當看到DeepSeek這么便宜，成本利潤率還表現這么突出，相比之下，GPT4.5 的價格卻高達 DeepSeek 的近 300 倍，嚴重懷疑隔壁的Close AI在搶劫.....

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.