99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Deepseek開源周“彩蛋”(附前 5 天匯總):硬核揭秘V3/R1推理系統,成本利潤率545%

0
分享至

作者|子川

來源|AI先鋒官

居然還有?原以為為期5天的Deepseek開源周在昨天已經徹底結束。

想不到今天突然又來了一個彩蛋——

DeepSeek官方親自揭秘了DeepSeek-V3/R1推理系統背后的秘密。


DeepSeek-V3/R1 模型的優化目標很明確:提高吞吐量和降低延遲。

為了實現這兩個目標,Deepseek采用了跨節點專家并行(EP)技術,這項技術有兩個顯著優勢:

  • 擴大批量大小:EP 能顯著擴大批量大小,從而提升 GPU 矩陣計算效率,增強吞吐量。

  • 降低延遲:通過將專家分布在不同 GPU 上,每個 GPU 只處理一小部分專家,減少了內存訪問需求,進而降低延遲。

正好通過EP正好完美解決Deepseek團隊的需求。

但是!EP 也帶來了系統復雜性增加的問題。

主要體現在兩個方面:

一是引入了跨節點通信,為了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行。

二是涉及多個節點,需要數據并行(DP),并要在不同的 DP 實例之間進行負載均衡。

為了解決 EP 帶來的復雜性,主要通過三個黑科技提升性能:

大規??绻濣c專家并行(EP)

由于 DeepSeek-V3/R1 模型中專家數量眾多, (256個專家中只有8個被激活!),模型的高稀疏性要求整體批量大小必須足夠大,以確保每個專家都有足夠的批量大小,才能實現更高的吞吐量和更低的延遲。

因此,大規模跨節點專家并行 (EP) 是必不可少的。

在預填充(prefilling)和解碼(decoding)階段,系統采用了不同的并行程度:

  • 預填充階段:每個部署單元跨越 4 個節點,有 32 個冗余路由專家,每個 GPU 處理 9 個路由專家和 1 個共享專家。

  • 解碼階段:每個部署單元跨越 18 個節點,有 32 個冗余路由專家,每個 GPU 管理 2 個路由專家和 1 個共享專家。

計算與通信重疊

大規??绻濣c EP 會帶來顯著的通信開銷。

為了減輕這種開銷,系統采用了雙批次重疊策略,就是把一個大的請求 Batch 分成兩個 Micro-Batch,交替執行。

這樣,一個 Micro-Batch 的通信開銷就可以巧妙地隱藏在另一個 Micro-Batch 的計算過程中!

簡單來說就是一邊炒菜一邊接電話,兩件事不互相干擾。


而在解碼階段,由于不同階段的執行時間不平衡,系統將注意力層細分為兩個步驟,并使用 5 階段流水線,實現無縫的通信和計算重疊。

這就像是你做飯時,先切菜再炒菜,每一步都有條不紊地進行,不會浪費時間。


盡可能實現最佳負載均衡

大規模并行 (DP + EP) 帶來的另一個挑戰就是 負載均衡,如果單個 GPU 的計算或通信負載過重,就會成為性能瓶頸,拖慢整個系統,同時讓其他 GPU 空閑,造成整體利用率下降。

為了最大化資源利用率,DeepSeek 團隊在負載均衡方面也做了很多優化,主要包括以下三個方面:

  • 預填充負載均衡器:由于不同 DP 實例之間的請求數量和序列長度不同,會導致核心注意力計算和分發發送負載不平衡。

    優化目標:各GPU的KVCache占用量盡量相同(core-attention計算負載均衡)、請求數量盡量相同(dispatch發送量負載均衡)

  • 解碼負載均衡器:不同 DP 實例之間的請求數量和序列長度不均,會導致核心注意力計算(與 KVCache 使用相關)和分發發送負載存在差異。

    優化目標:平衡 GPU 之間的 KVCache 使用,均衡每個 GPU 的請求數量。

  • 專家并行負載均衡器:對于給定的 MoE 模型,存在一些天然的高負載專家(expert),導致不同 GPU 之間的專家計算工作負載不平衡。

    優化目標:平衡每個 GPU 上的專家計算,即盡量減少所有 GPU 中的最大分發接收負載。


DeepSeek - V3/R1 推理服務都用 H800 GPU,精度和訓練時一樣。具體說,矩陣乘法、分發傳輸用 FP8 格式,核心 MLA 計算、組合傳輸用 BF16 格式,

這樣能最大程度保證了服務效果。

因為白天忙、晚上閑,系統白天高峰時在所有節點部署推理服務,晚上負載低時減少節點,把資源給研究和訓練。

過去 24 小時,V3 和 R1 推理服務的峰值節點占用量達到 278 個,平均占用量為 226.75 個節點(每個節點包含 8 個 H800 GPU)。

若 1 個 H800 GPU 每小時租 2 美元,一天成本 87,072 美元。


其他關鍵數據:

  • 總輸入 Tokens:608B,其中 342B (56.3%) 命中 On-disk KV 緩存

  • 總輸出 Tokens:168B。

  • 平均輸出速度:20-22 tokens/秒。

  • 平均每個輸出 Token 的 KVCache 長度:4,989 tokens

從經濟效益來看,如果所有 token 都按 DeepSeek-R1 的定價計費,總日收入將達到 562,027 美元,成本利潤率高達 545%。


不過實際收入要低得多,原因包括 DeepSeek-V3 的定價遠低于 R1,只有部分服務實現了貨幣化(網頁和 APP 訪問仍然免費),以及在非高峰時段會自動應用夜間折扣。

附 DeepSeek 官方原文

https://mp.weixin.qq.com/s/dEEfMQgDK7y17yVjh6zblA

當看到DeepSeek這么便宜,成本利潤率還表現這么突出,相比之下,GPT4.5 的價格卻高達 DeepSeek 的近 300 倍,嚴重懷疑隔壁的Close AI在搶劫.....

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
強得一塌糊涂!中國女籃一節打花波黑女籃,凈勝22分,宮指導厲害

強得一塌糊涂!中國女籃一節打花波黑女籃,凈勝22分,宮指導厲害

阿覽
2025-06-15 20:09:51
動真碰硬、立行立改!自治區黨委書記冒雨直奔企業實地查看

動真碰硬、立行立改!自治區黨委書記冒雨直奔企業實地查看

政知新媒體
2025-06-15 11:08:16
地下90米,以色列怎么打擊福爾多核設施?只能靠美國超級鉆地彈?

地下90米,以色列怎么打擊福爾多核設施?只能靠美國超級鉆地彈?

鷹眼Defence
2025-06-15 16:51:08
女優吳夢夢曝出拍片內幕:過程并不舒服,其實都是演出來的

女優吳夢夢曝出拍片內幕:過程并不舒服,其實都是演出來的

小徐講八卦
2025-06-06 17:05:02
賣購物卡詐騙11億!武商集團員工被判無期,7名購卡者涉非法集資遭起訴

賣購物卡詐騙11億!武商集團員工被判無期,7名購卡者涉非法集資遭起訴

封面新聞
2025-06-15 10:25:14
哈梅內伊民心盡失,伊朗的神權獨裁該結束了

哈梅內伊民心盡失,伊朗的神權獨裁該結束了

智慧生活筆記
2025-06-14 10:25:08
黑哨曝光!聯盟要涼涼了

黑哨曝光!聯盟要涼涼了

吳朑愛游泳
2025-06-15 15:15:08
當初雷霆為何因400萬放棄哈登,最終斷送王朝之路?看完你就懂了

當初雷霆為何因400萬放棄哈登,最終斷送王朝之路?看完你就懂了

大衛的籃球故事
2025-06-15 20:30:56
大家有沒有發現,今年社會大眾對于高考的態度特別冷淡。

大家有沒有發現,今年社會大眾對于高考的態度特別冷淡。

玉辭心
2025-06-12 07:27:18
世俱杯首戰驚現奇葩一幕:孫楊嘲諷梅西隊友,網友怒了

世俱杯首戰驚現奇葩一幕:孫楊嘲諷梅西隊友,網友怒了

姜大叔侃球
2025-06-15 12:05:31
美聯儲,突發!降息,傳出大變數!

美聯儲,突發!降息,傳出大變數!

數據寶
2025-06-15 08:30:56
美國閱兵全記錄:一場隆重的帝國黃昏派對

美國閱兵全記錄:一場隆重的帝國黃昏派對

江平舟
2025-06-15 12:42:33
比恒大更狠的造車新勢力,誕生

比恒大更狠的造車新勢力,誕生

投資家
2025-06-13 21:02:10
出差路過老家碰到后爸,看到他在街上拾破爛,我立馬做了一個決定

出差路過老家碰到后爸,看到他在街上拾破爛,我立馬做了一個決定

磊子講史
2025-06-14 14:46:22
江蘇城市聯賽:徐州隊1-0鎮江隊,喬宇兜射獻絕殺

江蘇城市聯賽:徐州隊1-0鎮江隊,喬宇兜射獻絕殺

懂球帝
2025-06-15 18:03:35
1.2億,望加盟火箭,愿在休城退役,球隊能否爭冠你的表現很重要

1.2億,望加盟火箭,愿在休城退役,球隊能否爭冠你的表現很重要

青山隱隱啊
2025-06-15 16:05:08
你還敢吃“地攤”嗎?看看這些攤主的操作,估計以后你吃不下去了

你還敢吃“地攤”嗎?看看這些攤主的操作,估計以后你吃不下去了

唐小糖說情感
2025-06-09 09:13:39
曾毅那塊表,到底惡心了誰!21字的回應加了把火!趙又廷慘遭牽連

曾毅那塊表,到底惡心了誰!21字的回應加了把火!趙又廷慘遭牽連

小娛樂悠悠
2025-06-15 10:35:24
葡媒:阿森納停止求購哲凱賴什,他們覺得受夠了且葡體要價太高

葡媒:阿森納停止求購哲凱賴什,他們覺得受夠了且葡體要價太高

雷速體育
2025-06-15 19:36:28
“最佳睡眠時間”出爐!研究發現:早睡晚睡都折壽,這個時間最好!

“最佳睡眠時間”出爐!研究發現:早睡晚睡都折壽,這個時間最好!

腫瘤的真相與誤區
2025-03-12 14:46:53
2025-06-15 21:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

牛彈琴:伊朗遭遇了"三重背叛" 連俄羅斯都被騙了

頭條要聞

牛彈琴:伊朗遭遇了"三重背叛" 連俄羅斯都被騙了

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

游戲
藝術
親子
數碼
公開課

夢幻西游雙經濟系統并行,全新賽季服【建鄴城】到底能不能致富?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

#母嬰好物 #哄娃神器 #寶寶玩具

數碼要聞

HTC 推出 HP07 頭戴式耳機:藍牙 6.0、40mm 動圈,105.3 元

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天全县| 芮城县| 东山县| 突泉县| 北宁市| 盐亭县| 壶关县| 驻马店市| 彰化市| 五大连池市| 泾川县| 庐江县| 筠连县| 麻阳| 宝清县| 江陵县| 宕昌县| 上犹县| 隆昌县| 通渭县| 凭祥市| 通海县| 保亭| 大城县| 松江区| 环江| 剑河县| 台前县| 衡山县| 吉首市| 海丰县| 灵川县| 正镶白旗| 诸暨市| 岱山县| 吉木乃县| 榆社县| 大竹县| 嘉善县| 都兰县| 施甸县|