99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛!梁文鋒參與發表回顧性論文:DeepSeek首次揭秘V3模型背后擴展方案

0
分享至


DeepSeek剛剛發表了一篇名為《深入解讀 DeepSeek-V3:AI 架構的擴展挑戰與硬件思考》(Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures)的回顧性論文,梁文鋒也是作者之一。這篇論文深入剖析了最新的大模型DeepSeek-V3及其AI基礎設施擴展方案,DeepSeek-V3的實踐充分證明了硬件-軟件協同設計在提升AI系統可擴展性、效率和魯棒性方面的巨大潛力


強烈推薦精讀!

快速解讀一下這篇論文

論文開宗明義:軟硬協同

文章一上來就點明了當前大模型(LLM)發展的核心矛盾:模型規模、訓練數據和算力需求飛速增長,但現有硬件架構在內存容量、計算效率和互連帶寬方面都面臨嚴峻挑戰。DeepSeek-V3的成功,恰恰證明了“硬件感知模型協同設計”是解決這些挑戰、實現大規模經濟高效訓練和推理的關鍵。

這篇論文的目標不是重復DeepSeek-V3的技術報告,而是從硬件架構和模型設計的雙重角度,探討它們之間復雜的相互作用,并為未來AI系統的可擴展性、成本效益提供實用藍圖

DeepSeek-V3核心設計揭秘:三大挑戰,逐個擊破

DeepSeek團隊圍繞LLM擴展的三大核心挑戰——內存效率、成本效益、推理速度——對DeepSeek-V3進行了精心設計

一、內存效率:榨干每一滴顯存

首先是低精度模型 (FP8)。相比BF16,FP8直接將模型權重內存占用減半,極大緩解了“內存墻”問題。這一點在后面會詳細展開

其次,DeepSeek-V2/V3采用的MLA (Multi-head Latent Attention) 技術,通過一個可共同訓練的投影矩陣,將所有注意力頭的KV表示壓縮到一個更小的“潛向量”(latent vector)中。推理時只需緩存這個潛向量,大幅降低內存消耗。論文給出的對比數據顯示,DeepSeek-V3 (MLA) 每token的KV Cache僅為70.272KB,而采用GQA的Qwen-2.5 72B為327.680KB,LLaMA-3.1 405B更是高達516.096KB。MLA的優勢可見一斑!


此外,論文也提及了業界其他有價值的方法,如GQA/MQA(分組/多查詢注意力)共享KV對,Windowed KV(滑動窗口),以及量化壓縮等。并展望了線性時間復雜度的注意力機制(如Mamba-2, Lightning Attention)和稀疏注意力的潛力

二、成本效益:MoE架構

DeepSeek-V3采用了其在V2中已被驗證有效的DeepSeekMoE架構(混合專家模型)。MoE的核心優勢在于“稀疏激活”:模型總參數量可以非常大,但每個token只激活一小部分專家參數


這使得訓練成本顯著降低。DeepSeek-V2有236B參數,每token激活21B;DeepSeek-V3擴展到671B參數,每token激活僅37B。相比之下,像Qwen2.5-72B和LLaMA3.1-405B這樣的密集模型,訓練時所有參數都處于激活狀態。從算力消耗對比 來看,DeepSeek-V3每token訓練成本約250 GFLOPS,遠低于LLaMA-405B的2448 GFLOPS,甚至低于Qwen-72B的394 GFLOPS


MoE模型的低激活參數特性,也使得在個人電腦的AI SoC上也能實現不錯的推理速度(如DeepSeek-V2在PC上可達近20 TPS甚至更高),為個性化LLM智能體和本地化部署鋪平了道路。使用KTransformers推理引擎,DeepSeek-V3完整模型能在消費級GPU(約1萬美元成本)的服務器上跑到近20 TPS

三、推理速度:分秒必爭

DeepSeek模型從設計之初就考慮了通過雙micro-batch重疊(dual micro-batch overlap)來隱藏通信延遲,最大化GPU利用率。生產環境中還采用prefill和decode分離的架構,針對性優化。

對于MoE模型,專家并行(EP)的All-to-All通信是瓶頸。論文以一個例子說明:若每設備一個專家,一次處理32個token,使用CX7 400Gbps InfiniBand網卡,一次EP(dispatch和combine)的通信時間約為120.96μs。在雙micro-batch重疊的理想情況下,每層總時間約為241.92μs。DeepSeek-V3有61層,則總推理時間約為14.76ms,理論TPOT(Time Per Output Token)上限約為67 tokens/s。如果換成GB200 NVL72(900GB/s單向帶寬),通信時間降至6.72μs,理論TPOT能飆升到1200 tokens/s!這生動展示了高帶寬互連的巨大潛力。

受Gloeckle等人工作的啟發,DeepSeek-V3引入了多令牌預測 (MTP, Multi-Token Prediction) 框架。傳統自回歸模型一次解碼一個token,MTP則允許模型以較低成本生成多個候選token并并行驗證,類似 speculative decoding。這能顯著加速推理。實際數據顯示,MTP對第二個后續token的接受率在80%-90%,使生成TPS提升1.8倍。同時,MTP也增大了推理batch size,有利于提升EP計算強度和硬件利用率。

像OpenAI的o1/o3系列、DeepSeek-R1等推理模型,以及PPO、DPO等RL流程,都極度依賴高token輸出速度。

低精度驅動設計:FP8混合精度訓練的探索

DeepSeek-V3的一大亮點是成功應用了FP8混合精度訓練。在此之前,開源社區幾乎沒有基于FP8訓練的大模型。

FP8的優勢在于顯著降低內存占用和計算量。但其在Hopper GPU上也面臨硬件局限性:一是累積精度受限,Tensor Core在FP8累積時,雖然中間結果用FP22存儲,但從32位尾數乘積右移對齊后,只保留最高的13位小數進行加法,這會影響大模型訓練穩定性;二是細粒度量化開銷大,像tile-wise(激活)和block-wise(權重)這樣的細粒度量化,在將部分結果從Tensor Core傳回CUDA Core進行縮放因子乘法時,會引入大量數據搬運和計算開銷。

對此,DeepSeek的建議是:未來硬件應提高累積精度(如FP32)或支持可配置的累積精度;同時,Tensor Core應能原生支持細粒度量化,直接接收縮放因子并執行帶組縮放的矩陣乘法,避免頻繁數據搬運。NVIDIA Blackwell的microscaling數據格式正是這一方向的體現。

DeepSeek團隊還嘗試了一種名為LogFMT-nBit(對數浮點格式)的數據類型用于通信壓縮。它將激活值從線性空間映射到對數空間,使得數據分布更均勻。但其局限性在于LogFMT數據在GPU Tensor Core計算前仍需轉回FP8/BF16,log/exp運算開銷和寄存器壓力較大。因此,盡管實驗驗證了其有效性,但最終并未實際采用。他們建議未來硬件原生支持FP8或定制精度格式的壓縮/解壓單元

互連驅動設計:榨干H800的每一分帶寬

DeepSeek-V3使用的NVIDIA H800 SXM節點,NVLink帶寬有所縮減(從H100的900GB/s降至400GB/s)。為彌補這一不足,每節點配備了8個400G InfiniBand CX7 NIC


在硬件感知的并行策略上,DeepSeek訓練中因NVLink帶寬受限而避免使用張量并行(TP),推理時可選擇性使用;采用DualPipe算法重疊Attention和MoE計算與通信來增強流水線并行(PP);并借助8個IB NIC實現超40GB/s的All-to-All通信速度以加速專家并行(EP)

模型協同設計方面,由于H800的NVLink(有效約160GB/s)和IB NIC(有效約40GB/s)帶寬差異巨大,DeepSeek-V3引入了節點限制路由 (Node-Limited Routing) 的TopK專家選擇策略:將256個路由專家分為8組,每組32個專家部署在單個節點上,并從算法上確保每個token最多路由到4個節點。這緩解了IB通信瓶頸。

關于Scale-Up與Scale-Out的融合,當前局限在于GPU SM既要處理網絡消息,又要通過NVLink轉發數據,消耗計算資源。DeepSeek建議未來硬件應集成統一網絡適配器、專用通信協處理器、靈活的轉發/廣播/Reduce機制、硬件同步原語、動態NVLink/PCIe流量優先級、I/O Die Chiplet集成NIC,以及CPU-GPU Scale-Up域互連。

大規模網絡驅動設計:多平面胖樹

DeepSeek-V3訓練中部署了多平面胖樹 (MPFT, Multi-Plane Fat-Tree) Scale-out網絡。每節點8 GPU + 8 IB NIC,每個GPU-NIC對屬于一個獨立網絡平面。

MPFT的優勢包括:作為多軌胖樹 (MRFT) 的子集可利用NCCL優化;成本效益高,用兩層胖樹即可支持超萬個端點;各平面流量隔離,單平面擁塞不影響其他;兩層拓撲延遲更低且魯棒性好。性能分析顯示,其All-to-All通信和EP場景性能與單平面MRFT非常接近,在2048 GPU上訓練DeepSeek-V3的指標也幾乎一致。

在低延遲網絡方面,IB延遲優于RoCE,但IB成本高、交換機端口密度低。對RoCE的改進建議包括:專用低延遲RoCE交換機、優化路由策略(如自適應路由)、改進流量隔離/擁塞控制機制。同時,DeepSeek也利用了InfiniBand GPUDirect Async (IBGDA) 技術來減少網絡通信延遲。

對未來AI硬件架構的展望

論文最后,DeepSeek團隊基于實踐經驗,對未來AI硬件設計提出了更宏觀的思考:

  1. 1. 魯棒性挑戰:應對互連故障、單硬件故障、靜默數據損壞等問題,硬件需集成高級錯誤檢測機制并提供診斷工具

  2. 2. CPU瓶頸與互連:解決PCIe帶寬瓶頸、高內存帶寬需求、CPU單核性能及核心數問題,建議CPU-GPU直接互連或集成到Scale-up域

  3. 3. 邁向AI智能網絡:發展硅光子、高級端到端擁塞控制、自適應路由、高效容錯協議和動態資源管理

  4. 4. 內存語義通信與順序問題:硬件應支持內建的內存語義通信順序保證(如acquire/release語義),消除sender端fence

  5. 5. 網絡內計算與壓縮:優化EP的dispatch和combine,原生集成LogFMT等壓縮技術

  6. 6. 內存為中心的創新:推廣DRAM堆疊加速器和System-on-Wafer (SoW)技術。

參考:

https://arxiv.org/pdf/2505.09343

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
帕爾默:亞馬爾是目前世界上最好的球員,我很喜歡看他的比賽

帕爾默:亞馬爾是目前世界上最好的球員,我很喜歡看他的比賽

直播吧
2025-05-16 04:45:07
雷軍更新微博有好消息了,李斌背刺雷軍:我們致敬保時捷但沒抄襲

雷軍更新微博有好消息了,李斌背刺雷軍:我們致敬保時捷但沒抄襲

江山揮筆
2025-05-15 16:08:34
媒體人:楊瀚森在芝加哥將繼續接受官方培訓 并參加球隊單獨面試

媒體人:楊瀚森在芝加哥將繼續接受官方培訓 并參加球隊單獨面試

直播吧
2025-05-16 07:13:11
光州FC因違規注冊和使用球員,亞冠比賽或全被判為0-3且退還獎金

光州FC因違規注冊和使用球員,亞冠比賽或全被判為0-3且退還獎金

直播吧
2025-05-15 19:53:14
大阪燒鳥店貼出“不接待中國人”,母公司火速貼出中日雙語的謝罪文!

大阪燒鳥店貼出“不接待中國人”,母公司火速貼出中日雙語的謝罪文!

日本物語
2025-05-15 08:37:33
東大無法原諒的五個國家,個個罪孽深重

東大無法原諒的五個國家,個個罪孽深重

丁一科普
2025-05-14 11:04:35
17歲亞馬爾夢幻1年:豪奪4冠,巴薩17球25助!再創3大紀錄

17歲亞馬爾夢幻1年:豪奪4冠,巴薩17球25助!再創3大紀錄

葉青足球世界
2025-05-16 06:22:24
楊天真大運河騎行,不用上班好悠閑,新車光是倆轱轆就5萬好有錢

楊天真大運河騎行,不用上班好悠閑,新車光是倆轱轆就5萬好有錢

八怪娛
2025-05-15 16:02:39
中辦、國辦:鼓勵產權所有人自主更新 支持企業盤活閑置低效存量資產

中辦、國辦:鼓勵產權所有人自主更新 支持企業盤活閑置低效存量資產

證券時報
2025-05-15 18:02:14
河南小伙3次跑孟加拉討媳婦,結果卻丟了命,凌晨躺路邊頭骨碎裂

河南小伙3次跑孟加拉討媳婦,結果卻丟了命,凌晨躺路邊頭骨碎裂

知鑒明史
2025-05-15 17:56:37
擊落幾架陣風,美西方就天塌了,原因:印巴空戰失敗涉及不止法國

擊落幾架陣風,美西方就天塌了,原因:印巴空戰失敗涉及不止法國

百態人間
2025-05-15 16:31:03
美國人瘋狂搶貨,中國商家搶生產!義烏商戶:朋友圈都炸掉了,接下來15天要大干

美國人瘋狂搶貨,中國商家搶生產!義烏商戶:朋友圈都炸掉了,接下來15天要大干

每日經濟新聞
2025-05-15 16:31:16
《五哈》最討厭的2位嘉賓,虛偽、尷尬、惹人厭,不要再來了

《五哈》最討厭的2位嘉賓,虛偽、尷尬、惹人厭,不要再來了

愛論歷史
2025-05-14 22:41:13
莫迪喊話馬斯克,要求他必須封禁新華社、環球時報等媒體賬號

莫迪喊話馬斯克,要求他必須封禁新華社、環球時報等媒體賬號

辣條小劇場
2025-05-15 13:42:03
驚!劉曉慶涉嫌虛開發票66張,空殼公司曝光,網友:糊涂啊!

逍遙史記
2025-05-15 09:53:45

如何評價龍珠圈子里只看42卷《龍珠》的人?

如何評價龍珠圈子里只看42卷《龍珠》的人?

亭里說事
2025-05-14 17:33:54
首鋼慘敗廣廈!方碩與許利民發生沖突 CBA記者:更衣室失控了?

首鋼慘敗廣廈!方碩與許利民發生沖突 CBA記者:更衣室失控了?

體育哲人
2025-05-15 10:50:38
謝克哈真容曝光確實美!哈曼丹超愛嫡女,酋長也超愛,母憑女貴了

謝克哈真容曝光確實美!哈曼丹超愛嫡女,酋長也超愛,母憑女貴了

野山歷史
2025-05-15 16:10:55
海歸媽媽輔導作業致女兒身亡:戒尺上的狀元筆,沾滿9歲童心血

海歸媽媽輔導作業致女兒身亡:戒尺上的狀元筆,沾滿9歲童心血

金麥趣聞故事
2025-05-16 05:31:30
獨家對話小米汽車退訂事件當事人:不露臉拍攝是怕朋友笑話,說我們是故意黑、想掙錢的完全是胡說

獨家對話小米汽車退訂事件當事人:不露臉拍攝是怕朋友笑話,說我們是故意黑、想掙錢的完全是胡說

大河汽車
2025-05-15 13:52:32
2025-05-16 09:00:49
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
679文章數 267關注度
往期回顧 全部

科技要聞

小米自研手機芯片來了!雷軍稱5月下旬發布

頭條要聞

牛彈琴:中東三國用三板斧搞定特朗普 以色列鼻子氣歪

頭條要聞

牛彈琴:中東三國用三板斧搞定特朗普 以色列鼻子氣歪

體育要聞

三盤鏖戰212分鐘!鄭欽文1-2惜敗高芙,無緣首進羅馬站決賽

娛樂要聞

一場戀情瓜暴露了趙麗穎的真實處境

財經要聞

李強:把做強國內大循環擺到更加突出位置

汽車要聞

下半年上市/預計15萬元左右 長安啟源A06官圖發布

態度原創

本地
游戲
時尚
公開課
軍事航空

本地新聞

2025年“5·19中國旅游日”活動啟動儀式

Epic喜加二 《死亡島2》《快樂游戲》免費領取

夏天這么穿會顯瘦,超贊!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京和特朗普均缺席俄烏土耳其會談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 维西| 连江县| 桂平市| 石阡县| 文水县| 马龙县| 丰原市| 常州市| 洞口县| 通山县| 永城市| 安丘市| 德兴市| 苏州市| 徐水县| 从江县| 宜良县| 琼海市| 济阳县| 广汉市| 大悟县| 庐江县| 林西县| 梧州市| 淮阳县| 松溪县| 偏关县| 大姚县| 泸溪县| 北安市| 北辰区| 香格里拉县| 运城市| 当雄县| 翁牛特旗| 吉安市| 玉龙| 襄樊市| 涿鹿县| 双流县| 白河县|