99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

完整版|梁文峰最新DeepSeek V3論文!揭秘如何用低性能GPU,訓練出比肩OpenAI的大模型?

0
分享至


作者 林易

編輯 重點君

梁文鋒親自參與的DeepSeek最新論文,來了!

剛剛,DeepSeek發布了最新一篇圍繞DeepSeek-V3 的技術論文!標題是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》

這篇論文探討了DeepSeek-V3模型在擴展過程中面臨的硬件挑戰,并提出了一系列硬件與模型協同設計的解決方案。

大家知道,大語言模型(LLM)的快速擴展暴露了當前硬件架構的一些關鍵局限性,包括內存容量、計算效率和互連帶寬。以DeepSeek-V3 為例,它是在2048 塊NVIDIA H800 GPU 集群上進行訓練,展示了硬件感知模型協同設計如何高效地應對這些限制,并最終實現了經濟高效的大規模訓練與推理。

因此,這項新研究并非重復DeepSeek-V3 的詳細架構和算法細節,而是從硬件架構和模型設計的雙重視角,探討它們之間在實現經濟高效的大規模訓練和推理過程中復雜的相互作用。通過探究這種協同作用,研究者旨在提供切實可行的見解,以洞悉如何在不犧牲性能或可訪問性的情況下高效擴展大語言模型。

總的來說,DeepSeek-V3通過硬件感知的模型設計(MLA、MoE、FP8)、網絡優化(多平面拓撲)和算法創新(MTP),在有限硬件資源下實現了高效的大規模訓練與推理。論文進一步呼吁學術界與工業界協同探索下一代硬件架構,以應對AI負載的持續增長。

更難能可貴的是,這次,DeepSeek創始人梁文峰也是這篇論文的署名作者之一。

我們剛閱讀了論文,下面給大家劃下重點:

|一、核心技術創新

內存優化

多頭潛在注意力機制(MLA):通過投影矩陣壓縮注意力頭的Key-Value(KV)緩存,將每令牌的KV緩存從傳統模型的數百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),顯著減少長上下文推理的內存需求。

低精度模型:采用FP8混合精度訓練,相比BF16精度,權重內存占用減少50%,同時通過細粒度量化(如分塊128×128)緩解硬件累積精度不足的問題。

MoE架構的成本效益

DeepSeekMoE:通過稀疏激活專家參數(如V3的671B參數中僅激活37B/令牌),實現計算資源的高效利用。訓練成本為250 GFLOPS/令牌,遠低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。

本地部署支持:MoE架構允許在消費級GPU服務器(如$10,000配置)上實現近20 TPS的推理速度,適合資源受限場景。


推理速度提升

多令牌預測(MTP):通過輕量級模塊并行生成多個候選令牌,驗證接受率達80%~90%,推理速度提升1.8倍。

計算-通信重疊:利用雙微批次流水線,將注意力計算與專家并行通信重疊,最大化硬件利用率。

網絡與硬件協同設計

多平面Fat-Tree網絡:采用兩層拓撲替代傳統三層結構,降低集群網絡成本,支持16,384 GPU擴展,同時隔離流量并提高魯棒性。

低延遲優化:結合InfiniBand GPUDirect Async(IBGDA)繞過CPU代理,端到端延遲降低至微秒級(如跨交換機延遲3.7μs)。


|二、硬件瓶頸與未來建議

低精度計算支持。當前FP8訓練的硬件限制包括累積精度不足(FP22寄存器)和細粒度量化的高開銷。未來硬件需支持FP32累積精度和硬件級量化加速。

擴展與擴展融合。提出統一網絡適配器、專用通信協處理器和動態帶寬分配,以解決NVLink與InfiniBand帶寬差異(如H800的NVLink帶寬400GB/s vs. InfiniBand 50GB/s)導致的通信瓶頸。


網絡架構改進。推薦RoCE增強:支持自適應路由(替代ECMP)、虛擬輸出隊列(VOQ)和硬件級擁塞控制,以降低大規模All-to-All通信的延遲。

內存帶寬優化。建議采用3D堆疊DRAM(如SeDRAM)或晶圓級集成(System-on-Wafer),緩解Transformer類模型的內存墻問題。

表1 比較了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每個token 的KV 緩存內存占用情況。通過采用MLA,DeepSeek-V3 顯著減少了KV 緩存大小,每個token 僅需70 KB,遠低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。


|三、實驗驗證與性能

KV緩存壓縮:MLA將內存占用降低至傳統GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。

訓練效率:在2048 H800 GPU集群中,多平面網絡(MPFT)與多軌網絡(MRFT)性能持平,模型浮點利用率(MFU)達43.73%。

推理極限:理論最優TPOT為14.76 ms(67 TPS),采用高帶寬互聯(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。

總之,論文強調了硬件和模型協同設計,在滿足日益增長的人工智能工作負載需求方面的關鍵作用,并為下一代人工智能系統的創新提供了切實可行的藍圖。

最后,大家可以一鍵傳送原論文地址:https://arxiv.org/pdf/2505.09343

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
日本宣布:將在6月28日,正式歸還中國!

日本宣布:將在6月28日,正式歸還中國!

二月侃事
2025-05-24 15:40:43
今天我用兩分鐘揭開一個千年謎題——中國為啥窮了4000年?

今天我用兩分鐘揭開一個千年謎題——中國為啥窮了4000年?

流蘇晚晴
2025-05-23 20:16:40
汪家又有大喜事!張蘭說漏嘴、汪小菲曾暗示,S媽又該睡不著了

汪家又有大喜事!張蘭說漏嘴、汪小菲曾暗示,S媽又該睡不著了

奧字侃娛
2025-05-24 15:29:29
武漢暴雨導致嚴重內澇,網友拿當地投入130億一事進行調侃

武漢暴雨導致嚴重內澇,網友拿當地投入130億一事進行調侃

映射生活的身影
2025-05-23 19:25:29
網友評價甜馨:沒了抖音濾鏡就是大媽,李小璐42依舊美如少女!

網友評價甜馨:沒了抖音濾鏡就是大媽,李小璐42依舊美如少女!

曉風說
2025-05-24 17:32:06
臺北旗幟已升起,賴清德被催辭職,不到48小時,福建舉行兩棲軍演

臺北旗幟已升起,賴清德被催辭職,不到48小時,福建舉行兩棲軍演

知鑒明史
2025-05-23 18:02:44
中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

中國“第一女神探”聶海芬,光環背后是多少老百姓含冤入獄?

星宇共鳴
2025-05-21 18:05:05
換關節時代終結?國產干細胞一針告別膝痛,價格較歐美驟降66%!

換關節時代終結?國產干細胞一針告別膝痛,價格較歐美驟降66%!

科學認識論
2025-05-23 16:19:18
不是王楚欽 不是林詩棟!西蒙高茨預測男單冠軍,大V評論一語中的

不是王楚欽 不是林詩棟!西蒙高茨預測男單冠軍,大V評論一語中的

夢史
2025-05-24 08:39:47
特朗普公開懸賞,誰對中國加征關稅,可換得美國的免死金牌?

特朗普公開懸賞,誰對中國加征關稅,可換得美國的免死金牌?

阿傖說事
2025-05-24 14:17:32
國王失去哈利伯頓不算什么 最騷的是他們又失去了福克斯...

國王失去哈利伯頓不算什么 最騷的是他們又失去了福克斯...

直播吧
2025-05-24 17:32:19
中國原子彈爆炸后,美記者問:它還是紙老虎嗎?毛主席回答太高明

中國原子彈爆炸后,美記者問:它還是紙老虎嗎?毛主席回答太高明

陣匠
2025-05-24 07:52:13
感謝黃楊鈿甜讓我們吃到了《西游記》的細糠,原來這個叫火彩

感謝黃楊鈿甜讓我們吃到了《西游記》的細糠,原來這個叫火彩

書咚咚
2025-05-23 19:26:04
美國最強激光問世!峰值功率2拍瓦,超全球電力總輸出100多倍!

美國最強激光問世!峰值功率2拍瓦,超全球電力總輸出100多倍!

徐德文科學頻道
2025-05-23 07:45:15
歌手2025第二期排名,單依純蟬聯第一,沒想到是他被淘汰了

歌手2025第二期排名,單依純蟬聯第一,沒想到是他被淘汰了

情感大頭說說
2025-05-24 04:26:23
北京日報怒斥:耳環并不重要,重要的是其父親入職離職的動機可疑

北京日報怒斥:耳環并不重要,重要的是其父親入職離職的動機可疑

夢史
2025-05-23 19:45:41
縱火犯成了“英雄”?27歲文某被刑事拘留,網上刮起一陣歪風邪氣

縱火犯成了“英雄”?27歲文某被刑事拘留,網上刮起一陣歪風邪氣

奇思妙想草葉君
2025-05-23 20:56:40
環球時報社主辦報紙稱:生育能幫女性防病,減少痛經與患癌幾率,提高免疫力

環球時報社主辦報紙稱:生育能幫女性防病,減少痛經與患癌幾率,提高免疫力

小蘿卜絲
2025-05-23 13:06:02
善惡終有報?體面了一輩子的國家一級演員奚美娟,在70歲人設崩了

善惡終有報?體面了一輩子的國家一級演員奚美娟,在70歲人設崩了

白面書誏
2025-05-23 14:13:16
澳大利亞出現針對中國公民的暴力行為,中方強烈譴責

澳大利亞出現針對中國公民的暴力行為,中方強烈譴責

每日經濟新聞
2025-05-23 10:43:15
2025-05-24 19:23:00
劃重點KeyPoints incentive-icons
劃重點KeyPoints
關注AI、互聯網、硬件和大公司。 噪音太多,劃下重點。提供最有價值的信息。全網同名。
15文章數 2關注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

頭條要聞

美國白宮數十人突然被裁 有人當場哭了

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態度原創

親子
教育
健康
家居
公開課

親子要聞

國家出手了!教育部明令禁止,事關所有幼兒園,6月1日起施行

教育要聞

2025年高考試題分析暨高考命題能力與備考策略研討會(西安、無錫、沈陽)

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

輕奢品質 開闊的三口之家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南投县| 荥阳市| 桓台县| 正阳县| 财经| 海阳市| 佳木斯市| 咸宁市| 榕江县| 本溪市| 瑞金市| 婺源县| 东明县| 揭西县| 龙川县| 十堰市| 襄垣县| 晋中市| 柏乡县| 伊金霍洛旗| 临沭县| 马尔康县| 江川县| 麻江县| 全州县| 永兴县| 恩施市| 平顶山市| 原平市| 台北县| 册亨县| 阳春市| 化隆| 赤城县| 孟连| 井研县| 长葛市| 普兰店市| 景东| 信宜市| 柞水县|