99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

完整版|梁文峰最新DeepSeek V3論文!揭秘如何用低性能GPU,訓(xùn)練出比肩OpenAI的大模型?

0
分享至


作者 林易

編輯 重點(diǎn)君

梁文鋒親自參與的DeepSeek最新論文,來了!

剛剛,DeepSeek發(fā)布了最新一篇圍繞DeepSeek-V3 的技術(shù)論文!標(biāo)題是《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures 》

這篇論文探討了DeepSeek-V3模型在擴(kuò)展過程中面臨的硬件挑戰(zhàn),并提出了一系列硬件與模型協(xié)同設(shè)計(jì)的解決方案。

大家知道,大語言模型(LLM)的快速擴(kuò)展暴露了當(dāng)前硬件架構(gòu)的一些關(guān)鍵局限性,包括內(nèi)存容量、計(jì)算效率和互連帶寬。以DeepSeek-V3 為例,它是在2048 塊NVIDIA H800 GPU 集群上進(jìn)行訓(xùn)練,展示了硬件感知模型協(xié)同設(shè)計(jì)如何高效地應(yīng)對(duì)這些限制,并最終實(shí)現(xiàn)了經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練與推理。

因此,這項(xiàng)新研究并非重復(fù)DeepSeek-V3 的詳細(xì)架構(gòu)和算法細(xì)節(jié),而是從硬件架構(gòu)和模型設(shè)計(jì)的雙重視角,探討它們之間在實(shí)現(xiàn)經(jīng)濟(jì)高效的大規(guī)模訓(xùn)練和推理過程中復(fù)雜的相互作用。通過探究這種協(xié)同作用,研究者旨在提供切實(shí)可行的見解,以洞悉如何在不犧牲性能或可訪問性的情況下高效擴(kuò)展大語言模型。

總的來說,DeepSeek-V3通過硬件感知的模型設(shè)計(jì)(MLA、MoE、FP8)、網(wǎng)絡(luò)優(yōu)化(多平面拓?fù)洌┖退惴▌?chuàng)新(MTP),在有限硬件資源下實(shí)現(xiàn)了高效的大規(guī)模訓(xùn)練與推理。論文進(jìn)一步呼吁學(xué)術(shù)界與工業(yè)界協(xié)同探索下一代硬件架構(gòu),以應(yīng)對(duì)AI負(fù)載的持續(xù)增長(zhǎng)。

更難能可貴的是,這次,DeepSeek創(chuàng)始人梁文峰也是這篇論文的署名作者之一。

我們剛閱讀了論文,下面給大家劃下重點(diǎn):

|一、核心技術(shù)創(chuàng)新

內(nèi)存優(yōu)化

多頭潛在注意力機(jī)制(MLA):通過投影矩陣壓縮注意力頭的Key-Value(KV)緩存,將每令牌的KV緩存從傳統(tǒng)模型的數(shù)百KB降低至70.27 KB(如LLaMA-3.1 405B的516 KB→DeepSeek-V3的70 KB),顯著減少長(zhǎng)上下文推理的內(nèi)存需求。

低精度模型:采用FP8混合精度訓(xùn)練,相比BF16精度,權(quán)重內(nèi)存占用減少50%,同時(shí)通過細(xì)粒度量化(如分塊128×128)緩解硬件累積精度不足的問題。

MoE架構(gòu)的成本效益

DeepSeekMoE:通過稀疏激活專家參數(shù)(如V3的671B參數(shù)中僅激活37B/令牌),實(shí)現(xiàn)計(jì)算資源的高效利用。訓(xùn)練成本為250 GFLOPS/令牌,遠(yuǎn)低于同等性能的密集模型(如LLaMA-405B的2448 GFLOPS/令牌)。

本地部署支持:MoE架構(gòu)允許在消費(fèi)級(jí)GPU服務(wù)器(如$10,000配置)上實(shí)現(xiàn)近20 TPS的推理速度,適合資源受限場(chǎng)景。


推理速度提升

多令牌預(yù)測(cè)(MTP):通過輕量級(jí)模塊并行生成多個(gè)候選令牌,驗(yàn)證接受率達(dá)80%~90%,推理速度提升1.8倍。

計(jì)算-通信重疊:利用雙微批次流水線,將注意力計(jì)算與專家并行通信重疊,最大化硬件利用率。

網(wǎng)絡(luò)與硬件協(xié)同設(shè)計(jì)

多平面Fat-Tree網(wǎng)絡(luò):采用兩層拓?fù)涮娲鷤鹘y(tǒng)三層結(jié)構(gòu),降低集群網(wǎng)絡(luò)成本,支持16,384 GPU擴(kuò)展,同時(shí)隔離流量并提高魯棒性。

低延遲優(yōu)化:結(jié)合InfiniBand GPUDirect Async(IBGDA)繞過CPU代理,端到端延遲降低至微秒級(jí)(如跨交換機(jī)延遲3.7μs)。


|二、硬件瓶頸與未來建議

低精度計(jì)算支持。當(dāng)前FP8訓(xùn)練的硬件限制包括累積精度不足(FP22寄存器)和細(xì)粒度量化的高開銷。未來硬件需支持FP32累積精度和硬件級(jí)量化加速。

擴(kuò)展與擴(kuò)展融合。提出統(tǒng)一網(wǎng)絡(luò)適配器、專用通信協(xié)處理器和動(dòng)態(tài)帶寬分配,以解決NVLink與InfiniBand帶寬差異(如H800的NVLink帶寬400GB/s vs. InfiniBand 50GB/s)導(dǎo)致的通信瓶頸。


網(wǎng)絡(luò)架構(gòu)改進(jìn)。推薦RoCE增強(qiáng):支持自適應(yīng)路由(替代ECMP)、虛擬輸出隊(duì)列(VOQ)和硬件級(jí)擁塞控制,以降低大規(guī)模All-to-All通信的延遲。

內(nèi)存帶寬優(yōu)化。建議采用3D堆疊DRAM(如SeDRAM)或晶圓級(jí)集成(System-on-Wafer),緩解Transformer類模型的內(nèi)存墻問題。

表1 比較了DeepSeek-V3、Qwen-2.5 72B 和LLaMA-3.1 405B 中每個(gè)token 的KV 緩存內(nèi)存占用情況。通過采用MLA,DeepSeek-V3 顯著減少了KV 緩存大小,每個(gè)token 僅需70 KB,遠(yuǎn)低于LLaMA-3.1 405B 的516 KB 和Qwen-2.5 72B 的327 KB。


|三、實(shí)驗(yàn)驗(yàn)證與性能

KV緩存壓縮:MLA將內(nèi)存占用降低至傳統(tǒng)GQA/MQA的1/7(如LLaMA-3.1的7.28倍→DeepSeek-V3 1x)。

訓(xùn)練效率:在2048 H800 GPU集群中,多平面網(wǎng)絡(luò)(MPFT)與多軌網(wǎng)絡(luò)(MRFT)性能持平,模型浮點(diǎn)利用率(MFU)達(dá)43.73%。

推理極限:理論最優(yōu)TPOT為14.76 ms(67 TPS),采用高帶寬互聯(lián)(如GB200 NVL72)可提升至0.82 ms(1200 TPS)。

總之,論文強(qiáng)調(diào)了硬件和模型協(xié)同設(shè)計(jì),在滿足日益增長(zhǎng)的人工智能工作負(fù)載需求方面的關(guān)鍵作用,并為下一代人工智能系統(tǒng)的創(chuàng)新提供了切實(shí)可行的藍(lán)圖。

最后,大家可以一鍵傳送原論文地址:https://arxiv.org/pdf/2505.09343

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為何不許大陸收臺(tái)?特朗普說了實(shí)話:中國(guó)一旦統(tǒng)一,將顛覆全世界

為何不許大陸收臺(tái)?特朗普說了實(shí)話:中國(guó)一旦統(tǒng)一,將顛覆全世界

起喜電影
2025-07-06 13:24:11
五大優(yōu)秀光刻膠供應(yīng)商推薦!久日新材等企業(yè)上榜

五大優(yōu)秀光刻膠供應(yīng)商推薦!久日新材等企業(yè)上榜

青州融媒
2025-07-08 19:02:12
《金瓶梅》西門慶剛死,潘金蓮便告知陳敬濟(jì):“娘今日成全你”

《金瓶梅》西門慶剛死,潘金蓮便告知陳敬濟(jì):“娘今日成全你”

一丈青
2025-07-08 17:11:08
iPhone 17 ProMax等級(jí)森嚴(yán),突然變得離譜了

iPhone 17 ProMax等級(jí)森嚴(yán),突然變得離譜了

搞機(jī)小帝
2025-07-09 00:21:37
細(xì)思極悲,S家的3大謊言全被戳破,原來這才是搶撫養(yǎng)權(quán)的真實(shí)原因

細(xì)思極悲,S家的3大謊言全被戳破,原來這才是搶撫養(yǎng)權(quán)的真實(shí)原因

火之文
2025-07-08 17:14:41
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

老吳教育課堂
2025-07-08 17:09:04
原來我們都被耍了!《以法之名》終極智者:不是江遠(yuǎn),不是柳韻

原來我們都被耍了!《以法之名》終極智者:不是江遠(yuǎn),不是柳韻

喵喵娛樂團(tuán)
2025-07-08 17:42:40
以色列下達(dá)最后通牒,不許售賣殲10?三國(guó)大量采購(gòu)中式武器

以色列下達(dá)最后通牒,不許售賣殲10?三國(guó)大量采購(gòu)中式武器

科技有趣事
2025-07-08 09:40:42
家中香灰別隨意丟棄!觀音菩薩開示:撒在這三處,子孫必出貴人

家中香灰別隨意丟棄!觀音菩薩開示:撒在這三處,子孫必出貴人

第四思維
2025-07-07 13:17:33
央視力挺,康輝點(diǎn)名!接連退賽的全紅嬋,如今的新靠山太“硬”了

央視力挺,康輝點(diǎn)名!接連退賽的全紅嬋,如今的新靠山太“硬”了

墨羽怪談
2025-07-08 14:22:46
外交部回應(yīng)特朗普宣布對(duì)14國(guó)加征關(guān)稅

外交部回應(yīng)特朗普宣布對(duì)14國(guó)加征關(guān)稅

界面新聞
2025-07-08 15:22:04
WTT大滿貫!日本女單0-3出局,王藝迪大爆發(fā),王曼昱次輪對(duì)手出爐

WTT大滿貫!日本女單0-3出局,王藝迪大爆發(fā),王曼昱次輪對(duì)手出爐

知軒體育
2025-07-08 12:31:08
整體跌至“1字頭”,大額存單“失寵了”

整體跌至“1字頭”,大額存單“失寵了”

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-07-08 23:43:25
四川這所高中,本科上線率94.9%的原因是

四川這所高中,本科上線率94.9%的原因是

書中自有顏如玉
2025-07-09 01:50:50
聯(lián)合國(guó)人權(quán)理事會(huì)協(xié)商一致通過中國(guó)主提發(fā)展促人權(quán)決議

聯(lián)合國(guó)人權(quán)理事會(huì)協(xié)商一致通過中國(guó)主提發(fā)展促人權(quán)決議

新華社
2025-07-08 23:43:03
新疆戈壁灘現(xiàn)“安徽太和板面”店,老板:店里有電有自來水,面條15元一碗

新疆戈壁灘現(xiàn)“安徽太和板面”店,老板:店里有電有自來水,面條15元一碗

極目新聞
2025-07-08 18:25:54
一個(gè)瓶蓋引發(fā)Tiktok大戰(zhàn),美國(guó)游客猛夸,歐洲人狂罵!

一個(gè)瓶蓋引發(fā)Tiktok大戰(zhàn),美國(guó)游客猛夸,歐洲人狂罵!

新歐洲
2025-07-08 19:36:54
中日對(duì)決不手軟!3-0霸氣橫掃日本楊丞琳,王藝迪約戰(zhàn)華裔名將

中日對(duì)決不手軟!3-0霸氣橫掃日本楊丞琳,王藝迪約戰(zhàn)華裔名將

釘釘陌上花開
2025-07-08 10:53:39
“領(lǐng)導(dǎo)問你“愿不愿意調(diào)崗”,別說“聽領(lǐng)導(dǎo)安排”,高情商這樣說

“領(lǐng)導(dǎo)問你“愿不愿意調(diào)崗”,別說“聽領(lǐng)導(dǎo)安排”,高情商這樣說

詩(shī)詞中國(guó)
2025-07-08 14:43:13
軍校分?jǐn)?shù)線出爐,國(guó)防科技大學(xué)投檔線最高,最好考的軍校是哪所?

軍校分?jǐn)?shù)線出爐,國(guó)防科技大學(xué)投檔線最高,最好考的軍校是哪所?

金哥說新能源車
2025-07-05 15:05:58
2025-07-09 05:44:49
劃重點(diǎn)KeyPoints incentive-icons
劃重點(diǎn)KeyPoints
追蹤全球AI科技,記錄中國(guó)硬核崛起
45文章數(shù) 10關(guān)注度
往期回顧 全部

科技要聞

余承東回應(yīng)開車"睡覺":平生第一次去自首

頭條要聞

媒體談?dòng)變簣@血鉛事件:嚴(yán)懲到底才能避免事故重演

頭條要聞

媒體談?dòng)變簣@血鉛事件:嚴(yán)懲到底才能避免事故重演

體育要聞

17歲的朱正很好,但他救不了中國(guó)男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創(chuàng)”

財(cái)經(jīng)要聞

新消費(fèi)浪潮下的資本敘事能持續(xù)嗎?

汽車要聞

遵循“極簡(jiǎn)主義” 北京現(xiàn)代ELEXIO發(fā)布內(nèi)飾官圖

態(tài)度原創(chuàng)

家居
時(shí)尚
旅游
數(shù)碼
手機(jī)

家居要聞

簡(jiǎn)約時(shí)尚 返璞歸真之境

顯瘦的夏日通勤搭配,復(fù)古又時(shí)髦!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

AIDA64 發(fā)布 7.70 正式版:首次支持 PCIe 7.0,提前支持 Zen 6

手機(jī)要聞

蘋果全新自研 Wi-Fi 和藍(lán)牙芯片 Proxima 現(xiàn)身 iOS 18 代碼

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 红河县| 永安市| 新泰市| 马关县| 滨海县| 年辖:市辖区| 西青区| 洞口县| 喜德县| 泾源县| 探索| 芷江| 葵青区| 中阳县| 乌拉特中旗| 西乌珠穆沁旗| 洪泽县| 读书| 合阳县| 重庆市| 平阳县| 河北区| 长垣县| 宁安市| 祁连县| 清新县| 佳木斯市| 邢台县| 江安县| 九江县| 衡水市| 若尔盖县| 武陟县| 太白县| 安丘市| 门源| 龙山县| 开鲁县| 蒙山县| 行唐县| 泸溪县|