99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek發(fā)布最新論文,5大殺手锏讓大模型訓(xùn)練、推理暴漲

0
分享至

昨天,全球著名開源大模型平臺DeepSeek在huggingface發(fā)布了,超強(qiáng)開源模型V3的論文。

主要從硬件架構(gòu)和模型設(shè)計(jì)的雙視角探討如何在不犧牲性能的前提下實(shí)現(xiàn)更高效的大規(guī)模訓(xùn)練和推理以突破硬件瓶頸。

其中,DeepSeek-MoE和多頭潛在注意力、FP8混合精度訓(xùn)練以及多標(biāo)記預(yù)測等成為關(guān)鍵創(chuàng)新技術(shù)。


論文地址:https://huggingface.co/papers/2505.09343。

隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等前沿模型的出現(xiàn),對硬件、算力資源的需求快速上升。在內(nèi)存方面,大模型對內(nèi)存資源的需求每年增長超過1000%,但高速內(nèi)存容量的增長速度卻極為緩慢,每年通常不到50%。

這一內(nèi)存供需失衡的問題嚴(yán)重制約了大模型的進(jìn)一步發(fā)展。在計(jì)算效率上,傳統(tǒng)的計(jì)算架構(gòu)難以滿足大規(guī)模模型訓(xùn)練和推理的高效需求。

在互連帶寬方面,現(xiàn)有網(wǎng)絡(luò)架構(gòu)在處理大規(guī)模數(shù)據(jù)傳輸時也面臨著帶寬不足和延遲過高等難題,而DeepSeek-V3通過軟件、硬件創(chuàng)新解決了這些難題。

DeepSeek-MoE和多頭潛在注意力

DeepSeek-MoE充分挖掘了混合專家(MoE)架構(gòu)的潛力,其優(yōu)勢主要體現(xiàn)在兩方面。其一,在訓(xùn)練過程中,通過選擇性地激活專家參數(shù)的子集,MoE模型能夠在大幅增加總參數(shù)數(shù)量的同時保持相對適度的計(jì)算需求。


例如,DeepSeek-V2擁有2360億參數(shù),但每個token僅激活210億參數(shù);而DeepSeek-V3擴(kuò)展到了6710億參數(shù),幾乎是V2的三倍,可每個token的激活量僅為370億。相比之下,像Qwen2.5-720億和LLaMA3.1-4050億等密集模型在訓(xùn)練期間則需要激活所有參數(shù)。

數(shù)據(jù)顯示,DeepSeekV3的總計(jì)算成本約為每token 250 GFLOPS,而720億參數(shù)的密集模型需要394 GFLOPS,4050億參數(shù)的密集模型更是需要2448 GFLOPS。這表明MoE模型在計(jì)算資源消耗量少一個數(shù)量級的情況下,能夠?qū)崿F(xiàn)與密集模型相當(dāng)甚至更優(yōu)的性能。


在個人使用和本地部署場景中,MoE模型同樣展現(xiàn)出獨(dú)特優(yōu)勢。由于每個請求僅激活一小部分參數(shù),內(nèi)存和計(jì)算需求大幅降低。

例如,搭載AISoC芯片的個人電腦,在運(yùn)行DeepSeek-V2(2360億參數(shù))時,推理過程中僅激活210億參數(shù),就能達(dá)到近每秒20個Token甚至更高的速度,這對于個人使用來說已經(jīng)綽綽有余。而類似能力(如700億參數(shù))的密集模型在相同硬件條件下,通常只能達(dá)到個位數(shù)的TPS。

多頭潛在注意力(MLA)架構(gòu)則通過壓縮鍵值(KV)緩存顯著降低了內(nèi)存消耗。它利用投影矩陣將所有注意力頭的KV表示壓縮成一個更小的潛在向量,并與模型聯(lián)合訓(xùn)練。在推理過程中,只需要緩存該潛在向量,與存儲所有注意力頭的KV緩存相比,大大減少了內(nèi)存占用。

通過采用MLA,DeepSeek-V3顯著減少了KV緩存大小,每個token僅需70KB,遠(yuǎn)低于LLaMA-3.1 4050億參數(shù)模型的516KB和Qwen-2.5 720億參數(shù)模型的327KB。


此外,為進(jìn)一步減小KV緩存的大小,DeepSeek還提出了多種方法。例如共享KV,即多個注意力頭共享一組KV配對,以顯著壓縮KV存儲,代表性方法包括GQA和MQA;

窗口KV,對于長序列,僅在緩存中保留KV配對的滑動窗口;量化壓縮,使用low-bit存儲KV配對,進(jìn)一步減少內(nèi)存使用。

FP8混合精度訓(xùn)練方法

在訓(xùn)練技術(shù)方面,DeepSeek-V3引入了FP8混合精度訓(xùn)練技術(shù),這在保證模型質(zhì)量的同時大幅降低了計(jì)算成本,使得大規(guī)模訓(xùn)練更加經(jīng)濟(jì)可行。雖然GPTQ和AWQ等量化技術(shù)已將位寬減少到8位、4位甚至更低,但這些技術(shù)主要應(yīng)用于推理階段以節(jié)省內(nèi)存,在訓(xùn)練階段的應(yīng)用相對較少。在DeepSeek-V3之前,幾乎沒有利用FP8進(jìn)行訓(xùn)練的開源大型模型。

DeepSeek通過基礎(chǔ)設(shè)施和算法團(tuán)隊(duì)之間的深度合作,為MoE模型開發(fā)了與FP8兼容的訓(xùn)練框架,在訓(xùn)練管道中使用FP8精度的前向和后向過程計(jì)算組件。然而,要充分發(fā)揮FP8在加速訓(xùn)練方面的巨大潛力,還需要解決一些硬件限制。


例如,F(xiàn)P8在Tensor Core中使用約束累加精度,這會影響訓(xùn)練大型模型的穩(wěn)定性;細(xì)粒度量化在傳輸部分結(jié)果時會引入大量的反量化開銷,導(dǎo)致頻繁的數(shù)據(jù)移動,降低計(jì)算效率并使硬件利用率復(fù)雜化。

針對這些問題,DeepSeek也對未來硬件設(shè)計(jì)提出了相應(yīng)建議。在提高累積精度方面,硬件應(yīng)改進(jìn)并調(diào)整Accumulation Register精度到適當(dāng)?shù)闹担ㄈ鏔P32),或支持可配置的Accumulation Precision;

在對原生細(xì)粒度量化的支持方面,硬件應(yīng)支持原生細(xì)粒度量化,使Tensor Core能夠接收縮放因子并通過組縮放實(shí)現(xiàn)矩陣乘法,避免頻繁的數(shù)據(jù)移動以減少去量化開銷。

在網(wǎng)絡(luò)通信環(huán)節(jié),DeepSeek-V3架構(gòu)采用低精度壓縮進(jìn)行網(wǎng)絡(luò)通信。在EP并行期間,使用細(xì)粒度的FP8量化來調(diào)度令牌,與BF16相比,通信量減少了50%,顯著縮短了通信時間。DeepSeek建議,為FP8或自定義精度格式定制的壓縮和解壓縮單元提供本機(jī)支持,是未來硬件的可行發(fā)展方向,這有助于最大限度地減少帶寬需求并簡化通信管道,大幅提升MoE訓(xùn)練等帶寬密集型任務(wù)的效率。

多標(biāo)記預(yù)測

在傳統(tǒng)的自回歸語言模型中,推理過程是逐個生成標(biāo)記的。每次生成一個標(biāo)記后,模型需要根據(jù)已生成的上下文信息來預(yù)測下一個標(biāo)記。這種順序生成的方式雖然能夠保證生成的連貫性和準(zhǔn)確性,但其推理速度受限于每個標(biāo)記的生成時間。隨著模型規(guī)模的增大和上下文長度的增加,這種順序生成的方式會顯著降低推理效率,尤其是在需要快速生成長文本的場景中。

為了克服這一瓶頸,DeepSeek-V3引入了多標(biāo)記預(yù)測(MTP)框架。該框架允許模型在每個推理步驟中同時生成多個候選標(biāo)記,而不是僅僅生成一個標(biāo)記,這些候選標(biāo)記可以并行計(jì)算和驗(yàn)證,從而顯著減少了生成整個序列所需的時間。

MTP框架通過引入多個輕量級的預(yù)測模塊來實(shí)現(xiàn)這一目標(biāo),每個預(yù)測模塊負(fù)責(zé)生成一個特定位置的標(biāo)記。例如,在生成當(dāng)前標(biāo)記的同時,MTP模塊可以預(yù)測下一個標(biāo)記、下下個標(biāo)記等,這些預(yù)測模塊共享模型的上下文信息,但各自獨(dú)立生成標(biāo)記。通過這種方式,模型能夠在一次推理步驟中生成多個標(biāo)記,而不是逐個生成。

生成多個候選標(biāo)記后,MTP框架會通過并行驗(yàn)證來確定哪些候選標(biāo)記是合理的。這一過程利用了模型的上下文信息和已生成的標(biāo)記,通過一系列的驗(yàn)證步驟來評估每個候選標(biāo)記的合理性,最終模型會選擇最合適的標(biāo)記作為輸出。

實(shí)驗(yàn)數(shù)據(jù)顯示,MTP模塊在預(yù)測下一個標(biāo)記時的接受率高達(dá)80%至90%,這意味著大多數(shù)情況下,模型能夠準(zhǔn)確預(yù)測下一個標(biāo)記,從而顯著提高了推理速度。

多平面雙層胖樹網(wǎng)絡(luò)降低算力集群成本

在AI基礎(chǔ)設(shè)施方面,DeepSeek為了降低集群網(wǎng)絡(luò)成本,使用多平面雙層胖樹網(wǎng)絡(luò),取代了傳統(tǒng)的三層胖樹拓?fù)浣Y(jié)構(gòu)。

在DeepSeek-V3的訓(xùn)練過程中,部署了一個多平面胖樹(MPFT)橫向擴(kuò)展網(wǎng)絡(luò)。每個節(jié)點(diǎn)配備8臺GPU和8個IB網(wǎng)卡,每個GPU-網(wǎng)卡對分配到不同的網(wǎng)絡(luò)平面。此外,每個節(jié)點(diǎn)還配備一個400 Gbps以太網(wǎng)RoCE網(wǎng)卡,連接到單獨(dú)的存儲網(wǎng)絡(luò)平面,用于訪問3FS分布式文件系統(tǒng)。

在橫向擴(kuò)展網(wǎng)絡(luò)中,使用了64端口400G IB交換機(jī),該拓?fù)淅碚撋献疃嗫芍С?6,384臺GPU,同時保留了雙層網(wǎng)絡(luò)的成本和延遲優(yōu)勢,但受政策和監(jiān)管限制,最終部署的GPU數(shù)量為2048臺。


由于IB ConnectX-7目前存在局限性,DeepSeek部署的MPFT網(wǎng)絡(luò)未能完全實(shí)現(xiàn)預(yù)期架構(gòu)。理想情況下,每個網(wǎng)卡(NIC)應(yīng)具有多個物理端口,每個端口連接到單獨(dú)的網(wǎng)絡(luò)平面,但通過端口綁定,共同作為單個邏輯接口向用戶公開。

從用戶角度看,單個隊(duì)列對(QP)可以在所有可用端口之間無縫地發(fā)送和接收消息,類似于數(shù)據(jù)包噴射。因此,來自同一QP的數(shù)據(jù)包可能會穿越不同的網(wǎng)絡(luò)路徑,并以無序方式到達(dá)接收方,這就需要網(wǎng)卡內(nèi)原生支持無序布局,以保證消息一致性并保留正確的排序語義。

例如,InfiniBand ConnectX-8原生支持四平面。若未來的網(wǎng)卡能夠完全支持高級多平面功能,雙層胖樹網(wǎng)絡(luò)將能更有效地?cái)U(kuò)展到更大的AI集群。總體而言,多平面架構(gòu)在故障隔離、穩(wěn)健性、負(fù)載均衡和大規(guī)模系統(tǒng)可擴(kuò)展性方面具有顯著優(yōu)勢。

低延遲網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化

在模型推理過程中,大規(guī)模EP嚴(yán)重依賴all-to-all通信,而這種通信對帶寬和延遲都極為敏感。例如,在50GB/s的網(wǎng)絡(luò)帶寬下,理想情況下數(shù)據(jù)傳輸大約需要120微秒,因此,微秒級的固有網(wǎng)絡(luò)延遲會對系統(tǒng)性能產(chǎn)生嚴(yán)重影響,不容忽視。

為降低網(wǎng)絡(luò)通信延遲,DeepSeek選用了InfiniBand GPUDirect Async(IBGDA)。傳統(tǒng)網(wǎng)絡(luò)通信需要創(chuàng)建CPU代理線程:GPU準(zhǔn)備好數(shù)據(jù)后,需通知CPU代理,然后CPU代理填充工作請求(WR)的控制信息,并通過門鈴機(jī)制向NIC發(fā)出信號以啟動數(shù)據(jù)傳輸,這一過程會帶來額外的通信開銷。


而IBGDA允許GPU直接填充WR內(nèi)容并寫入RDMA門鈴MMIO地址,通過在GPU內(nèi)部管理整個控制平面,消除了與GPU-CPU通信相關(guān)的顯著延遲開銷。此外,在發(fā)送大量小數(shù)據(jù)包時,控制平面處理器容易成為瓶頸,而GPU具有多個并行線程,發(fā)送方可以利用這些線程分配工作負(fù)載,從而避免此類瓶頸。

包括DeepSeek的DeepEP在內(nèi)的一系列工作都利用了IBGDA,并報(bào)告取得了顯著的性能提升,因此,DeepSeek提倡在各種加速器設(shè)備上廣泛支持此類功能。

雖然IB在延遲性能上優(yōu)于基于融合以太網(wǎng)的RDMA(RoCE),是分布式訓(xùn)練和推理等延遲敏感型工作負(fù)載的首選,但它也存在成本較高和擴(kuò)展性方面的問題。RoCE雖有可能成為IB的經(jīng)濟(jì)高效替代方案,但其目前在延遲和可擴(kuò)展性方面的限制,使其尚無法完全滿足大規(guī)模AI系統(tǒng)的需求。

為此,DeepSeek給出了一些改進(jìn)RoCE的具體建議,包括使用專用低延遲RoCE交換機(jī)、優(yōu)化路由策略、改進(jìn)流量隔離或擁塞控制機(jī)制等。

本文素材來源DeepSeek,如有侵權(quán)請聯(lián)系刪除

報(bào)告下載

大 佬觀點(diǎn)分享

關(guān)于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點(diǎn)擊文字即可閱讀)

| |

| | |


| | |

| | |

| |

行業(yè)知識交流分享,結(jié)識擴(kuò)展人脈圈層

公眾號后臺回復(fù)【RPA】或者【流程挖掘】

可受邀加入相關(guān)的交流群

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
卡魯索:我現(xiàn)在有一枚真正的總冠軍戒指了 沒人能再說什么了

卡魯索:我現(xiàn)在有一枚真正的總冠軍戒指了 沒人能再說什么了

直播吧
2025-06-23 12:28:20
中國女籃要來雨花比賽啦!今晚8點(diǎn),第二次放票!

中國女籃要來雨花比賽啦!今晚8點(diǎn),第二次放票!

蘭亭墨未干
2025-06-23 13:54:03
改名不影響熱度!《撈女游戲》Steam在線玩家超4萬

改名不影響熱度!《撈女游戲》Steam在線玩家超4萬

游民星空
2025-06-21 16:58:42
“不想同化,就別移民!”新西蘭爆發(fā)游行,他們?nèi)砗谝?,?dāng)眾焚燒旗幟

“不想同化,就別移民!”新西蘭爆發(fā)游行,他們?nèi)砗谝拢?dāng)眾焚燒旗幟

發(fā)現(xiàn)新西蘭
2025-06-23 13:24:51
河北一鋼鐵公司宣布解散!

河北一鋼鐵公司宣布解散!

掌中邯鄲
2025-06-22 11:04:44
8年燒光927億,市值暴跌89.2%!蔚來金主割肉離場?

8年燒光927億,市值暴跌89.2%!蔚來金主割肉離場?

體制內(nèi)老陳
2025-06-23 12:19:38
美記:步行者四名首發(fā)都已簽下合同,所以跡象都表明將與特納完成續(xù)約

美記:步行者四名首發(fā)都已簽下合同,所以跡象都表明將與特納完成續(xù)約

雷速體育
2025-06-23 13:43:24
雷霆奪冠總結(jié):亞歷山大率隊(duì)時隔46年第2冠 陣容合理有望建王朝

雷霆奪冠總結(jié):亞歷山大率隊(duì)時隔46年第2冠 陣容合理有望建王朝

醉臥浮生
2025-06-23 10:47:18
全總副主席、書記處書記金善文已任中央和國家機(jī)關(guān)工委副書記

全總副主席、書記處書記金善文已任中央和國家機(jī)關(guān)工委副書記

澎湃新聞
2025-06-23 10:20:27
罵聲一片!樊振東德甲門票6000一張賣爆國外,國乒老將發(fā)聲力挺

罵聲一片!樊振東德甲門票6000一張賣爆國外,國乒老將發(fā)聲力挺

二月侃事
2025-06-23 11:44:12
難以置信!壽光一刑滿釋放人員稱,出來后電話卡、微信全都辦不了

難以置信!壽光一刑滿釋放人員稱,出來后電話卡、微信全都辦不了

火山詩話
2025-06-22 15:15:08
港民買65寸電視不讓本地退,一路扛回內(nèi)地退貨

港民買65寸電視不讓本地退,一路扛回內(nèi)地退貨

寒士之言本尊
2025-06-21 12:07:48
于漢超、李帥沖突原因揭秘!滬媒:因李帥的一句肺腑之言

于漢超、李帥沖突原因揭秘!滬媒:因李帥的一句肺腑之言

建哥說體育
2025-06-23 06:42:05
美軍表示,如果東大對臺發(fā)動武統(tǒng)并劃設(shè)禁航區(qū),美方將擊沉氣軍艦

美軍表示,如果東大對臺發(fā)動武統(tǒng)并劃設(shè)禁航區(qū),美方將擊沉氣軍艦

小企鵝侃世界
2025-06-20 22:48:27
新血壓標(biāo)準(zhǔn)已調(diào)整,不再是120/80mmHg!血壓高者應(yīng)自查,維護(hù)健康

新血壓標(biāo)準(zhǔn)已調(diào)整,不再是120/80mmHg!血壓高者應(yīng)自查,維護(hù)健康

手機(jī)殼測試
2025-03-12 20:48:08
沖刺開業(yè),已在招商!王思聰選擇退出,此前官宣總投資37億元,還和市委書記面談!何猷君接盤,他將王思聰視作榜樣

沖刺開業(yè),已在招商!王思聰選擇退出,此前官宣總投資37億元,還和市委書記面談!何猷君接盤,他將王思聰視作榜樣

每日經(jīng)濟(jì)新聞
2025-06-23 11:51:09
確認(rèn)了!哈利伯頓最新傷情進(jìn)展!NBA季后賽又一球星倒下

確認(rèn)了!哈利伯頓最新傷情進(jìn)展!NBA季后賽又一球星倒下

籃球?qū)崙?zhàn)寶典
2025-06-23 09:50:12
去了趟遼寧大連,真心建議:不要隨便去遼寧大連,除非你知道這些

去了趟遼寧大連,真心建議:不要隨便去遼寧大連,除非你知道這些

悠閑歷史
2025-06-23 11:02:57
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
內(nèi)蒙古官員違規(guī)吃喝致醫(yī)生死亡,還喝了二場,醫(yī)院發(fā)文 “悼念”

內(nèi)蒙古官員違規(guī)吃喝致醫(yī)生死亡,還喝了二場,醫(yī)院發(fā)文 “悼念”

老貓觀點(diǎn)
2025-06-23 13:03:41
2025-06-23 17:08:49
RPA中國 incentive-icons
RPA中國
RPA行業(yè)生態(tài)平臺
2695文章數(shù) 1247關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊(duì)魂

娛樂要聞

魏大勛和秦嵐沒分手!

財(cái)經(jīng)要聞

關(guān)稅重磅!美國宣布,今起加征

汽車要聞

單電機(jī)200kW 奔馳純電長軸距CLA申報(bào)信息曝光

態(tài)度原創(chuàng)

健康
教育
數(shù)碼
手機(jī)
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

上海2025年本科錄取分?jǐn)?shù)線公布!402分!

數(shù)碼要聞

洗碗機(jī)要成“剛需”了 618銷量暴增

手機(jī)要聞

榮耀 Magic V5 真機(jī)外觀曝光,7 月 2 日發(fā)布

軍事要聞

伊朗:即便核設(shè)施被毀 游戲也遠(yuǎn)未結(jié)束

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 虞城县| 仁寿县| 手游| 鄱阳县| 南丹县| 翼城县| 通辽市| 古蔺县| 宿迁市| 东明县| 尼勒克县| 开原市| 三门峡市| 石城县| 衡阳县| 东平县| 商城县| 舞钢市| 阳新县| 乌恰县| 巍山| 壶关县| 大名县| 长白| 银川市| 乃东县| 龙江县| 洪泽县| 益阳市| 龙陵县| 汝阳县| 共和县| 惠水县| 绍兴市| 乌兰县| 南丰县| 山西省| 仪陇县| 昆山市| 华阴市| 新沂市|