99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

梁文鋒署名DeepSeek新論文:公開V3大模型降本方法

0
分享至

作者 | 金磊 不圓

梁文鋒親自參與的DeepSeek最新論文,來了!

這一次,團(tuán)隊(duì)把DeepSeek-V3在訓(xùn)練和推理過程中,如何解決“硬件瓶頸”的方法公布了出來。


具體而言,DeepSeek-V3之所以可以只用2048塊H800,就能達(dá)到超大規(guī)模集群(如數(shù)萬塊GPU)相當(dāng)?shù)挠?xùn)練效果,核心在于四項(xiàng)創(chuàng)新技術(shù)

  • 內(nèi)存優(yōu)化

    多頭潛在注意力(MLA)

  • 計(jì)算優(yōu)化

    混合專家模型(MoE)與FP8低精度訓(xùn)練

  • 通信優(yōu)化

    多層網(wǎng)絡(luò)拓?fù)渑c低延遲設(shè)計(jì)

  • 推理加速

    多token預(yù)測(MTP)


那么這四項(xiàng)優(yōu)化具體又是如何起到作用的,我們繼續(xù)往下看。

軟硬件協(xié)同的優(yōu)化設(shè)計(jì)

在訓(xùn)練大模型這條路上,可以說一直有“三座大山”在占道。

首先就是內(nèi)存不夠用

現(xiàn)在的大語言模型(比如GPT、Llama)變得越來越龐大,需要的存儲(chǔ)空間激增。特別是它們使用的“注意力機(jī)制”會(huì)產(chǎn)生大量臨時(shí)數(shù)據(jù)(KV Cache),占用大量顯卡內(nèi)存。

但高性能顯存的容量增長太慢了,每年才增加不到50%,遠(yuǎn)遠(yuǎn)跟不上需求。

其次是計(jì)算效率低

訓(xùn)練超大規(guī)模模型需要海量計(jì)算資源,傳統(tǒng) “稠密模型”(如 Llama-3)每次計(jì)算都要激活所有參數(shù),導(dǎo)致計(jì)算成本極高。

而 “混合專家模型”(MoE)雖然更高效,但需要復(fù)雜的通信機(jī)制(如專家間數(shù)據(jù)傳輸),對網(wǎng)絡(luò)帶寬要求極高。

最后就是通信速度慢

當(dāng)使用多個(gè)GPU一起訓(xùn)練時(shí),它們之間需要不斷交換數(shù)據(jù),這個(gè)過程會(huì)產(chǎn)生延遲。即使用了高速網(wǎng)絡(luò)(如InfiniBand),這種延遲仍然會(huì)拖慢整體訓(xùn)練速度,尤其是處理長文本或需要實(shí)時(shí)響應(yīng)時(shí)更明顯。

而這篇論文所要解決的,正是上述的這些老大難的問題。


△DeepSeek-V3的基本架構(gòu)

DeepSeek團(tuán)隊(duì)首先是對內(nèi)存進(jìn)行了優(yōu)化,所采用的方法則是多頭潛在注意力(MLA),為的就是減少 “鍵值緩存”(KV Cache)的內(nèi)存占用。

傳統(tǒng)模型每個(gè)注意力頭都需要獨(dú)立緩存鍵值對,而MLA通過投影矩陣將所有頭的鍵值對壓縮成一個(gè)更小的 “潛在向量”,只需緩存這一向量。

相比其他模型(如LLaMA-3、Qwen-2.5),DeepSeek-V3的KV緩存大小每token僅需70 KB,是傳統(tǒng)方法的1/7到1/4,大幅降低顯存壓力,尤其適合長文本處理。

計(jì)算優(yōu)化方面,DeepSeek-V3所采用的方法,則是MoEFP8低精度訓(xùn)練

MoE,即將模型參數(shù)分成多個(gè) “專家”,每次只激活部分專家處理輸入,顯著減少實(shí)際計(jì)算量。

DeepSeek-V3采用類似的思路,其總參數(shù)雖然是6710億,但每次僅激活370億參數(shù),訓(xùn)練成本僅為同規(guī)模稠密模型的1/10(如Llama-3.1的訓(xùn)練成本是其近10倍)。

也正因推理時(shí)激活參數(shù)少,DeepSeek-V3可在消費(fèi)級GPU(如售價(jià)1萬美元的顯卡)上運(yùn)行,每秒生成近20個(gè)token,適合個(gè)人或中小型企業(yè)使用。


至于FP8低精度訓(xùn)練,不同于傳統(tǒng)訓(xùn)練使用BF16(16 位浮點(diǎn)),可將內(nèi)存占用和計(jì)算量減半,同時(shí)通過 “精細(xì)量化”(如分塊壓縮)保持精度。

而DeepSeek-V3是首次在開源大模型中成功應(yīng)用FP8訓(xùn)練,訓(xùn)練成本降低50%,且精度損失小于0.25%。


除此之外,DeepSeek-V3在通信方面也做了相應(yīng)的優(yōu)化。

例如多層胖樹網(wǎng)絡(luò)(Multi-Plane Fat-Tree),將集群網(wǎng)絡(luò)分為多個(gè) “平面”,每個(gè)GPU連接到獨(dú)立的網(wǎng)絡(luò)平面,避免不同任務(wù)的流量沖突(如訓(xùn)練與存儲(chǔ)通信分離)。

相比傳統(tǒng)三層網(wǎng)絡(luò),兩層結(jié)構(gòu)成本降低40%,延遲減少30%,支持上萬GPU擴(kuò)展。


DeepSeek-V3在做推理時(shí),還將 “注意力計(jì)算” 與 “專家間通信” 分階段執(zhí)行,利用流水線并行(DualPipe)讓GPU在計(jì)算時(shí)同時(shí)傳輸數(shù)據(jù),避免空閑等待,吞吐量提升近1倍。

最后,在推理加速方面,DeepSeek-V3采用的是多token預(yù)測(MTP)的方法。

傳統(tǒng)模型每次只能生成1個(gè)token,而MTP通過輕量級子模型并行預(yù)測多個(gè)候選token(如一次預(yù)測2-3個(gè)),驗(yàn)證后選擇最優(yōu)結(jié)果。

從實(shí)驗(yàn)效果來看,生成速度提升1.8倍,例如每秒生成 oken數(shù)從10個(gè)增至18個(gè),同時(shí)保持準(zhǔn)確率在80%-90%。

以上就是DeepSeek-V3通過硬件與模型的協(xié)同設(shè)計(jì),在有限資源下可以實(shí)現(xiàn)高效訓(xùn)練和推理的關(guān)鍵技術(shù)了。

不過除此之外,這篇論文還對未來的工作有著一定的啟發(fā)作用。

從 “被動(dòng)適配” 到 “主動(dòng)設(shè)計(jì)”

既然已經(jīng)知道了當(dāng)前AI在硬件上的瓶頸,就可以提出對下一代AI硬件的期待。

DeepSeek團(tuán)隊(duì)從五大維度做出了展望,希望在這一方面能夠從過去的“被動(dòng)適配”逐步過渡到“主動(dòng)設(shè)計(jì)”。

01

低精度計(jì)算支持

針對計(jì)算效率低的問題,下一代的AI硬件需要提高累積寄存器的精度,支持FP32累加,或可配置精度(如訓(xùn)練用FP32,推理用FP16)。這樣才能在不同的模型訓(xùn)練和推理需求中實(shí)現(xiàn)性能和準(zhǔn)確性的平衡。

硬件還需要支持本地的細(xì)粒度量化,使張量核心能夠直接接收縮放因子(scaling factors),在計(jì)算單元內(nèi)部完成量化和反量化,減少數(shù)據(jù)搬運(yùn)。

此外,建議支持LogFMT(對數(shù)浮點(diǎn)格式),在相同比特寬度下提供更高精度,并提高編解碼的速度。

02

擴(kuò)展與擴(kuò)展融合

針對傳輸速度慢的問題,建議未來的硬件將節(jié)點(diǎn)內(nèi)(縱向擴(kuò)展)和節(jié)點(diǎn)間(橫向擴(kuò)展)的通信整合到一個(gè)統(tǒng)一的框架中,通過集成專門用于網(wǎng)絡(luò)流量管理的協(xié)處理器。

這樣的設(shè)計(jì)可以降低軟件復(fù)雜性并最大化帶寬利用率,包括以下內(nèi)容:

統(tǒng)一網(wǎng)絡(luò)適配器

設(shè)計(jì)連接到統(tǒng)一擴(kuò)展和縮減網(wǎng)絡(luò)的NIC(網(wǎng)絡(luò)接口卡)或I/O芯片,讓網(wǎng)卡直接支持所有通信需求。

專用通信協(xié)處理器

將數(shù)據(jù)搬運(yùn)、Reduce、類型轉(zhuǎn)換等任務(wù)卸載到專用硬件,釋放GPU SM資源。

增加智能傳輸功能

自動(dòng)轉(zhuǎn)發(fā)數(shù)據(jù),支持廣播和匯總操作,并自動(dòng)處理數(shù)據(jù)順序問題。

動(dòng)態(tài)帶寬分配

支持流量優(yōu)先級調(diào)度(如EP通信>KV緩存?zhèn)鬏敚?/p>

CPU-FPU高速互聯(lián)

用NVLink連接CPU與GPU,進(jìn)一步優(yōu)化節(jié)點(diǎn)內(nèi)通訊。

03

網(wǎng)絡(luò)拓?fù)鋬?yōu)化

針對網(wǎng)絡(luò)卡頓的問題,建議以太網(wǎng)供應(yīng)商開發(fā)專門針對RDMA工作負(fù)載進(jìn)行優(yōu)化的RoCE交換機(jī),移除不必要的以太網(wǎng)功能。

還需要優(yōu)化路由策略,支持自適應(yīng)路由(Adaptive Routing,AR)通過動(dòng)態(tài)向多個(gè)路徑發(fā)送數(shù)據(jù)包,即可顯著提高網(wǎng)絡(luò)性能。

或者可以通過虛擬輸出隊(duì)列(VOQ)改進(jìn)流量隔離或擁塞控制機(jī)制,隔離不同流量,避免擁塞。

04

內(nèi)存系統(tǒng)優(yōu)化

針對AI模型記性越來越差,聊天時(shí)難以記住上下文的問題,可以通過3D堆疊DRAM的方法,把內(nèi)存芯片像三明治一樣疊在計(jì)算芯片上。

或者學(xué)習(xí)Cerebras,直接在晶圓上進(jìn)行集成工程,最大化內(nèi)存帶寬和計(jì)算密度,讓硬件能記得更多。

又或者,在硬件存儲(chǔ)層部署稀疏注意力加速器,讓硬件直接幫忙整理記憶,只記重點(diǎn)。

05

魯棒性與容錯(cuò)

針對大規(guī)模訓(xùn)練中網(wǎng)絡(luò)閃斷、GPU故障會(huì)導(dǎo)致任務(wù)失敗的問題,期待下一代硬件能夠支持鏈路層重試快速故障切換,在閃斷后能夠立刻自己找備用路線。

還可以增加基于信用的流控(CBFC)+智能擁塞控制算法(如RTT-CC),避免網(wǎng)絡(luò)集體卡死。

簡單來說,下一代AI硬件要向算數(shù)快(低精度計(jì)算+本地細(xì)粒度量化)、傳話快(直連網(wǎng)絡(luò)+智能路由)、記性好(3D內(nèi)存+近存計(jì)算)、不宕機(jī)(自愈網(wǎng)絡(luò))的方向改進(jìn),才能更好地應(yīng)用于大模型訓(xùn)練,實(shí)現(xiàn)高效擴(kuò)展。

論文地址:https://arxiv.org/pdf/2505.09343

>End

本文轉(zhuǎn)載自“量子位”,原標(biāo)題《梁文鋒署名DeepSeek新論文:公開V3大模型降本方法》。

為分享前沿資訊及有價(jià)值的觀點(diǎn),太空與網(wǎng)絡(luò)微信公眾號轉(zhuǎn)載此文,并經(jīng)過編輯。

未按照規(guī)范轉(zhuǎn)載及引用者,我們保留追究相應(yīng)責(zé)任的權(quán)利

部分圖片難以找到原始出處,故文中未加以標(biāo)注,如若侵犯了您的權(quán)益,請第一時(shí)間聯(lián)系我們。

HISTORY/往期推薦

充滿激情的新時(shí)代,

充滿挑戰(zhàn)的新疆域,

與踔厲奮發(fā)的引領(lǐng)者,

卓爾不群的企業(yè)家,

一起開拓,

一起體驗(yàn),

一起感悟,

共同打造更真品質(zhì),

共同實(shí)現(xiàn)更高價(jià)值,

共同見證商業(yè)航天更大的跨越!

——《太空與網(wǎng)絡(luò)》,觀察,記錄,傳播,引領(lǐng)。

·《衛(wèi)星與網(wǎng)絡(luò)》創(chuàng)始人:劉雨菲

·《衛(wèi)星與網(wǎng)絡(luò)》副社長:王俊峰

·微信公眾號(ID:satnetdy)團(tuán)隊(duì)

編輯:艷玲、哈玫,周泳、邱莉、黃榕、娜娜

主筆記者:李剛、魏興、張雪松、霍劍、樂瑜、稻子、趙棟

策劃部:楊艷、若?、李真子

視覺總監(jiān):董濘

專業(yè)攝影:馮小京、宋偉

設(shè)計(jì)部:顧錳、潘希峎、楊小明

行政部:姜河、林紫

業(yè)務(wù)部:王錦熙、瑾怡

原創(chuàng)文章轉(zhuǎn)載授權(quán)、轉(zhuǎn)載文章侵權(quán)、投稿等事宜,請加微信:15910858067

商務(wù)合作;展覽展廳設(shè)計(jì)、企業(yè)VI/CI及室內(nèi)設(shè)計(jì)、企業(yè)文化建設(shè)及品牌推廣;企業(yè)口碑傳播及整體營銷傳播等,請加微信:13811260603

雜志訂閱,請加微信:wangxiaoyu9960

·衛(wèi)星與網(wǎng)絡(luò)各分部:

成都分部負(fù)責(zé)人:沈淮

長沙分部負(fù)責(zé)人:賓鴻浦

西安分部負(fù)責(zé)人:郭朝暉

青島分部負(fù)責(zé)人:江偉

·衛(wèi)星與網(wǎng)絡(luò)總部負(fù)責(zé)人:農(nóng)燕

·會(huì)議活動(dòng)部負(fù)責(zé)人喬顥益、許克新、董今福

· 投融資及戰(zhàn)略層面合作:劉雨菲

·本平臺簽約設(shè)計(jì)公司:一畫開天(北京)文化創(chuàng)意設(shè)計(jì)有限公司

· 航天加(深圳)股權(quán)投資基金管理負(fù)責(zé)人:楊艷

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
樊振東社媒曬抵達(dá)歐冠決賽現(xiàn)場照:早上好,慕尼黑!

樊振東社媒曬抵達(dá)歐冠決賽現(xiàn)場照:早上好,慕尼黑!

直播吧
2025-05-31 15:37:19
打鼓擾民最新后續(xù):警方回應(yīng),綠衣大媽日常被扒,知情人透露更多

打鼓擾民最新后續(xù):警方回應(yīng),綠衣大媽日常被扒,知情人透露更多

鋭娛之樂
2025-05-30 17:14:29
我不顧反對娶了35歲剩女,新婚夜我發(fā)現(xiàn)她的秘密,才知她剩下原因

我不顧反對娶了35歲剩女,新婚夜我發(fā)現(xiàn)她的秘密,才知她剩下原因

歷史八卦社
2025-05-25 22:45:00
殲-50最新照片曝光:機(jī)體底部較為清晰,其實(shí)“腹溝”并不明顯

殲-50最新照片曝光:機(jī)體底部較為清晰,其實(shí)“腹溝”并不明顯

國平視野
2025-05-31 20:49:57
油價(jià)大跌超1.08元/升,92號汽油“跌到6元時(shí)代”,端午油價(jià)創(chuàng)新低

油價(jià)大跌超1.08元/升,92號汽油“跌到6元時(shí)代”,端午油價(jià)創(chuàng)新低

油價(jià)早知道
2025-05-31 00:41:45
為啥不許大陸收臺?特朗普說了實(shí)話:中國一旦統(tǒng)一,將顛覆全世界

為啥不許大陸收臺?特朗普說了實(shí)話:中國一旦統(tǒng)一,將顛覆全世界

Ck的蜜糖
2025-05-17 01:37:04
高人氣!37589名球迷現(xiàn)場見證鐵西體育場改造后首秀

高人氣!37589名球迷現(xiàn)場見證鐵西體育場改造后首秀

直播吧
2025-05-31 22:16:53
這上座率蘇超聯(lián)賽球市持續(xù)火爆,第二輪場均觀眾已超中甲

這上座率蘇超聯(lián)賽球市持續(xù)火爆,第二輪場均觀眾已超中甲

直播吧
2025-05-31 16:20:13
維拉蒂:巴黎改變了風(fēng)格,并且請來了一位非常有能力的教練

維拉蒂:巴黎改變了風(fēng)格,并且請來了一位非常有能力的教練

直播吧
2025-06-01 02:52:47
準(zhǔn)公務(wù)員禍從口出!涉事女生長相甜美,因發(fā)極端言論被終止資格…

準(zhǔn)公務(wù)員禍從口出!涉事女生長相甜美,因發(fā)極端言論被終止資格…

火山詩話
2025-05-28 06:22:25
中央定調(diào),延遲退休實(shí)施!71至75年生人,提前退休養(yǎng)老金少多少?

中央定調(diào),延遲退休實(shí)施!71至75年生人,提前退休養(yǎng)老金少多少?

王五說說看
2025-05-30 07:21:28
當(dāng)年舉報(bào)畢福劍的那位告密者張清:眾叛親離,過得好慘

當(dāng)年舉報(bào)畢福劍的那位告密者張清:眾叛親離,過得好慘

新興網(wǎng)評
2024-12-11 21:02:46
在中文版“暗網(wǎng)”上,能買到多禁忌的服務(wù)?

在中文版“暗網(wǎng)”上,能買到多禁忌的服務(wù)?

ONE·一個(gè)
2025-05-22 13:26:49
突發(fā)!飛往深圳航班,緊急返航

突發(fā)!飛往深圳航班,緊急返航

東莞好生活
2025-05-31 21:59:55
“買時(shí)肉疼,用完離不開了”,這6個(gè)家電,掏空錢包也要添置上

“買時(shí)肉疼,用完離不開了”,這6個(gè)家電,掏空錢包也要添置上

室內(nèi)設(shè)計(jì)師有料兒
2025-05-15 11:11:35
全新五菱星光EV上市,10萬級純電續(xù)航610km

全新五菱星光EV上市,10萬級純電續(xù)航610km

云堆汽車
2025-05-31 23:38:36
遼寧省2025年三大養(yǎng)老金計(jì)發(fā)基數(shù)會(huì)升為多少?養(yǎng)老金怎么算?

遼寧省2025年三大養(yǎng)老金計(jì)發(fā)基數(shù)會(huì)升為多少?養(yǎng)老金怎么算?

暖心人社
2025-05-31 23:52:52
日本奈良小鹿當(dāng)街搶中國游客包,飛腳踹人后攜包狂奔!當(dāng)事人:錢包和護(hù)照都丟了,心理傷害很大

日本奈良小鹿當(dāng)街搶中國游客包,飛腳踹人后攜包狂奔!當(dāng)事人:錢包和護(hù)照都丟了,心理傷害很大

福州晚報(bào)
2025-05-31 13:03:58
“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

星光看娛樂
2025-03-31 17:52:22
李鵬總理的6位家人:3位子女都是國家棟梁,如今都官至何位?

李鵬總理的6位家人:3位子女都是國家棟梁,如今都官至何位?

轉(zhuǎn)身微笑梅
2025-05-20 20:47:45
2025-06-01 03:19:00
太空與網(wǎng)絡(luò) incentive-icons
太空與網(wǎng)絡(luò)
衛(wèi)星應(yīng)用領(lǐng)域全媒體平臺
6029文章數(shù) 8154關(guān)注度
往期回顧 全部

科技要聞

1小時(shí)大定破千,余承東:尊界S800是個(gè)開端

頭條要聞

69歲正部級高官被查 半個(gè)多月前曾赴海南考察

頭條要聞

69歲正部級高官被查 半個(gè)多月前曾赴海南考察

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

張柏芝曬端午vlog!大兒子送禮物

財(cái)經(jīng)要聞

中汽協(xié)倡議:反對“內(nèi)卷式”惡性競爭

汽車要聞

續(xù)航超1000km/增程動(dòng)力 上汽大眾ID.ERA深圳車展亮相

態(tài)度原創(chuàng)

親子
藝術(shù)
旅游
房產(chǎn)
軍事航空

親子要聞

孩子性子比較急,容易哭鬧怎么辦?聽聽兒科醫(yī)生的建議

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

金地華南落子海南自貿(mào)港22萬㎡標(biāo)桿項(xiàng)目,夯實(shí)代建行業(yè)領(lǐng)軍者地位

軍事要聞

馬克龍?jiān)?香會(huì)"發(fā)言:法國是中國的朋友

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 合川市| 奉贤区| 北京市| 洛川县| 孝义市| 昌吉市| 临邑县| 静海县| 永寿县| 枣阳市| 调兵山市| 沙坪坝区| 炉霍县| 东明县| 玉屏| 惠州市| 湘潭市| 临江市| 固始县| 井冈山市| 曲麻莱县| 沂源县| 吉林市| 沧州市| 大石桥市| 芜湖市| 湘潭县| 西昌市| 安龙县| 桑日县| 库车县| 西丰县| 乌苏市| 岢岚县| 衡水市| 清徐县| 阜康市| 古丈县| 尼玛县| 什邡市| 南漳县|