99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek發布最新論文,5大殺手锏讓大模型訓練、推理暴漲

0
分享至

前天,全球知名的開源大模型平臺DeepSeek在Hugging Face發布了其最新版本V3的論文。該論文從硬件架構和模型設計兩個方面出發,探討了如何在保持性能不降低的前提下,實現大規模訓練和推理的更高效率,以突破現有硬件的限制。其中,DeepSeek-MoE技術、多頭潛在注意力機制、FP8混合精度訓練方法以及多標記預測策略成為關鍵的創新亮點。


論文地址:https://huggingface.co/papers/2505.09343。

隨著OpenAI GPT-3、DeepSeek-R1、Claude-3.7 Sonnet等先進模型的不斷涌現,對硬件和算力資源的需求迅速攀升。尤其在內存方面,大規模模型的需求每年增長超過1000%,而高速內存容量的提升速度卻相對緩慢,通常不到50%。這種內存供需的巨大差距嚴重限制了大模型的發展空間。

此外,在計算效率方面,傳統計算架構難以滿足大規模模型訓練與推理中對高效性能的要求。網絡互連帶寬同樣面臨瓶頸,現有網絡架構在傳輸大量數據時存在帶寬不足和延遲過高的問題。DeepSeek-V3通過一系列軟硬件層面的創新,有效緩解了這些挑戰。

在模型設計上,DeepSeek-MoE充分利用了混合專家(MoE)結構的潛力。具體來說,MoE通過選擇性激活部分專家參數,使模型在大幅增加整體參數規模的同時,保持相對較低的計算開銷,從而提高訓練效率和性能表現。


例如,DeepSeek-V2擁有2360億參數,但每個token實際激活的參數量只有210億;而DeepSeek-V3將參數規模提升至6710億,接近V2的三倍,但每個token激活的參數僅為370億。相比之下,諸如Qwen2.5(720億參數)和LLaMA3.1(4050億參數)等密集模型在訓練過程中需要激活全部參數。

數據顯示,DeepSeek-V3在計算開銷上表現出顯著優勢,其每個token的計算量約為250 GFLOPS,而720億參數的密集模型為394 GFLOPS,4050億參數的密集模型更是高達2448 GFLOPS。這表明MoE架構能夠在計算資源消耗降低一個數量級的同時,保持甚至超越密集模型的性能。


在個人使用和本地部署的場景中,MoE模型展示了顯著的優勢。由于每次請求只激活部分參數,這大大降低了對內存和計算資源的需求。以搭載AISoC芯片的個人電腦為例,運行DeepSeek-V2(2360億參數)時,推理階段僅激活210億參數,能夠實現接近每秒20個Token的處理速度,滿足個人使用需求已經非常充足。相比之下,參數規模約700億的密集模型在相同硬件條件下,通常只能達到個位數的每秒Token數。

此外,多頭潛在注意力(MLA)架構通過壓縮鍵值(KV)緩存,有效減少了內存使用。該方法使用投影矩陣將所有注意力頭的KV數據壓縮成一個更小的潛在向量,并與模型協同訓練。在推理時,僅需緩存這一潛在向量,遠低于傳統方法緩存所有注意力頭KV所需的內存。借助MLA,DeepSeek-V3將每個token所需的KV緩存大小降至70KB,明顯低于LLaMA-3.1(4050億參數)模型的516KB以及Qwen-2.5(720億參數)模型的327KB。


為了進一步縮減KV緩存的占用,DeepSeek提出了多種優化策略。例如,通過共享KV,讓多個注意力頭共用同一組KV配對,從而顯著減少KV存儲需求,代表性的方案包括GQA和MQA;針對長序列輸入,采用窗口KV技術,僅緩存滑動窗口內的KV配對;另外,還通過量化壓縮方法,利用低位寬存儲KV數據,進一步降低內存占用。

在訓練技術方面,DeepSeek-V3引入了FP8混合精度訓練方案。這種方法在確保模型性能穩定的同時,大幅削減了計算資源消耗,使得大規模模型訓練更加經濟高效。雖然現有如GPTQ和AWQ等量化技術已將位寬壓縮至8位、4位甚至更低,但它們主要應用于推理階段以減少內存使用,在訓練階段的應用仍較有限。此前,開源大模型中幾乎未見采用FP8進行訓練的案例。

DeepSeek則依托基礎設施與算法團隊之間的緊密合作,打造了與FP8兼容的MoE訓練框架,特別是在前向和反向傳播計算環節中實現FP8精度運算。盡管如此,要充分釋放FP8在加速訓練中的潛力,仍需克服部分硬件方面的限制。


FP8在Tensor Core中采用受限的累加精度,這對大型模型訓練的穩定性帶來挑戰;與此同時,細粒度量化在傳輸部分結果時會引發較高的反量化開銷,導致頻繁的數據遷移,降低計算效率并復雜化硬件利用率。針對這些問題,DeepSeek提出了未來硬件設計的建議:首先,硬件應提升累積運算精度,例如將Accumulation Register精度調整至FP32或支持可配置的累加精度設置;其次,應原生支持細粒度量化,使Tensor Core能夠接收縮放因子,并通過組縮放技術完成矩陣乘法,避免頻繁的數據移動,從而降低解量化開銷。

在網絡通信方面,DeepSeek-V3通過低精度壓縮技術優化了通信效率。訓練中的EP并行階段引入細粒度FP8量化,令牌調度時通信量相比BF16縮減50%,顯著減少了傳輸時間。DeepSeek建議未來硬件應原生支持FP8或自定義數值格式的壓縮與解壓單元,這將最大限度降低帶寬需求,簡化通信流程,從而大幅提升帶寬密集型任務(如MoE訓練)的運行效率。

關于多標記預測,傳統的自回歸語言模型以單個標記逐步生成文本,隨著模型規模和上下文長度增加,推理速度受到較大限制。為此,DeepSeek-V3引入了多標記預測(MTP)框架,該方案允許模型在每次推理步驟同時生成多個候選標記,利用多個輕量級預測模塊分別預測當前標記及后續位置的標記。這些模塊共享上下文信息但獨立輸出,生成多候選后并行進行驗證,篩選出合理的標記作為最終結果。實驗數據顯示,MTP對下一個標記的預測準確率高達80%至90%,顯著提升了推理效率。

在AI基礎設施方面,為了降低集群網絡開銷,DeepSeek采用多平面雙層胖樹網絡架構,替代傳統的三層胖樹結構。在DeepSeek-V3訓練過程中,部署了橫向擴展的多平面胖樹(MPFT)網絡,每個節點配備8臺GPU和8個InfiniBand網卡,GPU-網卡對分配至不同網絡平面,此外還配置了400 Gbps以太網RoCE網卡接入獨立存儲網絡,支持訪問3FS分布式文件系統。該網絡基于64端口400G InfiniBand交換機設計,理論上可支持最多16,384臺GPU,同時保持雙層網絡的成本和延遲優勢。受限于政策和監管,當前部署規模為2048臺GPU。


由于當前IB ConnectX-7網卡存在一定的限制,DeepSeek部署的多平面胖樹(MPFT)網絡未能完全達到設計預期。理想情況下,每個網卡應具備多個物理端口,每個端口連接到獨立的網絡平面,但通過端口聚合技術,將這些端口合并為一個邏輯接口呈現給用戶。在用戶視角下,單個隊列對(QP)能夠在所有可用端口之間無縫傳輸數據,起到類似數據包噴射(packet spraying)的效果。因此,同一QP發送的數據包可能會經過不同的網絡路徑,亂序到達接收端。為保證通信一致性和排序正確,網卡需要在硬件層面支持無序數據的處理和重排。

例如,InfiniBand ConnectX-8天然支持四個網絡平面,未來若網卡能夠全面支持高級多平面功能,基于雙層胖樹的網絡拓撲將能夠更高效地擴展至大型AI計算集群。整體來看,多平面網絡架構在故障隔離、系統穩定性、負載均衡以及大規模擴展方面具備顯著優勢。

在低延遲網絡設計方面,模型推理中大量的EP并行依賴all-to-all通信模式,該通信方式對帶寬和延遲非常敏感。舉例來說,在50GB/s網絡帶寬環境下,理想數據傳輸時間約為120微秒,因此,網絡的微秒級延遲對整體性能有較大影響,必須高度重視。

為了降低通信延遲,DeepSeek采用了InfiniBand的GPUDirect Async(IBGDA)技術。傳統網絡通信流程中,GPU完成數據準備后需通知CPU代理線程,由CPU代理填充工作請求(WR)信息,再通過門鈴機制喚醒網卡開始傳輸,這中間涉及額外的CPU介入和開銷,影響通信效率。IBGDA通過減少CPU的參與,實現GPU與網絡間的直接異步通信,大幅降低了延遲。


IBGDA技術允許GPU直接完成工作請求(WR)的填寫并將信號寫入RDMA門鈴的內存映射IO地址,實現了GPU內部對控制平面的全面管理,從而消除了傳統GPU與CPU之間通信帶來的顯著延遲。此外,在發送大量小數據包時,傳統的控制平面處理器容易成為性能瓶頸,而GPU憑借其多線程并行能力,可將發送任務有效分攤到多個線程,避免了這一瓶頸問題。

以DeepSeek的DeepEP為代表的多項研究均采用了IBGDA技術,并取得了顯著的性能提升,因此DeepSeek倡導廣泛支持這一功能于各類加速器設備上。

雖然InfiniBand(IB)在延遲表現上優于基于融合以太網的RDMA(RoCE),因而成為延遲敏感型分布式訓練和推理任務的首選方案,但IB的成本較高且擴展性存在局限。相比之下,RoCE在經濟性方面更具優勢,有望成為IB的替代方案,但其當前在延遲和擴展能力上仍存在不足,難以滿足大規模AI系統的嚴格需求。

針對RoCE的不足,DeepSeek提出了若干改進建議,包括采用專用的低延遲RoCE交換機、優化網絡路由策略、增強流量隔離和改善擁塞控制機制等,以提升其性能和適用性。

我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業洞察。 歡迎關注“福大大架構師每日一題”,讓AI助力您的未來發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
大反轉!三亞27歲女游客并非被毒蛇咬傷致死,百萬網紅阿寶翻車了

大反轉!三亞27歲女游客并非被毒蛇咬傷致死,百萬網紅阿寶翻車了

古希臘掌管松餅的神
2025-06-05 18:19:19
無緣世界杯后眾國腳謝場落淚!韋世豪哭紅眼眶,21歲紅星情緒崩潰

無緣世界杯后眾國腳謝場落淚!韋世豪哭紅眼眶,21歲紅星情緒崩潰

我愛英超
2025-06-06 01:10:31
記者:動不動就毫無意義的動作送點球,國足的水平,得認!

記者:動不動就毫無意義的動作送點球,國足的水平,得認!

直播吧
2025-06-05 22:52:39
赫爾松州政府大樓被導彈擊中 烏方公布遭襲瞬間視頻

赫爾松州政府大樓被導彈擊中 烏方公布遭襲瞬間視頻

國際在線
2025-06-05 22:20:51
畫面曝光!韓國第一夫人大選投票當晚遭記者推搡,又被攝像機砸到!本人笑了笑未指責,電視臺公開道歉

畫面曝光!韓國第一夫人大選投票當晚遭記者推搡,又被攝像機砸到!本人笑了笑未指責,電視臺公開道歉

魯中晨報
2025-06-05 18:30:04
近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

軍武次位面
2025-06-05 17:36:14
“陪讀媽媽”=亂倫?

“陪讀媽媽”=亂倫?

法律讀品
2025-05-26 19:39:53
特朗普:美方將繼續奉行一個中國政策

特朗普:美方將繼續奉行一個中國政策

財聯社
2025-06-05 22:44:31
國足集訓名單11人超30歲,他們中多少人還有機會參加下屆世界杯?

國足集訓名單11人超30歲,他們中多少人還有機會參加下屆世界杯?

懂球帝
2025-06-05 23:57:05
俄戰略軍機被炸,真相終于大白,中美這次被都烏方無恥上了一課

俄戰略軍機被炸,真相終于大白,中美這次被都烏方無恥上了一課

大白話瞰世界
2025-06-04 13:26:42
中美使館一起發出預警!英國上校:俄軍將核爆四大目標逼烏軍投降

中美使館一起發出預警!英國上校:俄軍將核爆四大目標逼烏軍投降

南宗歷史
2025-06-05 16:19:50
突發!杭州西子電梯總裁跳樓

突發!杭州西子電梯總裁跳樓

財通社
2025-06-05 13:39:25
辣眼!國足球員無人盯防,停球3米開外,直接停出界,不輸才怪

辣眼!國足球員無人盯防,停球3米開外,直接停出界,不輸才怪

側身凌空斬
2025-06-05 23:08:18
隨著薩巴倫卡2-1斯瓦泰克,法網首個決賽誕生,鄭欽文鎖定世界前5

隨著薩巴倫卡2-1斯瓦泰克,法網首個決賽誕生,鄭欽文鎖定世界前5

侃球熊弟
2025-06-05 23:31:07
白象為“多半”道歉了,申請過“多半袋”被駁回;康師傅“1碗半”、“一倍半”、今麥郎“一桶半”商標均無效

白象為“多半”道歉了,申請過“多半袋”被駁回;康師傅“1碗半”、“一倍半”、今麥郎“一桶半”商標均無效

界面新聞
2025-06-05 12:36:18
最新!“重大事故”12天后,朝鮮5000噸級驅逐艦被扶正!軍需工業副部長等多人已被拘,金正恩曾批“是犯罪行為”

最新!“重大事故”12天后,朝鮮5000噸級驅逐艦被扶正!軍需工業副部長等多人已被拘,金正恩曾批“是犯罪行為”

每日經濟新聞
2025-06-05 20:20:27
夢碎!王大雷&武磊曾說最后一次沖擊世界杯,大齡國腳遺憾告別?

夢碎!王大雷&武磊曾說最后一次沖擊世界杯,大齡國腳遺憾告別?

直播吧
2025-06-05 23:56:23
巨大爭議判罰!楊澤翔踢人送點,媒體人開炮:這么判太垃圾

巨大爭議判罰!楊澤翔踢人送點,媒體人開炮:這么判太垃圾

奧拜爾
2025-06-05 22:40:02
浙江醫師:三亞身亡女孩不可能被銀環蛇咬傷

浙江醫師:三亞身亡女孩不可能被銀環蛇咬傷

逍遙史記
2025-06-05 09:35:10
三亞女游客被蛇咬身亡事件帶火蛇類博主,兩天漲粉200萬,電話被打爆交給朋友接聽

三亞女游客被蛇咬身亡事件帶火蛇類博主,兩天漲粉200萬,電話被打爆交給朋友接聽

瀟湘晨報
2025-06-05 18:15:10
2025-06-06 01:52:49
moonfdd incentive-icons
moonfdd
福大大架構師每日一題
840文章數 31關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

健康
教育
親子
手機
軍事航空

減重專家破解減肥九大謠言!

教育要聞

通知!高考期間部分學校周邊部分路段采取交通管控

親子要聞

保護孩子防侵犯,寶媽首先要改掉刻板印象!

手機要聞

印度區域iPhone維修業務從緯創轉移 蘋果加大對塔塔的依賴

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新丰县| 长宁区| 宜兰县| 商南县| 寿宁县| 唐山市| 凤山县| 施甸县| 河北区| 黔西| 巴林右旗| 鞍山市| 景德镇市| 东山县| 寿光市| 怀集县| 蕉岭县| 武平县| 凌海市| 威信县| 三亚市| 阿坝| 芒康县| 遵义市| 上林县| 崇阳县| 鹰潭市| 文水县| 肃南| 阿拉善盟| 藁城市| 泸州市| 宁乡县| 松原市| 三台县| 鄢陵县| 南陵县| 格尔木市| 宁陕县| 花垣县| 大同市|