99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI硬件“天花板”被捅破?DeepSeek-V3新論文:軟硬協同,砸碎“算力神話”!

0
分享至


大數據文摘出品

當AI大模型越來越“吃”硬件,把內存、算力、帶寬逼到極限,追趕者們,或者說整個行業,除了干等硬件升級,還能怎么辦?

ChatGPT橫空出世,大模型競賽白熱化。英偉達的GPU成了硬通貨,算力就是一切。各大公司和研究機構瘋狂堆砌資源,試圖追趕甚至超越。

但到了2024、2025年,大家發現,硬件的升級速度,似乎有點跟不上模型的膨脹速度了。內存墻、功耗墻、帶寬墻,每一堵都讓人頭疼。

Deepseek,一家圍繞“現有硬件的極限優化”和“軟硬件協同設計”,對抗“暴力堆料”的領先者,最近發布了一篇關于DeepSeek-V3的論文。


論文由梁文鋒署名

論文標題翻譯成中文是《洞察DeepSeek-V3:規模化挑戰與AI架構硬件的思考》,主要展示了如何在內存、計算和互聯帶寬都受限的情況下,通過硬件感知的模型協同設計,實現高性價比的大規模訓練和推理。

那些信奉“完美硬件”或者試圖用“無限金錢”抹平一切技術挑戰的思路,可能在DeepSeek-V3這樣的實踐面前,顯得不那么“經濟適用”了。

DeepSeek-V3的“武功秘籍”主要有這么幾招:

多頭隱注意力 (MLA)——提升內存效率

大幅壓縮KV緩存,解決內存瓶頸。別人還在愁顯存不夠用的時候,DeepSeek-V3通過MLA技術,讓每個token的KV緩存低至70KB,比LLaMA-3.1 405B(516KB)和Qwen-2.5 72B(327KB)少得多。這相當于,在有限的“土地”上種出了更多的“糧食”。

專家混合 (MoE) 架構優化——優化計算與通信平衡

在擴大模型總參數量的同時,只激活一小部分專家參數進行計算。DeepSeek-V3有6710億參數,但每個token只激活370億。這既保證了模型的“大塊頭”,又控制了實際運算的“飯量”,實現了計算和通信的更優平衡。

FP8混合精度訓練——充分釋放硬件潛能

大膽采用更低精度的FP8進行訓練,進一步降低了計算和內存開銷。同時,通過細粒度的量化和高精度累加等技術,把精度損失控制在極小范圍。這要求硬件對低精度計算有更好的支持,論文也對此提出了明確的建議。

多平面網絡拓撲——最小化集群網絡開銷

針對大規模集群的網絡開銷問題,設計了多平面胖樹網絡,用兩層胖樹實現了傳統三層胖樹的擴展能力,同時降低了成本和延遲。


圖注:DeepSeek-V3 的基礎架構。在 DeepSeek-V2 的 MLA 和 DeepSeekMoE 基礎上,DeepSeek-V3 引入了多Token預測模塊(Multi-Token Prediction Module)以及 FP8 混合精度訓練

DeepSeek-V3的這些創新,很多都是在現有硬件的“條條框框”里“憋”出來的。比如,H800的NVLink帶寬相較H100有所縮減,他們就強化了Pipeline并行和Expert并行,并針對性地設計了“節點限制路由”策略,優先利用節點內的高帶寬。 這就像一位經驗豐富的大廚,手頭只有普通的食材,卻能烹飪出令人驚艷的菜肴。


圖注:八平面兩層胖樹擴展網絡結構。每個 GPU 與 IB 網卡(NIC)配對后,歸屬于一個網絡平面。跨平面流量必須通過另一張網卡,并借助 PCIe 或 NVLink 在節點內部進行轉發。

訓練DeepSeek-V3的成本雖然沒有具體公布,但其明確強調了“高性價比”。 論文中提到,MoE模型的計算成本遠低于同等激活參數量的密集模型,DeepSeek-V3每token的訓練計算成本約為250 GFLOPS,而參數量小得多的Qwen-72B(密集模型)則需要394 GFLOPS。

“改變AI硬件的設計思路”

作為基礎設施,大模型的底層硬件架構很大程度上決定了其效率和成本。DeepSeek-V3的實踐,不僅是模型設計的勝利,更是對未來AI硬件設計方向的深刻反思和具體建議。

論文花了大量篇幅,從DeepSeek-V3開發中遇到的硬件瓶頸出發,向硬件廠商提出了改進建議:

低精度計算單元要更“精準”:比如FP8累加精度要夠,要原生支持細粒度量化。

內外互聯要“融合”:別讓CPU和GPU之間、節點內外之間的數據搬運那么費勁,要統一管理,減少軟件復雜度和資源浪費。

網絡要“智能”且“低延遲”:無論是IB還是RoCE,都要優化路由、擁塞控制,并且最好能原生支持一些通信壓縮和網絡內計算。

系統魯棒性要加強:別動不動就因為硬件小毛病導致訓練中斷。

這幾乎是在說:“硬件大佬們,請看看我們應用端的需求吧!我們需要的是能更好配合我們的硬件,而不僅僅是更高頻率、更大顯存的‘傻大個’。”

就像當年Android通過開源團結了眾多手機廠商對抗iOS的封閉生態一樣,DeepSeek-V3所代表的這種通過極致的軟硬件協同設計來對抗單純的硬件軍備競賽的思路,也可能為AI領域帶來新的競爭格局。 它不是直接提供一個“開源平替”,而是提供了一種“更聰明的追趕方式”。

在這種新的競爭態勢下,即使是硬件領先者,也需要思考如何讓自己的產品更好地被“用盡潛能”。 論文中對未來硬件的展望,如內存語義通信、網絡內計算、DRAM堆疊加速器等,都指向了一個趨勢:未來的AI系統,一定是軟硬件高度協同、深度優化的產物。

論文地址:https://arxiv.org/pdf/2505.09343

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李肖爽回應青島小米汽車事故:系車輛碰撞致副駕易燃物起火

李肖爽回應青島小米汽車事故:系車輛碰撞致副駕易燃物起火

鞭牛士
2025-06-11 09:24:09
杜淳妻子王燦兮曬整柜Labubu ,一眾爆款IP齊聚!網友:我的 “夢中情柜”

杜淳妻子王燦兮曬整柜Labubu ,一眾爆款IP齊聚!網友:我的 “夢中情柜”

極目新聞
2025-06-11 07:50:16
日本政府打響整治“外國人亂象”第一槍

日本政府打響整治“外國人亂象”第一槍

徐靜波靜說日本
2025-06-10 07:33:20
高考最后一課:衡水某中學暴雨中上演人走茶涼,學生行李扔操場

高考最后一課:衡水某中學暴雨中上演人走茶涼,學生行李扔操場

觀察鑒娛
2025-06-11 09:45:52
從歐洲糧倉到戰爭廢墟:63%烏克蘭人開始懷念亞努科維奇

從歐洲糧倉到戰爭廢墟:63%烏克蘭人開始懷念亞努科維奇

任紀煙
2025-06-09 19:39:20
咖啡“續命”實錘!研究表明:每天1.5-3杯,全因死亡風險降低30%,皮膚衰老風險降低 15%,延長壽命1.8年

咖啡“續命”實錘!研究表明:每天1.5-3杯,全因死亡風險降低30%,皮膚衰老風險降低 15%,延長壽命1.8年

梅斯醫學
2025-01-06 07:39:00
澤連斯基徹底玩脫,莫斯科已通知華盛頓,俄:核爆摧毀烏四大目標

澤連斯基徹底玩脫,莫斯科已通知華盛頓,俄:核爆摧毀烏四大目標

不吃草de兔子
2025-06-09 18:54:49
網紅李維剛再次被坑慘!1.2萬包魚塘卻只有194斤,塘主毫無愧疚心

網紅李維剛再次被坑慘!1.2萬包魚塘卻只有194斤,塘主毫無愧疚心

裕豐娛間說
2025-06-10 11:41:36
國內高速將迎來新調整:兩項不合理規定或將取消?車主:

國內高速將迎來新調整:兩項不合理規定或將取消?車主:

西莫的藝術宮殿
2025-06-11 03:17:11
揮淚斬馬謖!曼城正式出售1億“標王”!8400萬“冠軍頂星”來投

揮淚斬馬謖!曼城正式出售1億“標王”!8400萬“冠軍頂星”來投

頭狼追球
2025-06-11 11:54:02
10萬跌至4萬!深圳這四大豪宅區被拋棄了

10萬跌至4萬!深圳這四大豪宅區被拋棄了

樓市滅霸
2025-06-11 10:03:49
中國經濟樣本觀察·“鎮”了不起|“內衣小鎮”織出500億元“里子產業”

中國經濟樣本觀察·“鎮”了不起|“內衣小鎮”織出500億元“里子產業”

新華社
2025-06-10 11:01:12
1-3遭逆轉,英格蘭隊史第二次主場先進球后最終凈負2+球

1-3遭逆轉,英格蘭隊史第二次主場先進球后最終凈負2+球

懂球帝
2025-06-11 05:00:00
意大利性產業達47億歐元,首次納入官方經濟分類體系

意大利性產業達47億歐元,首次納入官方經濟分類體系

意訊
2025-06-10 21:30:45
曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

曝韋東奕恐離開北大,6年無成果非升即走?業內曝其真實職位反轉

古希臘掌管松餅的神
2025-06-09 15:09:36
“把我葬在美國,不要回中國”,李詠去世后,留下上億遺產,沒給父母,也沒給妻子...

“把我葬在美國,不要回中國”,李詠去世后,留下上億遺產,沒給父母,也沒給妻子...

LULU生活家
2025-06-10 18:34:50
蹊蹺!益陽一釣魚佬被拖下水溺亡,事發水渠不深,死者身高1.8米

蹊蹺!益陽一釣魚佬被拖下水溺亡,事發水渠不深,死者身高1.8米

火山詩話
2025-06-11 05:55:55
縣委書記任上被查,前幾天還在主持警示教育大會

縣委書記任上被查,前幾天還在主持警示教育大會

觀察者網
2025-06-11 07:57:31
俄羅斯的空軍徹底廢了,蘇35剛過界就被擊落,中國的蘇35該咋辦?

俄羅斯的空軍徹底廢了,蘇35剛過界就被擊落,中國的蘇35該咋辦?

近史博覽
2025-06-10 13:45:31
公安部通報:汪某等人已歸案,7名公職人員移送紀委監委審查調查

公安部通報:汪某等人已歸案,7名公職人員移送紀委監委審查調查

新京報政事兒
2025-06-10 23:02:47
2025-06-11 13:16:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6656文章數 94425關注度
往期回顧 全部

科技要聞

比亞迪凌晨宣布!助力中小企業健康發展

頭條要聞

掛職副縣長搜集密件給妻子復印攜帶出境 夫妻雙雙獲刑

頭條要聞

掛職副縣長搜集密件給妻子復印攜帶出境 夫妻雙雙獲刑

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

唐嫣卷入熱巴換角風波 楊冪也被牽連?

財經要聞

Labubu神話下的雜音

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

教育
本地
房產
手機
公開課

教育要聞

準考證當門票,拉著小伙伴一起暢游山東

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

房產要聞

45億!突然,又一民企巨頭殺入海南舊改!

手機要聞

谷歌安卓 16 窗口化新規:功能僅限平板,折疊手機體驗需外接屏幕

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洛宁县| 湘潭县| 广宗县| 进贤县| 淅川县| 兰坪| 哈密市| 仁化县| 新河县| 曲沃县| 乐至县| 金湖县| 香港 | 怀来县| 浠水县| 鄂托克旗| 沐川县| 普定县| 夹江县| 高尔夫| 辽宁省| 平凉市| 调兵山市| 长治县| 阳朔县| 章丘市| 西乡县| 锡林浩特市| 荆门市| 静海县| 泸定县| 寿光市| 五大连池市| 北海市| 马鞍山市| 怀仁县| 宁陕县| 中方县| 抚松县| 丹寨县| 罗山县|