網易首頁 > 網易號 > 正文申請入駐

DeepSeek“開源周”匯總：懷疑DeepSeek訓練成本“撒謊”的可以閉嘴了

2025-02-28 12:16:04　來源: AI先鋒官

北京舉報

分享至

作者｜沐風

來源｜AI先鋒官

就在一周以前，DeepSeek官方在 X 平臺上表示從本周開始，將陸續公布5個開源項目。

從周一（2月24日）到今天（2月28日），DeepSeek“開源周”也迎來了尾聲。

相比OpenAI的12天直播秀，DeepSeek的5天發布，沒有直播沒有表演，只有充滿技術術語的晦澀文檔。

小編替各位把這些文檔啃完后，總體感覺就是，這是一系列對如何極限壓榨英偉達GPU及最大化提升AI訓練效率的“說明書”，也側面解釋了，為什么DeepSeek 能把大模型做的那么有“性價比”。

我們先來看看，DeepSeek都開源了些什么項目：

-Day1-

FlashMLA：讓AI模型更高效使用GPU，尤其針對英偉達H系列芯片

第一天DeepSeek就扔出了一個重磅炸彈，開源了FlashMLA。

MLA（多頭潛在注意力機制）是DeepSeek已經發布的V2、V3兩款模型中，最為核心的技術之一。

而FlashMLA是專門針對于英偉達Hopper GPU開發的高效MLA解碼內核，專為處理可變長度序列而設計。

換而言之，FlashMLA專門針對英偉達H系列GPU產品，如H100、H800和H20等多款芯片。

據DeepSeek方面介紹，在基準測試性能表現上，FlashMLA可以使得H800達到3000GB/s內存，實現580TFLOPS（每秒浮點運算次數）計算性能。

這意味著，使用FlashMLA優化后，H800的內存帶寬利用率有望進一步提高甚至突破其理論上限，在內存訪問上達到極致，能讓開發群體充分“壓榨”英偉達H系列芯片能力，以更少的芯片實現更強的模型性能，最大化GPU價值。

GitHub地址：

https://github.com/deepseek-ai/FlashMLA

-Day2-

DeepEP：讓AI訓練實現多線程協作，“壓榨”GPU等待時間

據DeepSeek介紹，DeepEP是一個用于MoE模型訓練和推理的EP通信庫，它主打低延遲內核，其支持 FP8 的特性特別適合資源受限或實時性要求高的場景。

特別是在處理MoE分派和組合的通信模式上，DeepEP針對高吞吐量和低延遲的GPU內核，專門優化了MoE模型中數據路由和輸出的整合過程。

MoE架構是由多個專注于垂直技能的專家模型分工協作來實現最終輸出結果，訓練成本和推理成本更低。

MoE（混合專家架構）和MLA均被認為是DeepSeek以低成本實現杰出表現的核心原因。

但MoE架構的缺點之一是會增加通信成本，而DeepEP通信庫就是針對通信環節的優化，其特點包括：

·高效、優化的全員溝通；

·節點內和節點間均支持NVLink和RDMA；

·用于訓練和推理預填充的高吞吐量內核；

·用于推理解碼的低延遲內核（優化數據傳輸路徑，類似給快遞包裹規劃最短路線）；

·原生FP8調度支持；

·靈活的GPU資源控制，實現計算-通信重疊。

優化之后的MoE模型的通信性能，支持低精度操作（如 FP8）——用更少的內存存儲數據（類似把高清電影壓縮成小體積文件），讓普通顯卡也能跑復雜模型，并提供了針對非對稱域帶寬轉發的內核。

這使得在分布式GPU環境中，MoE 模型的訓練和推理更加高效和可擴展，尤其是在多節點集群中，能夠顯著降低通信開銷并提高整體性能。

在資源分配上，DeepEP能根據任務量動態調節GPU的計算資源（SM 數量控制）。

在數據傳輸上，DeepEP優化了非對稱域帶寬轉發（如 NVLink 到 RDMA），這使得它特別適合現代高性能計算（HPC）環境中的多節點分布式訓練。

如果說傳統的AI訓練中，GPU跑了10個小時，4個小時在等數據、等同步，實際工作時間只有6小時。那么DeepEP，能夠把等待時間壓縮到1小時，GPU干活9小時，相當于多了3小時算力，真正“榨干”每一塊GPU。

GitHub地址：

https://github.com/deepseek-ai/DeepEP

-Day3-

DeepGEMM：將H800計算性能提升2.7倍

DeepGEMM是一個支持密集型和MoE 模型的FP8 GEMM庫，可為V3/R1模型的訓練和推理提供強大支持。

GEMM，即通用矩陣乘法，是線性代數中的基本運算，是科學計算、機器學習、深度學習等領域中最常見的計算操作，也是許多高性能計算任務的核心。

但由于它的計算量往往都比較大，所以GEMM的性能優化是至關重要的一點。

此次DeepSeek開源的DeepGEMM，依舊是保持了“高性能+低成本”的特性，亮點如下：

·同時支持密集布局和兩種MoE（混合專家模型）布局；

·使用CUDA（統一計算架構）編寫，無需編譯即可安裝；

·完全即時編譯，即用即跑；

·專為NVIDIA Hopper張量核心設計；

·使用CUDA核心兩級累加解決FP8張量核心累加不精確的問題。

DeepGEMM最大的特點就是簡潔高效，僅有300行核心代碼。

DeepSeek表示，雖然DeepGEMM借鑒了CUTLASS和CuTe里的一些理念，但并沒有過度依賴它們的模板或代數運算。

在深度學習中，FP8（8位浮點數）可以減少存儲和計算的開銷，但是缺點是精度比較低，而由于精度低，就可能產生量化誤差，影響模型訓練的穩定性。

據DeepSeek介紹，為了解決FP8張量核心積累的精度問題，它采用了CUDA核心的兩級積累（提升）方法。”

也就是利用了CUDA核心做了兩次累加，先用FP8做大批量乘法，然后再做高精度匯總，以此防止誤差累積。既大幅減少空間，同時又保有精度，效率也就由此提升。

性能方面，從測試結果來看，DeepGEMM計算性能最高可達1358 TFLOPS，內存寬帶最高可達2668 GB/s，與英偉達基于CUTLASS 3.6的優化實現相比，速度最高提升了2.7倍。

也可以說是將GPU的性能潛力發揮到極致。

GitHub地址：

https://github.com/deepseek-ai/DeepGEMM

-Day4-

優化的并行策略：給AI訓練配上“高速雙車道”和“交通調度員”

此次DeepSeek開源的內容是優化的并行策略，其中包括DualPipe，一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法；以及EPLB，一種針對V3/R1的專家并行負載均衡器。

此外，DeepSeek還公開分享了其訓練和推理框架的性能分析數據，從而幫助開源社區更好地了解通信與計算重疊策略和底層實現細節。

DualPipe是一種創新性的雙向流水線并行算法，?專為DeepSeek-V3/R1訓練體系設計，相當于給AI訓練裝上了“雙車道高速路”。它實現了前向和后向計算-通信階段的完全重疊，顯著減少了流水線中的空閑時間（"流水線氣泡"）。

通過對稱的微批次調度，DualPipe優化了并行計算效率，在反向傳播階段并發執行前向計算，將硬件利用率提高了約30%。這種設計尤其適用于擁有數百億到數萬億參數的模型訓練，能夠大幅提高計算效率。

GitHub地址：

https://github.com/deepseek-ai/DualPipe

EPLB（Expert Parallelism Load Balancer）是DeepSeek推出的專家并行負載均衡器，為解決MoE模型在分布式訓練和推理中的負載不平衡問題，這有點類似“交通調度員”，避免某些GPU忙死、某些GPU閑死?。

EPLB通過復制高負載專家并智能地分配到不同GPU上，實現負載均衡。它包含兩種負載均衡策略：層次化負載均衡和全局負載均衡。這種設計使得萬卡GPU集群的利用率超過92%，有效避免了資源浪費。

GitHub地址：

https://github.com/deepseek-ai/EPLB

DeepSeek還分享了來自訓練和推理框架的性能分析數據，以幫助社區更好地了解通信計算重疊策略和低級實現細節，這相當于“健身教練的體測報告”，告訴開發者哪里可以優化。

這些數據通過PyTorch Profiler捕獲，下載后可以直接在Chrome或Edge瀏覽器中打開，進行可視化分析，DeepSeek還模擬了絕對平衡的MoE 路由策略用于性能分析。

GitHub地址：

https://github.com/deepseek-ai/profile-data

-Day5-

Fire-Flyer文件系統 (3FS)：提升AI訓練中海量數據處理效率?

Fire-Flyer文件系統 (3FS)是一種利用現代SSD和RDMA網絡的全部帶寬的并行文件系統。

3FS 是一款高性能的分布式文件系統，旨在解決AI訓練和推理工作負載帶來的挑戰，利用現代SSD和RDMA網絡提供共享存儲層，簡化分布式應用程序的開發。

其核心優勢在于高性能、強一致性和易用性，能夠有效支持各種 AI 工作負載，包括數據準備、數據加載、檢查點設置和推理緩存。

其特點有：

·180節點集群中的聚合讀取吞吐量為6.6TiB/s；

·25節點集群中GraySort基準測試的吞吐量為3.66TiB/分鐘；

·每個客戶端節點的 KVCache 查找峰值吞吐量超過40GiB/s；

3FS 在 DeepSeek 的 V3 / R1 版本中得到廣泛應用，涵蓋了訓練數據預處理、數據集加載、檢查點保存 / 重新加載、嵌入向量搜索以及推理過程中的 KVCache 查找等關鍵環節。

做個類比的話，傳統AI訓練的文件系統?貨物堆放混亂，叉車來回碰撞，每天只能處理1000單；?3FS系統下?，則是智能機器人自動分揀，多條傳送帶并行發貨，每天處理10萬單且零錯誤。

GitHub地址：

https://github.com/deepseek-ai/3FS

此外，DeepSeek還開源了基于3FS的數據處理框架Smallpond，其是一款構建于DuckDB和3FS之上的輕量級數據處理框架。它擁有高性能數據處理能力，可擴展至PB級數據集，并且操作簡便，無需長期運行的服務。

GitHub地址：

https://github.com/deepseek-ai/smallpond

此次“開源周”讓懷疑DeepSeek在訓練成本上“撒謊”的人噤聲了。因為每個開源項目，都在向世界展示了DeepSeek極致壓榨英偉達芯片的功力。

只能說，在壓榨英偉達芯片、AI性能效率提高這方面，DeepSeek已經出神入化。

從GitHub上獲得的星標來看，這些項目頗受歡迎，一般來說，在GitHub上獲得幾千星星就已經算很成功了。

截至發稿，FlashMLA已在GitHub獲得超過1萬星標；DeepEP的星標已有6000；DeepGEMM目前超過4100；DualPipe星標超過1900。

在Github的交流區，不少人想起了OpenAI，將DeepSeek稱為“真正的OpenAI”。

OpenAI已經走上閉源之路好幾年，甚至被戲稱為“CloseAI”，直到DeepSeek出現，OpenAI CEO山姆·奧特曼表示，在開源/閉源的問題上，自己或許站在了歷史錯誤的一邊。

此前，他還曾經在X上發起投票，詢問網友希望OpenAI的下一個開源項目是什么類型的。

不過到目前為止，這一切都還只是在空口的承諾中。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepSeek如何改變世界？效率狂魔外，更有開源格局

雷科技 2025-03-11 16:49:46
2 跟貼 2
10分鐘教你機器學習建模的6大步驟

醫咖會 2025-03-14 19:53:09
0 跟貼 0

Transformer八周年！Attention Is All You Need被引破18萬封神

新智元 2025-06-13 13:35:52
3 跟貼 3

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

從天價咨詢到免費AI，夸克能改變志愿填報這門生意嗎？

量子位 2025-06-14 17:04:50
1 跟貼 1
AI自己給自己當網管，實現安全“頓悟時刻”，風險率直降9.6%

量子位 2025-06-13 17:03:41
0 跟貼 0

機器人“滿場跑”！京東MALL北京二店開業劉強東“等比例復刻”能否帶火線下“618”？

每日經濟新聞 2025-06-14 18:55:38
0 跟貼 0
AI語音助手Maya，完全沒有恐怖谷效應，背后基礎模型已開源

機器之心Pro 2025-03-14 18:38:37
0 跟貼 0
DeepSeek研究員1200行代碼復刻vLLM，H800硬件實測性能反超原版

量子位 2025-06-13 15:22:08
20 跟貼 20
1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版

機器之心Pro 2025-06-13 14:17:09
21 跟貼 21
老田原本來是一個賣貨的，直播賣貨沒學會，成了軍事博主

老田故事 2025-06-10 12:47:45
0 跟貼 0
臺灣網紅館長來大陸直播被瘋狂投喂，品黃河之水啤酒！

開心的思天 2025-06-12 01:41:41
3 跟貼 3
當院長騎電驢摔傷住院醫護人員紛紛拍照

凌晨看看 2025-06-14 09:03:19
4588 跟貼 4588
2025.6.12日報第二集（共六集，注意查看主頁）

獨夫之心 2025-06-13 15:16:11
0 跟貼 0
大姐再收昆明A4紙，直播展信心盼包青天！

A娛樂小王子 2025-06-12 10:32:45
11 跟貼 11
網紅“館長”開啟大陸行，直播能否扭轉臺灣年輕人對大陸看法？

河洛有話說 2025-06-12 19:30:14
0 跟貼 0
館長赴陸直播高人氣！27萬人同時在線！吸睛！遭抹黑!

華山論舌 2025-06-13 08:17:43
0 跟貼 0
谷歌視頻模型Veo3正在顛覆好萊塢：星球大戰風暴兵系列之訓練新兵

鏈聞科技 2025-06-13 11:14:00
3 跟貼 3
中國通過算法與電力創新突破美國芯片封鎖，AI技術實現反超

花顏蘊韻 2025-06-14 03:31:22
0 跟貼 0
小鵬汽車的算力革命：以“圖靈芯片”探路自動駕駛L3時代

電科技網 2025-06-13 01:57:41
3 跟貼 3
王雙全，已任浙江省領導

新京報政事兒 2025-06-14 16:56:44
4 跟貼 4
臺灣網紅館長來大陸直播，30萬人在線觀看：真相比想象更震撼！

AI次世代 2025-06-12 20:20:01
48 跟貼 48
柴油皮卡也玩智能豪華？奇瑞威麟R08這波站在大氣層！

二喵說車 2025-06-11 20:51:43
5 跟貼 5
遙遙領先！魔改版殲-16亮相，AI智能后座，空戰進入算法為王時代

軍武達人 2025-06-13 12:26:08
0 跟貼 0
商家直播“生拆狗牙”引眾怒，稱有人下單就現場拆

星辰視頻 2025-06-14 15:48:18
0 跟貼 0
科學家提出動力學擴展定律，支持更長的文本生成

DeepTech深科技 2025-06-14 19:20:34
0 跟貼 0
臺灣網紅館長搭乘高鐵去杭州，高鐵沒有靠背

海峽新干線 2025-06-14 12:30:43
1178 跟貼 1178
綠營慌得一批！館長直播被投喂茶葉蛋，大陸真相藏不住了

綠葉貝貝 2025-06-13 07:54:09
0 跟貼 0
真越級平替Model Y！小鵬G9：硬件該有都有，價格還有優勢

汽湃 2025-06-13 10:48:18
1 跟貼 1
美國23日起將對鋼制家電加征關稅洗衣機冰箱在列

央視新聞客戶端 2025-06-13 07:29:48
2161 跟貼 2161
一句話說清算法本質

鶴老師說經濟 2025-06-14 18:06:21
0 跟貼 0
浙江一婚席吃掉50萬元，結賬嫌太貴拒付款，餐具供應商：我的錢也沒給

極目新聞 2025-06-14 10:52:54
139 跟貼 139
《功夫夢：融合之道》拳腳只是皮膚，文化才是內核

電影頻道融媒體中心 2025-06-12 09:29:07
0 跟貼 0
網紅劉琳琳直播時咒罵網友：祝你全家得HPV

江西都市現場 2025-06-14 13:00:59
0 跟貼 0
【DeepSeek談藝】戴藝強·水彩畫 | 用明澈輕盈的水色鋪陳自然韻味

文化視界網 2025-06-14 15:05:50
1 跟貼 1
【DeepSeek談藝】阮江華·意象山水 | 既回望傳統，又凝視當下

文化視界網 2025-06-14 15:04:07
0 跟貼 0
“深受折磨”，深圳一小區業主紛紛貼“吵”字！有人遲遲不敢入住

南方都市報 2025-06-13 22:36:21
779 跟貼 779
深夜凌晨，直播鄭欽文WTA倫敦站首秀，沖擊20萬獎金

極度說球 2025-06-12 14:24:22
0 跟貼 0

AI先鋒官

AIGC大模型及應用精選與評測

295文章數 18關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

藝術

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepSeek“開源周”匯總：懷疑DeepSeek訓練成本“撒謊”的可以閉嘴了

一輛新車比特斯拉FSD都便宜，全行業陪葬？

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

特朗普79歲生日當天 全美50州預計將舉行2000場抗議

32隊爭10億獎金，全新世俱杯來了！

陳小春演唱會賣力唱跳 57歲仍活力滿滿

樓市權威發聲

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

孩子愛過敏或哮喘？快讓他去玩土！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言！

一輛新車比特斯拉FSD都便宜，全行業陪葬？

特朗普79歲生日當天全美50州預計將舉行2000場抗議

特朗普79歲生日當天全美50州預計將舉行2000場抗議

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

孩子愛過敏或哮喘？快讓他去玩土！

呼吸科專家破解呼吸道九大謠言！