作者|沐風
來源|AI先鋒官
就在一周以前,DeepSeek官方在 X 平臺上表示從本周開始,將陸續公布5個開源項目。
從周一(2月24日)到今天(2月28日),DeepSeek“開源周”也迎來了尾聲。
相比OpenAI的12天直播秀,DeepSeek的5天發布,沒有直播沒有表演,只有充滿技術術語的晦澀文檔。
小編替各位把這些文檔啃完后,總體感覺就是,這是一系列對如何極限壓榨英偉達GPU及最大化提升AI訓練效率的“說明書”,也側面解釋了,為什么DeepSeek 能把大模型做的那么有“性價比”。
我們先來看看,DeepSeek都開源了些什么項目:
-Day1-
FlashMLA:讓AI模型更高效使用GPU,尤其針對英偉達H系列芯片
第一天DeepSeek就扔出了一個重磅炸彈,開源了FlashMLA。
MLA(多頭潛在注意力機制)是DeepSeek已經發布的V2、V3兩款模型中,最為核心的技術之一。
而FlashMLA是專門針對于英偉達Hopper GPU開發的高效MLA解碼內核,專為處理可變長度序列而設計。
換而言之,FlashMLA專門針對英偉達H系列GPU產品,如H100、H800和H20等多款芯片。
據DeepSeek方面介紹,在基準測試性能表現上,FlashMLA可以使得H800達到3000GB/s內存,實現580TFLOPS(每秒浮點運算次數)計算性能。
這意味著,使用FlashMLA優化后,H800的內存帶寬利用率有望進一步提高甚至突破其理論上限,在內存訪問上達到極致,能讓開發群體充分“壓榨”英偉達H系列芯片能力,以更少的芯片實現更強的模型性能,最大化GPU價值。
GitHub地址:
https://github.com/deepseek-ai/FlashMLA
-Day2-
DeepEP:讓AI訓練實現多線程協作,“壓榨”GPU等待時間
據DeepSeek介紹,DeepEP是一個用于MoE模型訓練和推理的EP通信庫,它主打低延遲內核,其支持 FP8 的特性特別適合資源受限或實時性要求高的場景。
特別是在處理MoE分派和組合的通信模式上,DeepEP針對高吞吐量和低延遲的GPU內核,專門優化了MoE模型中數據路由和輸出的整合過程。
MoE架構是由多個專注于垂直技能的專家模型分工協作來實現最終輸出結果,訓練成本和推理成本更低。
MoE(混合專家架構)和MLA均被認為是DeepSeek以低成本實現杰出表現的核心原因。
但MoE架構的缺點之一是會增加通信成本,而DeepEP通信庫就是針對通信環節的優化,其特點包括:
·高效、優化的全員溝通;
·節點內和節點間均支持NVLink和RDMA;
·用于訓練和推理預填充的高吞吐量內核;
·用于推理解碼的低延遲內核(優化數據傳輸路徑,類似給快遞包裹規劃最短路線);
·原生FP8調度支持;
·靈活的GPU資源控制,實現計算-通信重疊。
優化之后的MoE模型的通信性能,支持低精度操作(如 FP8)——用更少的內存存儲數據(類似把高清電影壓縮成小體積文件),讓普通顯卡也能跑復雜模型,并提供了針對非對稱域帶寬轉發的內核。
這使得在分布式GPU環境中,MoE 模型的訓練和推理更加高效和可擴展,尤其是在多節點集群中,能夠顯著降低通信開銷并提高整體性能。
在資源分配上,DeepEP能根據任務量動態調節GPU的計算資源(SM 數量控制)。
在數據傳輸上,DeepEP優化了非對稱域帶寬轉發(如 NVLink 到 RDMA),這使得它特別適合現代高性能計算(HPC)環境中的多節點分布式訓練。
如果說傳統的AI訓練中,GPU跑了10個小時,4個小時在等數據、等同步,實際工作時間只有6小時。那么DeepEP,能夠把等待時間壓縮到1小時,GPU干活9小時,相當于多了3小時算力,真正“榨干”每一塊GPU。
GitHub地址:
https://github.com/deepseek-ai/DeepEP
-Day3-
DeepGEMM:將H800計算性能提升2.7倍
DeepGEMM是一個支持密集型和MoE 模型的FP8 GEMM庫,可為V3/R1模型的訓練和推理提供強大支持。
GEMM,即通用矩陣乘法,是線性代數中的基本運算,是科學計算、機器學習、深度學習等領域中最常見的計算操作,也是許多高性能計算任務的核心。
但由于它的計算量往往都比較大,所以GEMM的性能優化是至關重要的一點。
此次DeepSeek開源的DeepGEMM,依舊是保持了“高性能+低成本”的特性, 亮點如下:
·同時支持密集布局和兩種MoE(混合專家模型)布局;
·使用CUDA(統一計算架構)編寫,無需編譯即可安裝;
·完全即時編譯,即用即跑;
·專為NVIDIA Hopper張量核心設計;
·使用CUDA核心兩級累加解決FP8張量核心累加不精確的問題。
DeepGEMM最大的特點就是簡潔高效,僅有300行核心代碼。
DeepSeek表示,雖然DeepGEMM借鑒了CUTLASS和CuTe里的一些理念,但并沒有過度依賴它們的模板或代數運算。
在深度學習中,FP8(8位浮點數)可以減少存儲和計算的開銷,但是缺點是精度比較低,而由于精度低,就可能產生量化誤差,影響模型訓練的穩定性。
據DeepSeek介紹,為了解決FP8張量核心積累的精度問題,它采用了CUDA核心的兩級積累(提升)方法。”
也就是利用了CUDA核心做了兩次累加,先用FP8做大批量乘法,然后再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時又保有精度,效率也就由此提升。
性能方面,從測試結果來看,DeepGEMM計算性能最高可達1358 TFLOPS,內存寬帶最高可達2668 GB/s,與英偉達基于CUTLASS 3.6的優化實現相比,速度最高提升了2.7倍。
也可以說是將GPU的性能潛力發揮到極致。
GitHub地址:
https://github.com/deepseek-ai/DeepGEMM
-Day4-
優化的并行策略:給AI訓練配上“高速雙車道”和“交通調度員”
此次DeepSeek開源的內容是優化的并行策略,其中包括DualPipe,一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法;以及EPLB,一種針對V3/R1的專家并行負載均衡器。
此外,DeepSeek還公開分享了其訓練和推理框架的性能分析數據,從而幫助開源社區更好地了解通信與計算重疊策略和底層實現細節。
DualPipe是一種創新性的雙向流水線并行算法,?專為DeepSeek-V3/R1訓練體系設計,相當于給AI訓練裝上了“雙車道高速路”。它實現了前向和后向計算-通信階段的完全重疊,顯著減少了流水線中的空閑時間("流水線氣泡")。
通過對稱的微批次調度,DualPipe優化了并行計算效率,在反向傳播階段并發執行前向計算,將硬件利用率提高了約30%。這種設計尤其適用于擁有數百億到數萬億參數的模型訓練,能夠大幅提高計算效率。
GitHub地址:
https://github.com/deepseek-ai/DualPipe
EPLB(Expert Parallelism Load Balancer)是DeepSeek推出的專家并行負載均衡器,為解決MoE模型在分布式訓練和推理中的負載不平衡問題,這有點類似“交通調度員”,避免某些GPU忙死、某些GPU閑死?。
EPLB通過復制高負載專家并智能地分配到不同GPU上,實現負載均衡。它包含兩種負載均衡策略:層次化負載均衡和全局負載均衡。這種設計使得萬卡GPU集群的利用率超過92%,有效避免了資源浪費。
GitHub地址:
https://github.com/deepseek-ai/EPLB
DeepSeek還分享了來自訓練和推理框架的性能分析數據,以幫助社區更好地了解通信計算重疊策略和低級實現細節,這相當于“健身教練的體測報告”,告訴開發者哪里可以優化。
這些數據通過PyTorch Profiler捕獲,下載后可以直接在Chrome或Edge瀏覽器中打開,進行可視化分析,DeepSeek還模擬了絕對平衡的MoE 路由策略用于性能分析。
GitHub地址:
https://github.com/deepseek-ai/profile-data
-Day5-
Fire-Flyer文件系統 (3FS):提升AI訓練中海量數據處理效率?
Fire-Flyer文件系統 (3FS)是一種利用現代SSD和RDMA網絡的全部帶寬的并行文件系統。
3FS 是一款高性能的分布式文件系統,旨在解決AI訓練和推理工作負載帶來的挑戰,利用現代SSD和RDMA網絡提供共享存儲層,簡化分布式應用程序的開發。
其核心優勢在于高性能、強一致性和易用性,能夠有效支持各種 AI 工作負載,包括數據準備、數據加載、檢查點設置和推理緩存。
其特點有:
·180節點集群中的聚合讀取吞吐量為6.6TiB/s;
·25節點集群中GraySort基準測試的吞吐量為3.66TiB/分鐘;
·每個客戶端節點的 KVCache 查找峰值吞吐量超過40GiB/s;
3FS 在 DeepSeek 的 V3 / R1 版本中得到廣泛應用,涵蓋了訓練數據預處理、數據集加載、檢查點保存 / 重新加載、嵌入向量搜索以及推理過程中的 KVCache 查找等關鍵環節。
做個類比的話,傳統AI訓練的文件系統?貨物堆放混亂,叉車來回碰撞,每天只能處理1000單;?3FS系統下?,則是智能機器人自動分揀,多條傳送帶并行發貨,每天處理10萬單且零錯誤。
GitHub地址:
https://github.com/deepseek-ai/3FS
此外,DeepSeek還開源了基于3FS的數據處理框架Smallpond,其是一款構建于DuckDB和3FS之上的輕量級數據處理框架。它擁有高性能數據處理能力,可擴展至PB級數據集,并且操作簡便,無需長期運行的服務。
GitHub地址:
https://github.com/deepseek-ai/smallpond
此次“開源周”讓懷疑DeepSeek在訓練成本上“撒謊”的人噤聲了。因為每個開源項目,都在向世界展示了DeepSeek極致壓榨英偉達芯片的功力。
只能說,在壓榨英偉達芯片、AI性能效率提高這方面,DeepSeek已經出神入化。
從GitHub上獲得的星標來看,這些項目頗受歡迎,一般來說,在GitHub上獲得幾千星星就已經算很成功了。
截至發稿,FlashMLA已在GitHub獲得超過1萬星標;DeepEP的星標已有6000;DeepGEMM目前超過4100;DualPipe星標超過1900。
在Github的交流區,不少人想起了OpenAI,將DeepSeek稱為“真正的OpenAI”。
OpenAI已經走上閉源之路好幾年,甚至被戲稱為“CloseAI”,直到DeepSeek出現,OpenAI CEO山姆·奧特曼表示,在開源/閉源的問題上,自己或許站在了歷史錯誤的一邊。
此前,他還曾經在X上發起投票,詢問網友希望OpenAI的下一個開源項目是什么類型的。
不過到目前為止,這一切都還只是在空口的承諾中。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.