源圣”馬斯克入主白宮東廠以來,開源的激情少了很多。
好在江湖上又出現了新的“開源公子”梁文鋒,DeepSeep在之前就預告了本周會搞一個“開源周”活動,將會開源5個代碼庫,以完全透明的方式與全球開發者社區分享他們的研究進展。
今天“開源周”第三天才過去半天,DeepSeek就已經解鎖了三項技術,這效率真是杠杠的。
那么DeepSeek這三天都開源了什么黑技術,是否懟得到黑子們的肺管子呢?
第一項:FlashMLA
這是為Hopper GPU 開發的高效MLA解碼內核 ,針對可變長度序列進行了優化。
這話說得有點太技術了,我們白話解釋一下。
大模型會把用戶的提問進行傳送、拆分、轉義,這個過程會產生很多長短不一的語句,然后扔給大模型去分析和處理。當大量用戶同時進行操作時,AI的處理效率就顯得很重要了。
MLA技術是谷歌、OpenAi、Grok3等美國AI技術大廠都在玩的創新技術,而DeepSeek的FlashMLA則是將這種創新落地到硬件的具體實現,性能指標(3000GB/s和580TFLOPS)足以媲美業界頂尖方案(如 FlashAttention)。
Hopper是英偉達的GPU(圖形處理芯片)架構,例如H100和H800,發布于2022年,主要用于AI計算。DeepSeek則專門給高性能顯卡(包括英偉達的Hopper系列GPU)設計了這個“加速神器”,來提高AI處理任務的效率。
DeepSeek舉一個例子:假如開了一家快遞分揀站,每天要處理不同大小的包裹,傳統方法是用固定大小的筐子裝,小包裹浪費空間,大包裹又得分筐裝,效率很低。而FlashMLA就像一套“智能分揀系統”,能自動根據包裹大小調整筐子尺寸,讓所有包裹快速、整齊地裝車,既省時間又省錢。
這就是的FlashMLA技術原理,它能讓AI用更少的內存、更快的速度處理各種長短不一的句子
第二項:DeepEP
它是首個用于MoE(混合專家)模型訓練和推理的開源EP(Expert Parallelism專家并行)通信庫。
主要功能為:
高效優化的全對全(all-to-all)通信;
支持節點內(intranode)和節點間(internode)通信,兼容 NVLink 和 RDMA;
訓練與推理預填充(prefilling)階段的高吞吐率計算核;
推理解碼(decoding)階段的低延遲計算核;
原生支持 FP8 數據調度;
靈活的 GPU 資源控制,實現計算與通信的重疊處理。
字都認得,但是堆在一起卻很費解。
性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3訓練出來的模型,DeepSeek-V3此前就以不大規模使用最先進的英偉達GPU、低訓練預算著稱。說白了,就是DeepSeek不需要堆太多算力,達到高效訓練的結果。
DeepEP包含有一組使用純RDMA的低延遲內核,可以用于將延遲最小化,DeepEP還引入一種通信與計算重疊的方法,這種方法可以不占用SM(流處理器)資源。簡而言之,DeepEP也是用于提升GPU利用效率的關鍵技術之一
第三項:DeepGEMM
今天發布的DeepGEMM是一個支持密集和MoE GEMM的FP8GEMM庫,為DeepSeek的V3/R1訓練和推理提供支持。
GEMM(General Matrix Multiplication,通用矩陣乘法)是線性代數中的基本運算,而FP8 GEMM則是一種使用8位浮點數進行矩陣乘法的計算操作。
DeepGEMM則同時支持傳統的稠密模型和MoE(混合專家)模型的GEMM運算,這一代碼為基于英偉達Hopper架構(如H100 GPU)的V3/R1系列硬件提供高效的訓練和推理支持。
基于這一代碼庫,在英偉達Hopper架構的GPU上可實現1350+ FP8 TFLOPS(每秒浮點運算次數)的性能,充分利用算力。
燃!
該代碼庫設計非常簡潔,只有一個核心內核函數,代碼量約為300行,且在大多數矩陣規模上均優于專家調優的內核。
大模型生態社區OpenCSG(開放傳神)創始人陳冉解讀DeepGEMM的意義: “相當于以前DeepSeek是直接給一輛車,告訴大家這輛車續航900公里,但是現在DeepSeek在深挖,用什么方式能夠開到900公里。”
DeepSeek連續三天開源的算法,在某種意義上屬于“腳手架”。陳冉認為,既有模型標準,也有工具標準,也有生態基石。
DeepSeek接下來還有兩個代碼庫會在本周發布,DeepSeek在公告中表示,“每分享一行代碼,都會成為加速AI行業發展的集體動力。”
就沖這句話,DeepSeek就對得起“源神”這個封號,你說呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.