網易首頁 > 網易號 > 正文申請入駐

一文詳解DeepSeek開源的FlashMLA，他們才是真正的“源神”。

2025-02-24 11:14:51　來源: 數字生命卡茲克

天津舉報

分享至

剛剛，萬眾矚目的DeepSeek，開源了他們第一天的項目。

開源地址在此：

https://github.com/deepseek-ai/FlashMLA

開源的是一個叫FlashMLA的東西。

不到半小時，Github已經已經300多Star了。

幾個參數：

核心的一句話是：

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻譯過來就是：FlashMLA是一款面向Hopper GPU的高效MLA解碼內核，并針對可變長度序列的服務場景進行了優化。

因為確實比較硬核，我只能說用我僅有的知識，給大家簡單科普一下這是個啥，可能會有錯誤，不保證對，如果出現錯誤歡迎大佬評論區拍磚。

把這句話拆解一下。

“MLA decoding kernel”。

這里的“MLA”指的是Multi-head Latent Attention，多頭潛在注意力，DeepSeek降低成本的王炸，反正它是個專門用來做解碼階段的注意力加速器。

大模型有兩個主要階段：訓練（包括prefill）和推理解碼（infer decoding）。在解碼階段，我們往往需要一次一次地拿KV緩存出來，反復計算，所以當序列變長之后，這部分開銷會爆炸似的增長。如果能在解碼階段有更強的核去優化，意味著你的大模型可以更快地產出結果，特別對像這種長上下文對話就很關鍵。

第二，“for Hopper GPUs”。

英偉達的卡有幾個架構，包括A架構和H架構。

A是Ampere架構（2020年發布），是NVIDIA的第七代GPU架構，主打通用計算和高性能AI訓練/推理，典型代表型號為A100。

H代表Hopper架構（2022年發布），是NVIDIA的第九代架構（跳過第八代），目前最新的，專為超大規模AI和超算設計，顯著優化了Transformer模型性能，典型的就是H100，不過因為國內問題，能用到的都是閹割版的H800。

所以，大家就可以明白，FlashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優化。

他們在release note里還說跑在H800上能達到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”，這等于在“內存帶寬”和“浮點算力”兩方面都拉到極限了。基本已經是我見過的最逼近巔峰的了。

他們在致謝了寫了靈感來自于FlashAttention。

我就去翻了下那個項目。

相比FlashAttention-2，FlashMLA接近翻了2倍，甚至都能跟FlashAttention-3還差點，而別人是H100優化的，DeepSeek是針對H800優化的。

第三，“optimized for variable-length sequences.” 。

就是說它不僅僅適合固定batch，還對那種“每個人輸入長度不一樣，隨時變更token長度”的場景特別好。

因為就大模型的實際應用而言，用戶往往輸入并不規則，隨時來個長上下文對話或者給你干上去一個超長PDF，這就需要內核支持“動態序列”，同時還能保持高效，而這塊，DeepSeek也做了大幅的優化。

目前整體上也可以開箱即用。

DeepSeek這是真的把自己最牛逼的東西開源出來了。

這尼瑪，才是真正的OpenAI啊。

想起來了他們前幾天發的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》，整個目標也都是有異曲同工之妙。

如果說FlashMLA是針對推理解碼做的“終極性能爆破”，那么Native Sparse Attention就是對訓練和推理做更全面的“稀疏化改革”。

兩者結合到一起，意思就是DeepSeek在告訴你。

“無論訓練還是推理，我都要把硬件榨干，要做就做最猛的AI。”

對于整個AI生態來說，這是一件天大的好事。

特別是國內。

越多的開源優化，意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓練等方面取得突破，不用像過去那樣閉源大廠獨家享受。

如果你是小白或者純產品經理，可以把這件事情當做：

蘋果又給iPhone做了一個專門的GPU調教，所以游戲跑得更爽了。

只不過，這次是DeepSeek在給AI大模型做專門的GPU調教，把H800的極限性能都薅出來，換來更快的推理和訓練速度。

這是妥妥的GPU性能紅利。

所以我對DeepSeek挺佩服，敢搞硬件極限那一套，敢把論文跟開源項目一起放出來，而且頻率這么高。

而且這還只是第一天。

后面還有四天，不敢想他們還會放出來多牛逼的東西出來。。

希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。

既然沒卡，沒有資源。

那我們自己，就特娘的打下那一片天。

感謝DeepSeek。

你才是真正的源神。

以上，既然看到這里了，如果覺得不錯，隨手點個贊、在看、轉發三連吧，如果想第一時間收到推送，也可以給我個星標?～謝謝你看我的文章，我們，下次再見。

>/ 作者：卡茲克

>/ 投稿或爆料，請聯系郵箱：wzglyay@gmail.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.