剛剛,萬眾矚目的DeepSeek,開源了他們第一天的項目。
開源地址在此:
https://github.com/deepseek-ai/FlashMLA
開源的是一個叫FlashMLA的東西。
不到半小時,Github已經已經300多Star了。
幾個參數:
核心的一句話是:
“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”
翻譯過來就是:FlashMLA是一款面向Hopper GPU的高效MLA解碼內核,并針對可變長度序列的服務場景進行了優化。
因為確實比較硬核,我只能說用我僅有的知識,給大家簡單科普一下這是個啥,可能會有錯誤,不保證對,如果出現錯誤歡迎大佬評論區拍磚。
把這句話拆解一下。
“MLA decoding kernel”。
這里的“MLA”指的是Multi-head Latent Attention,多頭潛在注意力,DeepSeek降低成本的王炸,反正它是個專門用來做解碼階段的注意力加速器。
大模型有兩個主要階段:訓練(包括prefill)和推理解碼(infer decoding)。在解碼階段,我們往往需要一次一次地拿KV緩存出來,反復計算,所以當序列變長之后,這部分開銷會爆炸似的增長。如果能在解碼階段有更強的核去優化,意味著你的大模型可以更快地產出結果,特別對像這種長上下文對話就很關鍵。
第二,“for Hopper GPUs”。
英偉達的卡有幾個架構,包括A架構和H架構。
A是Ampere架構(2020年發布),是NVIDIA的第七代GPU架構,主打通用計算和高性能AI訓練/推理,典型代表型號為A100。
H代表Hopper架構(2022年發布),是NVIDIA的第九代架構(跳過第八代),目前最新的,專為超大規模AI和超算設計,顯著優化了Transformer模型性能,典型的就是H100,不過因為國內問題,能用到的都是閹割版的H800。
所以,大家就可以明白,FlashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優化。
他們在release note里還說跑在H800上能達到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”,這等于在“內存帶寬”和“浮點算力”兩方面都拉到極限了。基本已經是我見過的最逼近巔峰的了。
他們在致謝了寫了靈感來自于FlashAttention。
我就去翻了下那個項目。
相比FlashAttention-2,FlashMLA接近翻了2倍,甚至都能跟FlashAttention-3還差點,而別人是H100優化的,DeepSeek是針對H800優化的。
第三,“optimized for variable-length sequences.” 。
就是說它不僅僅適合固定batch,還對那種“每個人輸入長度不一樣,隨時變更token長度”的場景特別好。
因為就大模型的實際應用而言,用戶往往輸入并不規則,隨時來個長上下文對話或者給你干上去一個超長PDF,這就需要內核支持“動態序列”,同時還能保持高效,而這塊,DeepSeek也做了大幅的優化。
目前整體上也可以開箱即用。
DeepSeek這是真的把自己最牛逼的東西開源出來了。
這尼瑪,才是真正的OpenAI啊。
想起來了他們前幾天發的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,整個目標也都是有異曲同工之妙。
如果說FlashMLA是針對推理解碼做的“終極性能爆破”,那么Native Sparse Attention就是對訓練和推理做更全面的“稀疏化改革”。
兩者結合到一起,意思就是DeepSeek在告訴你。
“無論訓練還是推理,我都要把硬件榨干,要做就做最猛的AI。”
對于整個AI生態來說,這是一件天大的好事。
特別是國內。
越多的開源優化,意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓練等方面取得突破,不用像過去那樣閉源大廠獨家享受。
如果你是小白或者純產品經理,可以把這件事情當做:
蘋果又給iPhone做了一個專門的GPU調教,所以游戲跑得更爽了。
只不過,這次是DeepSeek在給AI大模型做專門的GPU調教,把H800的極限性能都薅出來,換來更快的推理和訓練速度。
這是妥妥的GPU性能紅利。
所以我對DeepSeek挺佩服,敢搞硬件極限那一套,敢把論文跟開源項目一起放出來,而且頻率這么高。
而且這還只是第一天。
后面還有四天,不敢想他們還會放出來多牛逼的東西出來。。
希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。
既然沒卡,沒有資源。
那我們自己,就特娘的打下那一片天。
感謝DeepSeek。
你才是真正的源神。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.