99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一文詳解DeepSeek開源的FlashMLA,他們才是真正的“源神”。

0
分享至

剛剛,萬眾矚目的DeepSeek,開源了他們第一天的項目。


開源地址在此:

https://github.com/deepseek-ai/FlashMLA

開源的是一個叫FlashMLA的東西。

不到半小時,Github已經已經300多Star了。


幾個參數:


核心的一句話是:

“FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.”

翻譯過來就是:FlashMLA是一款面向Hopper GPU的高效MLA解碼內核,并針對可變長度序列的服務場景進行了優化。

因為確實比較硬核,我只能說用我僅有的知識,給大家簡單科普一下這是個啥,可能會有錯誤,不保證對,如果出現錯誤歡迎大佬評論區拍磚。

把這句話拆解一下。

“MLA decoding kernel”。

這里的“MLA”指的是Multi-head Latent Attention,多頭潛在注意力,DeepSeek降低成本的王炸,反正它是個專門用來做解碼階段的注意力加速器。

大模型有兩個主要階段:訓練(包括prefill)和推理解碼(infer decoding)。在解碼階段,我們往往需要一次一次地拿KV緩存出來,反復計算,所以當序列變長之后,這部分開銷會爆炸似的增長。如果能在解碼階段有更強的核去優化,意味著你的大模型可以更快地產出結果,特別對像這種長上下文對話就很關鍵。

第二,“for Hopper GPUs”。

英偉達的卡有幾個架構,包括A架構和H架構。

A是Ampere架構(2020年發布),是NVIDIA的第七代GPU架構,主打通用計算和高性能AI訓練/推理,典型代表型號為A100。

H代表Hopper架構(2022年發布),是NVIDIA的第九代架構(跳過第八代),目前最新的,專為超大規模AI和超算設計,顯著優化了Transformer模型性能,典型的就是H100,不過因為國內問題,能用到的都是閹割版的H800。

所以,大家就可以明白,FlashMLA是DeepSeek專門針對NVIDIA H800這一代高端加速卡做的深度優化。

他們在release note里還說跑在H800上能達到“3000 GB/s memory-bound & 580 TFLOPS compute-bound”,這等于在“內存帶寬”和“浮點算力”兩方面都拉到極限了。基本已經是我見過的最逼近巔峰的了。

他們在致謝了寫了靈感來自于FlashAttention。

我就去翻了下那個項目。


相比FlashAttention-2,FlashMLA接近翻了2倍,甚至都能跟FlashAttention-3還差點,而別人是H100優化的,DeepSeek是針對H800優化的。

第三,“optimized for variable-length sequences.” 。

就是說它不僅僅適合固定batch,還對那種“每個人輸入長度不一樣,隨時變更token長度”的場景特別好。

因為就大模型的實際應用而言,用戶往往輸入并不規則,隨時來個長上下文對話或者給你干上去一個超長PDF,這就需要內核支持“動態序列”,同時還能保持高效,而這塊,DeepSeek也做了大幅的優化。

目前整體上也可以開箱即用。


DeepSeek這是真的把自己最牛逼的東西開源出來了。

這尼瑪,才是真正的OpenAI啊。

想起來了他們前幾天發的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》,整個目標也都是有異曲同工之妙。


如果說FlashMLA是針對推理解碼做的“終極性能爆破”,那么Native Sparse Attention就是對訓練和推理做更全面的“稀疏化改革”。

兩者結合到一起,意思就是DeepSeek在告訴你。

“無論訓練還是推理,我都要把硬件榨干,要做就做最猛的AI。”

對于整個AI生態來說,這是一件天大的好事。

特別是國內。

越多的開源優化,意味著以后大家都可以在高效注意力、稀疏推理、長上下文訓練等方面取得突破,不用像過去那樣閉源大廠獨家享受。

如果你是小白或者純產品經理,可以把這件事情當做:

蘋果又給iPhone做了一個專門的GPU調教,所以游戲跑得更爽了。

只不過,這次是DeepSeek在給AI大模型做專門的GPU調教,把H800的極限性能都薅出來,換來更快的推理和訓練速度。

這是妥妥的GPU性能紅利。

所以我對DeepSeek挺佩服,敢搞硬件極限那一套,敢把論文跟開源項目一起放出來,而且頻率這么高。

而且這還只是第一天。

后面還有四天,不敢想他們還會放出來多牛逼的東西出來。。

希望這篇小白友好版的文章能讓你對FlashMLA有個更直觀的理解。

既然沒卡,沒有資源。

那我們自己,就特娘的打下那一片天。

感謝DeepSeek。

你才是真正的源神。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不讓考生進考場,是誰在制造這些尷尬的“正能量”故事?

不讓考生進考場,是誰在制造這些尷尬的“正能量”故事?

水寒說語文
2025-06-09 13:17:15
俄烏遺體交換比背后的邏輯,值得一看

俄烏遺體交換比背后的邏輯,值得一看

山河路口
2025-06-09 11:58:33
加州州長:盡管來抓我;特朗普:紐森是好人但完全無能 抓他是好事

加州州長:盡管來抓我;特朗普:紐森是好人但完全無能 抓他是好事

鳳凰衛視
2025-06-10 11:24:08
楊澤翔致歉:對不起!爭議點球后難以釋懷,作為親歷者比誰都愧疚

楊澤翔致歉:對不起!爭議點球后難以釋懷,作為親歷者比誰都愧疚

雷速體育
2025-06-11 01:16:34
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
山東后天雷暴來襲 局部暴雨或破50毫米

山東后天雷暴來襲 局部暴雨或破50毫米

小呆魚
2025-06-11 06:50:05
記者:孫繼海此前批伊萬團隊沒預案 本場后者80分鐘變陣回應質疑

記者:孫繼海此前批伊萬團隊沒預案 本場后者80分鐘變陣回應質疑

直播吧
2025-06-10 21:04:43
官媒出手了!怒批演唱會亂象,徹底撕下小沈陽岳云鵬的“遮羞布”

官媒出手了!怒批演唱會亂象,徹底撕下小沈陽岳云鵬的“遮羞布”

洲洲影視娛評
2025-06-11 12:13:53
曼聯欲賣3人賺1億卻滯銷!拉什福德40%轉會巴薩,安東尼渴望解脫

曼聯欲賣3人賺1億卻滯銷!拉什福德40%轉會巴薩,安東尼渴望解脫

羅米的曼聯博客
2025-06-11 10:05:08
侄女去年高考578分,復讀,被狠狠打臉了,淚奔了

侄女去年高考578分,復讀,被狠狠打臉了,淚奔了

手工制作阿愛
2025-06-11 11:48:09
阿根廷哥倫比亞賽后沖突,奧塔門迪怒懟里奧斯:傻瓜,把發帶摘了

阿根廷哥倫比亞賽后沖突,奧塔門迪怒懟里奧斯:傻瓜,把發帶摘了

雷速體育
2025-06-11 11:00:23
50歲董卿做夢也沒想到,自己11歲的美籍兒子,已經開始為他爭光了

50歲董卿做夢也沒想到,自己11歲的美籍兒子,已經開始為他爭光了

素衣讀史
2025-06-10 15:58:11
美國調整船舶規則:停靠收費或降低90% 不再苛求美國船只占比

美國調整船舶規則:停靠收費或降低90% 不再苛求美國船只占比

財聯社
2025-06-10 14:33:14
被坑了!女生曝在北京騎共享單車10分鐘40元,租了2輛共80塊

被坑了!女生曝在北京騎共享單車10分鐘40元,租了2輛共80塊

星河也燦爛
2025-06-10 12:00:52
“她才上初中!”家長在女兒床縫發現這種東西,網友:該反思的是你

“她才上初中!”家長在女兒床縫發現這種東西,網友:該反思的是你

妍妍教育日記
2025-06-08 18:03:13
日本一商店招牌被曬焦,可愛嬰兒曬成“咒怨”版,這天得有多熱!

日本一商店招牌被曬焦,可愛嬰兒曬成“咒怨”版,這天得有多熱!

怪羅
2025-06-10 13:27:41
《長安的荔枝》熱播:楊貴妃的荔枝到底來自嶺南還是四川?

《長安的荔枝》熱播:楊貴妃的荔枝到底來自嶺南還是四川?

天府發布
2025-06-11 08:08:39
黨員干部參加這20種飯局就“出局”

黨員干部參加這20種飯局就“出局”

極目新聞
2025-06-07 13:56:17
馬英九將率團訪陸

馬英九將率團訪陸

新京報政事兒
2025-06-11 10:23:35
青島通報:違規接受宴請后,史德智醉酒駕車被查獲

青島通報:違規接受宴請后,史德智醉酒駕車被查獲

政知新媒體
2025-06-10 14:47:02
2025-06-11 13:04:49
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
316文章數 420關注度
往期回顧 全部

科技要聞

比亞迪凌晨宣布!助力中小企業健康發展

頭條要聞

掛職副縣長搜集密件給妻子復印攜帶出境 夫妻雙雙獲刑

頭條要聞

掛職副縣長搜集密件給妻子復印攜帶出境 夫妻雙雙獲刑

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

唐嫣卷入熱巴換角風波 楊冪也被牽連?

財經要聞

Labubu神話下的雜音

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

家居
旅游
房產
健康
軍事航空

家居要聞

木質灰調 現代輕奢質感

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

45億!突然,又一民企巨頭殺入海南舊改!

減重專家破解減肥九大謠言!

軍事要聞

加州請求阻止特朗普政府派兵被駁回

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 当雄县| 舞阳县| 巴楚县| 临猗县| 大兴区| 徐闻县| 静宁县| 桐乡市| 崇左市| 稻城县| 靖宇县| 贵港市| 施甸县| 马公市| 海安县| 柘城县| 肃宁县| 柞水县| 呈贡县| 蚌埠市| 凌源市| 云浮市| 平果县| 西华县| 宁国市| 屏南县| 奉贤区| 平遥县| 台东县| 河曲县| 辛集市| 兴宁市| 鹿邑县| 镇赉县| 丹凤县| 新安县| 河津市| 若尔盖县| 灵宝市| 大名县| 定结县|