99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Kimi K2 對 DeepSeek V3 的繼承與改進

0
分享至



作者:劉少偉

利益相關:參與過 Kimi-K2 的接生,自己的孩子怎么看都順眼。

自從 Kimi K2 發布以來,很高興得到了開源社區大量的關注。

注意到盡管我們的模型結構近乎完全繼承了 DeepSeek - V3 (下文簡稱 DSv3),依然有很多小伙伴深入探究兩個模型僅存的一點“不同”背后的原因。

作為 Moonshot Infra 側推理小透明一名,今天想從推理角度來簡單講一下 Kimi K2 的 config 為什么“長成”現在的樣子。

提前疊甲:內容涉及到很多訓練相關的內容,里面會摻雜一些個人理解,如有不準確的地方請其他同事糾正。

1. K2模型結構的設計宗旨。 在啟動 K2 訓練之前,我們進行了大量模型結構相關的 scaling 實驗,結果是,所有當時 propose 的、與 DSv3 不同的結構,沒有一個能真正打敗他的(頂多旗鼓相當)。 因此,問題就變成了,我們要不要為了與 DeepSeek 不同,強行選擇一個沒有優勢但不一樣的結構,最終的答案是 no。 原因也很簡單:DSv3 的結構是經過驗證,在 large scale 上依然有效的,而我們的“新結構”還并沒有經歷過足夠大規模的驗證。在已經有 muon 優化器 和更大參數量兩個巨大變量的前提下,我們并不想引入沒有明確收益的額外變量來“標新立異”。 于是,就有了第一個約束條件:完全繼承 DSv3 的結構,調整適合我們的模型結構參數

而第二個約束條件就是成本,包含訓練成本和推理成本。

原因很簡單,作為一家小公司,我們的訓練和推理資源都是非常有限的。

在 DSv3 推出之后,我們經過認真評估,認為它的訓練成本和推理成本,都比較接近我們當前能承受的上限。因此,我們需要將 K2 的訓練和推理成本,盡量控制在與(我們自己訓推)DSv3 持平的水平

綜上所述,模型結構的設計問題就變成了:在給定 DSv3 結構的框架之下,如何選擇合適的參數,使得模型在訓練、推理成本與 DSv3 相當的前提下,獲得明顯更低的 loss。其中訓練成本方面本文不會詳細展開(才不會承認因為我也是一知半解),我們會在我們之后發布的 tech report 中介紹 K2 的訓練方案與優化,敬請期待:)

2. 具體改動和動機


圖片來自@rasbt https://x.com/rasbt/status/1944056316424577525

正如很多人對比兩份 config 文件所觀察到的,我們在模型結構參數上,具體的改動主要包含:

(1) expert 數量

(2) attention head 數

(3) 前面的 dense 層數只有 1 層 (4) 無分組的簡化版 router。

接下來我會按這個順序,從模型推理的角度介紹它們背后的考量。本次推理方案完全沿用 DeepSeek 的 tech report [1] 和 OpenDay [2] 中提到的 EP+DP 方案 ,理論分析暫不含通信(假設通信可被推理層面盡可能overlap掉)。

2.1 num_experts = 384

這條結論來自 pretrain 團隊的 sparsity scaling law,是 K2 項目從 pretrain 階段開始的主要驅動力之一(另一個當然是 MuonClip)。

簡而言之,我們驗證了在固定 # activate params 不變的前提下,單純增長 MoE 總參數量,scaling law 依然成立,且不論訓練 loss 還是驗證 loss,結論始終保持,也就是無需擔心增大總參數量會過擬合。因此,num_experts=384 承擔了降低模型 loss 的核心任務。

對推理的影響:

(1)prefill 階段:如果 prefill 節點數能做到和 num_experts=256 時一樣大,且 prefill 的 seqlen 足夠長,耗時基本無明顯增長,因為此時的prefill是compute bound 的任務,我們的激活參數量不變,MoE 環節的總 FLOPS 也不變。

(2)decode 階段:由于需考慮線上實際的 TBOT 指標,我們無法無限增大推理時的 batch size(雖然現在已經被狂噴慢慢慢了orz)。因此可以粗略地認為 MoE 階段的GEMM仍是 memory bound,那么 MoE 參數量增大到 1.5×,相關計算的耗時也就變成了 1.5×。以 EP=128 為例(128 是我們的384 和DSv3的256的最大公約數,方便比較),對 DSv3 來說,每個 EP rank 上會存放 2 個路由專家和 1 個共享專家,大約 7.5 GB 的 MLP weights(不計算 EPLB方案 的冗余專家);而 K2 則需要大約 10 G,大了2.5G。

2.2 num_attention_heads = 64

MoE 階段實打實地變慢(貴)了,我們就得考慮能否從其他環節找補回來,attention 的 head 數是第一個想到的切入點。原因在于 MLA 的論文中,DeepSeek 為了讓 MLA 盡可能充分利用訪存帶寬,相比 MHA 常見 attention heads ≈ layer 數的設計,把 head 數翻倍,也確實帶來輕微漲點,但也帶來兩個問題:prefill 和 decode 實際上都變貴了。相比之下,如果我們將attention head數量重新變回64:

prefill 階段:

(1)MLA attention 計算量為 2hs2(d_nope + d_rope + dv),h 是 head 數,s 是序列長度,三個d分別為128,64,128。而整個模型其他部分基本都是矩陣乘法,計算量的公式為 2Ns,其中 N 是所有矩陣乘法相關參數的參數量。注意到,attention計算量與seqlen成平方關系,而其余矩陣乘法則為線性關系,即隨輸入序列長度增大,attention 在 prefill 階段耗時占比越大。而K2 的目標場景(agent、vibe coding)中,長序列是標準的使用形態,正好被這個問題直戳痛點。而將 head 數砍半,則可以一定程度上削減這個快速增長的平方項對整體耗時造成的影響。

(2)除此之外,attention 前后還有 QKVO projection ,這幾個矩陣乘的參數量與 head 數線性相關。大家應該也能看到 DSv3 的激活參數 37 B,而K2 只有 32 B,差的 5 B 就來自這里。粗略來看,DSv3 激活的 37 B 中,QKVO projection 占 10 B,K2 只有 5 B,隨著參數量的減少,這幾個projection在prefill階段的FLOPS消耗也隨之減少,K2再勝一局。

decode 階段:

attention core 的計算耗時主要取決于 KV cache 大小,這一點 K2 和 DSv3 完全相同,平手。但 QKVO projection部分 與 prefill階段 類似,實打實地把 10 GB 的訪存量降到了 5 GB。更關鍵的是,在 DP Attention 下,QKVO projection 會在所有 rank 上 replicate,因此這 5 GB 的差距不會像TP那樣,隨并行度增大而攤薄。因此不管EP size多大,每個rank都有5GB的仿存減少。回顧前面 MoE 的差距,EP128 下我們總參數量增大到 1TB,每個 rank 才多了 2.5 GB 訪存,而這里 head 數從 128 降到 64,就能省下 5 GB,瞬間感覺自己很賺。

綜上,降低 head 數可以瞬間把 MoE 參數增大虧掉的部分全部補回來,還有富余。我們最擔心的只剩下這樣對模型效果是否有明顯的負影響。算法同學通過充分對比實驗,確認了把 head 數還原到接近層數的“baseline”設置對 loss 的負影響要遠遠小于 MoE 參數增大的正影響,于是,num_heads=64 就這么愉快地決定了。(留一道思考題:減少 attention head 數,還可以為 Speculative Decoding 留下了更多提速空間。)

2.3 first_k_dense = 1

與 DeepSeek 的觀察類似,我們也同樣在訓練中發現第一層 MoE 的 router 很難做到負載均衡,但不同的是第二層之后并沒有發現什么大問題。為了更充分利用 MoE 優勢,我們只保留第一層 dense,其余全用 MoE。這個操作對 prefill 幾乎無影響,對 decode 每個 rank 大約增加幾百 MB 訪存,可以忽略不計。

2.4 n_group = 1(expert 無分組)

expert 分組的最大價值是當一個 rank 上存在多個 expert 時,可以讓它們同組,在 device(GPU) level 讓 MoE 計算更均衡。但在當前模型的參數規模下,我們不得不使用很大的 EP,每個 device 上只剩少量、甚至只有一個 expert,group level 的均衡則從GPU層面轉換到了節點層面。而即便節點層面能夠做到相對均衡,但每個節點內部遇到所有 token 都被 route 到當前 group 的同一個 expert上這種最壞情況下,MoE 計算耗時仍然不會理想。因此,EPLB方案里面的動態重排和冗余專家對于當前設定下的負載均衡問題相對來說要更為關鍵一些。而更自由的 router 方案能讓 expert 的組合空間顯著增大,從而進一步提升模型能力。

3. 小結

以上就是 K2 模型結構參數被設定為當前這個狀態,來自推理側的完整思維鏈了。

綜合以上四個相比 DSv3 的改動,我們能夠得到一個在相同 EP 數量下,雖然總參數增大到 1.5 倍,但除去通信部分,理論的 prefill 和 decode 耗時都更小的推理方案。即使考慮與通信 overlap 等復雜因素,這個方案也不會比 DSv3 有顯著的成本增加。

可以自豪的說,雖然只有小小的 4 個參數的改動,但每一個決策的背后都有充足的理論分析和實驗驗證。也希望模型開源后,能有更多的推理廠商和框架共同幫我們驗證前面分析的正確性。再次感謝所有小伙伴對 Kimi-K2 的關注!

[1] DeepSeek-V3 Technical Report https://arxiv.org/pdf/2412.19437

[2] One More Thing, DeepSeek-V3/R1 Inference System Overview.

https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

【補充】

前面的估計確實有個重要前提被遺漏了,就是 GPU 的型號。所有關于計算仿存的 roofline 都和實際具體每張卡的計算密度有關。文中的估計都是根據我們手頭的現有卡來的。具體多少 batch_size 會打到 compute 這種問題還需要大家根據自己手頭GPU的實際情況來重新估算,無法直接作為結論抄作業。

https://www.zhihu.com/question/1927140506573435010/answer/1927892108636849910

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
留學圈的話到底有多炸裂?網友:在日本生活5年,我陪她墮了3次胎

留學圈的話到底有多炸裂?網友:在日本生活5年,我陪她墮了3次胎

解讀熱點事件
2025-07-23 00:10:03
易中天:不殺,留著終是個危險

易中天:不殺,留著終是個危險

尚曦讀史
2025-07-23 01:45:02
特朗普這話一出,菲律賓總統臉色變了....

特朗普這話一出,菲律賓總統臉色變了....

環球時報新聞
2025-07-23 11:38:05
曝山東男籃簽下奧拉迪波,邱彪這是在干啥?難怪楊鳴出言不遜

曝山東男籃簽下奧拉迪波,邱彪這是在干啥?難怪楊鳴出言不遜

姜大叔侃球
2025-07-23 16:14:29
2025年高考分數線猛跌的4所211大學,400多分成功撿漏,實屬罕見

2025年高考分數線猛跌的4所211大學,400多分成功撿漏,實屬罕見

教育導向分享
2025-07-22 19:25:20
我是正師級軍官,參加同學聚會被初戀嘲笑,第二年我轉業任副市長

我是正師級軍官,參加同學聚會被初戀嘲笑,第二年我轉業任副市長

喬生桂
2025-07-22 17:09:49
涼爽倒計時!湖北連發38條預警,即將重回40℃!

涼爽倒計時!湖北連發38條預警,即將重回40℃!

極目新聞
2025-07-23 12:31:27
首次,2名中國大陸出身的華人當選為日本參議院議員

首次,2名中國大陸出身的華人當選為日本參議院議員

徐靜波靜說日本
2025-07-23 07:24:02
梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
央視曝光!你以為沒壞實際早已“細菌爆表”的5種食物,趕緊扔了

央視曝光!你以為沒壞實際早已“細菌爆表”的5種食物,趕緊扔了

阿傖說事
2025-07-22 08:00:09
二手房拋售狂潮席卷全國:我們制造史詩級變革?將會有什么結果

二手房拋售狂潮席卷全國:我們制造史詩級變革?將會有什么結果

小白鴿財經
2025-07-21 08:36:15
“絕經和出道同時來?”上海街頭驚現她的巨幅海報!網友:笑著笑著就哭了

“絕經和出道同時來?”上海街頭驚現她的巨幅海報!網友:笑著笑著就哭了

環球網資訊
2025-07-23 10:48:19
免費領雞蛋,騙244億養老錢!中國老年人“第一大忽悠”終于倒了

免費領雞蛋,騙244億養老錢!中國老年人“第一大忽悠”終于倒了

新語愛八卦
2025-07-22 17:59:09
5年7500萬!曝比亞迪已暫停贊助國足:因大量球迷抵制國足贊助商

5年7500萬!曝比亞迪已暫停贊助國足:因大量球迷抵制國足贊助商

風過鄉
2025-07-22 20:57:26
實錘?網傳杜建英有丈夫,還有一個36歲大兒子,宗慶后竟然是三哥

實錘?網傳杜建英有丈夫,還有一個36歲大兒子,宗慶后竟然是三哥

壹月情感
2025-07-20 22:06:40
NBA歷史僅10人能在出戰400+場比賽保持70+%勝率 小卡是現役唯一

NBA歷史僅10人能在出戰400+場比賽保持70+%勝率 小卡是現役唯一

直播吧
2025-07-23 19:09:16
宗馥莉叔叔宗澤后接受巴倫中文網獨家采訪,又爆出猛料,令人深思

宗馥莉叔叔宗澤后接受巴倫中文網獨家采訪,又爆出猛料,令人深思

悠閑歷史
2025-07-23 15:55:02
北京化工大學碳纖維錄取通知書能切西瓜,學校招生辦:本科生專屬,明年不再沿用

北京化工大學碳纖維錄取通知書能切西瓜,學校招生辦:本科生專屬,明年不再沿用

極目新聞
2025-07-23 13:36:32
宮魯鳴或卸任,女籃新帥或敲定,62歲,名宿,或成李夢回歸關鍵

宮魯鳴或卸任,女籃新帥或敲定,62歲,名宿,或成李夢回歸關鍵

東球弟
2025-07-23 11:10:02
央視曝光!又一灰色產業鏈暴雷!0成本套現48萬,還不用還?

央視曝光!又一灰色產業鏈暴雷!0成本套現48萬,還不用還?

大魚簡科
2025-07-23 16:17:38
2025-07-23 20:08:49
云頭條 incentive-icons
云頭條
引領科技變革,連接技術與商業。
14627文章數 27183關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

時尚
藝術
游戲
親子
本地

看來看去還是這些穿搭適合普通人!配色不艷、衣服不花,好得體

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

LPL第三階段:TES零封FPX,要想改變口碑,還需要成績說話

親子要聞

新年吃什么爸爸說交給孩子們自己決定,又是有趣的一餐

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 榆社县| 巴彦淖尔市| 天台县| 正定县| 顺义区| 荥阳市| 太谷县| 商水县| 泰和县| 清原| 花莲市| 义乌市| 庆元县| 梅州市| 贡嘎县| 湟源县| 马关县| 海南省| 同仁县| 长武县| 徐水县| 阜城县| 东乌珠穆沁旗| 视频| 开远市| 即墨市| 新巴尔虎右旗| 锡林郭勒盟| 务川| 修文县| 韶山市| 仙居县| 富平县| 龙岩市| 双江| 东源县| 城口县| 京山县| 墨脱县| 陆丰市| 嘉善县|