Kimi K2稱霸全球開源模型的秘籍公開了!
沒錯,就是整整32頁的Kimi K2官方技術報告。業內人士第一波repo已火速出爐:
- 這篇論文中有很多令人印象深刻的內容。
- nice!它分享了很多關于Kimi(以及中國實驗室)對這些模型的看法(他們關注/優化的內容)
Kimi K2,作為Kimi最新MoE基礎模型,總參數1T,激活參數32B,能力領先性尤其展現在代碼、Agent、數學推理任務上。
上線僅一周,它就在競技場千人盲評中擊敗DeepSeek,登頂全球最強開源模型,而且能媲美Grok 4、GPT 4.5等頂尖閉源模型。
那它是咋做到的呢?
別急,這篇最新論文來給答案了——一次性大公開Kimi K2的訓練過程及“秘密配方”。
包括但不限于大家已經熱議的:MuonClip優化器、大規模Agentic Tool Use數據合成、通用強化學習等等。
下面詳細來看。
都有哪些技術亮點
首先,Kimi團隊認為,現如今大語言模型正從靜態模仿學習向Agentic Intelligence轉型。
這意味著,模型需要具備在復雜動態環境中自主感知、規劃、推理和行動的能力。
要實現這一點,當面人們面臨兩大挑戰:
- 預訓練需在高質量數據有限的約束下,通過提升每token效率構建通用先驗(universal prior)。
- 后訓練需將先驗轉化為可行動行為,但Agentic能力在自然數據中稀缺且難以規模化。
對此,團隊在Kimi K2中采用了三大核心創新技術:
1、MuonClip優化器:拋棄傳統的Adam優化器,創新性地使用了Muon優化器。結合Muon的token效率與QK-Clip的穩定性,支持15.5萬億token無損失spike預訓練。
2、大規模Agentic Tool Use數據合成:構建可大規模生成多輪工具使用場景的合成pipeline,覆蓋數百領域、數千工具。
3、通用強化學習框架:結合可驗證獎勵(RLVR)和自我批判評估獎勵,將對齊從靜態擴展到開放域。
得益于以上技術,Kimi K2在SWE Bench Verified、Tau2、AceBench等基準性能測試中,均取得開源模型中的SOTA成績。
以下為技術細節部分:
預訓練階段
在Kimi K2預訓練階段,團隊主要對優化器和數據進行了優化。
整體而言,其預訓練采用了MoE架構+穩定優化器+高效token利用這一全新組合拳,以此構建通用語言和推理能力。
模型架構上,一共包含384個專家,每層激活其中8個,通過這種高度稀疏的設計在保證性能的同時優化計算效率。
在注意力機制上,K2使用MLA(Multi-head Latent Attention)結構代替傳統的密集注意力(dense attention),有效減少了計算量和帶寬壓力。
而且將每層的注意力頭數量降至64個,與同類模型相比進一步降低了推理過程中的資源消耗,使模型能更好地處理長上下文。
優化器選擇上,K2采用了MuonClip優化器,其核心是在Muon優化器基礎上融合了QK-Clip機制。
這一機制會定期檢查模型注意力的關鍵參數(query和key),如果它們的值太大,就自動“收緊”,防止計算過程出現異常,從而顯著提升了訓練穩定性。
團隊最終也發現,借助MuonClip可讓K2在15.5萬億token的預訓練過程中實現零損失spike,確保了大規模訓練的連續性和有效性。
數據方面,其核心目標為,在高質量數據有限時,通過提升每token的有效學習信號(token效用)來增強訓練效率,避免重復訓練導致的過擬合。
而為了讓模型“吃透”有限的優質訓練數據,K2團隊采取了一種所謂的“重述法”。
- 對知識類文本:不是簡單重復讀,而是換著說法再講一遍。
- 對數學類文本:把枯燥的教材式內容改寫成更易理解的“學習筆記”風格,還加入了多語言版本的翻譯文本,讓模型見多識廣。
一言以蔽之,K2的訓練數據覆蓋網頁、代碼、數學、知識四大板塊,所有數據都經過嚴格的質量篩選,確保模型學到的都是有用的信息。
而且它不是靠“多刷題”訓練出來的,而是靠“換種說法講一遍”讓模型真正理解知識。
- 用重寫 10 次的數據訓練 1 輪(28.94%),其準確率超過了用原始數據訓練 10 輪(23.76%)的結果 。
概括而言,K2采用了與DeepSeek-V3相似的多頭潛在注意力(MLA),具體對比如下:
后訓練階段
K2后訓練階段主要涉及監督微調和強化學習。
值得一提的就是大規模Agentic Tool Use數據合成,主要流程如下:
- 工具生成:3000多真實MCP工具+20000多合成工具,覆蓋金融、機器人控制等領域;
- Agentic與任務生成:為工具集生成多樣化Agentic(系統提示+工具組合)和帶評估標準的任務;
- 軌跡生成:模擬用戶交互、工具執行環境(含狀態更新和隨機結果),生成多輪工具使用軌跡;
- 結合真實執行沙箱(如編碼任務),確保數據真實性。
最終,Judge Agent會依據任務rubrics對軌跡質量進行判斷,只保留高質量樣本用于訓練。
這一過程本質上是一種大規模拒絕采樣(rejection sampling)機制,結合模擬規模與真實反饋,實現了大范圍、高保真的訓練數據構建。
而在強化學習階段,K2主要經歷了三大步驟:
第一,構建可驗證的獎勵環境(Verifiable Rewards Gym)。
簡單說,團隊為不同任務設計了“可打分”的訓練場景,讓模型的表現可以被客觀評估。
比如對于編碼場景,團隊利用真實世界的數據(如程序競賽題目、GitHub的PR和issue)構建任務,并通過自動化測試來驗證模型的代碼是否正確運行。
第二,除了外部評判,還訓練模型自己評估自己,即引入自我評估獎勵機制(Self-Critique Rubric Reward)。
具體而言,模型會將自己的多個輸出結果進行兩兩比較,并根據一套明確的標準(如語言清晰度、對話是否連貫、是否啰嗦或拍馬屁)給出獎勵分,同時還引入一些規則約束(如“不要無腦稱贊用戶”)來避免生成套路化或迎合性回答。
這個機制不僅增強了模型的自我反饋能力,也能將客觀任務中的評估信號遷移到主觀對話場景(如回答開放性問題等人類主觀評判場景),形成閉環優化。
第三,為了更高效、穩定地進行強化學習訓練,K2還對算法進行了多項改進。
包括但不限于下面這些:
- 預算控制機制:限制每個樣本的最大token數,避免生成啰嗦、重復或無意義的長文本。
- 引入PTX輔助損失:使用高質量預訓練樣本時再加一個損失項,以防模型在RL階段“遺忘”已有知識。
- 溫度衰減策略:訓練初期用高溫度鼓勵模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩定、更收斂。
最后據論文介紹,K2的訓練依托于由NVIDIA H800構成的大規模高帶寬GPU集群,通過混合并行策略,既保證了訓練效率,又能在不同規模資源下靈活適配。
- 每個節點配備2TB內存,并通過NVLink和NVSwitch將8塊GPU在節點內部高速互聯。不同節點之間則使用8×400 Gbps的RoCE網絡互聯,以實現節點間的高效通信。
One More Thing
就在剛剛,阿里通義Qwen3模型也更新了——
正式由Qwen3-235B-A22B更新至Qwen3-235B-A22B-2507。
官方表示,他們停用了混合思維模式,改為分別訓練Instruct和Thinking模型以提升質量,并正式發布性能更強的 Qwen3-235B-A22B-Instruct-2507及其FP8版本。
而且官方測評顯示,最新版Qwen3又擊敗了Kimi K2模型,開源新王或將再次易主。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.