智東西
作者 陳駿達
編輯 云鵬
智東西7月22日報道,今天,月之暗面公布了其最新旗艦模型Kimi K2的完整技術報告。作為一款國產開源萬億參數大模型,Kimi K2在發布之后迅速爆火,并在大模型競技場上接替新版DeepSeek-R1,登頂全球開源模型榜首。
技術報告透露,Kimi K2在15.5萬億token上進行了訓練。為實現這一量級的訓練,月之暗面設計了MuonClip優化器,從而解決了大模型訓練中常見的注意力爆炸與損失尖峰問題,提升了預訓練的穩定性和token利用率。數據方面,月之暗面打造了一條改寫流水線,讓模型擴增高質量token的總量。
在后訓練階段,Kimi K2合成了涵蓋數萬工具與任務的多輪交互數據用于訓練,再進入強化學習階段,讓模型在真實與合成環境中不斷試錯、反思與進化。這一訓練過程讓K2能在不開啟思維鏈的前提下,于多項基準測試中獲得超越頂尖開源模型,比肩頭部閉源模型的成績。
具體來看,在自主編程(Agentic Coding)、工具調用(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2的表現超過了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基準測試中略遜于Claude 4 Opus、OpenAI GPT-4.1等模型。基準測試結果顯示,Kimi-K2一共獲得了14項全球SOTA,24項開源模型SOTA。
在這份32頁技術報告的末尾,月之暗面創始人兼CEO楊植麟出現在作者清單中,更令人意外的是,Kimi K2也被列入了技術報告的作者之列。
技術報告鏈接:https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
一、大模型智能步入新階段,數據效率成提升瓶頸
月之暗面在技術報告中提出,大模型正在從被動模仿人類文本轉向Agentic Intelligence階段,模型逐漸具備了在復雜、動態的環境中自主感知、規劃、推理并行動的能力。
這一轉變意味著模型不再局限于靜態的人類標注數據,而是通過與環境的持續交互,主動習得超出訓練分布的新技能,并依據經驗不斷調整行為。
然而,Agentic Intelligence給預訓練和后訓練階段都帶來了一定的挑戰。
預訓練階段,研究者必須在高質量數據日益稀缺的條件下,為模型注入足夠通用的先驗知識,因此token效率(每個 token 帶來的學習信號)成為決定規模法則的關鍵因素。
在后訓練階段,研究者則需要把這些知識轉化為可執行的行為,而多步推理、長期規劃、工具調用等智能體能力在自然數據中稀缺且昂貴。
因此,業界亟需能夠大規模合成結構化、高質量智能體軌跡的系統,并輔以融合偏好與自我批判的通用強化學習框架,彌補靜態對齊與開放環境之間的差異。
二、提出MuonClip優化器,通過改寫擴充高質量數據
針對上述問題,月之暗面首先在預訓練階段采用高效的Muon優化器進行訓練,該優化器具備高效率、權重衰減少等優勢。
Muon優化器由海外AI學者Keller Jordan(現已加入OpenAI)提出,月之暗面曾在今年2月對其進行改進并開源。后者在實驗中發現,在相同計算預算和模型規模下,Muon顯著優于AdamW等經典優化器,是提升大模型訓練token利用效率的理想選擇。
不過,Muon在擴大規模時暴露出訓練不穩定的問題,特別是注意力logits爆炸現象,注意力得分(logits)會在訓練過程中無限增大,導致各種后續問題。
月之暗面進一步提出了權重裁剪機制QK-Clip,能在每次參數更新后,根據當前批次中每個注意力頭的最大logit值,動態縮放Query和Key的投影權重。
最終,該團隊將Muon、權重衰減、RMS匹配與QK-Clip集成,形成統一優化器MuonClip。實驗數據表明,加入QK-Clip的訓練損失曲線平滑,無損失尖峰(下圖右側)。
預訓練數據方面,月之暗面引入了一套合成數據生成策略以提高token效用。具體而言,該團隊設計了一條改寫流水線,可在不明顯過擬合的前提下,擴增高質量token的總量。
例如,在知識型數據上,為提升高質量知識token的效用,月之暗面向模型提供了風格與視角多樣的提示詞,引導大模型以不同風格、從不同視角對原文進行忠實改寫。同時,為保持長文檔的全局連貫性并避免信息丟失,模型采用按塊自回歸重寫策略。
在訓練前,團隊還會通過語義對齊檢查確保改寫片段與原文內容一致,作為初步質控。
為了強化數學推理能力,月之暗面把高質量數學文檔改寫成“學習筆記”風格,并通過將其他語言的高質量數學資料翻譯成英文來進一步擴大數據多樣性。
最終,Kimi K2一共使用了15.5 T token的預訓練語料,涵蓋Web文本、代碼、數學、知識四大領域,且全部經過正確性與質量驗證。
模型架構方面,Kimi K2整體架構與DeepSeek-V3相似,采用多頭隱式注意力(MLA)作為注意力機制。月之暗面發現,在保持激活參數量不變的前提下,繼續提高稀疏度仍能顯著降低損失,因此把專家總數從DeepSeek-V3的256提升到384;同時為了減少推理開銷,將注意力頭數從128降至64。下圖是Kimi K2與DeepSeek-V3的核心結構對比。
Kimi K2在英偉達H800 GPU集群完成了訓練,并使用了統一并行配置、通信優化等策略,但并未披露集群規模。
三、為工具調用打造海量數據,模型獲14項全球SOTA
Kimi K2的后訓練由兩個核心階段組成。
在有監督微調階段,Kimi K2依舊使用了Muon優化器,并構建了一個覆蓋多領域的大規模指令微調數據集,重點是提示詞多樣性和響應質量。這些數據使用了K1.5及其他領域專家模型生成候選回答,再由大模型或人工進行質量評估與過濾。
月之暗面特別為工具使用(Tool Use)能力構建了一個大規模Agentic數據合成流水線,整合3000+真實MCP工具和2萬+合成工具,生成數千個不同能力組合的智能體與配套任務。
緊接著,該團隊模擬多輪交互,并過濾出高質量的智能體軌跡,然后在代碼/軟件工程等場景中,使用真實執行環境提升數據真實性。
強化學習階段,月之暗面的目標是在可驗證獎勵任務與主觀偏好任務中提升模型能力。
在可驗證的任務上,該團隊打造了一個可驗證獎勵的“訓練場”,用于提升模型在數學、STEM、邏輯任務、復雜指令遵循、編程等領域的能力。
針對無明確答案的任務(如創意寫作、開放問答),月之暗面引入了模型自評機制,讓模型通過對比自身輸出并打分。
RL算法優化方面,月之暗面限制了每任務最大token數,避免冗長輸出,并利用PTX損失函數防止模型在訓練過程中遺忘高價值數據。該團隊還在后訓練階段逐步降低模型的temperature,從而降低隨機性,確保模型輸出的可靠性和一致性。
后訓練階段,月之暗面還對訓練基礎設施進行了針對性設計,采用協同架構,將訓練和推理引擎部署在同一節點,動態分配GPU資源以提升效率。針對長周期任務,該團隊采用并行Rollout和分段執行優化GPU利用率,并通過標準化接口支持多樣化環境,實現高效的大規模RL訓練。
基準測試的結果印證了上述訓練流程的效果。
在編程領域,Kimi-K2-Instruct在SWE-bench Verified和LiveCodeBench v6的成績與商業模型的差距進一步縮小,在真實世界軟件開發和競賽級編程挑戰展現出實戰能力、
Kimi-K2-Instruct還在多輪工具使用評測、通用知識、數學推理、指令遵循和長上下文任務中獲得不錯的表現。其MMLU得分(89.5%)、IFEval得分(89.8%) 等超越開源競品,LMSYS Arena用戶評測中位列開源模型榜首。
技術報告中放出了Kimi-K2-Instruct與其他開源、閉源模型的基準測試對比,加粗成績代表全球SOTA,加粗并劃線的成績代表開源模型SOTA。Kimi-K2-Instruct獲得14項全球SOTA,24項開源模型SOTA。
結語:中國開源模型再突破
近期,中國開源模型在能力、國際影響力上不斷實現突破。本次,Kimi K2已經發布后,便在國內外開源社區上吸引了不少人下載、體驗。美國AI搜索獨角獸Perplexity的創始人兼CEO甚至稱,有計劃在Kimi K2的基礎上進行進一步訓練。
我們也看到,本次Kimi K2的模型架構在DeepSeek-V3的基礎上實現了創新,二者同屬國產開源模型。隨著Kimi逐步加入開源行列并開放旗艦級別的模型,國產開源AI生態中又多了一家重要的參與者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.