7月11日,Moonshot AI正式發布了Kimi K2模型,并同步開源。它具備更強代碼能力、更擅長通用Agent任務的MoE(Mixture-of-Experts,混合專家)架構基礎模型,總參數1T(1萬億),激活參數32B。
“大”參數在AI界其實已經算不上什么新聞了,Kimi K2真正引起廣泛驚嘆的,是它作為“Agentic AI”的定位——它專為Agent工作流而設計,能夠更準確地理解你的復雜意圖,拆解任務,并自主調用工具去完成它,甚至完成復雜的多步驟流程。
也就是說,它不只是一個聊天機器人,更是一個能理解復雜指令、自主調用工具來解決問題的“數字員工”。
我們認為,Moonshot AI的Kimi K2是一個為Agentic任務設計的MoE大模型, 具有很強的自主執行多步任務與工具調用的能力,同時編程任務中也表現出非常卓越的性能,具備和Claude Sonet 4、Gemini 2.5和GPT 4.1同等水準的能力。作為Agentic model里面唯一一個完全開源的模型,推動了全球開源社區的進步。從它的身上,我們看到了中國的新一代優秀的創業者在曲折中保持著一路向上的力量。
“行動派”AI,不止于“大”
首先,它采用了典型的稀疏MoE架構。這種架構將不同專家網絡分配給不同輸入,使得模型能夠根據任務需求動態激活相應的專家模塊,從而實現更高效的參數利用率。具體而言,Kimi K2擁有1萬億總參數量,激活參數為320億,模型包含384個專家,每個token會選擇8個專家進行計算,同時設置1個共享專家以提高模型的通用性。
你可以把它想象成一個擁有1萬億個“專家”的智囊團。當你提出一個問題時,系統會激活其中最相關的320億參數來為你服務。這樣做的好處是,既能擁有巨大模型的知識和能力,又能保持很高的運行效率。
來源: Sebastian Raschka
同時,Kimi K2還進行了大規模Agentic Tool Use數據合成,構建了可大規模生成多輪工具使用場景的合成pipeline,覆蓋數百領域、數千工具。高質量樣本由LLM評估篩選后用于訓練。
Kimi K2不僅在可驗證任務上(代碼、數學)強化學習,還通過引入自我評價機制(self-judging),解決了不可驗證任務的獎勵稀缺問題。通過可驗證任務持續優化critic,提升泛化任務表現。
其次,在訓練過程中,Kimi K2使用了改進的MuonClip優化器,有效解決了大規模優化過程中梯度不穩定與收斂困難的問題,使得模型能夠在15.5萬億tokens的預訓練規模下保持穩定。該算法通過定期調整注意力機制中的關鍵參數,成功避免了大模型常見的“訓練崩潰”問題。
Kimi K2在使用MuonClip優化器預訓練15.5萬億個token期間的損失曲線。這條平滑下降的軌跡——沒有不穩定的峰值或平臺期——表明MuonClip能夠在數萬億個token的訓練過程中,維持大規模大語言模型訓練的穩定性。
當然,超長上下文能力也很重要。Kimi K2的最大上下文長度達到128K,這使其能夠更好地處理長文檔理解、長對話以及大規模檢索任務。
性能表現方面,在SWE Bench Verified、Tau2、AceBench等基準性能測試中,Kimi K2均取得開源模型中的SOTA成績,展現出在代碼、Agent、數學推理任務上的領先能力。
AI圈掀討論熱潮
Kimi K2的橫空出世,已在全球AI圈掀起討論熱潮。這種熱度的背后,是業界對其技術突破的認可,更是對其開源價值的期待。
英偉達創始人黃仁勛在在北京參加鏈博會期間多次高度評價Kimi。他表示,開源具有全球性的影響。開源模型不僅助力中國的生態系統,也在為全球各地的生態系統提供支持。Moonshot AI的Kimi非常出色,是當今世界上最優秀的推理模型之一。
這種認可正在轉化為實際的合作動能。隨著Kimi K2的發布,其海外影響力快速滲透至產業端:OpenRouter、Cline、微軟旗下Visual Studio Code等全球知名編程平臺紛紛宣布接入Kimi K2。
在開發者與研究者圈層,Kimi K2的口碑同樣突出。AI從業者紛紛表達對這一新型開源模型的贊美。獨角獸公司Perplexity CEO Aravind Srinivas表示,基于Kimi K2模型的出色表現,公司將會利用K2進行后訓練。
全球最大開源AI社區Hugging Face聯合創始人Thomas Wolf表示,不斷突破極限挑戰閉源的K2模型令人難以置信,Kimi團隊在過去幾個月里推出的系列模型讓人印象深刻。
國際頂尖學術期刊《自然》在網站上刊登文章稱“Kimi K2引起轟動,是‘又一個DeepSeek時刻’”。文章還引用了美國知名AI研究員Nathan Lambert的點評稱,Kimi K2是“全球最新最好的開源模型”。
科技媒體人Azeem Azhar在文章中表示,Moonshot AI的Kimi K2模型成本低廉、性能卓越且開源。尤其是K2在使用MuonClip優化器預訓練15.5萬億個token期間的損失曲線,被AI研究員Cedric Chee稱為“機器學習史上最優美的損失曲線之一”。
下面,就讓我們一起看看Kimi K2在其他不同能力測試中的表現:
Kimi K2 在一系列基準測試中的表現。
編程能力
Kimi K2在編程領域的表現尤為出色。在LiveCodeBench編程基準測試中,Kimi K2的準確率達到了53.7%,超越了GPT-4.1(44.7%)。Kimi K2在OJBench的得分也達到了27.1%。
這兩個評測分別模擬互動式編程任務與傳統競賽題,進一步證明了Kimi K2在軟件工程場景中的適配能力。
在前端開發任務中,Kimi K2擅長生成兼具設計感與視覺表現力的代碼,支持粒子系統、可視化和3D場景等表現形式,具備較強的圖形能力與交互性。以下是用Kimi K2生成的山川峽谷3D景觀,支持晝夜循環:
提示詞參考:創建一個3D HTML山脈場景,包含懸崖、河流和晝夜光照變化。支持拖動和縮放、動畫過渡、真實感漸變色,并可切換等高線顯示...
Agent工具調用能力
Kimi K2現已具備穩定的復雜指令解析能力,可將需求自動拆解為一系列格式規范、可直接執行的ToolCall結構。在SWE-bench Verified測試中Kimi K2的單次嘗試準確率達到了65.8%,不僅超越了大多數開源模型,還與某些專有模型表現相當。
這個測試評估的是模型在真實開源項目中識別與修復代碼錯誤的能力,難度極高。
比如,將13萬行的原始數據丟給Kimi K2,它可以幫你分析遠程辦公比例對薪資的影響,分析顯著差異,自動生成統計圖表與回歸模型解讀,并用統一色調做出小提琴圖(violin plot) 、箱線圖(box plot)、散點圖(scatter plot)等專業圖表,整理成報告。
多任務綜合表現
在Tau2-bench的加權平均值測試中,Kimi K2的表現達到了66.1%,顯示出其在復雜STEM任務上的強大能力;
在AceBench(英文)測試中,Kimi K2的準確率達到了80.1%,進一步證明了其在語言理解和生成方面的優勢;
在多語言測試如MMLU-Pro中,它同樣進入領先梯隊,兼具多語言與跨學科能力,同時也印證了Kimi K2的空間理解與復雜結構表達能力;
在數學和科學領域,Kimi K2在AIME、GPQA-Diamond和MATH-500等測評中穩定優于主要對手,展示出深度數學建模的潛力;
Kimi K2還登頂了EQ-Bench3和Creative Writing v3這兩個評測集。EQ-Bench3是用來測試LLM情商的基準測試,Creative Writing v3是用來測試LLM創意性寫作能力的基準測試。
如今,Moonshot AI已經將Kimi K2的模型權重和代碼都放在了Hugging Face和Github上,采用非常寬松的MIT許可證。這意味著任何開發者都可以免費使用、修改和分發這個模型,用它來打造自己的AI應用。而其API及定價也是以4元/百萬輸入tokens和16元/百萬輸出tokens“驚艷”了海內外。
從國內開發者基于其搭建個性化應用,到海外平臺爭相接入,再到學術界與產業界的一致認可,Kimi K2的影響正沿著開源的脈絡向全球擴散。
未來,隨著開發者生態的持續壯大,以及模型在思維鏈推理等方向的進一步優化,Kimi K2或許會帶來更多驚喜。而它所開啟的“行動派 AI”時代,也將讓AI從“對話工具”走向“生產力引擎”,在代碼開發、數據分析、復雜任務處理等場景中,為全球用戶創造更具體的價值——這,正是Kimi K2留給行業的最大啟示:AI的終極競爭力,從來不止于“大”,更在于“能做事、做成事”。
壹
貳
叁
肆
伍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.