網易首頁 > 網易號 > 正文申請入駐

楊植麟交卷，Kimi 萬億參數K2開源：Agent能力緊逼Anthropic，延展DeepSeek，上手實測如何？

2025-07-12 09:40:32　來源: 硅星人

北京舉報

分享至

作者｜周一笑、董道力、Yoky

沒有預熱，也沒有發布會，月之暗面在2025年7月11日深夜選擇直接開源Kimi K2 。就在當天，Kimi K2模型悄無聲息地出現在Hugging Face上，官網、App和API同步開放，模型參數、訓練細節等信息也一并放出。

這次發布的Kimi K2是一個萬億（1T）參數規模的混合專家（MoE）模型，激活參數為320億。其核心能力發生了清晰的轉向，Kimi此前的標簽是長文本，而K2則為智能體任務（agentic tasks）做了專門優化。

官方展示的例子很能說明問題，比如Kimi K2可以接收一個模糊的需求，通過17次工具調用，自主完成包含航班和酒店預訂的旅行規劃；或是執行16次數據分析指令，完成一份專業的薪資分析報告。

在榜單方面，它在SWE Bench Verified（編程）、Tau2（智能體）、AceBench（工具調用）這三項基準測試中是開源模型表現最好的。

在自主編程（Agentic Coding）、工具調用（Tool Use）和數學推理（Math & Reasoning）這三個能力維度上，Kimi K2也緊逼Claude 4 Opus、OpenAI GPT-4.1等閉源模型。

月之暗面此次開源了兩個版本，一個是適合做后續研究和定制化開發的Kimi-K2-Base基礎模型，另一個是能直接用于通用聊天和智能體場景的Kimi-K2-Instruct指令微調模型。

任何模型都有它的取舍和待解問題。那個以超長上下文能力深入人心的Kimi，這次在K2上只配置了128K的窗口雖然以及對表主流模型，但這背后很可能是在當前階段，優先將資源投入到提升模型的代碼和Agent能力上。

另一個現實問題是運行門檻。官方部署指南明確指出，在主流H200等平臺上運行Kimi-K2的FP8版本并支持128k上下文，最小硬件需求是一個由16塊GPU組成的集群。盡管模型在vLLM、SGLang等主流推理框架上提供了詳細的部署方案，并支持張量并行、專家并行等多種策略來適配不同規模的集群，但這個基礎的硬件門檻，已將絕大多數個人開發者和中小團隊排除在本地化部署之外。這種對大規模、高I/O性能集群的依賴，是其強大能力背后普通用戶難以企及的成本。

一些開發者已經在自己嘗試把它跑在2個蘋果M3芯片的環境里，并表示運轉良好。但要提供更好的本地和低資源環境的可用性，還需要Kimi官方的量化版本。

Kimi K2的發布，是楊植麟在給月之暗面調整方向后，交出的一份重要答卷。

DeepSeek出現證明了開源的價值以及底層模型能力依然是競爭的基石，它甚至會“摧毀”在模型單一能力上優化并用在c端產品里然后快速推廣的競爭策略。

之后Kimi開始在技術上全線轉向預訓練，并步步緊跟DeepSeek。2025年2月，兩家幾乎同時發表論文，挑戰Transformer的注意力效率問題，DeepSeek提出了NSA（原生稀疏注意力）架構，月之暗面則提出了MoBA（混合塊注意力）架構。兩者都試圖解決模型處理長文本時的效率瓶頸。清華大學教授章明星曾對此評論，這說明兩家頂尖團隊對技術演進的方向得出了相似的結論。但這次K2在文本長度上一般，似乎還沒把MoBA徹底用上。

另外，與MiniMax等對手的做法不太相同的地方在于，Kimi此次的開源模型，架構上選擇了DeepSeek開發和依賴的MLA（多頭潛在注意力），目前技術報告還沒發布，從Hugging Face的信息來看，Kimi K2用了結構類似DeepSeek V3的MLA，專家數增加到了384個，激活專家保持在8個。

在優化器上Kimi此前的工作也成了此次模型關鍵。要訓練萬億模型，通用的AdamW優化器已面臨挑戰。Kimi此前選擇了在更新的Muon優化器上深度投入，并針對大規模訓練中的不穩定性，提出了MuonClip技術，最終支撐了K2在15.5萬億token數據量下的平穩訓練。

這些技術投入背后還有一個清晰的技術賭注：“模型即Agent，Agent即模型”的理念。

在K2發布前，月之暗面就通過Kimi-Researcher產品展示了其對智能體的理解——追求一種“零結構”的智能體，不依賴人類預設流程，而是通過端到端的強化學習，讓模型在真實的任務反饋中自主學習如何思考、規劃和使用工具。為了實現這一點，Kimi K2在可驗證任務（如代碼和數學）上進行強化學習的同時，還通過引入“自我評價（self-judging）”機制，解決了在開放性、非驗證類任務上的獎勵稀缺問題，從而提升了模型的泛化表現。

將這些線索串聯起來看，Kimi K2的開源更像是楊植麟給Kimi重新定位后交出的第一個答卷。其實看看這一路的各種動作，會發現這個團隊一直有一個明顯的特征，他們在技術上還是想爭一口氣，這體現在他們總會有一個自己的“賭注”，此前是長文本，今天就是Agent，然后圍繞一個點，做取舍，押注，交卷。

實測K2，瞄準Anthropic的Agent能力

此次Kimi選擇先全線上線給用戶使用的策略，我們也第一時間上手測了測它的實際能力。

首先是一個“打字游戲”。

我們在cline上接入kimi k2模型，并嘗試復現一個中文版打字游戲。

prompts：做一個“打字”游戲，頁面上跳出來一句話，用戶需要在規定時間內，把這句話打出來。

我們在prompts中只簡單描述了一下游戲玩法，而kimi k2自動生成了“需求分析”和“技術方案”，并且針對游戲功能還進行了補充，如進度條、得分系統等。在游戲生成后，kimi k2寫了一份簡單的游戲介紹，包含了操作說明和游戲特點。

而且，kimi k2的打字游戲一次生成完成度就很高，可以直接運行，基本沒有bug。

項目網址：https://ddlpmj.github.io/pw_kimik2_test/

此外，瀏覽網頁獲取信息并作出規劃，也是Agent的重要能力體現之一。

prompts：我喜歡音樂節，我希望你可以幫我找一下今年各大音樂節的名稱、行程等，做成日歷清單，并以html的形式整理出來。

我們嘗試讓kimi k2幫我們做一份“音樂節日歷清單”，并以網頁的形式展現出來。和打字游戲一樣，kimi k2除了prompts中的要求，還像個助理一樣，補充了音樂節的其他信息，如地點、是否確認舉辦等。

在成品頁面設計中，kimi k2還做了規劃，如1-3月舉行的音樂節在同一頁面展示，4-6月的在另一頁面展示。鼠標移動到具體的音樂節上，還會有放大的特效。

能否取得大量數據，并從中做出洞察也是我們考驗的能力之一。我們下載了近5年的上上證指數數據，共1214條，交給kimi k2進行分析。

prompts：@/000001perf.xlsx 這是一份上證指數數據，分析數據并做一份分析報告，報告中要包含圖表

可以發現，kimi k2決定用python進行報告生成，為了讀取表格文件和生成圖表，它會自動檢查有沒有pyhton相對應的庫，并進行下載。

在指標上，kimi k2會自動挑選有代表性的進行分析，如最高/低日成交額，數據波動等。

從分析報告成品來看，kimi k2先生成圖表，后生成分析報告，最后將二者結合，邏輯比較順暢。此外，kimi k2生成的圖表形式多樣，趨勢線、熱力散點圖等都有。

并且kimi k2基本找出了上證指數的特點。

為了測試K2的風格化文本生成能力，我們選擇了一個具有挑戰性的任務：讓它模仿知名脫口秀演員付航的表演風格，創作一段300字的脫口秀段子。

測試結果顯示，K2確實展現出了一定的風格模仿能力。從表面看，生成的文本在語言節奏和表達方式上有那么幾分相似，但仔細分析后發現，它并沒有真正捕捉到付航段子的核心特質。

初次生成的內容存在明顯的邏輯混亂問題，讀起來讓人摸不著頭腦，甚至難以理解基本的表達意圖。經過參數調整和prompt優化后，第二次的輸出在可理解性方面有了顯著提升，至少能夠清晰地傳達想要表達的內容，但依舊不好笑。

不過值得注意的是，K2在最近的升級中展現出了一個有趣的變化趨勢。它的文本表達風格明顯向R1靠攏，開始頻繁使用一些頗為華麗的比喻和相對復雜的措辭。這很可能也跟Kimi K2在訓練中對合成數據的使用有關。

更多的細節等待它的官方技術報告來揭秘。

在Kimi的英文技術博客里，它也直接取名：Kimi K2: Open Agentic Intelligence。在此之前，Anthropic的Claude是把自己和Agent能力捆綁最緊密的模型系列，并且也同樣在聚焦Agent能力同時沒有太多去提高多模態等能力。此次K2對標Claude的思路很明顯，在模型能力上也做了很明顯的取舍。

根據Kimi透露，K2現在已具備復雜指令集解析能力，可以兼容Anthropic等的API接口，可以無縫接入Cline，owl等Agent框架。在社區里，各種對K2的實測也紛紛出現。其中不少開發者也表達了對實測上手K2在Agent能力上的驚艷。甚至已經有人“開發”出把Claude Code里的Claude模型替換成Kimi K2的方法，并且表示可以用來平替。

接下來可能可以期待Kimi 的產品上，也會像Claude那樣衍生出更多功能，預訓練模型的進展最終真正“反哺”到它C端產品上，然后Make Kimi great again。

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.