網易首頁 > 網易號 > 正文申請入駐

新版 Kimi 突然發布！首個萬億開源模型不是 R2 是 K2，OpenAI 臨時推遲開源 | 附實測體驗

2025-07-12 12:09:37　來源: AppSo

廣東舉報

分享至

　　不到半年，國產開源大模型的牌局已經翻了一輪。

　　年初還是「AI 六小虎」齊頭并進，如今卻只剩寥寥幾家還能站上牌桌。DeepSeek 一招「開源即發布」，憑借高性能和極致性價比迅速占據用戶的心智，也順勢拿下了國產大模型開源敘事的話語權。

　　此后，六小虎中不少公司接連遭遇融資受阻、產品停更、團隊重組，甚至逐漸淡出公眾視野。與此同時，當 DeepSeek 把開源模型卷出了實用門檻，也讓其他玩家不得不加速入局。

　　今天，輪到 Kimi 接棒出手，正式發布并開源 Kimi K2 模型。

　　Kimi-K2-Base：未經過指令微調的基礎預訓練模型，適合科研與自定義場景；

　　Kimi-K2-Instruct：通用指令微調版本（非思考模型），擅長大多數問答與 Agent 任務

　　官方介紹稱，Kimi K2 基于 MoE 架構打造，參數總規模達 1T，激活參數 32B，在代碼生成、Agent 調度、數學推理等任務中具備競爭力。

　　在 SWE Bench Verified、Tau2、AceBench 等基準測試中，K2 均取得開源模型中的 SOTA 成績。其中，自主編程（Agentic Coding）、工具調用（Tool Use）和數學推理（Math & Reasoning）三大能力維度都有不錯的表現。

　　值得注意的是，上述評測中的所有模型均為非思考模型。在 Tau2-Bench 測試中，平均值按照任務加權計算。在 Swe-Bench 多語言測試中，僅評估了 Claude 4 Sonnet，因為 Claude 4 Opus 的成本過高。

　　實際體驗下來，寫作能力的提升是這次版本升級中比較明顯的一環。

　　比如面對「描寫一個夏天的午后，一碗西瓜、一個電風扇、一張舊沙發。要求不出現『熱』字，也不直接寫『我很舒服』，要讓人讀出悶熱與松弛」時，K2 給出的文本既有畫面感，又不失情緒的克制表達。語言克制、節奏松弛，甚至帶有文學感。

　　再比如這個相對復雜的案例：「寫一篇看似是『在便利店偶遇前任』的平淡故事，但要隱藏一個副線：主角其實身患重病，正在做最后的生活整理。請控制情緒層次，不能直說，結尾只用一句隱喻點明真相。」

　　K2 完全沒有寫出生病或死亡字眼，而是通過道具、行為、細節緩緩推進情緒張力。故事結構完整，結尾一瓶未開的汽水安靜地躺在垃圾桶頂端，成為情緒隱線的收束。令我驚喜的是，甚至還補上了人物小傳。

　　上下滑動查看更多內容

　　不過，隱喻密度偏高且引用并不合理，卻也犯了和 DeepSeek 同樣的毛病，尤其少量句式略顯設計感過重，仍有提升的空間。

　　在 Agent/Coding 任務上，Kimi K2 宣稱支持 ToolCall 架構，可無縫接入 Owl、Cline、RooCode 等主流框架，具備自動指令拆解和任務鏈構建能力。目前 Agent 能力已開放 API 使用。

　　在編程類任務上，K2 雖然整體完成度高，但瑕疵也比較明顯，比如還是那個經典的天氣卡片案例，Kimi 能完成基礎的構建，但 UI 粗糙、動效生硬，在視覺體驗上遜色不少。

　　再拉高難度，我要求生成一個按周劃分的前端學習計劃，輸出為 HTML 頁面，支持模塊展開與收起交互。這一任務對結構組織、內容節奏和 JS 邏輯的要求更高。K2 給出的結果中規中矩。

　　我輸入任務：「用 three.js 和 cannon-es.js 實現煙囪倒塌爆破效果」。K2 嘗試聯網查找資料并組合代碼，整體思路在線，執行力尚可，但視覺效果依然較弱。

　　當然，也有一些比較不錯的案例。比如海外博主 @chetaslua 使用提示詞「make a website that shows 3D Simulation of Asteroids hitting Earth in html」，產出效果更為成熟，得到的畫面如下：

　　由于 K2 兼容 OpenAI 和 Anthropic 的 API 協議，網友 @Khazzz1c 也使用 K2 在 Claude Code 上開發了一個打字游戲，并評價這個模型「cracked AF」，這是俚語，意思是「強到離譜、好得不正常」。

　　在 Kimi K2 背后，是月之暗面 Kimi 團隊自研的一整套技術路徑。

　　技術博客顯示，他們在訓練萬億參數大模型時，摒棄傳統的 Adam 優化器，改用自研的 Muon 體系，并引入 MuonClip 機制，有效緩解 attention logits 過大的問題，從而確保模型在 15.5T token 訓練過程中無一次 loss spike，訓練穩定性和 token 使用效率雙雙提升。

　　同時，團隊還構建了一條可大規模生成多輪工具使用場景的數據合成 pipeline，覆蓋數百領域、數千種工具，并且，訓練樣本則由 LLM 自動篩選評估，確保數據質量。

　　在訓練策略上，Kimi K2 進一步強化了通用強化學習能力，不僅在代碼、數學等可驗證任務上進行強化學習，還通過「自我評價」機制解決獎勵稀缺問題，顯著增強了模型的泛化能力。

　　開源層面，Kimi K2 的 Instruct 模型及 FP8 權重文件已上傳至 Hugging Face，（傳送門：https://huggingface.co/moonshotai/Kimi-K2-Instruct）根據官方部署說明，Kimi K2 的 FP8 版本可在主流 H200 等平臺上運行，支持最長 128K 上下文，最低部署要求為 16 張 GPU 的集群環境。

　　目前包括 vLLM、SGLang、ktransformers 在內的主流推理引擎均已支持該模型，部署路徑已被打通，但對普通開發者而言，算力的門檻仍不容忽視。

　　商業化方面，Kimi K2 的 API 服務也已正式上線，提供最長 128K 上下文支持，定價為每百萬輸入 tokens 收費 4 元、輸出 tokens 收費 16 元。

　　而有趣的是，與 Kimi 的大方開源相比，OpenAI CEO Sam Altman 剛剛宣布推遲原定下周發布的開放權重模型，理由是仍需補充安全測試與高風險區域審查，且未確定延期時長。

　　這么一對比，Kimi 還是敞亮太多了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.