不到半年,國產開源大模型的牌局已經翻了一輪。
年初還是「AI 六小虎」齊頭并進,如今卻只剩寥寥幾家還能站上牌桌。DeepSeek 一招「開源即發布」,憑借高性能和極致性價比迅速占據用戶的心智,也順勢拿下了國產大模型開源敘事的話語權。
此后,六小虎中不少公司接連遭遇融資受阻、產品停更、團隊重組,甚至逐漸淡出公眾視野。與此同時,當 DeepSeek 把開源模型卷出了實用門檻,也讓其他玩家不得不加速入局。
今天,輪到 Kimi 接棒出手,正式發布并開源 Kimi K2 模型。
Kimi-K2-Base:未經過指令微調的基礎預訓練模型,適合科研與自定義場景;
Kimi-K2-Instruct:通用指令微調版本(非思考模型),擅長大多數問答與 Agent 任務
官方介紹稱,Kimi K2 基于 MoE 架構打造,參數總規模達 1T,激活參數 32B,在代碼生成、Agent 調度、數學推理等任務中具備競爭力。
在 SWE Bench Verified、Tau2、AceBench 等基準測試中,K2 均取得開源模型中的 SOTA 成績。其中,自主編程(Agentic Coding)、工具調用(Tool Use)和數學推理(Math & Reasoning)三大能力維度都有不錯的表現。
值得注意的是,上述評測中的所有模型均為非思考模型。在 Tau2-Bench 測試中,平均值按照任務加權計算。在 Swe-Bench 多語言測試中,僅評估了 Claude 4 Sonnet,因為 Claude 4 Opus 的成本過高。
實際體驗下來,寫作能力的提升是這次版本升級中比較明顯的一環。
比如面對「描寫一個夏天的午后,一碗西瓜、一個電風扇、一張舊沙發。要求不出現『熱』字,也不直接寫『我很舒服』,要讓人讀出悶熱與松弛」時,K2 給出的文本既有畫面感,又不失情緒的克制表達。語言克制、節奏松弛,甚至帶有文學感。
再比如這個相對復雜的案例:「寫一篇看似是『在便利店偶遇前任』的平淡故事,但要隱藏一個副線:主角其實身患重病,正在做最后的生活整理。請控制情緒層次,不能直說,結尾只用一句隱喻點明真相。」
K2 完全沒有寫出生病或死亡字眼,而是通過道具、行為、細節緩緩推進情緒張力。故事結構完整,結尾一瓶未開的汽水安靜地躺在垃圾桶頂端,成為情緒隱線的收束。令我驚喜的是,甚至還補上了人物小傳。
上下滑動查看更多內容
不過,隱喻密度偏高且引用并不合理,卻也犯了和 DeepSeek 同樣的毛病,尤其少量句式略顯設計感過重,仍有提升的空間。
在 Agent/Coding 任務上,Kimi K2 宣稱支持 ToolCall 架構,可無縫接入 Owl、Cline、RooCode 等主流框架,具備自動指令拆解和任務鏈構建能力。目前 Agent 能力已開放 API 使用。
在編程類任務上,K2 雖然整體完成度高,但瑕疵也比較明顯,比如還是那個經典的天氣卡片案例,Kimi 能完成基礎的構建,但 UI 粗糙、動效生硬,在視覺體驗上遜色不少。
再拉高難度,我要求生成一個按周劃分的前端學習計劃,輸出為 HTML 頁面,支持模塊展開與收起交互。這一任務對結構組織、內容節奏和 JS 邏輯的要求更高。K2 給出的結果中規中矩。
我輸入任務:「用 three.js 和 cannon-es.js 實現煙囪倒塌爆破效果」。K2 嘗試聯網查找資料并組合代碼,整體思路在線,執行力尚可,但視覺效果依然較弱。
當然,也有一些比較不錯的案例。比如海外博主 @chetaslua 使用提示詞「make a website that shows 3D Simulation of Asteroids hitting Earth in html」,產出效果更為成熟,得到的畫面如下:
由于 K2 兼容 OpenAI 和 Anthropic 的 API 協議,網友 @Khazzz1c 也使用 K2 在 Claude Code 上開發了一個打字游戲,并評價這個模型 「cracked AF」,這是俚語,意思是「強到離譜、好得不正常」。
在 Kimi K2 背后,是月之暗面 Kimi 團隊自研的一整套技術路徑。
技術博客顯示,他們在訓練萬億參數大模型時,摒棄傳統的 Adam 優化器,改用自研的 Muon 體系,并引入 MuonClip 機制,有效緩解 attention logits 過大的問題,從而確保模型在 15.5T token 訓練過程中無一次 loss spike,訓練穩定性和 token 使用效率雙雙提升。
同時,團隊還構建了一條可大規模生成多輪工具使用場景的數據合成 pipeline,覆蓋數百領域、數千種工具,并且,訓練樣本則由 LLM 自動篩選評估,確保數據質量。
在訓練策略上,Kimi K2 進一步強化了通用強化學習能力,不僅在代碼、數學等可驗證任務上進行強化學習,還通過「自我評價」機制解決獎勵稀缺問題,顯著增強了模型的泛化能力。
開源層面,Kimi K2 的 Instruct 模型及 FP8 權重文件已上傳至 Hugging Face,(傳送門:https://huggingface.co/moonshotai/Kimi-K2-Instruct) 根據官方部署說明,Kimi K2 的 FP8 版本可在主流 H200 等平臺上運行,支持最長 128K 上下文,最低部署要求為 16 張 GPU 的集群環境。
目前包括 vLLM、SGLang、ktransformers 在內的主流推理引擎均已支持該模型,部署路徑已被打通,但對普通開發者而言,算力的門檻仍不容忽視。
商業化方面,Kimi K2 的 API 服務也已正式上線,提供最長 128K 上下文支持,定價為每百萬輸入 tokens 收費 4 元、輸出 tokens 收費 16 元。
而有趣的是,與 Kimi 的大方開源相比,OpenAI CEO Sam Altman 剛剛宣布推遲原定下周發布的開放權重模型,理由是仍需補充安全測試與高風險區域審查,且未確定延期時長。
這么一對比,Kimi 還是敞亮太多了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.