出品|搜狐科技
作者|梁昌均
編輯|楊 錦
距發(fā)布新一代Agent模型不到一個(gè)月,估值超30億美元的AI獨(dú)角獸——月之暗面,近日推出最新基座大模型Kimi K2。
這是一款具備更強(qiáng)代碼能力、更擅長(zhǎng)通用Agent任務(wù)的MoE架構(gòu)基礎(chǔ)模型,參數(shù)高達(dá)1T,也是1萬億,激活參數(shù)32B。
這是目前全球少有的萬億參數(shù)模型,也是目前唯一對(duì)外開源的萬億級(jí)參數(shù)模型。這也進(jìn)一步表明,停止產(chǎn)品投流的月之暗面,回歸大模型訓(xùn)練的技術(shù)路線。
Claude國產(chǎn)平替
性能超DeepSeek和通義
此次月之暗面發(fā)布了兩個(gè)版本,Kimi-K2-Base未經(jīng)過指令微調(diào)的基礎(chǔ)預(yù)訓(xùn)練模型,適合科研與自定義場(chǎng)景;Kimi-K2-Instruct是經(jīng)過后訓(xùn)練的通用對(duì)話與智能體模型,無需長(zhǎng)時(shí)思考即可實(shí)現(xiàn)快速響應(yīng)。
根據(jù)官方測(cè)評(píng),Kimi K2在自主編程(Agentic Coding)、工具調(diào)用(Tool Use)和數(shù)學(xué)推理(Math & Reasoning)等三大能力維度的基準(zhǔn)性能測(cè)試中取得優(yōu)秀表現(xiàn)。
在SWE Bench Verified等編程和智能體測(cè)試中,Kimi K2的表現(xiàn)均超過DeepSeek-V3-0324、Qwen3-235B、GPT-4.1等模型,僅次于Claude 4 Opus,而在Livecode bench v6和OJBench測(cè)評(píng)中則超過前述所有模型和谷歌最新模型。
在Tau2、AceBench等工具調(diào)用測(cè)試中,Kimi K2在包括自身在內(nèi)的六款對(duì)比模型排名第二,前者僅次于Claude 4 Opus,后者則不及GPT-4.1。在AIME 2025、GPAQ-Diamond等數(shù)學(xué)和復(fù)雜科學(xué)問題評(píng)測(cè)中,Kimi K2則均超過其它5款對(duì)比模型,取得最好成績(jī)。
由于這是一款非推理模型,因此評(píng)測(cè)并未跟DeepSeek-R1、o3等推理模型進(jìn)行對(duì)比。整體來看,Kimi K2已躋身開源陣營第一梯隊(duì),超過DeepSeek和阿里開源模型,同時(shí)接近海外領(lǐng)先的閉源模型,并在代碼、Agent、數(shù)學(xué)推理任務(wù)上展現(xiàn)出突出能力。
比如,在前端開發(fā)任務(wù)中,Kimi K2 擅長(zhǎng)生成兼具設(shè)計(jì)感與視覺表現(xiàn)力的代碼,支持粒子系統(tǒng)、可視化和3D場(chǎng)景等表現(xiàn)形式,具備較強(qiáng)的圖形能力與交互性。
“從Claude 3.5 Sonnet+開始,AI寫前端到達(dá)了可以實(shí)用的程度,此后幾乎所有新出的模型都會(huì)秀一下自己寫前端的能力,Kimi K2當(dāng)然也不能免俗。”參與Kimi K2研發(fā)的月之暗面工程師Justin Wong發(fā)文表示。
有開發(fā)者在體驗(yàn)后認(rèn)為,Kimi K2性能處于Claude 3.5和Claude 4之間,UI生成很棒,而成本僅為 Claude 3.5的20%。“對(duì)大多數(shù)編碼代理來說已經(jīng)足夠好,而且成本要可控得多。”
甚至有觀點(diǎn)認(rèn)為,Kimi K2有望成為Claude國產(chǎn)平替。美國大模型Anthropic公司推出的Claude模型被視為AI界的編碼王者,因強(qiáng)大性能成為眾多開發(fā)者、應(yīng)用創(chuàng)業(yè)者的首選,Manus等很多Agent產(chǎn)品就構(gòu)建在Claude基礎(chǔ)之上。
美國AI搜索獨(dú)角獸Perplexity AI的 CEO Aravind Srinivas就發(fā)文稱月之暗面的新模型“令人難以置信”,并表示其在內(nèi)部評(píng)估中看起來不錯(cuò),因此可能很快就會(huì)開始對(duì)其進(jìn)行后訓(xùn)練。
這款模型支持最長(zhǎng)128K上下文,風(fēng)格化寫作能力也有所提升。月之暗面稱,無論是用初中生語氣改寫科研文本,還是模仿蘋果廣告文案,都能保留原意與表達(dá)風(fēng)格。
Kimi K2發(fā)布即開源,和DeepSeek均采取MIT開源協(xié)議,這意味著月之暗面選擇加入開源陣營。“我們希望通過全面開源性能更強(qiáng)的模型,進(jìn)一步加速AGI研究與應(yīng)用落地的整體進(jìn)程。”
Justin Wong解釋稱,選擇開源,首先當(dāng)然是想賺點(diǎn)名聲。“如果是閉源服務(wù),現(xiàn)在一定沒有這么多關(guān)注和討論,搞不好還會(huì)像Grok4一樣明明做得很好卻要承擔(dān)不少苛責(zé)。”
其次,可以借助很多社區(qū)的力量完善技術(shù)生態(tài)。但更重要的是,開源意味著更高的技術(shù)標(biāo)準(zhǔn),會(huì)倒逼我們做出更好的模型,與AGI的目標(biāo)更一致。
“當(dāng)開源要求你不能走捷徑的時(shí)候,反而更有利做出更好的模型和產(chǎn)品。”Justin Wong說。
值得注意的是,此前預(yù)告要發(fā)布開源模型的OpenAI或因此跳票了。奧特曼表示,原計(jì)劃本周發(fā)布開源模型,但因要進(jìn)行額外的安全測(cè)試和審查而推遲。
摸著DeepSeek過河
楊植麟不想下牌桌
根據(jù)月之暗面目前發(fā)布的技術(shù)博客,Kimi K2性能的進(jìn)步主要得益于三個(gè)方面的技術(shù)探索。
一是在預(yù)訓(xùn)練的算法創(chuàng)新。月之暗面透露,Kimi K2預(yù)訓(xùn)練階段創(chuàng)新性地使用了Muon優(yōu)化器,從而在15.5T token數(shù)據(jù)集上實(shí)現(xiàn)了萬億參數(shù)模型的穩(wěn)定高效訓(xùn)練。
這拋棄了傳統(tǒng)模型大規(guī)模使用的Adam優(yōu)化器,Kimi K2利用Muon優(yōu)化器,有效地防止了loss spike,即損失突刺現(xiàn)象。這主要出現(xiàn)在上百億參數(shù)的大模型訓(xùn)練中,往往會(huì)導(dǎo)致模型無法收斂或訓(xùn)練失敗。
OpenAI前首席科學(xué)家Ilya Sutskever曾表示,人類數(shù)據(jù)是有限的化石燃料,算力還在增長(zhǎng),但數(shù)據(jù)已經(jīng)達(dá)到了峰值。
因此,月之暗面認(rèn)為,在人類高質(zhì)量數(shù)據(jù)成為瓶頸的背景下,預(yù)訓(xùn)練的token效率成為AI Scaling Law的新關(guān)鍵因素。
月之暗面還透露,Kimi K2采用了類似于DeepSeek-V3的架構(gòu)。不少開發(fā)者也對(duì)比了兩款模型的結(jié)構(gòu),發(fā)現(xiàn)頗為類似,比如均采取了MLA架構(gòu)(多頭潛在注意力機(jī)制),而在部分參數(shù),主要是注意力機(jī)制中的頭數(shù)(heads)和MoE中的專家(experts)數(shù)量方面進(jìn)行了調(diào)整。
參與Kimi K2研發(fā)的月之暗面員工劉少偉表示,在啟動(dòng)K2訓(xùn)練前進(jìn)行了大量模型結(jié)構(gòu)相關(guān)的scaling實(shí)驗(yàn),結(jié)果是當(dāng)時(shí)所有架構(gòu)沒有一個(gè)能真正打敗它,頂多旗鼓相當(dāng)。
“我們要不要為了與DeepSeek不同,強(qiáng)行選擇一個(gè)沒有優(yōu)勢(shì)但不一樣的結(jié)構(gòu),最終的答案是no。原因很簡(jiǎn)單:DeepSeek-V3的結(jié)構(gòu)經(jīng)過驗(yàn)證,在large scale上依然有效,而我們的新結(jié)構(gòu)還并沒有經(jīng)歷過足夠大規(guī)模的驗(yàn)證。”因此,決定完全繼承DeepSeek-V3的結(jié)構(gòu)。
這背后也有成本考慮。劉少偉表示,小公司訓(xùn)練和推理資源非常有限,在DeepSeek-V3推出之后,月之暗面認(rèn)為其訓(xùn)練和推理成本,都比較接近當(dāng)前能承受的上限。“因此我們需要將K2的訓(xùn)練和推理成本,盡量控制在與DeepSeek-V3持平的水平。”
據(jù)了解,DeepSeek-V3訓(xùn)練成本為557.6萬美元,訓(xùn)練過程使用2048塊H800 GPU,總計(jì)消耗278.8萬GPU小時(shí),很大程度就得益于MLA(多頭潛在注意力機(jī)制)等架構(gòu)和算法創(chuàng)新。
可以說,月之暗面在摸著DeepSeek過河。不過,Kimi K2的API輸入價(jià)格為4元/百萬tokens,輸出為16元/百萬tokens,均為DeepSeek-V3模型價(jià)格的兩倍。這或許顯示出,Kimi K2的訓(xùn)推成本可能更高。
Justin Wong也提到了DeepSeek的影響。“DeepSeek-R1暴漲之后,很多人說kimi是不是不行了,你們是不是恨死DeepSeek了?恰恰相反,不少同事都認(rèn)為DeepSeek-R1的爆火是個(gè)大好事,它證明了硬實(shí)力就是最好的推廣,只要模型做的好,就會(huì)獲得市場(chǎng)認(rèn)可。”
他認(rèn)為,DeepSeek證明了那條我們相信的路不僅能走通,而且是一條康莊大道。“唯一的遺憾就是:這條路不是我們走通的。”
Justin Wong還透露,在年初的反思會(huì)上,其提出了一些相當(dāng)激進(jìn)的建議,沒想到植麟(注:月之暗面創(chuàng)始人)后續(xù)行動(dòng)還要激進(jìn),比如不再更新K1系列模型,集中資源搞基礎(chǔ)算法和K2,并在年初停止投流后堅(jiān)持沒有恢復(fù)投流。
第二個(gè)探索則是數(shù)據(jù)方面,通過大規(guī)模工具使用數(shù)據(jù)合成,月之暗面為Kimi K2構(gòu)建了覆蓋數(shù)百領(lǐng)域、數(shù)千工具的仿真管線,生成多輪交互場(chǎng)景并篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù),從而為大規(guī)模無監(jiān)督訓(xùn)練和強(qiáng)化學(xué)習(xí)鋪平道路。
最后是在Kimi K2的后訓(xùn)練階段使用了通用強(qiáng)化學(xué)習(xí)。針對(duì)可驗(yàn)證(如數(shù)學(xué)、競(jìng)賽編程)與不可驗(yàn)證(如研究報(bào)告撰寫)任務(wù),設(shè)計(jì)自評(píng)判機(jī)制,讓模型同時(shí)作為執(zhí)行者與批評(píng)者,利用可驗(yàn)證任務(wù)持續(xù)優(yōu)化批評(píng)者,從而提升不可驗(yàn)證任務(wù)的獎(jiǎng)勵(lì)估計(jì)精度。
月之暗面強(qiáng)調(diào),后訓(xùn)練在經(jīng)驗(yàn)時(shí)代至關(guān)重要,可以讓大模型通過自主生成交互學(xué)習(xí),突破人類數(shù)據(jù)限制從而超越人類能力,這些正是Kimi K2的Agent能力提升的關(guān)鍵。
AI的經(jīng)驗(yàn)時(shí)代是強(qiáng)化學(xué)習(xí)之父Richard Sutton提出的說法,其認(rèn)為現(xiàn)在人類數(shù)據(jù)已達(dá)到極限,必須要讓AI從人類經(jīng)驗(yàn)中學(xué)習(xí)。
不過,月之暗面表示,Kimi K2當(dāng)前還存在不少問題,比如復(fù)雜推理或工具定義模糊時(shí)可能生成冗余token,導(dǎo)致輸出截?cái)嗷蚬ぞ哒{(diào)用不完整;啟用工具后部分任務(wù)性能可能下降,以及單次提示構(gòu)建完整軟件項(xiàng)目的效果弱于智能體框架。
“Kimi K2是構(gòu)建通用Agent能力的堅(jiān)實(shí)基礎(chǔ),但通用Agent還需要更高級(jí)的能力。”月之暗面表示,未來將持續(xù)升級(jí)思維鏈與視覺理解能力。
Justin Wong認(rèn)為,現(xiàn)階段對(duì)模型Agent能力的開發(fā)還在早期,下一代預(yù)訓(xùn)練模型仍然大有可為。“2025年,智能的上限仍然完全由模型決定。”
如今,Kimi K2的發(fā)布,進(jìn)一步印證了月之暗面想要留在大模型牌桌上的決心。
運(yùn)營編輯|曹倩審核|孟莎莎
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.