網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

月之暗面明確停止投流，楊植麟摸著DeepSeek過河

2025-07-17 19:16:39　來源: 搜狐科技

北京舉報(bào)

分享至

　　出品｜搜狐科技

　　作者｜梁昌均

　　編輯｜楊錦

　　距發(fā)布新一代Agent模型不到一個(gè)月，估值超30億美元的AI獨(dú)角獸——月之暗面，近日推出最新基座大模型Kimi K2。

　　這是一款具備更強(qiáng)代碼能力、更擅長(zhǎng)通用Agent任務(wù)的MoE架構(gòu)基礎(chǔ)模型，參數(shù)高達(dá)1T，也是1萬億，激活參數(shù)32B。

　　這是目前全球少有的萬億參數(shù)模型，也是目前唯一對(duì)外開源的萬億級(jí)參數(shù)模型。這也進(jìn)一步表明，停止產(chǎn)品投流的月之暗面，回歸大模型訓(xùn)練的技術(shù)路線。

　　Claude國產(chǎn)平替

　　性能超DeepSeek和通義

　　此次月之暗面發(fā)布了兩個(gè)版本，Kimi-K2-Base未經(jīng)過指令微調(diào)的基礎(chǔ)預(yù)訓(xùn)練模型，適合科研與自定義場(chǎng)景；Kimi-K2-Instruct是經(jīng)過后訓(xùn)練的通用對(duì)話與智能體模型，無需長(zhǎng)時(shí)思考即可實(shí)現(xiàn)快速響應(yīng)。

　　根據(jù)官方測(cè)評(píng)，Kimi K2在自主編程（Agentic Coding）、工具調(diào)用（Tool Use）和數(shù)學(xué)推理（Math & Reasoning）等三大能力維度的基準(zhǔn)性能測(cè)試中取得優(yōu)秀表現(xiàn)。

　　在SWE Bench Verified等編程和智能體測(cè)試中，Kimi K2的表現(xiàn)均超過DeepSeek-V3-0324、Qwen3-235B、GPT-4.1等模型，僅次于Claude 4 Opus，而在Livecode bench v6和OJBench測(cè)評(píng)中則超過前述所有模型和谷歌最新模型。

　　在Tau2、AceBench等工具調(diào)用測(cè)試中，Kimi K2在包括自身在內(nèi)的六款對(duì)比模型排名第二，前者僅次于Claude 4 Opus，后者則不及GPT-4.1。在AIME 2025、GPAQ-Diamond等數(shù)學(xué)和復(fù)雜科學(xué)問題評(píng)測(cè)中，Kimi K2則均超過其它5款對(duì)比模型，取得最好成績(jī)。

　　由于這是一款非推理模型，因此評(píng)測(cè)并未跟DeepSeek-R1、o3等推理模型進(jìn)行對(duì)比。整體來看，Kimi K2已躋身開源陣營第一梯隊(duì)，超過DeepSeek和阿里開源模型，同時(shí)接近海外領(lǐng)先的閉源模型，并在代碼、Agent、數(shù)學(xué)推理任務(wù)上展現(xiàn)出突出能力。

　　比如，在前端開發(fā)任務(wù)中，Kimi K2 擅長(zhǎng)生成兼具設(shè)計(jì)感與視覺表現(xiàn)力的代碼，支持粒子系統(tǒng)、可視化和3D場(chǎng)景等表現(xiàn)形式，具備較強(qiáng)的圖形能力與交互性。

　　“從Claude 3.5 Sonnet+開始，AI寫前端到達(dá)了可以實(shí)用的程度，此后幾乎所有新出的模型都會(huì)秀一下自己寫前端的能力，Kimi K2當(dāng)然也不能免俗。”參與Kimi K2研發(fā)的月之暗面工程師Justin Wong發(fā)文表示。

　　有開發(fā)者在體驗(yàn)后認(rèn)為，Kimi K2性能處于Claude 3.5和Claude 4之間，UI生成很棒，而成本僅為 Claude 3.5的20%。“對(duì)大多數(shù)編碼代理來說已經(jīng)足夠好，而且成本要可控得多。”

　　甚至有觀點(diǎn)認(rèn)為，Kimi K2有望成為Claude國產(chǎn)平替。美國大模型Anthropic公司推出的Claude模型被視為AI界的編碼王者，因強(qiáng)大性能成為眾多開發(fā)者、應(yīng)用創(chuàng)業(yè)者的首選，Manus等很多Agent產(chǎn)品就構(gòu)建在Claude基礎(chǔ)之上。

　　美國AI搜索獨(dú)角獸Perplexity AI的 CEO Aravind Srinivas就發(fā)文稱月之暗面的新模型“令人難以置信”，并表示其在內(nèi)部評(píng)估中看起來不錯(cuò)，因此可能很快就會(huì)開始對(duì)其進(jìn)行后訓(xùn)練。

　　這款模型支持最長(zhǎng)128K上下文，風(fēng)格化寫作能力也有所提升。月之暗面稱，無論是用初中生語氣改寫科研文本，還是模仿蘋果廣告文案，都能保留原意與表達(dá)風(fēng)格。

　　Kimi K2發(fā)布即開源，和DeepSeek均采取MIT開源協(xié)議，這意味著月之暗面選擇加入開源陣營。“我們希望通過全面開源性能更強(qiáng)的模型，進(jìn)一步加速AGI研究與應(yīng)用落地的整體進(jìn)程。”

　　Justin Wong解釋稱，選擇開源，首先當(dāng)然是想賺點(diǎn)名聲。“如果是閉源服務(wù)，現(xiàn)在一定沒有這么多關(guān)注和討論，搞不好還會(huì)像Grok4一樣明明做得很好卻要承擔(dān)不少苛責(zé)。”

　　其次，可以借助很多社區(qū)的力量完善技術(shù)生態(tài)。但更重要的是，開源意味著更高的技術(shù)標(biāo)準(zhǔn)，會(huì)倒逼我們做出更好的模型，與AGI的目標(biāo)更一致。

　　“當(dāng)開源要求你不能走捷徑的時(shí)候，反而更有利做出更好的模型和產(chǎn)品。”Justin Wong說。

　　值得注意的是，此前預(yù)告要發(fā)布開源模型的OpenAI或因此跳票了。奧特曼表示，原計(jì)劃本周發(fā)布開源模型，但因要進(jìn)行額外的安全測(cè)試和審查而推遲。

　　摸著DeepSeek過河

　　楊植麟不想下牌桌

　　根據(jù)月之暗面目前發(fā)布的技術(shù)博客，Kimi K2性能的進(jìn)步主要得益于三個(gè)方面的技術(shù)探索。

　　一是在預(yù)訓(xùn)練的算法創(chuàng)新。月之暗面透露，Kimi K2預(yù)訓(xùn)練階段創(chuàng)新性地使用了Muon優(yōu)化器，從而在15.5T token數(shù)據(jù)集上實(shí)現(xiàn)了萬億參數(shù)模型的穩(wěn)定高效訓(xùn)練。

　　這拋棄了傳統(tǒng)模型大規(guī)模使用的Adam優(yōu)化器，Kimi K2利用Muon優(yōu)化器，有效地防止了loss spike，即損失突刺現(xiàn)象。這主要出現(xiàn)在上百億參數(shù)的大模型訓(xùn)練中，往往會(huì)導(dǎo)致模型無法收斂或訓(xùn)練失敗。

　　OpenAI前首席科學(xué)家Ilya Sutskever曾表示，人類數(shù)據(jù)是有限的化石燃料，算力還在增長(zhǎng)，但數(shù)據(jù)已經(jīng)達(dá)到了峰值。

　　因此，月之暗面認(rèn)為，在人類高質(zhì)量數(shù)據(jù)成為瓶頸的背景下，預(yù)訓(xùn)練的token效率成為AI Scaling Law的新關(guān)鍵因素。

　　月之暗面還透露，Kimi K2采用了類似于DeepSeek-V3的架構(gòu)。不少開發(fā)者也對(duì)比了兩款模型的結(jié)構(gòu)，發(fā)現(xiàn)頗為類似，比如均采取了MLA架構(gòu)（多頭潛在注意力機(jī)制），而在部分參數(shù)，主要是注意力機(jī)制中的頭數(shù)（heads）和MoE中的專家（experts）數(shù)量方面進(jìn)行了調(diào)整。

　　參與Kimi K2研發(fā)的月之暗面員工劉少偉表示，在啟動(dòng)K2訓(xùn)練前進(jìn)行了大量模型結(jié)構(gòu)相關(guān)的scaling實(shí)驗(yàn)，結(jié)果是當(dāng)時(shí)所有架構(gòu)沒有一個(gè)能真正打敗它，頂多旗鼓相當(dāng)。

　　“我們要不要為了與DeepSeek不同，強(qiáng)行選擇一個(gè)沒有優(yōu)勢(shì)但不一樣的結(jié)構(gòu)，最終的答案是no。原因很簡(jiǎn)單：DeepSeek-V3的結(jié)構(gòu)經(jīng)過驗(yàn)證，在large scale上依然有效，而我們的新結(jié)構(gòu)還并沒有經(jīng)歷過足夠大規(guī)模的驗(yàn)證。”因此，決定完全繼承DeepSeek-V3的結(jié)構(gòu)。

　　這背后也有成本考慮。劉少偉表示，小公司訓(xùn)練和推理資源非常有限，在DeepSeek-V3推出之后，月之暗面認(rèn)為其訓(xùn)練和推理成本，都比較接近當(dāng)前能承受的上限。“因此我們需要將K2的訓(xùn)練和推理成本，盡量控制在與DeepSeek-V3持平的水平。”

　　據(jù)了解，DeepSeek-V3訓(xùn)練成本為557.6萬美元，訓(xùn)練過程使用2048塊H800 GPU，總計(jì)消耗278.8萬GPU小時(shí)，很大程度就得益于MLA（多頭潛在注意力機(jī)制）等架構(gòu)和算法創(chuàng)新。

　　可以說，月之暗面在摸著DeepSeek過河。不過，Kimi K2的API輸入價(jià)格為4元/百萬tokens，輸出為16元/百萬tokens，均為DeepSeek-V3模型價(jià)格的兩倍。這或許顯示出，Kimi K2的訓(xùn)推成本可能更高。

　　Justin Wong也提到了DeepSeek的影響。“DeepSeek-R1暴漲之后，很多人說kimi是不是不行了，你們是不是恨死DeepSeek了？恰恰相反，不少同事都認(rèn)為DeepSeek-R1的爆火是個(gè)大好事，它證明了硬實(shí)力就是最好的推廣，只要模型做的好，就會(huì)獲得市場(chǎng)認(rèn)可。”

　　他認(rèn)為，DeepSeek證明了那條我們相信的路不僅能走通，而且是一條康莊大道。“唯一的遺憾就是：這條路不是我們走通的。”

　　Justin Wong還透露，在年初的反思會(huì)上，其提出了一些相當(dāng)激進(jìn)的建議，沒想到植麟（注：月之暗面創(chuàng)始人）后續(xù)行動(dòng)還要激進(jìn)，比如不再更新K1系列模型，集中資源搞基礎(chǔ)算法和K2，并在年初停止投流后堅(jiān)持沒有恢復(fù)投流。

　　第二個(gè)探索則是數(shù)據(jù)方面，通過大規(guī)模工具使用數(shù)據(jù)合成，月之暗面為Kimi K2構(gòu)建了覆蓋數(shù)百領(lǐng)域、數(shù)千工具的仿真管線，生成多輪交互場(chǎng)景并篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù)，從而為大規(guī)模無監(jiān)督訓(xùn)練和強(qiáng)化學(xué)習(xí)鋪平道路。

　　最后是在Kimi K2的后訓(xùn)練階段使用了通用強(qiáng)化學(xué)習(xí)。針對(duì)可驗(yàn)證（如數(shù)學(xué)、競(jìng)賽編程）與不可驗(yàn)證（如研究報(bào)告撰寫）任務(wù)，設(shè)計(jì)自評(píng)判機(jī)制，讓模型同時(shí)作為執(zhí)行者與批評(píng)者，利用可驗(yàn)證任務(wù)持續(xù)優(yōu)化批評(píng)者，從而提升不可驗(yàn)證任務(wù)的獎(jiǎng)勵(lì)估計(jì)精度。

　　月之暗面強(qiáng)調(diào)，后訓(xùn)練在經(jīng)驗(yàn)時(shí)代至關(guān)重要，可以讓大模型通過自主生成交互學(xué)習(xí)，突破人類數(shù)據(jù)限制從而超越人類能力，這些正是Kimi K2的Agent能力提升的關(guān)鍵。

　　AI的經(jīng)驗(yàn)時(shí)代是強(qiáng)化學(xué)習(xí)之父Richard Sutton提出的說法，其認(rèn)為現(xiàn)在人類數(shù)據(jù)已達(dá)到極限，必須要讓AI從人類經(jīng)驗(yàn)中學(xué)習(xí)。

　　不過，月之暗面表示，Kimi K2當(dāng)前還存在不少問題，比如復(fù)雜推理或工具定義模糊時(shí)可能生成冗余token，導(dǎo)致輸出截?cái)嗷蚬ぞ哒{(diào)用不完整；啟用工具后部分任務(wù)性能可能下降，以及單次提示構(gòu)建完整軟件項(xiàng)目的效果弱于智能體框架。

　　“Kimi K2是構(gòu)建通用Agent能力的堅(jiān)實(shí)基礎(chǔ)，但通用Agent還需要更高級(jí)的能力。”月之暗面表示，未來將持續(xù)升級(jí)思維鏈與視覺理解能力。

　　Justin Wong認(rèn)為，現(xiàn)階段對(duì)模型Agent能力的開發(fā)還在早期，下一代預(yù)訓(xùn)練模型仍然大有可為。“2025年，智能的上限仍然完全由模型決定。”

　　如今，Kimi K2的發(fā)布，進(jìn)一步印證了月之暗面想要留在大模型牌桌上的決心。

　　運(yùn)營編輯|曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.