大數(shù)據(jù)文摘出品
2023年成立的中國AI初創(chuàng)公司月之暗面,剛剛發(fā)布了其最新重量級產(chǎn)品Kimi-K2。
這是一款參數(shù)規(guī)模高達一萬億的開源大模型,以挑戰(zhàn)GPT-4.1和Claude Sonnet 4為目標。
Kimi-K2沒有配備專門的“推理模塊”,卻依然在多個關(guān)鍵領(lǐng)域打破性能壁壘,這一策略讓人想起早前Deepseek的發(fā)布。
該模型采用“專家混合”(Mixture-of-Experts)架構(gòu),每次推理時動態(tài)激活320億參數(shù)。
Kimi-K2的權(quán)重完全開放,允許研究者和開發(fā)者進行自定義微調(diào)與本地部署。
擊穿基準:沒有“推理模塊”的強者
Kimi-K2在多個通用語言模型評測中與閉源頂級模型并肩而立,甚至在編程與數(shù)學領(lǐng)域表現(xiàn)出壓倒性優(yōu)勢。
在被廣泛采用的SWE-bench Verified測試中,Kimi-K2-Instruct在“Agent模式”下獲得65.8%的得分,僅次于Claude Sonnet 4,遠超GPT-4.1的54.6%。
這個測試評估的是模型在真實開源項目中識別與修復(fù)代碼錯誤的能力,難度極高。
在LiveCodeBench測試中,Kimi-K2以53.7%的得分領(lǐng)跑所有模型,OJBench的得分也達到了27.1%。
這兩個評測分別模擬互動式編程任務(wù)與傳統(tǒng)競賽題,進一步證明了Kimi-K2在軟件工程場景中的適配能力。
更重要的是,官方強調(diào)“non-thinking”,意味著在無需顯式推理的基礎(chǔ)上,完成這些高復(fù)雜度任務(wù)。這對“推理模塊”至上的傳統(tǒng)語言模型設(shè)計提出了深刻反思。
在數(shù)學和科學領(lǐng)域,Kimi-K2在AIME、GPQA-Diamond和MATH-500等測評中穩(wěn)定優(yōu)于主要對手,展示出深度數(shù)學建模的潛力。
在多語言測試如MMLU-Pro中,它同樣進入領(lǐng)先梯隊,兼具多語言與跨學科能力。
值得一提的是,在一項非正式評測中,Kimi-K2能完整生成騎自行車的鵜鶘SVG圖像,而其他主流模型常常只畫出模糊形狀。
圖像生成的正確性在眾多模型中極為罕見,這也印證了Kimi-K2的空間理解與復(fù)雜結(jié)構(gòu)表達能力。
月之暗面強調(diào),Kimi-K2專為Agent工作流而非日常對話而設(shè)計。
它能自主調(diào)用工具、執(zhí)行命令、生成與調(diào)試代碼,甚至完成復(fù)雜的多步驟流程。
在一場演示中,Kimi-K2完成了一整套薪資數(shù)據(jù)分析任務(wù),包括:數(shù)據(jù)抓取、統(tǒng)計建模、并生成交互式HTML頁面,內(nèi)嵌可定制的推薦工具,全流程無需人工干預(yù)。
它不僅僅能“理解指令”,還能構(gòu)建復(fù)雜流程,從想法到產(chǎn)品,Kimi-K2一次完成。
媒體報道稱,這一切并非依賴龐大的推理系統(tǒng),而是源于其在Agent環(huán)境中進行的強化學習訓(xùn)練,重點在于“工具協(xié)作”而非“邏輯演繹”。
分析認為,這種以“任務(wù)完成”為核心的訓(xùn)練方向,可能比傳統(tǒng)的“思考過程訓(xùn)練”更適用于實際場景。盡管如此,Kimi-K2仍有局限:如果任務(wù)本身不明確,或者工具調(diào)用鏈條過長,模型可能輸出拖沓或不完整。
此外,Kimi-K2在持續(xù)對話中的表現(xiàn)遠優(yōu)于單輪問答,這更加印證了其Agent化定位。
意思是:自研的 Muon 優(yōu)化器,在訓(xùn)練大模型時表現(xiàn)明顯好于主流的 AdamW。如果預(yù)訓(xùn)練語料是有限的,模型結(jié)構(gòu)也不變,那么“更省 token 的優(yōu)化器”能訓(xùn)練出“更聰明的模型”
Kimi-K2使用名為MuonClip的新訓(xùn)練算法,在規(guī)模達到15.5萬億tokens的訓(xùn)練中保持穩(wěn)定。該算法通過定期調(diào)整注意力機制中的關(guān)鍵參數(shù),成功避免了大模型常見的“訓(xùn)練崩潰”問題。
one more thing
Kimi-K2目前提供兩個版本:Kimi-K2-Base用于研究與微調(diào),Kimi-K2-Instruct適用于通用任務(wù)與Agent部署。
兩者均可通過月之暗面的OpenAI兼容API調(diào)用,價格分級明確。
緩存命中輸入每百萬tokens僅需$0.15,未命中為$0.60,輸出為$2.50,符合商業(yè)化預(yù)期。
月之暗面還允許開發(fā)者使用vLLM、SGLang、KTransformers或TensorRT-LLM在本地部署。
在GitHub上可查閱完整的部署說明。
模型遵循MIT開源協(xié)議,但對超大規(guī)模部署有附加條款:若產(chǎn)品用戶超過1億,或月營收超2000萬美元,需在界面明確展示“Kimi-K2”名稱。
這對于大多數(shù)初創(chuàng)公司或開發(fā)者來說不構(gòu)成障礙,反而是品牌信用的體現(xiàn)。
不過,Kimi-K2并非輕裝上陣:推理需調(diào)用320億參數(shù),高效推理通常需多卡Hopper或同級GPU。
據(jù)蘋果開發(fā)者Awni Hannun透露,其4-bit量化版本可在兩臺配備512GB內(nèi)存的Apple M3 Ultra機器上運行,但門檻依然顯著。
作者長期關(guān)注 AI 產(chǎn)業(yè)與學術(shù),歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術(shù)趨勢!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.