Kimi新模型熱度持續高漲ing!
不光在更多benchmark上拿下SOTA,體驗過的網友們也是一水兒好評——
新模型K2非常擅長工具調用,屬于“自Claude 3.5 Sonnet以來,能放心用于生產力級別任務的模型”。
與此同時,本來傳言本周上線的OpenAI開源模型無限期推遲,理由還是“安全考量”。
大家不免猜測,這不會是被K2影響了吧?
眾多熱議之下,才休息兩天的Kimi工程師也進一步透露了模型背后更多細節。
不僅關于模型本身,還回應了很多八卦:
- 開源確實有名聲的考量
- 不恨DeepSeek,但是恨這條路徑不是自己驗證的
- 從年初開始Kimi就不投流了
值得一提的是,還有網友發現Kimi K2背后用的是DeepSeek V3的架構。
所以K2開源背后還有哪些考量?實測表現如何?
具體來看——
K2開源為賺名聲,今年沒有投流
此次Kimi K2討論度最高的一點,就是Kimi果斷走了開源路線。
而從Kimi工程師的爆料來看,原因主要有三點。
P.S. 開始之前先疊個甲,以下觀點僅代表該工程師個人立場,不代表Kimi官方態度。
這首先嘛,當然是為了賺個好名聲:
- 如果K2只是一個閉源服務,現在一定沒有這么多關注和討論。
前車之鑒就有Grok 4,能力越強,人們的標準或預期就會越高,從而導致負面評價可能更多。
另一大好處在于能借助開源社區的力量完善技術生態。
K2開源不到24小時,社區就出現了K2的MLX實現(可在Mac設備上訓練和部署)、4bit量化等等。
要知道K2這次開源的模型版本有兩個:
- Kimi-K2-Base:未經過指令微調的基礎預訓練模型,適合科研與自定義場景;
- Kimi-K2-Instruct:通用指令微調版本(非思考模型),在大多數問答與Agent任務中表現卓越。
光靠Kimi內部,一些后續開源工作確實難以快速實現。
不過最最重要的是,開源能夠倒逼模型進步。
- 當開源要求你不能走捷徑的時候,反而更有利于做出更好的模型和產品。
畢竟開源之后,開源模型的效果必須“可復現”,不能再靠各種技巧遮掩,只有當任何人拿到相同權重都能輕松復現結果,才算真正站得住腳。
與此同時,他也回應了人們關于Kimi“擅長營銷投流”的八卦。
實際上從今年年初開始,Kimi就已經停止了投流。具體表現為,國內不少應用商店搜索Kimi甚至第一頁都看不見, 在蘋果App Store和國內搜索平臺搜Kimi會推薦友商。
- 即使在如此惡劣的互聯網環境之下,Kimi也沒有恢復投流。
因為年初DeepSeek-R1的爆火向他們證明了,硬實力就是最好的推廣,只要模型做的好,就會獲得市場認可。
甚至他還透露了一個細節:
- 在年初的反思會上,我(指工程師)提出了一些相當激進的建議,沒想到植麟(Kimi CEO楊植麟)后續的行動比我想的還要激進,如不再更新K1系列模型,集中資源搞基礎算法和K2。
就是說,Kimi是少數還在堅持投入基礎模型研發的創業公司。
甚至當Agent爆火之后,面對Kimi不應該卷大模型,應該去做Agent產品的質疑,Kimi仍在堅持這一方向。
Kimi工程師表示,絕大多數Agent產品,離了Claude以后,什么都不是。
- 2025年,智能的上限仍然完全由模型決定,作為一家以AGI為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去。
除了以上兩點,這位工程師還提到了Kimi團隊在產品設計與底層能力構建上的深層思考。
比如在“寫前端”功能上,幾乎從Claude 3.5開始,AI寫前端就已經達到“可用”水平。不過傳統聊天機器人輸出Markdown,難以滿足“排版成一頁A4紙”這類的具體需求。
因此,像上個月推出的Kimi Researcher功能就嘗試了純文本之外的交互形式。
當AI默認輸出從“文字”變成了“前端頁面”,人機交互簡直煥然一新。
- 這代表一種從chat-firstartifact-first的范式轉變。
此外,為了教AI學會使用工具,Kimi團隊原本想在RL環境中聯動MCP真實工具訓練AI,但因部署難、登錄限制等問題失敗。
于是團隊轉變了思路,鑒于預訓練模型已“見過”大量API調用,其實早已具備工具使用知識,因此關鍵在于把這種能力“激發”出來。
后來他們利用multi-agent機制,合成多樣化的工具調用數據,無需大量人工標注也能訓練出好效果。
更多細節也將在之后的技術報告中詳細揭秘。
總之,作為Kimi最新MoE基礎模型,Kimi K2憑借總參數1T,激活參數32B,在代碼、Agent、數學推理任務上表現出色。
而且遵循的還是修改版MIT協議(Modified MIT License)。
MIT協議可以說是最寬松的協議(約等于怎么用都行)。而Kimi的修改在于,如果基于Kimi K2打造的產品或服務月活躍用戶超過1億,或者月收入超過2000萬美元,那么需要在該產品和服務的用戶界面上顯示“Kimi K2”。
可以說,一改往日作風選擇開源路線的Kimi K2,幾乎一出場就吸引了大量關注。
那么,Kimi K2真實能力究竟如何呢?我們這就實測一下。
實測一下Kimi K2
具體實測的方向,咱們直接從廣大網友cue到的K2亮點展開:
- 前端制作:制作游戲、制作網頁、自主編程;
- 工具調用:調用外部工具來完成復雜任務,比如做旅游攻略、訂高鐵票;
- 創意寫作:自主命題、即興發揮。
關于前端制作,我們將以經典游戲breakout(打磚塊)為例,測試Kimi的初始模型和Kimi K2的差別。
當我們向Kimi的初始模型輸入“創建一個簡單的breakout游戲作為單個html頁面。”時,它的輸出是這樣的:
在代碼之下還“附贈”了游戲說明:
按照指示,將代碼保存為.html文件,打開后是這樣的:
畫面非常簡潔,沒有任何指引,靠鍵盤的←↑→鍵控制,一旦掉落就會顯示“Game over”,即使所有磚塊都消失也不例外。
但使用了K2模型,它的輸出就變得“花哨”了很多(生成速度也慢了很多):
Kimi輸出的結果只有4KB,但K2模型的輸出為10.7KB,整整2.6倍有余。
畫面和玩法變得更加豐富,添加了得分和生命的設定,操作方式也變成了鼠標操作。
雖然和網友的展示有些區別,但至少,它現在看上去已經像模像樣了。
而我們只用了一句話作為提示:
- 創建一個簡單的breakout游戲作為單個html頁面。
既然簡單的breakout游戲輸出良好,那換成“復雜一點”的貪吃蛇呢?
- 生成一個貪吃蛇游戲,并加入隨機迷宮機制。
這一次,它給出了游戲的特點和玩法介紹(前面用K2生成breakout游戲的時候只輸出了代碼):
保存為.html文件,初次輸出的結果實在是……太難了!基本上進去就要重開,絕對不是我玩得菜!
迫不得已,咱在原有的對話下加入了新的要求:
- 速度慢一些,難度小一點,改成3條命。
用了大約3分鐘的時間,它重新輸出了一套完整的代碼,以及改動說明:
結果顯示,這次的貪吃蛇游戲在速度和難度上都有了很大的改進:
至于工具調用功能,讓我們本土化一點,這么近那么美。
- 做一個兩天的河北旅游攻略,包括車票和食宿安排,并附上購票地址,把最終成果部署成一個可訪問的html網頁。
它給出了這樣的結果:
居然!每一個步驟都很詳細,并且可以直接點擊鏈接跳轉!?
可以說是很高效了!
針對K2的創意寫作功能,網友們顯然有很好的主意:讓K2寫一封告別信。
于是,我們也試著讓K2寫一封“給宇宙和自己最后的告別信”。
- 就在30分鐘后,宇宙將要迎來終結,所有的生物都將一同寂滅,但你還有最后的時間去寫一封信作為告別,你會寫什么內容?
它給了我們這樣的回復:
Two More Things
如開頭所言,傳聞OpenAI開源模型因為K2而推遲了~
CEO奧特曼明面上給出的說法是,需要更多時間進行額外安全檢測并審查高風險區域。
但網友們似乎并不買賬,最高贊網友直接貼臉開大:
不過猜歸猜,AI創企hyperbolic聯創又出來爆料了。
據他表示,OpenAI的開源模型參數比K2小很多,但性能“超級強大”,只是由于某些不可言說(他用了荒謬這個詞)的原因,OpenAI在發布前才意識到了一個大問題,所以目前在重新訓練。
另外,對于網友提到的K2背后用了DeepSeek V3架構的說法,由于目前沒有詳細技術報告,我們先讓K2自己來“回應”一下這件事:
總結起來就是一句話,合理借鑒罷了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.