只能說,AI圈你追我趕的激烈程度,遠比想象中猛烈。
怎么個事兒呢,這得說到前幾天。上周五深夜,Kimi放出了萬億參數的MoE模型Kimi K2,然后這款國產AI就因為 big and beautiful 在海外技術圈刷屏了,很火的那種。
有一說一,差評君上次測評Kimi的新產品,還是在今年1月。沉寂了半年,沒想到Kimi這次直接選擇了開源的旗艦模型,好好好,這格局簡直了。
而且,仔細研究了一頓之后我發現,這個 K2,讓老外著迷不是沒有原因的。
簡單來說,這次的Kimi K2想要做的,不只是以前那種我問你答的聊天機器人了,而是有了初步的任務規劃和使用工具的能力,只要告訴它有哪些工具可以使用,它就會根據任務的需求,自主地調用不同的工具來完成任務。
但重點是,對于一個開源大模型來說,Kimi 團隊把K2的部分能力做到了接近閉源頂流的水平,這就很了不起了。
所以海外很多圈內大佬,這次也都坐不住了。
比如拿了黃仁勛投資,日本AI新秀Sakana AI Labs的創始人,就完全被Kimi K2的損失曲線征服了,說這是每個圈內工程師夢中的畫面。
Hyperbolic labs 的聯合創始人兼首席技術官,看完更是直接爆粗口了,上來就一句Holy謝,說這簡直太瘋狂了,這么逆天的東西居然連論文都不發,只放到了博客上。
還有不少AI博主,像是Prime Intellect的研究員,也直接高呼,一個新的DeepSeek Moment到了。
甚至不少人都開始挖,這Kimi的創始人是何許人也。
除了這些,不少大咖也紛紛發推安利,像AI美術工具MagicPath 的CEO Pietro Schirano,用完直接愛上了。
他說這是自Claude 3.5 Sonnet以來,他用過的最舒服的模型。
還有一家市值十億美元,做AI應用的公司Greywing,創辦人Hrishi Olickel 把它跟同樣前幾天發布的Grok4對比了一下,發現Kimi K2直接給Grok4干碎了。
大家用的都是同一套提示詞,結果Grok4愣是沒一次能贏,直接抬走的水平。
更牛逼的是,我還看到Hugging face 聯合創始人Thomas Wolf,也對Kimi K2大加贊賞,說這簡直難以置信,還向外國網友們安利了一波月之暗面團隊。
就連估值 150 億美元的知名AI 搜索公司 Perplexity ,他家CEO,前 OpenAI 研究科學家 Aravind Srinivas,都在推上公開圈了月之暗面,希望他們Perplexity以后能基于 Kimi K2 進行訓練。
要知道,之前 DeepSeek R1 也被 Perplexity 用來訓練過,可見這種認可的含金量。
甚至有不少業內人士猜測說,OpenAI 甚至推遲了他們家開源模型的發布,不知道是不是為了暫避鋒芒。。。
反正從基準測試成績上看,沒準也有可能。
Kimi K2在代碼、工具調用、數學、通用知識等性能測試中,表現都相當不錯,一些項目甚至領先于頂尖的閉源模型。
SWE-bench 榜單的作者Ofir Press,看到這成績以后還專門發文點贊了Kimi團隊。
說實話,評分這東西也就是個數字,是不是真的厲害那還得親自上手了才知道。
結果等到哥們上手一測,發現這Kimi的實力是真的有點超出預期,特別是在寫代碼上,比如在html里實現3d場景生成。
不多bb,直接看結果,咱拉來了性能最強,但也巨貴的Claude 和Gemini 2.5pro,讓開源的,價格實惠的 Kimi K2,跟這倆同臺競技。
提示詞給的也都是一樣的,大概就是做一個3d版的地球出來,還要有夜間燈光那種。
首先看Kimi,我感覺它這個光線做的就非常舒服,沒有特別亮的地方,暗部也不全黑,能看見城市燈光。而且這個地球上的云層,不是貼上去的,這玩意可以實時移動位置,真的是在飄的!
作為對比,先被拉來的是Claude Sonnet。但效果嘛,請看VCR。
可能是因為調庫用沒調好的原因,結果搞成了卡通風。。。
由于Sonnet略微跑題,為了講武德,咱就直接讓他家大哥來,Claude Opus4。
有一說一,這Opus確實給Claude長臉,試完以后結果屬實是強了不少。
但相比而言,我感覺Opus的光線還是略差于Kimi,比如太陽直射點就一個大團,而且很多地方過曝了,云層也沒有顯示出來。
再看看Gemini的水平,乍一看好像很不錯,但放大就會發現,這貼圖質量屬實有點差。不過也比Sonnet強,確實是做出來了,總體這一輪Kimi K2還是有優勢的。
不過當我再給各自的提示詞加上,生成太陽和月亮模型時,情況就有了變化。
Kimi 和 Claude 的畫面質量依舊在線,但是Claude 整了個地心說出來,哥白尼看了都流淚。
而Gemini雖然丟了太陽,但它注意到了一個Kimi和Claude 都忽略的細節,三星連線的時候會有日食。
雖然Gemini想的多了點,但整體來看,這三家還是各有優勢。
起碼作為開源模型,Kimi K2的水平還是很高的,在模型生成這塊我覺得已經可以比肩Claude Opus4 這些閉源大模型了。
除了模型生成,即使在一般的網頁搭建上,Kimi K2的效果也挺驚艷。
我們測試的提示詞是,“整理一份詳細的酷玩樂隊2025年演唱會出行計劃”。同時喂給Kimi和Claude ,然后他倆都會自動去網頁搜索演唱會的信息,地址,酒店等。
最后Kimi的答卷是這樣:
該說不說,在色彩搭配上,這網頁確實很有酷玩的風格。
再看Claude 這邊,整理的資料比Kimi稍微詳細一些,但整體風格跟Kimi還是很不一樣,色彩用的更大膽一些。
不過就這塊測試來說,我覺得Kimi確實是一個不容小覷的開源模型。
但實際上,這還不是Kimi代碼能力的上限。
因為上面的演示,都是我在網頁版Kimi里測試出來的效果,而作為一個主打Agentic的模型,如果你想榨干它的全部能力,就必須在像Claude Code這樣的AI編程平臺上,調用api去實現。
舉個例子,還是同樣的提示詞,我們讓Kimi和Claude 都各自生成一個可以交互的我的世界游戲。
先看Claude 的結果,工具欄,左鍵消除右鍵搭建都有,已經像模像樣了。
在網頁版的Kimi里,我的世界的效果,可以說跟Claude 彼此彼此,甚至還少了工具欄。
然而,當你在部署api以后,Kimi就會開始全自動的謀劃方案,調用,技術博客里給出的最后結果,我只能說是非常的Amazing啊:
雖然用本地的Kimi api跟Claude網頁版比較,稍微有點不講武德,但你就看這效果好不好吧。要不說是AI做的,我還真不好一眼分辨出來,而且交互也相當底流暢,很自然。
除了上面的這些案例,官方還發布了他們自己跑出來的一些很不錯的案例,比如這個3D粒子的旋轉星系,在光影的控制,交互上做的也很厲害。
而我們在本地,用Claude Code搭載Kimi的api測試下來,也完全可以實現類似的效果。
這么看下來,外網的一堆博主對Kimi的能力表示欽佩,其實咱也能理解了。
跟頂流水平差不太多的模型,但價格只有 Claude Sonnet的1/5 ,Claude Opus的1/25,像哥們今天測了一天,跑了一堆案例,一看賬戶總消費不到五塊錢。。。
屬實是便宜大碗,性能上也有對標Claude的潛力,這性價比你上哪找去。
所以說有些時候,本事這玩意是很難藏著掖著的,你要真靠譜,想躲著不出名都難。比如新版Kimi app更新詳情上,就很低調的只寫了一句,新聞就是歷史的初稿。
這句話來自1999年的一本散文集,用在這么大的版本更新上,確實又低調又文藝,而且充滿自信。
有意思的是,這確實也符合月之暗面這家公司的調性。
之前差評君和同事去北京拜訪過月之暗面,本以為這是一家技術型的AI 公司,沒想到里面的氛圍反而跟咱差評編輯部有點像,甚至空氣里有股文藝范兒。
公司門口就擺著一架能自動演奏的鋼琴,上面是搖滾樂隊Pink Floyd的專輯《The Dark Side of the Moon》(月之暗面)。
他們的會議室也不是數字編號,而是用樂隊的名字命名,每個會議室里還掛著對應樂隊的一張黑膠唱片,這真有點像是一群藝術家待的地兒
而就在K2發布的前夜,月之暗面的員工,用Kimi K2寫了一個 MCP 工具來連接Mac電腦上的庫樂隊應用,讓辦公室那臺鋼琴,彈起了帕赫貝爾的《卡農》。
古典與科幻,在這個夜晚交融,誰又說創造智能,不是一種藝術呢。
至于這場AI的神仙打架大戲,和它們那波瀾壯闊的技術藍海,就留給我們這些時代的見證者,慢慢欣賞了。
撰文: 納西
編輯: 江江 & 面線
美編: 萱萱
圖片、資料來源:
MoonshotAI、Kimi、Gemini、Anthropic、X、Wes Roth、Varindia等,部分圖源網絡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.