作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
Kimi K2的發(fā)布幾乎沒什么預(yù)兆。
2025年7月11日深夜,月之暗面直接開源了這個萬億參數(shù)模型,整個AI圈子一下子就熱鬧起來。模型的能力很強,尤其是在代碼和Agent任務(wù)上,沒多久,它就和Grok 4一起出現(xiàn)在了馬斯克轉(zhuǎn)發(fā)的熱門模型趨勢榜單上。
熱度是有了,但這次的感覺和以往很不一樣。
很多人還記得月之暗面曾經(jīng)在市場投放上花巨額預(yù)算的那段時期。根據(jù)公開信息,當(dāng)時為了給產(chǎn)品引流,公司曾在多個平臺進(jìn)行過激進(jìn)的競價廣告投放,高峰期月預(yù)算達(dá)到數(shù)億元。
這次Kimi的方式顯然變了,取而代之的是一場更熱鬧也更有趣的線上派對,主角就是Kimi背后那群工程師和研究員。方式就是在國內(nèi)外技術(shù)討論度更高的幾個社交媒體上用自己的方式,熱烈地討論著這個新誕生的“模型”,和自己在其中引以為傲的工作。
這讓我們有機會看到這家公司的一些側(cè)面。
1
更通透開放的介紹K2
這場“團(tuán)建”其中一個重要舞臺在知乎。
在一個提問“Kimi發(fā)布首個萬億參數(shù)開源模型K2,哪些信息值得關(guān)注?”的頁面下,月之暗面的“接生群”成員們,開始陸續(xù)下場回答。這里說的“接生群”,是月之暗面內(nèi)部對K2研發(fā)的一個戲稱。
月之暗面Infra團(tuán)隊的劉少偉沒有繞彎子,他直接承認(rèn)K2在架構(gòu)上“大體上是復(fù)用了DeepSeek-V3的架構(gòu)”,并且貼了一張清晰的對比圖。圖里能看到Kimi選擇的路線是“fewer heads, more experts”,也就是用更少的注意力頭和更多的專家模塊。他解釋說,這么做是為了在和V3差不多的成本下,拿到更低的loss。
研究員Flood Sung的分享則充滿了對結(jié)果的興奮。他覺得K2最值得關(guān)注的有兩點,一個是MuonClip優(yōu)化器帶來的漂亮loss曲線,另一個就是Agent能力。為了做好Agent,他說團(tuán)隊建了一個“一生二,二生三,三生萬物”的大規(guī)模自動化數(shù)據(jù)生產(chǎn)工廠。這個比喻聽起來就很有畫面感。這其實也正體現(xiàn)了在“未來誰更接近AGI”這個問題上,Kimi更激進(jìn)的方向——試圖通過復(fù)雜的Agent框架,來直接錘煉模型的思維能力。
負(fù)責(zé)后訓(xùn)練的研究員Dylan也帶來了一點不一樣的聲音。他很坦誠地說,K2“實際上就是一個剛出生的baby”,雖然有靈性,但缺點也不少,他自己甚至覺得“略感慚愧”。這些聲音拼在一起,讓隱藏在技術(shù)細(xì)節(jié)背后的K2變得立體起來。
這些分享很快在社區(qū)里有了回響。Hugging Face的研究主管Leandro von Werra就在X上說,他個人更喜歡工程師和研究員這種隨性的網(wǎng)絡(luò)帖子和討論,因為“這樣更容易愉快地理解他們決策背后的思考過程”。
一個更有意思的現(xiàn)象是,過去很長一段時間,都是國內(nèi)開發(fā)者翻譯國外的技術(shù)博客。這次,一些海外開發(fā)者開始翻譯閱讀Kimi團(tuán)隊成員的文章,然后分享到社區(qū)。有人評價說,這是一篇“對模型背后思考過程的優(yōu)美總結(jié)/描述” 和一篇“基于能力營銷的精彩反思/宣言”。
這種話語權(quán)的微妙變化,都來自Kimi終于“想通了”,從過往對外在技術(shù)上并不怎么討論,到開始營造某種類似lab的氣氛,鼓勵大家對外“寫博客”。
1
Moonshot 的 Taste
技術(shù)分享之后,Kimi的研究員們開始給這些被吸引來的同行推介自己的公司。方式上主打一個AI創(chuàng)業(yè)圈最近很愛聊的“品味”。
月之暗面的團(tuán)隊成員Crystal在X上的一段話,被很多人轉(zhuǎn)發(fā)。她說“我們的模型叫 Kimi,但公司名叫 Moonshot——靈感來自 Pink Floyd 的專輯《月之暗面》。我們是一群熱愛搖滾(電臺司令、平克·弗洛伊德)和電影(昆汀、庫布里克)的科學(xué)家團(tuán)隊。我加入的一個重要原因就是覺得味道很對味”。
這種味道滲透在公司的各個角落。比如,他們的會議室,名字都取自傳奇樂隊,A到D區(qū)是The Rolling Stones、Metallica、Bowie、Queen,E到G區(qū)則是Radiohead、Guns N' Roses、Nirvana。
“品味”也直接影響著他們的產(chǎn)品哲學(xué)。Crystal在一篇博客里復(fù)盤了Kimi Researcher的UI設(shè)計歷程,講述了團(tuán)隊如何從模仿精致但平庸的風(fēng)格,到逐漸意識到真正有價值的設(shè)計必須敢于突破常規(guī)。他們把這稱為“慘痛教訓(xùn)”,最終形成的美學(xué)標(biāo)準(zhǔn)是拒絕模板化,追求能激發(fā)用戶感受的獨特體驗。
類似的細(xì)節(jié)甚至延伸到了App Store的版本更新歷史里。
有網(wǎng)友挖出,Kimi的更新日志里引用了哲學(xué)家維特根斯坦和記者菲利普·格雷厄姆的話,把這些細(xì)節(jié)也與Kimi的品味結(jié)合起來,稱它是“所有AI實驗室中品味最佳”的。
工程師們的日常分享也充滿了幽默感和人情味。有人會玩技術(shù)諧音梗,在一條討論PyTorch新優(yōu)化器Muon的推文下,俏皮地回復(fù)“to the ‘Muon’”。
也有一些能展現(xiàn)內(nèi)部工作狀態(tài)的段子。比如,Kimi用來推理的GPU在深夜會進(jìn)入一種叫“潮汐GPU”的閑置狀態(tài),用來跑訓(xùn)練任務(wù)。但K2火了之后,“殘酷現(xiàn)實”是“Tide GPU已售罄”。還有人分享內(nèi)部對話,說想找個速度更快的K2爽一下,被告知“不行,因為沒卡”,想加錢也被拒了,理由還是“因為沒卡”。
Kimi團(tuán)隊的這場線上“團(tuán)建”,就這樣持續(xù)了幾天。它既有來自Infra和算法團(tuán)隊的技術(shù)硬核,也有貫穿在各個細(xì)節(jié)里的文化品味。但更多的,可能是那種團(tuán)隊上下都藏不住的喜悅和自豪感。蟄伏許久之后,他們終于有了再一次證明自己技術(shù)實力的機會。
這種情緒,也體現(xiàn)在團(tuán)隊成員們在X上刷屏似地轉(zhuǎn)發(fā)著各類KOL和開發(fā)者對K2的贊賞。
“年初 DeepSeek-R1 暴漲之后,很多人說 kimi 是不是不行了,你們是不是恨死 DeepSeek 了?恰恰相反,不少同事都認(rèn)為 DeepSeek-R1 的爆火是個大好事, 它證明了硬實力就是最好的推廣,只要模型做的好,就會獲得市場認(rèn)可;他證明了那條我們相信的路不僅能走通,而且是一條康莊大道。 唯一的遺憾就是:這條路不是我們走通的。”Kimi的研究員“熊貍”在博客里寫道。
“在年初的反思會上,我提出了一些相當(dāng)激進(jìn)的建議,沒想到植麟后續(xù)的行動比我想的還要激進(jìn),比如不再更新 K1 系列模型,集中資源搞基礎(chǔ)算法和 K2。”他寫道。
“2025 年,智能的上限仍然完全由模型決定,作為一家以 AGI 為目標(biāo)的公司,如果不去追求智能的上限,那我一天也不會多呆下去。”
與過往靠投放來放大產(chǎn)品上的聲量相比,回歸到一個預(yù)訓(xùn)練模型競技場里,硬碰硬和最主流模型競爭,然后把自己的研究體驗和成果分享給整個技術(shù)社區(qū),顯然是這些研究員們更能有成就感的方式。而這種方式也是整個技術(shù)社區(qū)最容易接受和喜歡的方式。
就像團(tuán)隊成員Haobing在他的推文里寫下的那句“No structure, just pure intelligence. I'm truly proud to be a part of Kimi”。K2對于月暗的意義不只是一個模型,它讓這家公司的人們又“活”了起來。
點個愛心,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.