幾千人盲投,Kimi K2超越DeepSeek拿下全球開源第一!
歪果網友們直接炸了,評論區秒變夸夸打卡現場:
今天,競技場終于更新了Kimi K2的排名情況——
開源第一,總榜第五,而且緊追馬斯克Grok 4這樣的頂尖閉源模型。
并且各類單項能力也不差,能和一水兒閉源模型打得有來有回:
- 連續多輪對話并列第一,o3和Grok 4均為第四;
- 編程能力第二,和GPT 4.5、Grok 4持平;
- 應對復雜提示詞能力第二,和o3、4o位于同一梯隊;
甚至眼尖的朋友也發現了,唯二闖入總榜TOP 10的開源模型都來自中國。(DeepSeek R1總榜第8)
當然了,即使拋開榜單不談,Kimi這款新模型過去一周也確實火熱——
K2過去一周真熱啊
公開可查戰績包括但不限于下面這些:
從實打實的數據來看,發布這一周里,Kimi K2在開源社區就獲得了相當關注度和下載量。
GitHub標星5.6K,Hugging Face下載量近10萬,這還不算它在中國社區的應用。
連AI搜索引擎明星創企Perplexity CEO也親自為它站臺,并透露:
- Kimi K2在內部評估中表現出色,Perplexity計劃接下來基于K2模型進行后訓練。
甚至由于訪問的用戶太多了,逼得Kimi官方也出來發公告:
- 訪問量大+模型體積大,導致API過慢。
不過就在一片向好之時,人們關于“Kimi K2采用了DeepSeek V3架構”的質疑聲再度升溫。
對此,我們也找到了Kimi團隊成員關于K2架構的相關回應。
總結下來就是,確實繼承了DeepSeek V3的架構,不過后續還有一系列參數調整。
p.s. 以下分享均來自知乎@劉少偉,內容經概括總結如下~
一開始,他們嘗試了各種架構方案,結果發現V3架構是最能打的(其他頂多旗鼓相當)。
所以問題就變成了,要不要為了不同而不同?
經過深思熟慮,團隊給出了否定答案。理由有兩點:
一是V3架構珠玉在前且已經經過大規模驗證,沒必要強行“標新立異”;二是自己和DeepSeek一樣,訓練和推理資源非常有限,而經過評估V3架構符合相關成本預算。
所以他們選擇了完全繼承V3架構,并引入適合自己的模型結構參數。
具體而言,K2的結構參數改動有四點:
- 增加專家數量:團隊驗證了在激活參數量不變的情況下,MoE總參數增加仍有益于loss下降。
- 注意力頭head數減半:減少head數節省的成本,剛好抵消MoE參數變大帶來的開銷,且效果影響很小。
- 只保留第一層Dense:只保留第一層為dense,其余都用MoE,結果對推理幾乎無影響。
- 專家無分組:通過自由路由+動態重排(EPLB)可以應對負載不均衡,同時讓專家組合更靈活,模型能力更強。
最終得到的推理方案就是,在相同專家數量下:
- 雖然總參數增大到1.5倍,但除去通信部分,理論的prefill和decode耗時都更小。即使考慮與通信overlap等復雜因素,這個方案也不會比V3有顯著的成本增加。
就是說,這是一種更“精打細算”的結構調優。
而且這種放棄自己的模型架構路線,徹底走DeepSeek路線的做法,也被國內網友評價為“相當大膽”。
△來源:知乎網友@蛙哥
OK,以上關于Kimi和DeepSeek架構之爭的問題落定后,我們再把目光拉回到這次最新排名。
開源追平or超越閉源ing
一個很明顯的趨勢是:「開源=性能弱」的刻板印象正在被打破,開源模型已經越來越厲害了。
不僅榜單上的整體排名在上升,而且分數差距也越來越小。
仔細看,模型TOP 10總分均為1400+,開源和閉源幾乎可以看成位于同一起跑線。
而且這次拿下開源第一的Kimi K2,總分已經非常接近Grok 4、GPT 4.5等頂尖閉源模型了。
換句話說,以前我們可能還要在模型能力和成本之間作取舍,但隨著開源力量的崛起,多思考一秒鐘都是對開源的不尊重(doge)。
與此同時,越來越多的行業人士也表達了對開源崛起的判斷。
艾倫人工智能研究所研究科學家Tim Dettmers表示:
- 開源擊敗閉源將變得越來越普遍。
Perplexity CEO也多次在公開場合表示:
- 開源模型將在塑造AI能力的全球擴散路徑中扮演重要角色。它們對于因地制宜地定制和本地化AI體驗至關重要。
而在已經逐漸崛起的開源模型領域,TOP 10中唯二開源、且都是國產模型的含金量還在上升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.