大洋彼岸的 OpenAI 遲遲沒有發布 GPT-5,一度讓業界懷疑 Scaling Law 是否已經失效。然而,國內多個團隊卻接連推出重磅 AI 大模型,用事實證明 Scaling 依然有效,只不過并不是無腦堆硬件、堆算力。
Kimi k1.5的這次推出的大模型就是以推理能力見長的模型。
不知道你們有沒有注意到Recipe這個詞,在Kimi k1.5的技術報告提到了好多次,它的意思是「菜譜」,相當于說把一道菜需要的原材料、炊具以及注意事項都明明白白告訴你了。
技術報告鏈接:
https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf
可以說,一向閉源的Kimi這次的技術報告可以理解為「半開源」,就像把西紅柿雞蛋的做法一步步的列出來,你模仿它的方法即可,唯一不同的就是具體的操作差異。
比如你的火力大一點兒,鍋的材質不同等等,并且Kimi k1.5的性能在好幾個方面的性能都已經事實上的超過了OpenAI o1滿血版,可以說是含金量非常高的一次「半開源」。
特別是OpenAI o3,也就是在FrontierMath這個非常難的數學測試集上達到了變態成績后的幾周,被曝出暗中資助了這個比賽的丑聞。
如果o3是靠在數據集和答案上預訓練出來的,那么它這種既當運動員也當裁判員的操作,也才拿到了25%左右的正確率,這只能證明o3僅是o1的特殊微調版,只是用來維持OpenAI紙面榮譽的工具。
那Kimi k1.5的含金量就直線上升了,long CoT在Math數學推理,Code編程能力以及Vision視覺多模態上的表現,4/6超過了最強的o1正式版模型。
Kimi k1.5還用了Long2short的方法,將Long CoT的能力遷移到Short CoT上,也在大多數的任務上達到了SOTA的水平,最牛的是在AIME的Pass@1實驗中,效果遠超其他幾家(第一個子圖藍色的Kimi獨樹一幟)。
特別是Long2short之后迭代出來的幾個short CoT,在下面這兩個數學數據集上的性能甚至超過了long CoT,可見CoT可以深挖甚至scaling的地方還有很多。
這些數據基本上表明了OpenAI o1滿血版的性能全面在Kimi k1.5上實現,更重要的是Kimi K系列的快速迭代能力,從初代 Kimi k0 math 到Top級別的 Kimi 1.5,就倆月多點,直接數學偏科到全科專精。
其中第一個長上下文是最近發布的幾個大模型的共性,因為初代LLM的思路簡單直接,就是一問一答,單步操作;
但是后來發現這樣的單步操作對于比較復雜的問題,比如數學物理等需要更多邏輯思考且一步完不成的任務,就需要思維鏈(CoT)這樣的技術,相比起初代LLM,推理大模型可以將復雜的任務分成簡單的單步任務進行。
這樣的好處很直接,不過缺點也很明顯,那就是這些思考過程明顯是需要更多的“記憶力”,換到LLM大模型領域就是上下文長度了,理論上越長越好,最近發布的MiniMax-01就把上下文長度記錄拉到了400萬。
Kimi k1.5并沒有在極限上下文上做文章,而是將long context長度定為128K,然后用Partial Rollout的方法重復利用歷史記錄,而不是重新生成,這樣的策略從結果上表明非常有效。
再加上如果用過OpenAI o1的話,很多簡單的問題o1會出現過度思考(overthinking)的現象,其實這也是一種對于計算能力的浪費以及策略不夠優化的表現。
菜譜也提到了這個點,他們采用了長度懲罰(Length Penalty)的措施,倒逼大模型跟人類對齊,畢竟人類不會對一個簡單問題思考6分鐘。
最后,我特意看了看Kimi微信公眾號對于自己新模型的介紹,開頭的一句話特別契合Kimi k1.5這個模型。
簡單的方法在很多時候被認為是取巧的,但事實支配上人類社會以及整個自然界運轉的規律都是非常簡潔且優雅的,既不存在無限資源這種美夢,也沒有出現普遍的窮思竭慮。
總的來說,Kimi k1.5的這次更新,無疑將中國的大模型和國外最頂尖的OpenAI差距拉到了幾乎同一個水平線,同時這次的「半開源」更是給AI 大模型社區注入了一些「做菜秘訣」,相信這些東西可以讓整個大模型社區的進化速度更進一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.