給OpenAI億點點壓力?
作者|蘇霍伊
編輯|趙健
最近一周,一波又一波新模型趕在春節前上新,你方唱罷我登場,仿佛就是“AI春晚”一般熱鬧。
昨晚,DeepSeek與月之暗面Kimi在相隔20分鐘的時間里發布推理模型,并且都放出了詳盡的技術報告。這兩家年輕的、備受矚目的AI新星“中門對狙”,引發了眾多AI從業者的圍觀。
同樣是對標o1的推理模型,DeepSeek與Kimi的這次發布有什么不同?首先,這次兩家公司發布的都是滿血版o1,從數學、代碼基準測試分數看,和過往類o1-preview模型有明顯差距。
雖然DeepSeek R1和Kimi k-1.5都側重以強化學習(RL)為核心驅動力,但在具體的技術路線和模式設計上卻“分道揚鑣”。
英偉達AI科學家Jim Fan第一時間發帖對比。他發現,Kimi和DeepSeek的論文驚人地集中在類似的發現上:
不需要像 MCTS 那樣復雜的樹搜索。只需將思維軌跡線性化,然后進行傳統的自回歸預測即可; 不需要需要另一個昂貴的模型副本的價值函數; 無需密集獎勵建模。盡可能依賴事實和最終結果。
兩者的差異點在于:
DeepSeek 采用 AlphaZero 方法 - 純粹通過 RL 引導,無需人工輸入,即“冷啟動”。Kimi 采用 AlphaGo-Master 方法:通過即時設計的 CoT 跟蹤進行輕度 SFT 預熱。 DeepSeek 權重是 MIT 許可證(思想領導力!);Kimi K1.5尚未正式上線。 Kimi 在 MathVista 等基準測試中表現出強大的多模式性能(!) ,這需要對幾何、智商測試等有視覺理解(DeepSeek目前只能識別文字,不支持圖片識別)。 Kimi 的論文在系統設計上有更多細節:RL 基礎設施、混合集群、代碼沙箱、并行策略;以及學習細節:長上下文、CoT 壓縮、課程、采樣策略、測試用例生成等。
雖然Kimi沒有開源,Kimi分享了更多的訓練策略、數據與AI Infra方面的信息,并且其推理模型的測評成績在業內首屈一指。
1.OpenAI之外首個多模態o1
過去,Kimi一直采取的是模型閉源路線。業內人士評估,此次k1.5技術報告的公開,或多或少是為了“招兵買馬”,希望更多技術人才能關注并加入他們的多模態大模型項目。
k1.5團隊公布了SOTA模型設計和訓練的四大關鍵要素:
第一,長上下文擴展。K1.5將RL的上下文窗口擴展到128k,通過部分展開(partialrollouts)等技術手段提升訓練效率,觀察到隨著上下文長度的增加,模型推理能力也在提升。
第二,改進的策略優化。K1.5采用推導自long-CoT的在線鏡像下降(OMD)變體來進行穩健的策略優化,并結合長度懲罰與數據配方微調算法性能。
第三,簡潔的RL框架。K1.5通過上下文擴展來獲得更多搜索和反思的空間,而不依賴復雜的價值函數、過程獎勵模型或蒙特卡洛樹搜索,也能獲得較強性能。
第四,多模態能力。K1.5聯合視覺與文本數據訓練,讓模型在處理圖文推理時具備更寬泛的適應性。但由于主要支持 LaTeX 等格式的文本輸入,依賴圖形理解能力的部分幾何圖形題則難以應對。
與前幾代相比,k1.5最顯著的特點在于其在多模態推理更上一層樓。k1.5在文本與視覺數據上聯合訓練,能夠進行多模態推理,著重在數學、代碼、視覺等復雜任務上的綜合性能提升,是OpenAI之外首個多模態類o1模型。
在短思考模式(short-CoT)模式下,Kimi k1.5 的數學、代碼、視覺多模態和通用能力,大幅超越了全球范圍內短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,領先達到550%。
在長思考模式(long-CoT)下,Kimi k1.5在數學、編程和視覺任務中的表現與OpenAI o1的性能水平接近。
總體而言,在數學和代碼能力上,模型在推理能力和正確率(諸如 pass@1、EM等指標)上大幅領先或趕超其他主流對比模型;在視覺多模態任務上,無論是對圖像中信息的理解、還是進一步的組合推理、跨模態推理能力,都有顯著提升。在通用推理測試上,如MMLU、C-Eval、CLUEWSC等評測基準中,也展現出綜合性的語言理解與推理水準。
2.獨特的“Long2Short”訓練方案
在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的報告中,最大的亮點之一是“Long2Short”訓練方案:具體做法是先利用較大的上下文窗口(據稱可擴展到128K)讓模型學會長鏈式思維,再將“長模型”的成果和參數與更小、更高效的“短模型”進行合并,然后針對短模型進行額外的強化學習微調。
Kimi提到,盡管長鏈推理(long-CoT)模型表現優異,但在測試時消耗的標記數量比標準短鏈推理(short-CoT)大模型更多。
相比之下,采用Long2Short方案的好處是,最大化保留原先長模型的推理能力,避免了常見的“精簡模型后能力減弱”難題,同時有效挖掘短模型在特定場景下的高效推理或部署優勢。
在AIME測試中,k1.5系列模型一舉沖上60.8分的高度;在MATH500測試中,拿下94.6分;而在LiveCodeBench測試中也穩穩占據47.3分的領先地位。對比GPT-4和Claude 3.5等傳統短鏈模型,k1.5的提升幅度甚至達到了550%。
Long2Short表現,靠近左上方效率越高
這波long2short操作,讓短鏈推理任務實現了質變”通過將長鏈模型的深度推理能力和短模型的高效響應特點相結合,開創了一種更靈活、更實用的思路。不夸張地講,k1.5系列的突破為未來如何平衡算力與性能提供了啟發式的答案,也為短鏈思維模型的創新打開了新的大門。
知名AI博主劉聰評價,Long2Short方案可能要成為新風潮了。
3.強化學習的Scaling
很多人都知道Kimi的產品做的很好,殊不知Kimi團隊在AI Infra的基建能力上也實力雄厚。
RL可以讓模型在“嘗試—反饋—改進”的循環中不斷提升。為了實現這個循環,就需要一個完整的訓練系統來支撐。本次Kimi的技術報告也分享了在RL的模式下如何做AI Infra。?
K1.5訓練系統的架構,主要由幾個核心模塊組成,從圖片左邊的System overview可以看到整個強化學習訓練系統的主要組件和數據流向。
Kimi k1.5使用了一個迭代同步的強化學習框架,其靈感來自于訓練AlphaGo和AlphaStar的系統。這個框架的核心是通過持續學習和適應來增強模型的推理能力。該系統的一個關鍵創新是引入了部分rollout技術,以優化復雜推理軌跡的處理。
在處理長文本推理時,模型可能會生成非常長的回答,這會消耗大量計算資源。為了解決這個問題,Kimi k1.5引入了Partial rollouts的技術,主要思想之一是擴展長上下文RL訓練——也就是做RL的Scaling。
通過分段處理、異步操作、重復檢測等方法,Partial rollouts可以處理更長的推理過程,同時保持高效的訓練速度,從而優化了整個系統的性能。
此外,通常情況下訓練模型和使用模型進行推理是分開的,這會導致資源浪費。Kimi k1.5采用了一種混合部署策略,讓訓練和推理共享同一個計算資源池。這種策略大大減少了訓練和推理之間的切換時間,提高了資源利用率。
可以說,Kimi所有技術的核心,都把長上下文作為了核心指導原則。Kimi在技術報告中總結道:“從我們的實踐中得出的關鍵見解之一是,上下文長度的擴展對于 LLM 的持續改進至關重要。我們采用了優化的學習算法和基礎設施優化(例如 Partial rollouts 技術),以實現高效的長上下文 RL 訓練。”
Kimi雖然并沒有把模型的權重開源,但如此詳盡的技術策略報告的開放,對于推動整個強化學習以及AI行業的發展,仍舊有巨大的推動意義。
(封面圖來源:公開資料)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.