網易首頁 > 網易號 > 正文申請入駐

OpenAI之后首個多模態o1發布，這篇技術報告講清楚了！｜甲子光年

2025-01-21 21:35:04　來源: 甲子光年

北京舉報

分享至

給OpenAI億點點壓力？

作者｜蘇霍伊

編輯｜趙健

最近一周，一波又一波新模型趕在春節前上新，你方唱罷我登場，仿佛就是“AI春晚”一般熱鬧。

昨晚，DeepSeek與月之暗面Kimi在相隔20分鐘的時間里發布推理模型，并且都放出了詳盡的技術報告。這兩家年輕的、備受矚目的AI新星“中門對狙”，引發了眾多AI從業者的圍觀。

同樣是對標o1的推理模型，DeepSeek與Kimi的這次發布有什么不同？首先，這次兩家公司發布的都是滿血版o1，從數學、代碼基準測試分數看，和過往類o1-preview模型有明顯差距。

雖然DeepSeek R1和Kimi k-1.5都側重以強化學習（RL）為核心驅動力，但在具體的技術路線和模式設計上卻“分道揚鑣”。

英偉達AI科學家Jim Fan第一時間發帖對比。他發現，Kimi和DeepSeek的論文驚人地集中在類似的發現上：

不需要像 MCTS 那樣復雜的樹搜索。只需將思維軌跡線性化，然后進行傳統的自回歸預測即可；不需要需要另一個昂貴的模型副本的價值函數；無需密集獎勵建模。盡可能依賴事實和最終結果。

兩者的差異點在于：

DeepSeek 采用 AlphaZero 方法 - 純粹通過 RL 引導，無需人工輸入，即“冷啟動”。Kimi 采用 AlphaGo-Master 方法：通過即時設計的 CoT 跟蹤進行輕度 SFT 預熱。 DeepSeek 權重是 MIT 許可證（思想領導力！）；Kimi K1.5尚未正式上線。 Kimi 在 MathVista 等基準測試中表現出強大的多模式性能(!) ，這需要對幾何、智商測試等有視覺理解（DeepSeek目前只能識別文字，不支持圖片識別）。 Kimi 的論文在系統設計上有更多細節：RL 基礎設施、混合集群、代碼沙箱、并行策略；以及學習細節：長上下文、CoT 壓縮、課程、采樣策略、測試用例生成等。

雖然Kimi沒有開源，Kimi分享了更多的訓練策略、數據與AI Infra方面的信息，并且其推理模型的測評成績在業內首屈一指。

1.OpenAI之外首個多模態o1

過去，Kimi一直采取的是模型閉源路線。業內人士評估，此次k1.5技術報告的公開，或多或少是為了“招兵買馬”，希望更多技術人才能關注并加入他們的多模態大模型項目。

k1.5團隊公布了SOTA模型設計和訓練的四大關鍵要素：

第一，長上下文擴展。K1.5將RL的上下文窗口擴展到128k，通過部分展開（partialrollouts）等技術手段提升訓練效率，觀察到隨著上下文長度的增加，模型推理能力也在提升。

第二，改進的策略優化。K1.5采用推導自long-CoT的在線鏡像下降（OMD）變體來進行穩健的策略優化，并結合長度懲罰與數據配方微調算法性能。

第三，簡潔的RL框架。K1.5通過上下文擴展來獲得更多搜索和反思的空間，而不依賴復雜的價值函數、過程獎勵模型或蒙特卡洛樹搜索，也能獲得較強性能。

第四，多模態能力。K1.5聯合視覺與文本數據訓練，讓模型在處理圖文推理時具備更寬泛的適應性。但由于主要支持 LaTeX 等格式的文本輸入，依賴圖形理解能力的部分幾何圖形題則難以應對。

與前幾代相比，k1.5最顯著的特點在于其在多模態推理更上一層樓。k1.5在文本與視覺數據上聯合訓練，能夠進行多模態推理，著重在數學、代碼、視覺等復雜任務上的綜合性能提升，是OpenAI之外首個多模態類o1模型。

在短思考模式（short-CoT）模式下，Kimi k1.5 的數學、代碼、視覺多模態和通用能力，大幅超越了全球范圍內短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平，領先達到550%。

在長思考模式（long-CoT）下，Kimi k1.5在數學、編程和視覺任務中的表現與OpenAI o1的性能水平接近。

總體而言，在數學和代碼能力上，模型在推理能力和正確率（諸如 pass@1、EM等指標）上大幅領先或趕超其他主流對比模型；在視覺多模態任務上，無論是對圖像中信息的理解、還是進一步的組合推理、跨模態推理能力，都有顯著提升。在通用推理測試上，如MMLU、C-Eval、CLUEWSC等評測基準中，也展現出綜合性的語言理解與推理水準。

2.獨特的“Long2Short”訓練方案

在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的報告中，最大的亮點之一是“Long2Short”訓練方案：具體做法是先利用較大的上下文窗口（據稱可擴展到128K）讓模型學會長鏈式思維，再將“長模型”的成果和參數與更小、更高效的“短模型”進行合并，然后針對短模型進行額外的強化學習微調。

Kimi提到，盡管長鏈推理（long-CoT）模型表現優異，但在測試時消耗的標記數量比標準短鏈推理（short-CoT）大模型更多。

相比之下，采用Long2Short方案的好處是，最大化保留原先長模型的推理能力，避免了常見的“精簡模型后能力減弱”難題，同時有效挖掘短模型在特定場景下的高效推理或部署優勢。

在AIME測試中，k1.5系列模型一舉沖上60.8分的高度；在MATH500測試中，拿下94.6分；而在LiveCodeBench測試中也穩穩占據47.3分的領先地位。對比GPT-4和Claude 3.5等傳統短鏈模型，k1.5的提升幅度甚至達到了550%。

Long2Short表現，靠近左上方效率越高

這波long2short操作，讓短鏈推理任務實現了質變”通過將長鏈模型的深度推理能力和短模型的高效響應特點相結合，開創了一種更靈活、更實用的思路。不夸張地講，k1.5系列的突破為未來如何平衡算力與性能提供了啟發式的答案，也為短鏈思維模型的創新打開了新的大門。

知名AI博主劉聰評價，Long2Short方案可能要成為新風潮了。

3.強化學習的Scaling

很多人都知道Kimi的產品做的很好，殊不知Kimi團隊在AI Infra的基建能力上也實力雄厚。

RL可以讓模型在“嘗試—反饋—改進”的循環中不斷提升。為了實現這個循環，就需要一個完整的訓練系統來支撐。本次Kimi的技術報告也分享了在RL的模式下如何做AI Infra。?

K1.5訓練系統的架構，主要由幾個核心模塊組成，從圖片左邊的System overview可以看到整個強化學習訓練系統的主要組件和數據流向。

Kimi k1.5使用了一個迭代同步的強化學習框架，其靈感來自于訓練AlphaGo和AlphaStar的系統。這個框架的核心是通過持續學習和適應來增強模型的推理能力。該系統的一個關鍵創新是引入了部分rollout技術，以優化復雜推理軌跡的處理。

在處理長文本推理時，模型可能會生成非常長的回答，這會消耗大量計算資源。為了解決這個問題，Kimi k1.5引入了Partial rollouts的技術，主要思想之一是擴展長上下文RL訓練——也就是做RL的Scaling。

通過分段處理、異步操作、重復檢測等方法，Partial rollouts可以處理更長的推理過程，同時保持高效的訓練速度，從而優化了整個系統的性能。

此外，通常情況下訓練模型和使用模型進行推理是分開的，這會導致資源浪費。Kimi k1.5采用了一種混合部署策略，讓訓練和推理共享同一個計算資源池。這種策略大大減少了訓練和推理之間的切換時間，提高了資源利用率。

可以說，Kimi所有技術的核心，都把長上下文作為了核心指導原則。Kimi在技術報告中總結道：“從我們的實踐中得出的關鍵見解之一是，上下文長度的擴展對于 LLM 的持續改進至關重要。我們采用了優化的學習算法和基礎設施優化（例如 Partial rollouts 技術），以實現高效的長上下文 RL 訓練。”

Kimi雖然并沒有把模型的權重開源，但如此詳盡的技術策略報告的開放，對于推動整個強化學習以及AI行業的發展，仍舊有巨大的推動意義。

（封面圖來源：公開資料）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.