推理模型極致的性能與性價比,這次 MiniMax 都要。
作者|甘德
編輯|鄭玄
好飯不怕晚,MiniMax 終于把這款金字塔尖的推理模型拿出來了。
在將 MoE 和 Lightning Attention(閃電注意力)的激進架構變革引入基礎模型底層,轉化為全新的 MiniMax-01 系列模型的 5 個月后,大模型公司 MiniMax 終于更進一步,捧出了醞釀許久的自研文本推理模型 MiniMax-M1,這也是全球首個開源、大規模實現混合注意力的推理模型。
推理模型已成為新的大模型技術浪潮,拿出一款強勁的自研推理模型,是近半年里國內第一陣營的大模型公司保持自己技術身位最直接的目標。
01
金字塔尖的文本推理模型
作為推理模型,MiniMax-M1在長上下文理解能力上,是目前包括所有閉源和開源模型在內,能力全球前二的模型,且在訓練和推理成本上極高的性價比。
M1 仍然延續著 MoE 架構,而在注意力機制上和強化學習算法上的創新讓 M1 鮮明的區別于其他推理模型。模型總參數達到 4560 億參數,原生支持 100 萬 token 的上下文長度輸入,以及目前所有模型中最長的 80k token 的輸出長度。
在上下文能力的評測基準 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表現遠超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內的所有開源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,僅小幅落后 SOTA 的 Gemini 2.5 Pro。
除了在長上下文能力上的強勢,M1 所展現出的在智能體工具使用(Agentic Tool Use)維度上的能力上限甚至更加讓人期待。從評測基準 TAU-Bench (airline) 中的表現來看,目前 M1 已經是市面上在 Agentic Tool Use 方面能力最強的模型。
技術報告中對于 M1 的概述是,這個新的開源模型已是與 DeepSeek-R1、Qwen3-235B 并列的世界頂尖開源推理模型,這一結論是在參與了業內主流的 17 個評測基準之后得出的。在處理復雜場景時長上下文、智能體工具使用能力上的長板足夠亮眼,M1 在更通用的模型性能上也已經跨入頂尖行列。
此外需要特意說明的是,M1 系列模型中的兩個模型中,MiniMax-M1-40K 模型是 MiniMax-M1-80K 模型在訓練時的中間階段。而在測評基準所呈現的總體表現中,MiniMax-M1-80k 在多數基準上持續優于 MiniMax-M1-40k,這也驗證了上下文窗口長度帶來了模型整體性能的顯著提升,而非僅僅意味著支持更長的輸入。
02
從架構到算法,更徹底的「雙線創新」
與市面上主流的推理模型相比,M1 在底層架構和算法層上都有所創新。
在底層架構層面,M1 是目前唯一一個用線性注意力機制「大改」傳統 Transformer 架構,從而大規模實現混合注意力的 MoE 推理模型;在算法層面,M1 提出了新的強化學習算法 CISPO。更徹底的雙線創新提高了 M1 的訓練效率,而訓練成本的下降也非??捎^。
為解放 Transformer 架構中核心的注意力機制 Softmax Attention 在計算資源消耗方面的局限性,M1 系列模型在注意力機制的架構設計方面相比傳統架構的推理做了更大膽的嘗試——采用混合注意力機制 Lightning Attention——來代替標準 Transformer 中使用的傳統 Softmax Attention。
獨特的注意力層設計讓 M1 在推理時具有顯著效率優勢,天然有利于強化學習的高效擴展,但走到混合架構大規模強化學習的無人區,MiniMax 顯然也會遇到新架構帶來的挑戰。
比如在混合架構的初步零強化學習(zero-RL)實驗中,團隊發現傳統的 PPO/GRPO 算法會意外的嚴重損害訓練性能。具體來說,與反思行為相關的關鍵 token——例如表示轉折的 however、wait——這些低概率 token 對穩定熵和促進可擴展 RL 至關重要,但卻容易在策略更新時被裁剪,難以保證這些 token 的梯度貢獻,導致難以促進長 CoT 推理行為。此問題在混合架構模型中尤為突出,阻礙了強化學習的規模擴展。
為此,M1 在算法層面提出了新的強化學習算法 CISPO,意在明確避免丟棄任何 token(即使更新幅度大),同時將熵維持在合理范圍以確保穩定探索。
在 zero-RL 設置下,MiniMax 團隊在數學推理數據集上訓練 Qwen2.5-32B-base,對比 CISPO、 字節跳動提出的 DAPO 以及 DeepSeek 提出的 GRPO 算法在 AIME 2024 上的表現。相同步數下 CISPO 顯著優于 DAPO 和 GRPO;其訓練效率更高,僅需 DAPO 50% 的步數即可達到同等性能。
底層架構上對于線性注意力機制的引入,以及算法層圍繞 CISPO 所形成的高效 RL 框架,最終讓 M1 的強化學習訓練變得十分高效,進而取得了訓練成本的大幅下降。
與模型一同發布的技術報告中顯示,在生成長度為 10 萬 Token 時,M1 的計算量僅為 Deepseek R1 的 25%,而整個 M1 的完整強化學習訓練能在 512 張 H800 GPU 上僅用 3 周完成,以目前的 GPU 租賃價格計算,成本僅為 53.47 萬美元。
MiniMax 官方也發布了幾個 demo,我們可以從中看到 M1 究竟能做到什么。
比如最經典的用貪吃蛇游戲測試 coding 能力的測試玩法,但這次 M1 展示的是用一句自然語言生成一個更復雜的迷宮游戲。
Prompt 是這樣的: 創建一個迷宮生成器和尋路可視化工具。隨機生成一個迷宮,并逐步可視化 A* 算法的求解過程。使用畫布和動畫,使其具有視覺吸引力。
或者讓 M1 來幫你從 0 到 1 搭建一個能夠測試打字速度的網頁:
demo 里可以清晰看到,M1 在生成的網頁中思路清晰的設置了代表打字速度的 WPM(words per minute)和準確度的 Accuracy 兩個指標,并且體貼的讓上方文字隨著你的輸入進程而同步變色。
又或者,用戶可以直接讓 M1 做一個可拖拽的便簽墻。
這些 demo 都在指向一些通用 agent 中產品化 feature 的可能性。長上下文理解、智能體這些在模型能力產品化過程中的核心能力,恰好是 M1 模型的強勢所在。這符合 MiniMax 最早以產品起勢的路線,而這家公司近來在基礎模型層面持續的激進探索,也以 M1 的出現為節點,在當下大模型公司們技術突破普遍降速的時候顯示出后勁。
03
從 MoE 到 Linear,再到 MiniMax-M1
M1 的出現,背后是一條 MiniMax 從傳統的稠密模型與 Transformer 架構,轉向 MoE 與線性注意力機制的草蛇灰線。在 MiniMax 決定引入 MoE 與線性注意力機制的時候,在當時幾乎都沒有什么可以參考的對象。
Mistral AI 在 2023 年底用開源的模型 Mistral 8??7B 擊敗了當時最優秀的開源模型之一,700 億參數的 Llama 2。2023 年夏天,MiniMax 已經在準備從稠密模型轉向 MoE,投入了當時公司 80% 的算力與研發資源,在 Mistral 8??7B 發布的一個月后,上線了國內首個 MoE 大模型 abab 6,并且由于這是個過于新的架構,MiniMax 為 MoE 自研更適配的訓練和推理框架。
MoE 架構
M1 的混合架構的特征,則開始于今年年初 MiniMax-Text-01 模型里線性注意力(Linear Attention)混合架構的引入。
MiniMax 開始投入 Linear Attention 是從 2024 年 4 月開始的,那時尚沒有模型在千億級別的參數規模層面挑戰傳統的 Transformer 架構。這使得 MiniMax 需要對分布式訓練和推理框架進行徹底的重新設計來適配,使得模型能夠在大規模 GPU 集群上高效運行,這才有了今年 1 月的 MiniMax-Text-01,這也是第一個依賴線性注意力機制大規模部署的模型。
可以說,MiniMax-Text-01 是 MiniMax 在線性注意力這件事上,為整個行業從小規模可行的共識,到 Scale up 的可行做了一次驗證。而推理模型 M1,本質上又是一次基于 MiniMax-Text-01 的 scale up 和架構創新。
MiniMax 也公開了一部分 M1 基于 MiniMax-Text-01 訓練的細節。
團隊以 MiniMax-Text-01 為基座,實施 7.5 萬億 token 的定向增強預訓練,將 STEM(科學/技術/工程/數學)、編程代碼與復雜推理三類核心領域的數據權重提升至總語料 70%。隨后通過監督微調階段注入鏈式思考(CoT)機制,系統性構建模型的分步推理能力,為強化學習奠定能力基礎。
最終這種激進式的創新得到了積極的驗證,M1 是目前全球最先抵達 80k 上下文輸出的推理模型,同時在長上下文,軟件工程和 Agent 工具使用方面體現出了優勢。
此前星野和 Talkie 在商業化上的優異表現,讓 MiniMax 早早成為一家可以自己獨立行走的大模型公司,也讓外界賦予了這家公司一個「產品驅動」這樣過于籠統的標簽。這一定程度上忽視了 MiniMax 在模型層面上相當強悍的研發能力。
值得注意的是,MiniMax 的官方公告透露,M1 系列模型同時也拉開了為期五天的 MiniMaxWeek 的序幕,未來五天,MiniMax 會圍繞文本、語音和視覺等多模態模型對外公布更多的技術進展。
與此前 MoE 的 Abab 6 模型剛出現時類似,此次發布的混合注意力機制的 M1 在底層架構層面仍然是一個「非共識」的推理模型,但也正是因為這些屢次探入模型底層架構「非共識」地帶所帶來的技術創新,一直在印證 MiniMax 終究是一家「模型驅動」的 AI 公司。
而這早該成為一種共識。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你如何看待 MiniMax-M1 ?
Sam Altman:公眾還未習慣人形機器人,街頭偶遇仍會覺得像科幻片。
點贊關注 極客公園視頻號 ,
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.