MiniMax深夜開源！首個推理模型，4560億參數(shù)、百萬上下文、價格低至0.8元

2025-06-17 11:53:30　來源: 智東西

北京舉報

分享至

智東西
作者程茜
編輯心緣

智東西6月17日報道，今日凌晨，“大模型六小虎”之一MiniMax發(fā)布全球首個開源大規(guī)模混合架構(gòu)的推理模型MiniMax-M1，并官宣了為期五天的連更計劃。

M1參數(shù)規(guī)模為4560億，每個token激活459億參數(shù)，原生支持100萬上下文輸入以及業(yè)內(nèi)最長的8萬token推理輸出，輸入長度與閉源模型谷歌Gemini 2.5 Pro一致，是DeepSeek-R1的8倍。此外，研究人員訓(xùn)練了兩個版本的MiniMax-M1模型，其思考預(yù)算分別為40K和80K。

MiniMax在標(biāo)準(zhǔn)基準(zhǔn)測試集上的對比顯示，在復(fù)雜的軟件工程、工具使用和長上下文任務(wù)方面，MiniMax-M1優(yōu)于DeepSeek-R1和Qwen3-235B等開源模型。

其博客提到，在M1的整個強化學(xué)習(xí)階段，研究人員使用512塊H800訓(xùn)練了三周，租賃成本為53.74萬美金（折合人民幣約385.9萬元），相比其一開始的成本預(yù)期少了一個數(shù)量級。

M1在MiniMax APP和Web上支持不限量免費使用。API價格方面，第一檔0-32k的輸入長度時，輸入0.8元/百萬token，輸出8元/百萬token；第二檔32k-128k的輸入長度時，輸入1.2元/百萬token，輸出16元/百萬token；第三檔128k-1M輸入長度時，輸入2.4元/百萬token，輸出24元/百萬token。

DeepSeek-R1輸入長度是64k，輸出默認(rèn)32k最大64k，因此可以對標(biāo)M1第一檔和第二檔價格。不過，M1第一檔、第二檔價格相比DeepSeek-R1優(yōu)惠時段都沒有優(yōu)勢。

在標(biāo)準(zhǔn)時段，M1第一檔輸入價格是DeepSeek-R1的80%、輸出價格為50%；第二檔輸入價格是DeepSeek-R1的1.2倍、輸出價格相同。

第三檔是M1的絕對優(yōu)勢區(qū)，DeepSeek-R1不支持128k-1M的輸入長度。

▲MiniMax-M1和DeepSeek-R1 API價格對比

幾乎與MiniMax同時，“大模型六小虎”另外一家月之暗面，也發(fā)了開源代碼模型Kimi-Dev，編程能力強過DeepSeek-R1。

體驗地址：https://chat.minimax.io/

GitHub地址：https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face地址：https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

技術(shù)報告地址：https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

一、Agent工具使用能力一騎絕塵，數(shù)學(xué)、編程略遜

基于業(yè)內(nèi)主流17個評測集，MiniMax-M1的評測結(jié)果在軟件工程、長上下文、工具使用等方面的表現(xiàn)優(yōu)于其他開源或閉源模型。

OpenAI發(fā)布的MRCR測試集中，M1的表現(xiàn)略遜于Gemini 2.5 Pro，相比其他模型效果更好。MRCR評估的是大語言模型區(qū)分隱藏在長上下文中多個目標(biāo)的能力，要求模型在極其復(fù)雜且多重干擾的長文本中，準(zhǔn)確區(qū)分多條幾乎相同的信息，還需識別其順序。

在評估軟件工程能力的測試集SWE-bench Verified中，MiniMax-M1-40k和MiniMax-M1-80k的表現(xiàn)略遜于DeepSeek-R1-0528，優(yōu)于其他開源模型。

Agent工具使用方面，在航空業(yè)的測試集TAU-bench（airline）中，MiniMax-M1-40k表現(xiàn)優(yōu)于其余的開源和閉源模型，零售業(yè)測試集TAU-bench（retail）中，與DeepSeek-R1表現(xiàn)相當(dāng)。

但在數(shù)學(xué)、編程能力等方面，其得分相比Qwen3-235B-A22B、DeepSeek-R1、Claude 4 Opus等都較低。

▲MiniMax-M1評測結(jié)果

與此同時，MiniMax-M1-80k在大多數(shù)基準(zhǔn)測試中始終優(yōu)于MiniMax-M1-40k，這可以驗證其擴展測試時計算資源的有效性。

二、閃電注意力機制高校擴展計算，擅長處于長輸入+廣泛思考

M1是基于MiniMax-Text-01模型開發(fā)，采用了混合專家（MoE）架構(gòu)和閃電注意力機制。

M1的閃電注意力機制可以高效擴展測試時計算。例如，與DeepSeek-R1相比，M1在10萬個token的生成長度下只需消耗25%的FLOP，使得M1適合于需要處理長輸入和廣泛思考的復(fù)雜任務(wù)。

另一個技術(shù)重點是使用大規(guī)模強化學(xué)習(xí)（RL）進(jìn)行訓(xùn)練，其應(yīng)用范圍可涵蓋從傳統(tǒng)數(shù)學(xué)推理到基于沙盒的真實軟件工程環(huán)境等問題。

MiniMax為M1開發(fā)了RL擴展框架，重點包括：提出CISPO新算法，可通過裁剪重要性采樣權(quán)重而非token更新來提升性能，其性能優(yōu)于其他競爭性RL變體；其混合注意力機制設(shè)計能夠提升RL效率，并利用混合架構(gòu)來應(yīng)對擴展RL時面臨的挑戰(zhàn)。

此外MiniMax提到，在AIME的實驗中，他們發(fā)現(xiàn)CISPO比字節(jié)近期提出的DAPO等強化學(xué)習(xí)算法收斂性能快了一倍，顯著優(yōu)于DeepSeek早期使用的GRPO。

研究人員在基于Qwen2.5-32B-base模型的AIME 2024任務(wù)上，對GRPO、DAPO以及CISPO進(jìn)行了對比，結(jié)果表明：在相同訓(xùn)練步數(shù)下，CISPO的性能優(yōu)于GRPO和DAPO；而當(dāng)使用50%的訓(xùn)練步數(shù)時，CISPO可達(dá)到與DAPO相當(dāng)?shù)男阅鼙憩F(xiàn)。

結(jié)語：多Agent協(xié)作面臨超長上下文、數(shù)百輪推理挑戰(zhàn)

為了支持日益復(fù)雜的場景，大語言模型在測試或推理階段，往往需要動態(tài)增加計算資源或計算步驟來提升模型性能，MiniMax在研究報告中提到，未來大模型尤其需要“Language-Rich Mediator”（富語言中介）來充當(dāng)與環(huán)境、工具、計算機或其他與Agent交互的Agent，需要進(jìn)行數(shù)十到數(shù)百輪的推理，同時集成來自不同來源的長上下文信息。

在這樣的背景下，作為MiniMax推出的首個推理模型，MiniMax-M1正是其面對這一行業(yè)發(fā)展趨勢在算法創(chuàng)新上的探索。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.