出品|搜狐科技
作者|梁昌均
編輯|楊 錦
OpenAI、DeepSeeK點燃大模型推理浪潮后,越來越多的大模型企業開始涌入,阿里、百度、騰訊、字節、谷歌等先后發布推理模型。
不少企業都在想著如何憋大招,后發制人。這一次輪到估值超200億元的獨角獸MiniMax,發布首款推理模型M1,并稱這是全球首款開源權重、大規模混合注意力推理模型。
根據基準評測,M1性能超越國內閉源模型,接近海外最領先模型,部分任務超過DeepSeek、阿里、字節,以及OpenAI、谷歌和Anthropic等最新最強的開閉源模型。
在年初DeepSeek-R1推出后,MiniMax所在的“AI六小龍”陣營被打蒙了。如今,M1一定程度上讓MiniMax在國內模型陣營梯隊中踏上一個臺階。
“第一次感覺到大山不是不能翻越。”MiniMax創始人&CEO閆俊杰發文表示。
我們了解到,M1是MiniMax此次為期5天的發布周的第一彈,后續還將官宣智能體應用,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。
多項任務性能趕超Deepseek
輸入長度業內最高
M1是MiniMax推出的首款推理模型,其基于MiniMax-Text-01模型開發,總參數達4560億,每token激活參數459億,采用了混合專家(MoE)架構和線性注意力機制(Lightning Attention)。
MiniMax在業內主流的17個評測集上測試了M1,結果顯示,其在部分數學和代碼測試超過Anthropic最強模型Claude-4-Opus、字節最新發布的Seed-Thinking-v1.5,以及參數達6710億的Deepseek-R1,但不及R1-0528版本,距o3和谷歌最新的Gemini 2.5-pro也有一定差距。
不過,M1在軟件工程、長上下文、工具使用等復雜的生產力場景中,具備比較全面的優勢。如M1在測試軟件工程能力的SWE-bench上取得超過55%的成績,雖不及海外頂尖模型,但顯著高于國內的DeepSeek-R1、以及阿里和字節模型。
在長上下文理解任務中,M1則在三項基準測試上全面超越所有開源模型,并超越o3和Claude-4等閉源模型,僅以微弱差距落后于Gemini 2.5 Pro,全球排名第二。
在代理工具使用場景測試TAU-bench中,M1在airline(航空領域)的得分超過60%,領跑目前最為領先的開閉源模型;在retail(零售領域)的表現則超過DeepSeek、阿里、字節和谷歌模型,略遜于o3和Claude-4模型。
“通過全面的評估,MiniMax-M1與DeepSeek-R1和Qwen3-235B一起,躋身全球最佳開源權重模型之列。”MiniMax表示。
值得注意的是,M1包括兩個版本模型,分別有40k和80k的思考上下文長度,其中M1-80k在多數基準測試中始終優于MiniMax-M1-40k,這充分驗證了擴展測試時計算資源的有效性。
M1另一個顯著優勢是支持高達100萬Token上下文輸入,和Gemini 2.5 Pro一樣,業內最高,這是DeepSeek-R1輸入長度的8倍。同時,M1支持8萬Token的推理輸出,除o3外最高。
架構和算法創新
強化學習成本54萬美元
這些性能得益于MiniMax在架構和算法的創新。
過去半年,推理模型借助大規模強化學習持續向上探索著大語言模型的天花板,但由于Transformer架構中,注意力機制的計算量會隨序列長度呈平方級增長,導致其在推理擴展上面臨挑戰。
DeepSeek和月之暗面此前均針對注意力機制進行了研發,前者提出原生稀疏注意力(NSA),后者提出塊注意力混合架構(MoBA),使得上下文處理速度提升十多倍。
MiniMax則在論文中提到,業內此前提出了稀疏注意力等方法解決,但尚未在大規模推理模型中得到充分驗證,為此還需在高效擴展推理方面進行探索。
M1則在混合專家架構上采用了線性注意力機制(Lightning Attention),其核心是通過將注意力計算分解為多個小塊,采用線性復雜度的計算方式,實現對長序列的高效處理。
“這種設計理論上能夠高效地將推理長度擴展到數十萬 token。”MiniMax表示,這還能帶來計算成本的大幅下降,“這個特性使我們在訓練和推理的時候都有很大的算力效率優勢”。
例如,與DeepSeek-R1 相比,在生成長度為64K token時,M1消耗的算力FLOPs不到其50%;在長度為100K token時,消耗的FLOPs約為其25%。
這正是M1上下文長度得到擴展的關鍵,并使其特別適合需要處理長輸入和進行深入思考的復雜、現實世界任務,因此其在軟件工程、長上下文、工具使用等方面體現出性能優勢。
當然,這也離不開M1在進行大規模強化學習時的算法創新。論文提到兩個關鍵創新,一是提出一種新穎的強化學習算法CISPO,從而提升強化學習效率。
經過驗證對比,這種算法具備更高效率。如在數學測試基準AIME的實驗中,MiniMax發現CISPO比字節近期提出的DAPO強化學習算法實現了兩倍的加速,即其只需50%的訓練步驟就可以與DAPO的表現相匹配,同時也顯著優于DeepSeek此前使用的GRPO算法。
二是針對使用混合架構進行強化學習擴展時存在的挑戰,如架構的訓練內核和推理內核之間存在精度不匹配,阻礙了強化學習期間的獎勵增長,為此開發了針對性的解決方案。
此外,為防止過于激進擴展訓練長度可能導致訓練過程中突然發生梯度爆炸(模型失控),MiniMax通過四個階段采用更平滑的上下文長度進行擴展,從32K開始,最終將上下文擴展到1M。
“得益于這些技術創新,我們最終強化訓練過程非常高效,超出預期。”MiniMax論文介紹,M1在整個強化學習階段只用到512塊H800三周的時間,租賃成本只有53.74萬美金(約合人民幣380萬),“這比一開始的預期少了一個數量級”。
和豆包采取相同價格策略
MiniMax還有更多更新
目前,MiniMax-M1已經對外開源,并在MiniMax APP和Web端免費升級。在API價格方面,MiniMax和字節最新更新的豆包1.6同樣采用了“區間定價”策略。
在0-32k輸入長度和32k-128k輸入長度下,M1的價格相比未按區間計價的DeepSeek-R1(輸入4元/百萬token,輸出16元/百萬token)更有性價比,而對于最長的128k-1M的輸入長度,DeepSeek模型則不支持。
同時,M1劃分的三個區間價格與豆包1.6對應區間價格也相同,但豆包1.6最后一個區間的最長長度為256k。可以說,M1成為和豆包一樣的大模型價格殺手,這也正是得益于其相對高效的訓練和推理算力效率。
“性價比新王”、“又一次卷到硅谷了”,不少開發者對M1評價到。
MiniMax認為,M1將在未來的智能體應用中具有獨特優勢。“我們預見這種高效架構在解決現實挑戰方面具有巨大潛力,包括自動化工作流程、科學研究等。”
“未來智能體需要數十到數百個回合進行推理,同時整合來自不同來源的長上下文信息,我們未來將進一步朝著這一目標前進。”MiniMax表示。
搜狐科技了解到,目前MiniMax正在面向海外內測智能體應用,主打代碼、多模態等能力,同時支持調用多款MCP工具。
值得注意的是,M1是MiniMax此次為期5天發布周的第一彈,后續該公司將官宣推出智能體,并在海螺AI視頻、音樂等模型和產品層面帶來更多更新。
此前,MiniMax進行了品牌調整,原有的對話類應用海螺AI更名為MiniMax,包括國內及國際市場,海螺品牌將專指AI視頻海螺視頻,從而在產品品牌上進行了明確劃分。
在DeepSeek沖擊下,昔日“AI六小龍”受到市場質疑,也做出了不同選擇,零一萬物和百川智能放棄大模型訓練,其它幾家則在不同層面謀求突圍。
MiniMax顯然還在堅持大模型訓練,并通過卷成本、卷效率,試圖向DeepSeek等領先模型發起挑戰,有望為其在未來的大模型格局競爭中獲取更多勝算。
運營編輯 |曹倩審核|孟莎莎
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.