經(jīng)濟觀察報 記者 陳月芹
6月17日,MiniMax(稀宇科技)宣布其自主研發(fā)的MiniMax M1模型開源,并計劃在未來5天內每天發(fā)布一項新產(chǎn)品或新技術。而這款MiniMax M1模型,在關鍵技術規(guī)格、架構設計、上下文處理能力、訓練成本等維度全面對標DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼誰更好用、誰更低成本。
對大語言模型而言,上下文窗口與長文本處理能力是衡量一個模型處理復雜、長篇任務能力的關鍵指標。MiniMax M1支持100萬個token的上下文長度,是DeepSeek R1上下文大小(12.8萬Token)的8倍,僅落后于谷歌的Gemini 2.5 Pro。支持百萬級上下文輸入的能力,使得MiniMax M1擅長處理長文檔,適用于法律文件審查、深度研究分析或處理整個代碼庫等應用。
在架構上,MiniMax M1和DeepSeek R1均采用了混合專家(MoE)架構。MiniMax M1的總參數(shù)量為4560億,每個token激活459億參數(shù);而DeepSeek R1雖然總參數(shù)量更大(6710億),但每個token激活的參數(shù)量相對較低,為370億。
此外,與DeepSeek R1相比,MiniMax-M1在生成10萬個token時僅消耗25%的浮點運算。在生成長度達64000個token的推理任務中,M1所需的計算能力不到DeepSeek R1的一半,進一步降低了模型操作成本。
2025年2月,DeepSeek火爆出圈,除了免費和好用之外,還因其僅以500萬至600萬美元的GPU成本,就訓練出了與OpenAI o1能力不相上下的DeepSeek R1模型,引起行業(yè)震撼,不過這一成本數(shù)據(jù)也引發(fā)了廣泛爭議。
MiniMax稱,M1模型的整個強化學習階段僅使用了512塊英偉達H800 GPU,耗時三周,成本僅為53.5萬美元,這一成本“比最初的預期少了一個數(shù)量級”。
MiniMax解釋,MiniMax M1的強文本處理能力和更低成本,背后是兩大核心技術作為支撐,一是線性注意力機制(Lightning Attention)混合構架和強化學習算法CISPO。例如,CISPO算法通過裁剪重要性采樣權重,而非傳統(tǒng)算法中調整Token的更新方式,來提升強化學習的效率和穩(wěn)定性。
降低訓練成本后,MiniMax也把用戶使用API服務的價格打下來了。
MiniMax M1采用分級計費,根據(jù)用戶輸入或輸出的Token數(shù)量(即內容的長度)而變化。第一檔為0—32k Token,每100萬個輸入Token收取0.8元,輸出則為8元/百萬Token;第二檔為32k—128k Token,輸入為1.2元/百萬Token,輸出則為16元/百萬Token;第三檔為128k—1M Token,輸入為2.4元/百萬Token,輸出為24元/百萬Token。
而DeepSeek R1 的API服務收費標準為?輸入每百萬Tokens?收費?0.55美元?(約合人民幣3.95元),?輸出每百萬Tokens?收費?2.19美元?(約合人民幣15.4元)。
據(jù)此計算,MiniMax M1前兩檔位的定價均低于DeepSeek R1,而第三個超長文本檔位,目前DeepSeek模型尚未覆蓋。
目前,MiniMax M1已在Hugging Face和GitHub上公開其代碼和模型權重,允許用戶進行透明的檢查、定制和本地部署。
(作者 陳月芹)
免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。
陳月芹
可聯(lián)系:chenyueqin@eeo.com.cn
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.