大數據文摘出品
近日,國內 AI 初創公司 MiniMax 發布了一款全新的語言大模型 MiniMax-M1。
有兩個方面最引人注目:
1.高達100萬Token的上下文處理能力。
2.極具競爭力的訓練成本效益。
M1 那個“1,000,000 token 上下文窗口”的數字,它幾乎是 GPT-4o 的 8 倍,是大多數企業內用 LLM 一次上下文能處理信息量的極限突破。
大上下文也很燒錢,處理這么長的輸入輸出意味著更大的內存占用和更高的計算量。而 MiniMax-M1 把這件事“做得便宜”。據官方披露,M1 的訓練總成本僅為53.47 萬美元,約為 DeepSeek R1 的十分之一,而之前的GPT-4 更是要上億美金起步。
據說,這要歸功于兩個設計巧思:其一是 CISPO,這種自研的強化學習算法用更聰明的采樣方式節省了大量重復訓練成本;其二是混合專家架構(MoE)+ 快速注意力機制,它只激活最需要的那部分參數。
高性能,也可以很便宜
低成本并沒有犧牲性能。在多個重要基準測試中,MiniMax-M1 的表現比 DeepSeek-R1 和 Qwen3 等知名開源模型更為突出。
在數學推理難題 AIME 2024 中,它的準確率達到 86.0%。在代碼生成任務 SWE-bench Verified 中取得 56.0%,在函數調用測試 TAU-bench 中得分 62.8%。這些數據意味著它不僅“看得懂”長文本,還能“用得上”。
盡管與 GPT-4o、Gemini Pro 2.5 等封閉式頂級模型相比,它仍存在通用理解能力上的差距,特別是在高維復雜指令、語言微妙語境等任務中,但在開源模型陣營中,它已進入第一梯隊。
其次,MiniMax-M1 保持了完整開放:Apache-2.0 協議,支持商用、修改、永久免費使用。這讓它在技術價值之外,也具備戰略價值——它是任何一家企業都可以“據為己有”的大模型。
據說,M1是全球首個開源大規?;旌霞軜嫷耐评砟P?/strong>。
而在產品策略上,MiniMax 并沒有追求全面均衡,而是選擇了“關鍵能力超配”的方向:超長上下文、極低計算成本、易部署的架構和極寬松的許可。
它有兩個版本:40k 和 80k tokens 輸出上限,分別對應不同推理預算。這種設置非常工程化——越多預算帶來更完整的推理,但也更慢更貴。MiniMax 把決策權交還給開發者和企業用戶,讓他們自己調節“速度-成本-性能”三者之間的平衡。
它還原生支持structured function calling,適配 vLLM 和 Transformers 等主流框架,可快速集成進已有基礎設施,構建具備“智能體”能力的產品。它甚至預裝了搜索、視頻生成、語音合成等多模態能力插件,為應用構建節省了大量研發資源。
這并不是“另一個大模型”,而是一個面向未來任務形態的基礎設施嘗試。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.