網易首頁 > 網易號 > 正文申請入駐

開源大模型, 重量級選手+1

2025-06-17 12:47:50　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

今天大模型開源世界又迎來 1 個重量級選手 MiniMax- M1

我們一起看看

MiniMax-M1 簡介

MiniMax-M1 采用了創新的混合專家模型（MoE）架構結合閃電注意力機制（Lightning Attention），優勢有三：

高效計算：閃電注意力機制顯著提升推理效率
參數激活優化：雖然總參數量巨大，但每次只激活必要的專家模塊
線性擴展：時間和空間復雜度隨序列長度近似線性增長

模型總參數 4560 億（456B）,比 Qwen3 還龐大，每 token 激活參數：459 億（45.9B）,基礎模型：MiniMax-Text-01.MiniMax-M1 中的閃電注意力機制能夠高效擴展測試時計算，與 DeepSeek R1 相比，M1 在 10 萬 token 生成長度下僅消耗 25% 的 FLOPs。

最大亮點是超長上下文支持：

輸入上下文：原生支持 100 萬 token，是 DeepSeek R1 的 8 倍
輸出長度：支持最多 8 萬 token 輸出
處理效率：在單臺機器上就能處理超過 100 萬 token

MiniMax-M1 原生支持 100 萬 token 的上下文長度，是 DeepSeek R1 上下文大小的 8 倍。

最大輸入與 Gemini 2.5 Pro 并列第一

最大輸出僅次于 OpenAI o3

綜合妥妥第一

它還支持：

深度思考：支持復雜邏輯推理和深度分析
長文檔處理：能夠高效處理和分析超長文本
多輪對話：支持復雜的多輪對話場景
工具調用：具備強大的工具調用能力

MiniMax-M1 測評

官方數據來看:

MiniMax-M1在復雜推理和長上下文處理方面表現突出，其核心優勢在于高思考預算和原生百萬 token 支持。80K 版本的思考預算達到行業頂級水平，在數學推理任務中接近 DeepSeek-R1 和 OpenAI-o3 等頂級模型，MATH-500 測試成績達 96.8%。

在編碼任務中，其 FullStackBench 68.3% 的表現與 Claude 4 Opus 差距不足 2 個百分點。特別值得注意的是其長上下文能力，在百萬 token 級任務中與 Gemini 2.5 Pro 持平，OpenAI-MRCR 測試中 40K 版本甚至以 58.6% 略超 80K 版本。

工具調用方面，零售場景的 TAU-bench 測試顯示 40K 版本反超 80K 版本達 67.8%，展現出色的任務適配性。

不過在軟件工程和事實性任務方面，與行業頂尖模型仍存在約 15-20% 的差距。

MiniMax-M1 部署

模型文件 910GB+,比 R1 還大

官方推薦本地部署設備：單臺配備 8 個 H800 或 8 個 H20 GPU 的服務器

搭載 8 個 H800 GPU 的服務器可處理長達 200 萬 token 的上下文輸入

配備 8 個 H20 GPU 的服務器則能夠支持高達 500 萬 token 的超長上下文處理能力。

vllm 部署代碼：

#https://huggingface.co/MiniMaxAI/MiniMax-M1-80k/blob/main/docs/vllm_deployment_guide_cn.md export SAFETENSORS_FAST_GPU=1 export VLLM_USE_V1=0 python3 -m vllm.entrypoints.openai.api_server \ --model \ --tensor-parallel-size 8 \ --trust-remote-code \ --quantization experts_int8  \ --max_model_len 4096 \ --dtype bfloat16

MiniMax-M1 實測

部署成本太高了，我沒這個實力

想要測試的話可以去官方網站：https://chat.minimax.io/

這里面有兩個模式：

智能搜索：就是聯網搜索，官方建議當需要 MiniMax AI 進行創意寫作時關閉此功能 Think 模式：就是深度思考

我讓他生成黑客帝國數字雨 html，效果非常一般

比DeepSeek-R1-0528-Qwen3-8B強，比 Qwen3:32B 弱，更是完全比不上 DeepSeek-R1-0528

不過其Agent模式還是很OK的

然后讓其設計知識卡片

提示詞：閱讀全文，文中共幾次父親的背影？分別有何深意，輸出 SVG 格式，3:4，小紅書風格：——省略 1328 字

它剛開始也是沒有找到第四次的背影，不過在漫長的思考中，它發現并修復了

最終效果還行吧，比 Qwen3-235b、Qwen3:32、GPT4.1 都要強很多

我發現 minimax 也新出了一個 Agent 模式：https://agent.minimax.io/

它是類似 manus 的通用智能體工具，可以生成網頁、游戲代碼，可以做 Research，寫報告，可以做 PPT，可以做多模態任務。

初看確實蠻驚艷的

比如這個復刻 minimax 官網

比如可以極簡 prompt 輸入

創作一本 20 頁的兒童圖畫書，主角是一只善良的狐貍。用你生成圖像的能力，以溫暖明亮的風格創作 20 幅插圖，將它們與故事文本結合，并以網頁形式完整呈現給我。

生成一個故事網頁

費用方面：

免費用戶有 1,000 免費積分，這一點不如 manus 誠意，后者除了 1000 免費積分，每天還會刷新贈送 300.

總結,我個人可能只會偶爾在網頁端用用它

公司本地化部署的話,鐵定還是首選DeepSeek-R1-05-28

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.