MiniMax-M1發(fā)布：百萬級上下文窗口與超高效強化學(xué)習(xí)

2025-06-17 22:13:30　來源: 至頂頭條

北京舉報

分享至

中國AI初創(chuàng)公司MiniMax，因其熱門的逼真AI視頻模型海螺而在西方聞名，現(xiàn)已發(fā)布其最新大語言模型MiniMax-M1。對企業(yè)和開發(fā)者而言，這一完全開源的模型采用Apache 2.0許可證，企業(yè)可無限制地將其用于商業(yè)應(yīng)用并根據(jù)需要進行修改，無需付費。

M1是一個開放權(quán)重模型，在長上下文推理、智能工具使用和高效計算性能方面樹立了新標準。該模型現(xiàn)已在AI代碼共享社區(qū)Hugging Face和微軟的競爭對手GitHub上發(fā)布，這是公司在X社交賬戶上宣布的"MiniMax周"的首個發(fā)布產(chǎn)品，預(yù)計還將有更多產(chǎn)品公告。

MiniMax-M1的上下文窗口達到100萬輸入token，輸出可達8萬token，使其成為長上下文推理任務(wù)中最具擴展性的模型之一。

大語言模型中的"上下文窗口"指模型一次可處理的最大token數(shù)量，包括輸入和輸出。Token是文本的基本單位，可能包括完整單詞、單詞片段、標點符號或代碼符號。這些token被轉(zhuǎn)換為數(shù)值向量，模型通過其參數(shù)來表示和操作含義，本質(zhì)上是LLM的原生語言。

相比之下，OpenAI的GPT-4o上下文窗口僅為12.8萬token，足以在單次交互中與用戶交換約一本小說的信息量。而擁有100萬token的MiniMax-M1可以交換一個小型文集或叢書系列的信息量。谷歌Gemini 2.5 Pro同樣提供100萬token的上下文上限，據(jù)報道正在開發(fā)200萬token窗口。

但M1還有另一個優(yōu)勢：它采用創(chuàng)新、高效的強化學(xué)習(xí)技術(shù)進行訓(xùn)練。該模型使用混合專家架構(gòu)(MoE)和閃電注意力機制進行訓(xùn)練，旨在降低推理成本。

根據(jù)技術(shù)報告，在生成10萬token長度時，MiniMax-M1僅消耗DeepSeek R1所需浮點運算(FLOPs)的25%。

架構(gòu)和變體

該模型提供兩個變體——MiniMax-M1-40k和MiniMax-M1-80k，分別對應(yīng)其"思考預(yù)算"或輸出長度。

該架構(gòu)基于公司早期的MiniMax-Text-01基礎(chǔ)構(gòu)建，包含4560億參數(shù)，每個token激活459億參數(shù)。

此次發(fā)布的突出特點是模型的訓(xùn)練成本。MiniMax報告稱，M1模型使用大規(guī)模強化學(xué)習(xí)訓(xùn)練，總成本為53.47萬美元，在該領(lǐng)域展現(xiàn)了罕見的效率。

這一效率歸功于名為CISPO的定制RL算法，該算法剪切重要性采樣權(quán)重而非token更新，以及有助于簡化擴展的混合注意力設(shè)計。

對于前沿LLM而言，這是一個驚人的"低成本"，因為DeepSeek訓(xùn)練其熱門R1推理模型的成本據(jù)報告為500-600萬美元，而OpenAI GPT-4這一已有兩年多歷史的模型訓(xùn)練成本據(jù)說超過1億美元。這些成本來自圖形處理單元(GPU)的價格和運行這些芯片所需的能源，GPU主要由英偉達等公司制造，每模塊成本可達2-3萬美元或更多。

基準測試性能

MiniMax-M1已在一系列測試高級推理、軟件工程和工具使用能力的既定基準上進行評估。

在數(shù)學(xué)競賽基準AIME 2024上，M1-80k模型達到86.0%的準確率。在編碼和長上下文任務(wù)中也表現(xiàn)優(yōu)異：

LiveCodeBench得分65.0% SWE-bench Verified得分56.0% TAU-bench得分62.8% OpenAI MRCR(4-needle版本)得分73.4%

這些結(jié)果使MiniMax-M1在多個復(fù)雜任務(wù)上領(lǐng)先于DeepSeek-R1和Qwen3-235B-A22B等其他開放權(quán)重競爭對手。

雖然OpenAI o3和Gemini 2.5 Pro等封閉權(quán)重模型在某些基準上仍占據(jù)榜首，但MiniMax-M1大幅縮小了性能差距，同時在Apache-2.0許可證下保持免費訪問。

部署選項和開發(fā)工具

對于部署，MiniMax推薦vLLM作為服務(wù)后端，因其針對大型模型工作負載、內(nèi)存效率和批處理請求處理的優(yōu)化。公司還提供使用Transformers庫的部署選項。

MiniMax-M1包含結(jié)構(gòu)化函數(shù)調(diào)用功能，并配備具有在線搜索、視頻和圖像生成、語音合成和語音克隆工具的聊天機器人API。這些功能旨在支持實際應(yīng)用中更廣泛的智能行為。

對技術(shù)決策者和企業(yè)買家的意義

MiniMax-M1的開放訪問、長上下文能力和計算效率解決了負責(zé)大規(guī)模管理AI系統(tǒng)的技術(shù)專業(yè)人員面臨的幾個反復(fù)出現(xiàn)的挑戰(zhàn)。

對于負責(zé)LLM全生命周期管理的工程主管——如優(yōu)化模型性能和在緊張時間內(nèi)部署——MiniMax-M1提供了更低的運營成本配置，同時支持高級推理任務(wù)。其長上下文窗口可以顯著減少對跨越數(shù)萬或數(shù)十萬token的企業(yè)文檔或日志數(shù)據(jù)的預(yù)處理工作。

對于管理AI編排流水線的人員，使用vLLM或Transformers等成熟工具對MiniMax-M1進行微調(diào)和部署的能力支持更容易地集成到現(xiàn)有基礎(chǔ)設(shè)施中。混合注意力架構(gòu)可能有助于簡化擴展策略，該模型在多步推理和軟件工程基準上的競爭性表現(xiàn)為內(nèi)部副駕駛或基于智能體的系統(tǒng)提供了高能力基礎(chǔ)。

從數(shù)據(jù)平臺角度來看，負責(zé)維護高效、可擴展基礎(chǔ)設(shè)施的團隊可以從M1對結(jié)構(gòu)化函數(shù)調(diào)用的支持及其與自動化流水線的兼容性中受益。其開源性質(zhì)允許團隊在沒有供應(yīng)商鎖定的情況下為其技術(shù)棧定制性能。

安全主管也可能發(fā)現(xiàn)M1在高能力模型的安全本地部署方面的價值，該模型不依賴于向第三方端點傳輸敏感數(shù)據(jù)。

綜合考慮，MiniMax-M1為尋求實驗或擴展先進AI能力的組織提供了靈活選擇，同時管理成本、保持在運營限制內(nèi)并避免專有約束。

此次發(fā)布表明MiniMax持續(xù)專注于實用、可擴展的AI模型。通過將開放訪問與先進架構(gòu)和計算效率相結(jié)合，MiniMax-M1可能成為構(gòu)建需要推理深度和長距離輸入理解的下一代應(yīng)用的開發(fā)者的基礎(chǔ)模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.