網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

請(qǐng)記住 MiniMax M1：MiniMax 用自己的方法追上R1們，直奔最強(qiáng)Agent模型而去

2025-06-18 09:44:40　來(lái)源: 硅星人

北京舉報(bào)

分享至

　　作者｜王兆洋
郵箱｜ wangzhaoyang@pingwest.com

　　要不要完全跟隨 DeepSeek？

　　這是每個(gè)仍想自己追逐基礎(chǔ)模型圣杯的公司，在過(guò)去半年里一直面對(duì)的靈魂拷問(wèn)。

　　而 MiniMax 的答案很清楚，它要走自己的路。

　　6月17日，MiniMax 發(fā)布了新模型MiniMax M1。這是一個(gè)繼續(xù)激進(jìn)地使用線性注意力 Lightning Attention機(jī)制的模型，同時(shí)它還巧妙地找到一種方式，將這種激進(jìn)的預(yù)訓(xùn)練機(jī)制帶來(lái)的長(zhǎng)文本能力用到后訓(xùn)練階段，提出一種全新的強(qiáng)化學(xué)習(xí)技巧，從而大幅提高了模型的推理能力。

　　按照MiniMax的形容，這是“世界上第一個(gè)開源的大規(guī)模混合架構(gòu)的推理模型”。這些技術(shù)創(chuàng)新讓它有業(yè)內(nèi)最高的性價(jià)比——

　　整個(gè)強(qiáng)化學(xué)習(xí)階段只用到512張H800 GPU，只需三周的時(shí)間訓(xùn)練完成，也就是租賃成本只有53.47萬(wàn)美金。

　　顯然，MiniMax M1 讓 MiniMax 迎來(lái)了一個(gè)類似 DeepSeek R1 的關(guān)鍵時(shí)刻。

　　基座模型里久違的新鮮感

　　MiniMax M1 是近期各種模型中，徹底開源且公開了自己最多新方法的一個(gè)，無(wú)需先去討論它的評(píng)測(cè)成績(jī)，僅從這些技術(shù)創(chuàng)新上就足夠吸引人。

　　這是模型層面久違了的新鮮感。

　　與此前發(fā)布的 MiniMax-01 系列相同，它繼續(xù)使用線性注意力Lightning Attention與傳統(tǒng) softmax attention注意力相結(jié)合的混合結(jié)構(gòu)。配比依然是7:1，每7個(gè) Lightning Attention 模塊插入1個(gè)傳統(tǒng) Transformer 模塊。

　　如我們?cè)趫?bào)道MiniMax-01系列時(shí)所介紹，傳統(tǒng)Transformer使用的Softmax注意力，需要為此構(gòu)建一個(gè)N×N 的全連接矩陣，對(duì)于超長(zhǎng)序列，這個(gè)矩陣會(huì)非常龐大。而 Lightning Attention 這樣的線性注意力機(jī)制則是進(jìn)行“分塊計(jì)算”（tiling），先計(jì)算塊內(nèi)部的詞之間的關(guān)系，然后再傳遞塊與塊之間的信息，最終可以捕捉到全局語(yǔ)義關(guān)系。

　　一個(gè)便于理解的類比是，如果把完全基于Softmax的傳統(tǒng)架構(gòu)看作看書時(shí)候每個(gè)字都看，那么混合架構(gòu)類似是挑重點(diǎn)看，然后偶爾看一下目錄對(duì)照一下整體。效率高了很多。它會(huì)大大減少計(jì)算和內(nèi)存需求，從傳統(tǒng) Softmax 注意力的平方復(fù)雜度降低為線性。

　　根據(jù)M1 的技術(shù)報(bào)告，“它有一個(gè)顯著的優(yōu)勢(shì)是支持目前業(yè)內(nèi)最高的100萬(wàn)上下文的輸入，跟閉源模型里面的 Google Gemini 2.5 Pro 一樣，是 DeepSeek R1 的 8 倍，以及業(yè)內(nèi)最長(zhǎng)的8萬(wàn)Token的推理輸出。”

　　8倍，夸張的提升。DeepSeek R1 目前的輸入長(zhǎng)度是128K ，輸出為64K 。

　　在混合架構(gòu)上，M1在01基礎(chǔ)上用更大的7.5T token的數(shù)據(jù)集做了進(jìn)一步訓(xùn)練，而對(duì)于M1來(lái)說(shuō)，更重要的是這種混合架構(gòu)基礎(chǔ)天然適合用來(lái)訓(xùn)練一個(gè)推理模型。

　　“這種混合架構(gòu)設(shè)計(jì)在理論上能有效地將推理長(zhǎng)度擴(kuò)展到數(shù)十萬(wàn)個(gè)標(biāo)記。”技術(shù)報(bào)告稱。而且是以一種更加高效的方式實(shí)現(xiàn)——與DeepSeek R1 相比，M1在64k token 長(zhǎng)度的FLOP不到50%，100K token 長(zhǎng)度更是只有25%。FLOP即每秒浮點(diǎn)運(yùn)算次數(shù)，用來(lái)體現(xiàn)算力。

　　但要實(shí)現(xiàn)這一效果，不是僅僅使用了混合框架就可以做到的。反而，這種新框架在理論上有優(yōu)越性，但還沒有人在大規(guī)模生產(chǎn)環(huán)境里真正實(shí)現(xiàn)過(guò)。這意味著在后訓(xùn)練階段，也需要有匹配這種新架構(gòu)的創(chuàng)新。

　　MiniMax 在M1 的訓(xùn)練中，創(chuàng)新了一種名為 CISPO（Clipped IS-weight Policy Optimization）的全新強(qiáng)化學(xué)習(xí)方法：

　　過(guò)往為了訓(xùn)練的穩(wěn)定性，以及由于模型上下文長(zhǎng)度能力的限制，在強(qiáng)化學(xué)習(xí)過(guò)程里會(huì)采取裁剪token的做法，把那些看起來(lái)不那么重要的token給裁剪掉。

　　但這導(dǎo)致了一些雖然看起來(lái)不重要——往往是因?yàn)槌霈F(xiàn)頻率低，但其實(shí)對(duì)于思考能力，尤其是更復(fù)雜的自我反思等推理能力很關(guān)鍵的token。

　　比如，However, Recheck, Wait, Aha這樣明顯帶有反思和轉(zhuǎn)折含義的詞匯，這些詞匯對(duì)于引導(dǎo)模型進(jìn)行深入推理和修正思考路徑具有關(guān)鍵作用。但在過(guò)往的方法里可能就被拋棄了。

　　CISPO放棄了直接裁剪 token 的做法，而是保留所有 token 的更新，只裁剪 importance sampling 權(quán)重，從而更好地保留了長(zhǎng)推理鏈條中的關(guān)鍵轉(zhuǎn)折點(diǎn)，提高了學(xué)習(xí)效率與穩(wěn)定性。

　　實(shí)驗(yàn)顯示，CISPO 算法的強(qiáng)化學(xué)習(xí)收斂速度達(dá)到現(xiàn)有主流方法的兩倍以上——“在AIME 的實(shí)驗(yàn)中，我們發(fā)現(xiàn)這比包括字節(jié)近期提出的 DAPO 等強(qiáng)化學(xué)習(xí)算法收斂性能快了一倍，顯著的優(yōu)于 DeepSeek 早期使用的 GRPO”。報(bào)告中提到。

　　MiniMax 用自己的方式越過(guò)大山

　　在這些看起來(lái)很激進(jìn)的創(chuàng)新背后，MiniMax 卻并不是純粹地在做實(shí)驗(yàn)，它這些改進(jìn)充滿了工程落地和實(shí)際提供服務(wù)的考量。這都體現(xiàn)在它的評(píng)測(cè)表現(xiàn)里。

　　MiniMax M1在業(yè)內(nèi)主流的 17 個(gè)評(píng)測(cè)集上具體的結(jié)果如下：

　　在 AIME 2024 數(shù)學(xué)奧賽中，MiniMax-M1-80k 達(dá)到 86.0%的成績(jī)，僅次于 DeepSeek R1-0528（91.4%）；而在真實(shí)代碼修復(fù)的 SWE-bench Verified 測(cè)評(píng)中，成績(jī)達(dá)到 56.0%，與 DeepSeek R1-0528 的 57.6% 非常接近，并明顯領(lǐng)先于其他開源模型。

　　在長(zhǎng)文本理解的 OpenAI-MRCR（128K）評(píng)測(cè)中，M1 達(dá)到 76.1%的高分，甚至超過(guò)了閉源的OpenAI o3 和 Claude 4 Opus，僅次于 Gemini 2.5 Pro。

　　從測(cè)評(píng)表現(xiàn)來(lái)看，它比 DeepSeek R1 等模型更加貼近真實(shí)場(chǎng)景的需求。

　　“與最新的 DeepSeek-R1-0528 模型相比，MiniMax-M1 在數(shù)學(xué)和編碼競(jìng)賽中落后，但在更現(xiàn)實(shí)的工具使用和長(zhǎng)上下文場(chǎng)景中實(shí)現(xiàn)了可比或更優(yōu)的性能。值得注意的是，MiniMax-M1 在代理工具使用基準(zhǔn) TAU-Bench上優(yōu)于 Gemini 2.5 Pro，并在長(zhǎng)上下文理解基準(zhǔn)上超過(guò)了 OpenAI o3 和 Claude 4 Opus。通過(guò)有效的測(cè)試時(shí)間擴(kuò)展，我們認(rèn)為 MiniMax-M1 為下一代語(yǔ)言模型Agent解決現(xiàn)實(shí)世界挑戰(zhàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。”報(bào)告里提到。

　　關(guān)注 AI 落地進(jìn)展的人們會(huì)立即意識(shí)到，這些指標(biāo)明顯指向了 MiniMax M1 背后的真正野心與方向：成為面向真實(shí)世界解決復(fù)雜生產(chǎn)力場(chǎng)景需求最強(qiáng)的模型，進(jìn)而最終打造一個(gè)最強(qiáng)的 AI Agent 系統(tǒng)基座。

　　今天AI agent的爆發(fā)已經(jīng)是實(shí)實(shí)在在正在發(fā)生的事情，這些agent需要更長(zhǎng)的上下文，需要更長(zhǎng)的推理時(shí)間，需要更便宜的價(jià)格。它們需要MiniMax M1這樣的模型。

　　在此前MiniMax-01系列發(fā)布時(shí)，MiniMax官方就曾表示，“我們希望這個(gè)模型能為接下來(lái)的AI Agent爆發(fā)做出貢獻(xiàn)。”

　　而很多時(shí)候關(guān)鍵創(chuàng)新就是這樣接踵而來(lái)的。

　　MiniMax-01作出的生產(chǎn)環(huán)境里最激進(jìn)的一次線性注意力的引入，帶來(lái)了長(zhǎng)文本的能力，在推理模型變成競(jìng)爭(zhēng)重地的今天，給強(qiáng)化學(xué)習(xí)過(guò)程帶來(lái)了新機(jī)會(huì)，從而帶來(lái)了CISPO的出現(xiàn)。最終兩個(gè)技術(shù)創(chuàng)新共同讓MiniMax M1性能提升且成本大降。當(dāng)然，別忘了還有在MiniMax 01時(shí)就提到過(guò)的，它直接自己從零開始開發(fā)的適合線性注意力的CUDA 內(nèi)核，相應(yīng)的各種配套的框架，以及把硬件榨干到極致的軟硬件結(jié)合的技術(shù)。

　　這也是一個(gè)MiniMax十分熟悉的過(guò)程，這個(gè)在ChatGPT出現(xiàn)之前就已經(jīng)投入到大模型技術(shù)研發(fā)里去的公司，習(xí)慣于根據(jù)自己對(duì)技術(shù)演進(jìn)的判斷做重投入、甚至全員撲上去做帶有賭注意味的創(chuàng)新。這自然會(huì)讓它遇到了一系列前所未見的新問(wèn)題。

　　這也體現(xiàn)在此次M1的細(xì)節(jié)里：

　　比如，當(dāng) Lightning Attention 帶來(lái)了更長(zhǎng)的推理空間時(shí)，也首次出現(xiàn)了訓(xùn)練與推理階段的精度不匹配問(wèn)題，倒逼團(tuán)隊(duì)不得不更深入地理解模型內(nèi)部運(yùn)行機(jī)制，在輸出頭部統(tǒng)一了計(jì)算精度；

　　當(dāng)訓(xùn)練過(guò)程中發(fā)現(xiàn)復(fù)雜的提示可能誘導(dǎo)有問(wèn)題的長(zhǎng)且重復(fù)的響應(yīng)、威脅模型穩(wěn)定性時(shí)，MiniMax 果斷決定“先發(fā)制人地終止這些生成循環(huán)，而不是事后懲罰已經(jīng)重復(fù)的文本”；

　　在合成數(shù)據(jù)這一被外界視作關(guān)鍵訓(xùn)練環(huán)節(jié)上，M1 訓(xùn)練的實(shí)際表現(xiàn)卻指向了另一種可能——無(wú)論是在預(yù)訓(xùn)練階段，還是后訓(xùn)練的長(zhǎng)達(dá)80K輸出的模型訓(xùn)練階段，它都主動(dòng)降低甚至完全避免了合成數(shù)據(jù)的使用。這也很可能會(huì)引發(fā)行業(yè)跟進(jìn)的討論。

　　這些觀察與應(yīng)對(duì)，呈現(xiàn)出一種類似 OpenAI、Anthropic 和 DeepSeek 等在做開創(chuàng)性研究時(shí)的味道——這些來(lái)自新訓(xùn)練技巧所帶來(lái)的模型內(nèi)部機(jī)制觀察，非常有趣且重要，因?yàn)樗鼈兺褪侨俚年P(guān)鍵。

　　在模型基本訓(xùn)練技巧日趨透明的今天，最終的競(jìng)爭(zhēng)必然回歸到這些關(guān)鍵細(xì)節(jié)，以及對(duì)模型內(nèi)部運(yùn)轉(zhuǎn)機(jī)制更深刻的理解之上，它們積少成多，最終構(gòu)成模型的護(hù)城河。第一個(gè)直面并解決這些新問(wèn)題的團(tuán)隊(duì)，將對(duì)這些技巧擁有最深刻的理解，而這正是堅(jiān)持自己訓(xùn)練模型的最大意義。

　　沿著 DeepSeek 指引的路，努力復(fù)刻并無(wú)限逼近它的效果，當(dāng)然是一種選擇。在 DeepSeek R1 的巨大沖擊之后，許多仍在進(jìn)行預(yù)訓(xùn)練的公司正選擇這樣的跟隨路徑。

　　但 MiniMax M1 顯然走的是另一條截然不同的道路：它是一個(gè)典型的“只有 MiniMax 能做出”的模型。在預(yù)訓(xùn)練階段堅(jiān)定地走線性注意力架構(gòu)路線，并因?yàn)檫@種大膽的架構(gòu)探索，激發(fā)并驅(qū)動(dòng)了強(qiáng)化學(xué)習(xí)方法的創(chuàng)新，最終實(shí)現(xiàn)了預(yù)訓(xùn)練架構(gòu)和后訓(xùn)練技巧在深度推理能力上的完美匯合與相互成全，彼此推動(dòng)，共同使模型實(shí)現(xiàn)跨越式進(jìn)步。

　　這絕非最容易的路，但如果你相信 AI 是一次前所未有的一生一次的機(jī)會(huì)，那它本就應(yīng)當(dāng)是星辰大海，今天的格局還遠(yuǎn)遠(yuǎn)未定呢。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.