作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com
要不要完全跟隨 DeepSeek?
這是每個(gè)仍想自己追逐基礎(chǔ)模型圣杯的公司,在過(guò)去半年里一直面對(duì)的靈魂拷問(wèn)。
而 MiniMax 的答案很清楚,它要走自己的路。
6月17日,MiniMax 發(fā)布了新模型MiniMax M1。這是一個(gè)繼續(xù)激進(jìn)地使用線性注意力 Lightning Attention機(jī)制的模型,同時(shí)它還巧妙地找到一種方式,將這種激進(jìn)的預(yù)訓(xùn)練機(jī)制帶來(lái)的長(zhǎng)文本能力用到后訓(xùn)練階段,提出一種全新的強(qiáng)化學(xué)習(xí)技巧,從而大幅提高了模型的推理能力。
按照MiniMax的形容,這是“世界上第一個(gè)開源的大規(guī)模混合架構(gòu)的推理模型”。這些技術(shù)創(chuàng)新讓它有業(yè)內(nèi)最高的性價(jià)比——
整個(gè)強(qiáng)化學(xué)習(xí)階段只用到512張H800 GPU,只需三周的時(shí)間訓(xùn)練完成,也就是租賃成本只有53.47萬(wàn)美金。
顯然,MiniMax M1 讓 MiniMax 迎來(lái)了一個(gè)類似 DeepSeek R1 的關(guān)鍵時(shí)刻。
1
基座模型里久違的新鮮感
MiniMax M1 是近期各種模型中,徹底開源且公開了自己最多新方法的一個(gè),無(wú)需先去討論它的評(píng)測(cè)成績(jī),僅從這些技術(shù)創(chuàng)新上就足夠吸引人。
這是模型層面久違了的新鮮感。
與此前發(fā)布的 MiniMax-01 系列相同,它繼續(xù)使用線性注意力Lightning Attention與傳統(tǒng) softmax attention注意力相結(jié)合的混合結(jié)構(gòu)。配比依然是7:1,每7個(gè) Lightning Attention 模塊插入1個(gè)傳統(tǒng) Transformer 模塊。
如我們?cè)趫?bào)道MiniMax-01系列時(shí)所介紹,傳統(tǒng)Transformer使用的Softmax注意力,需要為此構(gòu)建一個(gè)N×N 的全連接矩陣,對(duì)于超長(zhǎng)序列,這個(gè)矩陣會(huì)非常龐大。而 Lightning Attention 這樣的線性注意力機(jī)制則是進(jìn)行“分塊計(jì)算”(tiling),先計(jì)算塊內(nèi)部的詞之間的關(guān)系,然后再傳遞塊與塊之間的信息,最終可以捕捉到全局語(yǔ)義關(guān)系。
一個(gè)便于理解的類比是,如果把完全基于Softmax的傳統(tǒng)架構(gòu)看作看書時(shí)候每個(gè)字都看,那么混合架構(gòu)類似是挑重點(diǎn)看,然后偶爾看一下目錄對(duì)照一下整體。效率高了很多。它會(huì)大大減少計(jì)算和內(nèi)存需求,從傳統(tǒng) Softmax 注意力的平方復(fù)雜度降低為線性。
根據(jù)M1 的技術(shù)報(bào)告,“它有一個(gè)顯著的優(yōu)勢(shì)是支持目前業(yè)內(nèi)最高的100萬(wàn)上下文的輸入,跟閉源模型里面的 Google Gemini 2.5 Pro 一樣,是 DeepSeek R1 的 8 倍,以及業(yè)內(nèi)最長(zhǎng)的8萬(wàn)Token的推理輸出。”
8倍,夸張的提升。DeepSeek R1 目前的輸入長(zhǎng)度是128K ,輸出為64K 。
在混合架構(gòu)上,M1在01基礎(chǔ)上用更大的7.5T token的數(shù)據(jù)集做了進(jìn)一步訓(xùn)練,而對(duì)于M1來(lái)說(shuō),更重要的是這種混合架構(gòu)基礎(chǔ)天然適合用來(lái)訓(xùn)練一個(gè)推理模型。
“這種混合架構(gòu)設(shè)計(jì)在理論上能有效地將推理長(zhǎng)度擴(kuò)展到數(shù)十萬(wàn)個(gè)標(biāo)記。”技術(shù)報(bào)告稱。而且是以一種更加高效的方式實(shí)現(xiàn)——與DeepSeek R1 相比,M1在64k token 長(zhǎng)度的FLOP不到50%,100K token 長(zhǎng)度更是只有25%。FLOP即每秒浮點(diǎn)運(yùn)算次數(shù),用來(lái)體現(xiàn)算力。
但要實(shí)現(xiàn)這一效果,不是僅僅使用了混合框架就可以做到的。反而,這種新框架在理論上有優(yōu)越性,但還沒有人在大規(guī)模生產(chǎn)環(huán)境里真正實(shí)現(xiàn)過(guò)。這意味著在后訓(xùn)練階段,也需要有匹配這種新架構(gòu)的創(chuàng)新。
MiniMax 在M1 的訓(xùn)練中,創(chuàng)新了一種名為 CISPO(Clipped IS-weight Policy Optimization)的全新強(qiáng)化學(xué)習(xí)方法:
過(guò)往為了訓(xùn)練的穩(wěn)定性,以及由于模型上下文長(zhǎng)度能力的限制,在強(qiáng)化學(xué)習(xí)過(guò)程里會(huì)采取裁剪token的做法,把那些看起來(lái)不那么重要的token給裁剪掉。
但這導(dǎo)致了一些雖然看起來(lái)不重要——往往是因?yàn)槌霈F(xiàn)頻率低,但其實(shí)對(duì)于思考能力,尤其是更復(fù)雜的自我反思等推理能力很關(guān)鍵的token。
比如,However, Recheck, Wait, Aha這樣明顯帶有反思和轉(zhuǎn)折含義的詞匯,這些詞匯對(duì)于引導(dǎo)模型進(jìn)行深入推理和修正思考路徑具有關(guān)鍵作用。但在過(guò)往的方法里可能就被拋棄了。
CISPO放棄了直接裁剪 token 的做法,而是保留所有 token 的更新,只裁剪 importance sampling 權(quán)重,從而更好地保留了長(zhǎng)推理鏈條中的關(guān)鍵轉(zhuǎn)折點(diǎn),提高了學(xué)習(xí)效率與穩(wěn)定性。
實(shí)驗(yàn)顯示,CISPO 算法的強(qiáng)化學(xué)習(xí)收斂速度達(dá)到現(xiàn)有主流方法的兩倍以上——“在AIME 的實(shí)驗(yàn)中,我們發(fā)現(xiàn)這比包括字節(jié)近期提出的 DAPO 等強(qiáng)化學(xué)習(xí)算法收斂性能快了一倍,顯著的優(yōu)于 DeepSeek 早期使用的 GRPO”。報(bào)告中提到。
1
MiniMax 用自己的方式越過(guò)大山
在這些看起來(lái)很激進(jìn)的創(chuàng)新背后,MiniMax 卻并不是純粹地在做實(shí)驗(yàn),它這些改進(jìn)充滿了工程落地和實(shí)際提供服務(wù)的考量。這都體現(xiàn)在它的評(píng)測(cè)表現(xiàn)里。
MiniMax M1在業(yè)內(nèi)主流的 17 個(gè)評(píng)測(cè)集上具體的結(jié)果如下:
在 AIME 2024 數(shù)學(xué)奧賽中,MiniMax-M1-80k 達(dá)到 86.0%的成績(jī),僅次于 DeepSeek R1-0528(91.4%);而在真實(shí)代碼修復(fù)的 SWE-bench Verified 測(cè)評(píng)中,成績(jī)達(dá)到 56.0%,與 DeepSeek R1-0528 的 57.6% 非常接近,并明顯領(lǐng)先于其他開源模型。
在長(zhǎng)文本理解的 OpenAI-MRCR(128K)評(píng)測(cè)中,M1 達(dá)到 76.1%的高分,甚至超過(guò)了閉源的OpenAI o3 和 Claude 4 Opus,僅次于 Gemini 2.5 Pro。
從測(cè)評(píng)表現(xiàn)來(lái)看,它比 DeepSeek R1 等模型更加貼近真實(shí)場(chǎng)景的需求。
“與最新的 DeepSeek-R1-0528 模型相比,MiniMax-M1 在數(shù)學(xué)和編碼競(jìng)賽中落后,但在更現(xiàn)實(shí)的工具使用和長(zhǎng)上下文場(chǎng)景中實(shí)現(xiàn)了可比或更優(yōu)的性能。值得注意的是,MiniMax-M1 在代理工具使用基準(zhǔn) TAU-Bench上優(yōu)于 Gemini 2.5 Pro,并在長(zhǎng)上下文理解基準(zhǔn)上超過(guò)了 OpenAI o3 和 Claude 4 Opus。通過(guò)有效的測(cè)試時(shí)間擴(kuò)展,我們認(rèn)為 MiniMax-M1 為下一代語(yǔ)言模型Agent解決現(xiàn)實(shí)世界挑戰(zhàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。”報(bào)告里提到。
關(guān)注 AI 落地進(jìn)展的人們會(huì)立即意識(shí)到,這些指標(biāo)明顯指向了 MiniMax M1 背后的真正野心與方向:成為面向真實(shí)世界解決復(fù)雜生產(chǎn)力場(chǎng)景需求最強(qiáng)的模型,進(jìn)而最終打造一個(gè)最強(qiáng)的 AI Agent 系統(tǒng)基座。
今天AI agent的爆發(fā)已經(jīng)是實(shí)實(shí)在在正在發(fā)生的事情,這些agent需要更長(zhǎng)的上下文,需要更長(zhǎng)的推理時(shí)間,需要更便宜的價(jià)格。它們需要MiniMax M1這樣的模型。
在此前MiniMax-01系列發(fā)布時(shí),MiniMax官方就曾表示,“我們希望這個(gè)模型能為接下來(lái)的AI Agent爆發(fā)做出貢獻(xiàn)。”
而很多時(shí)候關(guān)鍵創(chuàng)新就是這樣接踵而來(lái)的。
MiniMax-01作出的生產(chǎn)環(huán)境里最激進(jìn)的一次線性注意力的引入,帶來(lái)了長(zhǎng)文本的能力,在推理模型變成競(jìng)爭(zhēng)重地的今天,給強(qiáng)化學(xué)習(xí)過(guò)程帶來(lái)了新機(jī)會(huì),從而帶來(lái)了CISPO的出現(xiàn)。最終兩個(gè)技術(shù)創(chuàng)新共同讓MiniMax M1性能提升且成本大降。當(dāng)然,別忘了還有在MiniMax 01時(shí)就提到過(guò)的,它直接自己從零開始開發(fā)的適合線性注意力的CUDA 內(nèi)核,相應(yīng)的各種配套的框架,以及把硬件榨干到極致的軟硬件結(jié)合的技術(shù)。
這也是一個(gè)MiniMax十分熟悉的過(guò)程,這個(gè)在ChatGPT出現(xiàn)之前就已經(jīng)投入到大模型技術(shù)研發(fā)里去的公司,習(xí)慣于根據(jù)自己對(duì)技術(shù)演進(jìn)的判斷做重投入、甚至全員撲上去做帶有賭注意味的創(chuàng)新。這自然會(huì)讓它遇到了一系列前所未見的新問(wèn)題。
這也體現(xiàn)在此次M1的細(xì)節(jié)里:
比如,當(dāng) Lightning Attention 帶來(lái)了更長(zhǎng)的推理空間時(shí),也首次出現(xiàn)了訓(xùn)練與推理階段的精度不匹配問(wèn)題,倒逼團(tuán)隊(duì)不得不更深入地理解模型內(nèi)部運(yùn)行機(jī)制,在輸出頭部統(tǒng)一了計(jì)算精度;
當(dāng)訓(xùn)練過(guò)程中發(fā)現(xiàn)復(fù)雜的提示可能誘導(dǎo)有問(wèn)題的長(zhǎng)且重復(fù)的響應(yīng)、威脅模型穩(wěn)定性時(shí),MiniMax 果斷決定“先發(fā)制人地終止這些生成循環(huán),而不是事后懲罰已經(jīng)重復(fù)的文本”;
在合成數(shù)據(jù)這一被外界視作關(guān)鍵訓(xùn)練環(huán)節(jié)上,M1 訓(xùn)練的實(shí)際表現(xiàn)卻指向了另一種可能——無(wú)論是在預(yù)訓(xùn)練階段,還是后訓(xùn)練的長(zhǎng)達(dá)80K輸出的模型訓(xùn)練階段,它都主動(dòng)降低甚至完全避免了合成數(shù)據(jù)的使用。這也很可能會(huì)引發(fā)行業(yè)跟進(jìn)的討論。
這些觀察與應(yīng)對(duì),呈現(xiàn)出一種類似 OpenAI、Anthropic 和 DeepSeek 等在做開創(chuàng)性研究時(shí)的味道——這些來(lái)自新訓(xùn)練技巧所帶來(lái)的模型內(nèi)部機(jī)制觀察,非常有趣且重要,因?yàn)樗鼈兺褪侨俚年P(guān)鍵。
在模型基本訓(xùn)練技巧日趨透明的今天,最終的競(jìng)爭(zhēng)必然回歸到這些關(guān)鍵細(xì)節(jié),以及對(duì)模型內(nèi)部運(yùn)轉(zhuǎn)機(jī)制更深刻的理解之上,它們積少成多,最終構(gòu)成模型的護(hù)城河。第一個(gè)直面并解決這些新問(wèn)題的團(tuán)隊(duì),將對(duì)這些技巧擁有最深刻的理解,而這正是堅(jiān)持自己訓(xùn)練模型的最大意義。
沿著 DeepSeek 指引的路,努力復(fù)刻并無(wú)限逼近它的效果,當(dāng)然是一種選擇。在 DeepSeek R1 的巨大沖擊之后,許多仍在進(jìn)行預(yù)訓(xùn)練的公司正選擇這樣的跟隨路徑。
但 MiniMax M1 顯然走的是另一條截然不同的道路:它是一個(gè)典型的“只有 MiniMax 能做出”的模型。在預(yù)訓(xùn)練階段堅(jiān)定地走線性注意力架構(gòu)路線,并因?yàn)檫@種大膽的架構(gòu)探索,激發(fā)并驅(qū)動(dòng)了強(qiáng)化學(xué)習(xí)方法的創(chuàng)新,最終實(shí)現(xiàn)了預(yù)訓(xùn)練架構(gòu)和后訓(xùn)練技巧在深度推理能力上的完美匯合與相互成全,彼此推動(dòng),共同使模型實(shí)現(xiàn)跨越式進(jìn)步。
這絕非最容易的路,但如果你相信 AI 是一次前所未有的一生一次的機(jī)會(huì),那它本就應(yīng)當(dāng)是星辰大海,今天的格局還遠(yuǎn)遠(yuǎn)未定呢。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.