智東西
作者 程茜
編輯 李水青
智東西7月15日消息,近日,“大模型六小虎”之一MiniMax新動向頻發(fā)。
昨日,據(jù)晚點(diǎn)報(bào)道,MiniMax接近完成近3億美元(折合人民幣約21.5億元)的新一輪融資,投后估值超過40億美元(折合人民幣約287億元)。“大模型六小虎”中,智譜、百川智能、月之暗面估值均超200億元,零一萬物、階躍星辰超100億元。
上個月,MiniMax前腳宣布啟動“發(fā)布周”,一口氣發(fā)了推理模型MiniMax-M1、視頻大模型海螺02、通用智能Agent MiniMax Agent、端到端視頻創(chuàng)作Agent海螺視頻Agent、語音設(shè)計(jì)工具;后腳外媒彭博社就爆料,MiniMax正在籌備赴港上市。
MiniMax成立于2021年11月,去年3月獲得6億美元A輪融資,當(dāng)時估值約為25億美元(約合人民幣180億元),該輪融資由阿里巴巴集團(tuán)領(lǐng)投,紅杉中國、高瓴資本參投。此前,騰訊、米哈游等公司也參與了MiniMax的融資。
今日,MiniMax放出了其在7月10日的M1全球技術(shù)閉門會的技術(shù)實(shí)錄,M1團(tuán)隊(duì)與香港科技大學(xué)、滑鐵盧大學(xué)、Anthropic、Hugging Face等技術(shù)人員,圍繞RL(強(qiáng)化學(xué)習(xí))訓(xùn)練、模型架構(gòu)創(chuàng)新、長上下文展開探討,主要干貨信息如下:
1、針對有限上下文長度,RL能賦予模型新能力;
2、RL訓(xùn)練可以讓模型獲得范圍廣闊的知識;
3、只在數(shù)學(xué)和代碼上進(jìn)行RL訓(xùn)練,模型更容易產(chǎn)生幻覺;
4、Latent reasoning(隱性推理)可能是讓模型用圖像進(jìn)行思考的一個方向;
5、Reward Modeling(獎勵建模)、多智能體、AI自動化研究、非token空間推理是RL領(lǐng)域令人興奮的挑戰(zhàn);
6、長上下文在Agent工作流中有巨大潛力;
7、混合架構(gòu)將成為主流;
8、大模型領(lǐng)域,脫離硬件的純粹算法研究正逐漸失去關(guān)注度。
如今大模型領(lǐng)域呈現(xiàn)出激烈的競爭態(tài)勢,DeepSeek等模型引發(fā)行業(yè)震動的同時使得國產(chǎn)大模型格局深度洗牌,大模型六小虎紛紛調(diào)整戰(zhàn)略求生存,在此背景下,MiniMax得到資本青睞,拿下大額融資、被曝沖刺IPO,其對于大模型在長文本處理能力、低成本訓(xùn)練等方面的有哪些創(chuàng)新點(diǎn)?這次技術(shù)閉門會有哪些獨(dú)到見解能為業(yè)界提供參考?我們試圖從其精華整理中找到答案。
一、揭秘M1背后閃電注意力機(jī)制,推理模型自我反思的關(guān)鍵是高效利用計(jì)算資源
今日放出的技術(shù)閉門會實(shí)錄提到,MiniMax研究人員針對MiniMax-M1采用的混合線性注意力以及推理模型是否已經(jīng)具備推理和自我反思能力進(jìn)行了探討。
MiniMax-M1是其發(fā)布周最先更新的模型,作為全球首個開源大規(guī)模混合架構(gòu)的推理模型,參數(shù)規(guī)模達(dá)到4560億,每個token激活459億參數(shù),原生支持100萬上下文輸入以及業(yè)內(nèi)最長的8萬token推理輸出,輸入長度與閉源模型谷歌Gemini 2.5 Pro一致,是DeepSeek-R1的8倍。此外,研究人員訓(xùn)練了兩個版本的MiniMax-M1模型,其思考預(yù)算分別為40K和80K。
MiniMax在標(biāo)準(zhǔn)基準(zhǔn)測試集上的對比顯示,在復(fù)雜的軟件工程、工具使用和長上下文任務(wù)方面,MiniMax-M1優(yōu)于DeepSeek-R1和Qwen3-235B等開源模型。
其博客提到,在M1的整個強(qiáng)化學(xué)習(xí)階段,研究人員使用512塊H800訓(xùn)練了三周,租賃成本為53.74萬美金(折合人民幣約385.9萬元),相比其一開始的成本預(yù)期少了一個數(shù)量級。
M1是基于MiniMax-Text-01模型開發(fā),采用了混合專家(MoE)架構(gòu)和閃電注意力機(jī)制。
M1的閃電注意力機(jī)制可以高效擴(kuò)展測試時計(jì)算。例如,與DeepSeek-R1相比,M1在10萬個token的生成長度下只需消耗25%的FLOP,使得M1適合于需要處理長輸入和廣泛思考的復(fù)雜任務(wù)。
對于混合線性注意力會如何影響使用RL的推理模型的性能,技術(shù)探討會中提到,在訓(xùn)練過程中,當(dāng)其擴(kuò)展到可處理數(shù)萬token上下文長度的模型時,遇到了RL訓(xùn)練停滯不前,獎勵信號在僅幾百步后就不再增長的問題。這與線性注意力架構(gòu)在這種規(guī)模下固有的訓(xùn)練不穩(wěn)定性有關(guān),會導(dǎo)致某些層激活值爆炸等,并使模型在訓(xùn)練和推理時的行為出現(xiàn)嚴(yán)重錯位。
這使得其發(fā)現(xiàn)混合線性注意力的一個根本性權(quán)衡:效率極高,單位token的計(jì)算成本非常低,但通常需要生成更多的 token(即更長的推理路徑)才能達(dá)到與full attention模型相同的性能。其工作證明:通過適當(dāng)規(guī)模的RL以及合適的推理時算力,混合注意力模型能實(shí)現(xiàn)媲美Full Attention(全注意力)架構(gòu)性能。
這對未來架構(gòu)設(shè)計(jì)的一個關(guān)鍵啟示——評估方法的重要性。為了公平地比較混合模型與其他模型,研究人員應(yīng)該基于在給定任務(wù)下、固定總計(jì)算預(yù)算內(nèi)的性能來進(jìn)行評估,而不僅僅是比較固定輸出長度下的效果。
被問及推理模型是否已經(jīng)具備了System 2推理和自我反思能力,研究人員稱,System 2推理和自我反思,可以被理解為從大語言模型基本原理中涌現(xiàn)出的、可被觀測的模式。
首先其核心驅(qū)動力,是有效利用更大的計(jì)算資源來獲得更好性能的能力。高級推理能力,是擴(kuò)展這些資源后的直接結(jié)果,而非其根本原因。本質(zhì)上,為模型提供更多的計(jì)算能力去“思考”,使得這些復(fù)雜的模式得以涌現(xiàn)。
其次,這種高級推理可以被看作是一種自動化的Prompt Engineering。對于數(shù)學(xué)或編程等復(fù)雜任務(wù),模型學(xué)會了生成自己的內(nèi)部思考過程,這實(shí)際上取代了人類提供詳盡、分步式指令的需要。
對于寫作等任務(wù),模型在思考過程中會先對問題進(jìn)行分析,并對寫作步驟進(jìn)行專業(yè)化拆解。它會獨(dú)立地執(zhí)行諸如規(guī)劃和對問題進(jìn)行更深層次分析等操作。這使得模型能夠通過創(chuàng)建詳細(xì)推理路徑來“像專家一樣思考”。
因此System 2推理和自我反思,實(shí)質(zhì)上是如何高效地利用并擴(kuò)展計(jì)算預(yù)算(Computation Budget),同時也是模型自動深化用戶問題的體現(xiàn)。
二、從MiniMax-M1到大模型產(chǎn)業(yè)核心議題:模型架構(gòu)創(chuàng)新、RL訓(xùn)練、長上下文應(yīng)用
從MiniMax-M1出發(fā),MiniMax團(tuán)隊(duì)成員與其他技術(shù)專家還探討了當(dāng)下大模型行業(yè)的其他核心話題,如模型架構(gòu)創(chuàng)新、RL訓(xùn)練、長上下文應(yīng)用等領(lǐng)域探討了當(dāng)前的前沿話題,有以下8大核心要點(diǎn):
1、RL訓(xùn)練可增強(qiáng)有限上下文長度模型能力
首先需要定義模型的基礎(chǔ)能力:對于給定上下文長度的模型,在一組特定問題上無限次嘗試下的通過率(pass@k, k→∞)是多少,如果通過率為1,就表示這個模型能解決這類問題,通過率為0,則表示模型解決不了。
如果模型的生成長度,即模型思考過程的長度無限,RL無法賦予模型新能力,所有能用自然語言表述的問題,理論上模型都可以通過有限次的采樣嘗試來解決。
如果針對有限上下文長度,RL能賦予模型新能力。因?yàn)镽L所做的是改變模型輸出的分布,預(yù)訓(xùn)練后,模型可能需要至少10W tokens才能解決某個問題,但經(jīng)過RL微調(diào)后,它可能只需要10K tokens。如果模型有限上下文長度是50K tokens,那么RL的確賦予了模型新能力。
在有限上下文長度下, pass@k是一個好的衡量指標(biāo)。K的取值很重要,這取決于如何定義模型能力,如果定義是“模型至少有一次能解決這個問題”,那么應(yīng)該用盡可能大的k來衡量pass@k;但如果定義是“模型能否在4次嘗試內(nèi)解決問題”,那應(yīng)該去衡量pass@4。
目前Reward(獎勵)是RL scaling的核心瓶頸,特別是如何為那些不基于結(jié)果的獎勵(Non-outcome-based Reward)進(jìn)行建模,比如,人類可以從別人寫的一段文字或反饋中獲得正面或負(fù)面的感受,但目前并沒有很好的方法來對這種主觀感受進(jìn)行建模。
2、預(yù)訓(xùn)練的價(jià)值在于更多樣化的數(shù)據(jù)分布
原則上可以,只要有足夠的信息源就可以用RL來替代任何過程。某種意義上,預(yù)訓(xùn)練只是RL的一種特例,任何監(jiān)督學(xué)習(xí)都可以被看作是一種特殊的強(qiáng)化學(xué)習(xí)。現(xiàn)階段,RL訓(xùn)練階段的數(shù)據(jù)分布,要比預(yù)訓(xùn)練數(shù)據(jù)的分布狹窄得多,這正是目前進(jìn)行預(yù)訓(xùn)練能帶來的最大收益——它讓模型獲得了范圍遠(yuǎn)為廣闊的知識。
但在當(dāng)前階段,預(yù)訓(xùn)練的價(jià)值在于可以在預(yù)訓(xùn)練階段接觸到更多樣化的數(shù)據(jù)分布。目前RL研究的核心挑戰(zhàn)之一是如何拓展至Reward清晰的環(huán)境之外。獎勵建模(Reward Modeling)可能是一種解決方案,但更為通用的獎勵信號依然是行業(yè)在探索的方向。
3、只在數(shù)學(xué)和代碼上做RL訓(xùn)練更易產(chǎn)生幻覺
關(guān)于通用推理,至少在今年二月左右,大多數(shù)RL數(shù)據(jù)都來自于數(shù)學(xué)或編程領(lǐng)域。事實(shí)上,只在數(shù)學(xué)和代碼上進(jìn)行RL訓(xùn)練,模型更容易產(chǎn)生幻覺。SimpleQA等事實(shí)性基準(zhǔn)、MMLU等多學(xué)科問答基準(zhǔn)上模型的性能都會顯著下降。
因此研究人員做通用推理數(shù)據(jù)集的動機(jī)之一,就是創(chuàng)建更多樣化的RL訓(xùn)練數(shù)據(jù)。WebInstruct-verified數(shù)據(jù)集旨在為所有領(lǐng)域構(gòu)建更大規(guī)模的RL訓(xùn)練數(shù)據(jù),以便模型能夠在不同領(lǐng)域取得進(jìn)步,而不僅是數(shù)學(xué)和編程。
現(xiàn)在MiniMax嘗試進(jìn)一步擴(kuò)大這個規(guī)模,之前,通過在預(yù)訓(xùn)練數(shù)據(jù)集中搜索可用的RL數(shù)據(jù)來擴(kuò)大規(guī)模,其已經(jīng)將其擴(kuò)展到50萬量級,現(xiàn)在正嘗試通過檢索更大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集,從中獲取越來越多樣的RL數(shù)據(jù),并采用在Mid-training(中期訓(xùn)練)進(jìn)行RL的范式,而不僅僅是作為后訓(xùn)練。
4、隱性推理是讓模型用圖像思考的可能方向
目前很多視覺推理范式,核心大都集中在文本形式的思維鏈上,視覺部分固化為一個ViT(Vision Transformer)編碼器,無法讓模型在編碼圖像上花費(fèi)更多計(jì)算資源。像視覺語言模型Pixel Reasoner或其他研究,正試圖幫模型重新審視圖像的特定區(qū)域,并對其進(jìn)行重新編碼,從而在關(guān)鍵區(qū)域上投入更多算力。
但這并不是從底層提升模型能力的方法,現(xiàn)階段更像是權(quán)宜之計(jì)。因?yàn)楝F(xiàn)有的視覺編碼器太弱,無法很好處理高分辨率圖像,所以才嘗試用其他操作操縱圖像表示,然后從輸入中重新調(diào)用并在此基礎(chǔ)上進(jìn)行推理。現(xiàn)階段,重新調(diào)用幀或高亮顯示等工具,實(shí)際上都只是在增強(qiáng)感知能力。
其他更復(fù)雜的圖像生成技術(shù)等工具,能從根本上改變圖像,其已經(jīng)超越了單純增強(qiáng)感知的范疇,比如在幾何問題中畫輔助線。這種方法如果奏效,未來或成為“用圖像思考”的更強(qiáng)大版本。
但仍需解決其根本的瓶頸問題:如何更好地編碼視覺像素,以及如何以更好的方式在抽象潛在空間(Latent Space)中進(jìn)行視覺推理。
Latent Reasoning(隱性推理)可能是一個方向。機(jī)器人或具身智能領(lǐng)域的視覺推理需要在空間中思考,在這些涉及空間感的場景下,很多推理過程是隱式的,無法被清晰地表述或言語化。
5、多智能體、AI自動化研究是RL領(lǐng)域挑戰(zhàn)
RL面臨挑戰(zhàn)之一是Reward Modeling,特別是如何超越那些結(jié)果容易被評估的環(huán)境;另一個可能很重要的領(lǐng)域是多智能體,多智能體目前更多受限于基礎(chǔ)設(shè)施,而非理論研究;另一個領(lǐng)域是AI自動化研究——讓模型自己訓(xùn)練自己,這與AGI的定義相關(guān),即當(dāng)模型可以在沒有人類干預(yù)的情況下,自我訓(xùn)練并自我提升;非token空間的推理也存在機(jī)會。
6、長上下文是Agent的破局點(diǎn)
長上下文在Agent工作流中有巨大潛力,Agent完成某個任務(wù)時,能將整個代碼庫、API參考文檔、歷史交互數(shù)據(jù)等等,全部一次性喂給它。這種任務(wù)不能分幾次調(diào)用來處理,因?yàn)?strong>智能體完成任務(wù)時掌握的關(guān)于這個項(xiàng)目的信息越多,產(chǎn)出的質(zhì)量就越高。
研究人員有望從目前在大多數(shù)情況下,只能處理相當(dāng)孤立任務(wù)的智能體,發(fā)展到那些能夠管理復(fù)雜項(xiàng)目、同時保持完整上下文感知的智能體。
M1超長上下文模型的真正價(jià)值在于解鎖了全新的企業(yè)級應(yīng)用場景。例如,法律行業(yè)客戶需要把文件一塊一塊地喂給大語言模型,并用一些竅門來優(yōu)化檢索和上下文管理。這樣問題在于,可能錯過埋藏在某個隨機(jī)法律文件某一頁中的關(guān)鍵細(xì)節(jié)。1M token的上下文窗口就可以一次性處理整個案件歷史、所有相關(guān)判例以及所有其他信息源。
7、混合架構(gòu)將成為主流
對比純線性注意力和Full Attention,混合注意力機(jī)制(Hybrid Attention)是最有前景的方案。純線性注意力機(jī)制有很多根本性局限,因?yàn)樗臓顟B(tài)大小是固定的,因此,在處理長序列建模問題時表現(xiàn)不佳。
Full Attention雖然提供了靈活性,但其代價(jià)也顯而易見:KV緩存大小會隨著序列長度線性增長,并且訓(xùn)練復(fù)雜度也是平方級的。當(dāng)序列不斷變長時,高昂的推理和訓(xùn)練復(fù)雜度就會成為瓶頸。
混合架構(gòu)將會成為模型設(shè)計(jì)的主流,因?yàn)殡S著對大規(guī)模部署和低延遲需求的增長,人們會越來越關(guān)心推理效率和模型的推理能力。未來如何進(jìn)一步拓展混合注意力架構(gòu)的空間,研究人員可能需要探索不是簡單地用固定的比例來交錯堆疊Softmax注意力和線性注意力層,或許需要更多樣的混合架構(gòu)形式。
在大模型領(lǐng)域,脫離硬件的純粹算法研究正逐漸失去關(guān)注度。如果一項(xiàng)技術(shù)無法規(guī)模化,或者不能被高效地部署,那它就很難獲得關(guān)注、形成勢能。一個算法不僅要在理論上站得住腳,還必須在硬件上——尤其是在GPU或TPU這類加速器上高效運(yùn)行。如今的算法研究者們還應(yīng)該掌握一些底層的GPU編程工具,這才是當(dāng)今在大模型領(lǐng)域做算法研究的正確方向。
混合架構(gòu)目前的瓶頸在于基礎(chǔ)設(shè)施。混合模型的有效性在去年就已經(jīng)得到了很好的驗(yàn)證,但沒有公司投入更多資金進(jìn)行大規(guī)模驗(yàn)證。
8、混合架構(gòu)推理速度對現(xiàn)實(shí)應(yīng)用至關(guān)重要
在推理層面,隨著混合注意力架構(gòu)越來越流行,為了在SGLang或其他推理引擎中充分利用緩存感知和緩存復(fù)用等特性,研究人員需要為普通架構(gòu)和混合架構(gòu)設(shè)計(jì)統(tǒng)一的抽象層,這樣才能簡單地將所有優(yōu)化應(yīng)用到混合模型上。
此外當(dāng)前MiniMax模型7+1層交錯的架構(gòu)可能會帶來一些工程挑戰(zhàn),特別是在用計(jì)算圖優(yōu)化(Graph Optimization)進(jìn)行部署時,因?yàn)椴煌瑢拥挠?jì)算和內(nèi)存訪問模式是不同的,這會導(dǎo)致GPU利用率不平衡。可能需要用一些技術(shù)來解決它,比如批處理重疊(Batch Overlapping)或者更先進(jìn)的Pipeline策略。
從支持混合架構(gòu)的技術(shù)層面來說,首先需要一個混合分配器(Hybrid Allocator),有助于管理混合架構(gòu)的KV緩存。這些狀態(tài)的生命周期與全注意力層的KV緩存并不同步,所以需要設(shè)計(jì)如何讓它與現(xiàn)有的緩存機(jī)制、預(yù)填充、解碼等環(huán)節(jié)協(xié)同工作。
其次,批處理重疊(Batch Overlapping)會很有幫助。采用了混合架構(gòu)后,如果能將兩個微批次(Micro-batches)重疊起來處理,只要比例計(jì)算得當(dāng),理論上任意時刻都會有一個微批次在執(zhí)行計(jì)算密集型的Full Attention 操作,從而最大化GPU利用率。
從生產(chǎn)部署的角度來看,混合架構(gòu)的推理速度對現(xiàn)實(shí)應(yīng)用至關(guān)重要。例如,有一個客戶,需要并發(fā)處理多個幾十萬token的請求。但對于使用二次方復(fù)雜度注意力的傳統(tǒng)模型,在這種輸入大小和并發(fā)量下,生成速度都會變得極慢。
結(jié)語:“大模型六小虎”發(fā)力
作為MiniMax推出的首個推理模型,MiniMax-M1是其在模型架構(gòu)、算法創(chuàng)新上的最新探索。未來大語言模型在測試或推理階段,往往需要動態(tài)增加計(jì)算資源或計(jì)算步驟來提升模型性能,尤其在Agent發(fā)展加速的當(dāng)下,模型需要進(jìn)行數(shù)十到數(shù)百輪的推理,同時集成來自不同來源的長上下文信息,才能執(zhí)行任務(wù)。MiniMax在M1上的技術(shù)探索,對于推理模型能力、長上下文處理能力的突破或許均有可復(fù)用性。
與此同時,“大模型六小虎”之一的月之暗面也放出了其最新一代MoE架構(gòu)基礎(chǔ)模型Kimi K2,總參數(shù)量達(dá)到1萬億(1T),在預(yù)訓(xùn)練階段使用了“MuonClip”優(yōu)化器實(shí)現(xiàn)萬億參數(shù)模型的訓(xùn)練優(yōu)化。
可以看出,被DeepSeek沖擊的“大模型六小虎”現(xiàn)在正在卯足勁頭,競相通過技術(shù)創(chuàng)新開發(fā)更實(shí)用、更低成本的模型。
來源:晚點(diǎn)、MiniMax
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.