當(dāng)市場相信中國大模型“六小虎”的敘事已經(jīng)瓦解,追逐AGI的重任交給DeepSeek之后,MiniMax似乎正在以類似DeepSeek的方式,證明中國不止一家DeepSeek。
“六小虎”已經(jīng)分化,從當(dāng)初在中國復(fù)制OpenAI,到有的只做應(yīng)用了,有的還在走模型應(yīng)用一體化,并且證明可以躋身國內(nèi)的前沿模型了。
昨日,MiniMax開源了長上下文推理大模型MiniMax-M1,今日,又發(fā)布了視頻生成模型Hailuo02(海螺02)。雖然稍微遲了點(diǎn),但是,前者已經(jīng)整體追平了R1-0528,后者一出場就拿下了圖生視頻排行榜的第二名,超越了谷歌的Veo3,僅次于字節(jié)跳動(dòng)的Seedance 1.0。
Prompt:慢慢推進(jìn)到蠟燭的特寫鏡頭,然后蠟燭被吹滅。
就像年初DeepSeek那樣,MiniMax還預(yù)告了自己的“上新”活動(dòng),將會(huì)持續(xù)整整一周。比性能重要的,是它如何實(shí)現(xiàn)這一性能。這兩天,MiniMax介紹的最多的,就是自己還在創(chuàng)新。
M1引入了閃電注意力機(jī)制(Lightning Attention),以更低的算力消耗,帶來了更長的推理空間,突破了transformer及其注意力機(jī)制越來越吃算力的束縛。它還引入了CISPO算法(直譯為剪裁重要性采樣權(quán)重策略優(yōu)化),進(jìn)一步優(yōu)化強(qiáng)化學(xué)習(xí)階段,效率優(yōu)于DeepSeek早期使用的GRPO與近期字節(jié)跳動(dòng)使用的DAPO。以往傳統(tǒng)的剪裁算法,傾向于直接砍掉不常見的token,因?yàn)樗锌赡懿淮笾匾@也意味著可能失去讓AI變得更聰明的機(jī)會(huì)。艾倫研究所Nathan Lambert認(rèn)為這是MiniMax的創(chuàng)新。
最終,M1的成本下降、性能提升。作為MOE架構(gòu)的推理模型,它的總參數(shù)規(guī)模4560億,激活參數(shù)規(guī)模459億;在512個(gè)H800 GPU上訓(xùn)練了3周,成本略高于50萬美元。它支持100 萬tokens 輸入,全球最長,與Gemini-2.5-Pro齊平,是DeepSeek-R1的八倍;8萬tokens 輸出,僅次于o3,在軟件工程、智能體工具使用以及長上下文理解等任務(wù)中的表現(xiàn),超越了其他前沿開源權(quán)重模型。不過,在數(shù)學(xué)和編碼競賽中,仍然沒能贏過最新的R1-0528。測評(píng)研究機(jī)構(gòu)Artificial Analysis綜合評(píng)估,它是僅次于剛發(fā)布的R1-0528的第二強(qiáng)大的開源推理模型。
MiniMax有如此取舍的現(xiàn)實(shí)考量。年初,該公司創(chuàng)始人閆俊杰稱,更好的模型可以導(dǎo)向更好的應(yīng)用,但更好的應(yīng)用和更多用戶并不會(huì)導(dǎo)向更好的模型。智能體正在爆發(fā),長上下文理解正是智能體關(guān)鍵技術(shù)之一。
在技術(shù)報(bào)告中,M1的定位是為“下一代的大模型與智能體解決現(xiàn)實(shí)世界的挑戰(zhàn)奠定堅(jiān)實(shí)的基礎(chǔ)”。
五連發(fā)的第二日,MiniMax發(fā)布視頻生成模型Hailuo02,引入了更高效的NCR架構(gòu)(直譯為噪聲感知計(jì)算重分配),讓模型訓(xùn)練和推理效率大大提升。在成本基本不變的情況下,Hailuo02的參數(shù)規(guī)模與訓(xùn)練數(shù)據(jù)分別較上一代模型提升了2倍與3倍。現(xiàn)在,同樣的投入,它生成的1080p視頻的長度將是谷歌Veo3的8倍,是OpenAI的16倍。
就在本周,同為“六小虎”的月之暗面,發(fā)布了編程大模型Kimi-Dev-72B,并向社區(qū)開源了其模型權(quán)重與源代碼。月之暗面自稱它在SWE-bench Verified測試中,以更小的參數(shù)規(guī)模,取得了比R1-0528更好的表現(xiàn)。盡管開源社區(qū)實(shí)測,它在Agentless(相對(duì)結(jié)構(gòu)化工作流)的環(huán)境中表現(xiàn)確實(shí)出色,但在OpenHands(開放式探索任務(wù)評(píng)估框架)環(huán)境下的能力較弱。
MiniMax與月之暗面已經(jīng)不止第一次“撞車”。今年年初,在DeepSeek發(fā)布R1前后,MiniMax開源了MiniMax-01,性能追平GPT-4o;月之暗面發(fā)布了K1.5并公開技術(shù)報(bào)告,表現(xiàn)不輸滿血版o1。
在今年之前,這兩家AI原生的初創(chuàng)企業(yè),更以自己的面向消費(fèi)者市場的產(chǎn)品聞名。MiniMax的是星野(Talkie),月之暗面的是Kimi。現(xiàn)在,它們卻紛紛對(duì)外傳遞出,自己還在努力探索AGI的形象。而當(dāng)初一入場就迅速開源旗下大模型的百川智能與零一萬物,卻已然告別對(duì)AGI的追逐,轉(zhuǎn)向了應(yīng)用場景。
“六小虎”已經(jīng)不再集體信仰AGI。最初,在ChatGPT問世后,中國坐不住了,百川智能、階躍星辰、零一萬物和月之暗面在2023年組團(tuán)成立,智譜和MiniMax更早成立。這讓“六小虎”的形象與OpenAI和AGI深深綁定在一起,也區(qū)別于上一代的“四小龍”——它們是商湯、曠視、云從、依圖。
但“六小虎”的命運(yùn)走向,早就已經(jīng)埋下伏筆。雖然OpenAI驗(yàn)證了Transformer可行,只要快速跟上去,中國肯定也能做出自己的GPT-4。但是,缺錢、缺卡,其實(shí)也缺高質(zhì)量的數(shù)據(jù),如果只是簡單跟隨,這條路很快就走到了死胡同。在美國,GPT-5陷入難產(chǎn),在中國,百模大戰(zhàn)結(jié)束。
于是,“六小虎”的分化開始了兩位互聯(lián)網(wǎng)出身的搜索老兵,最先從AGI離場。百川智能剛成立的時(shí)候,旨在打造中國版的OpenAI基礎(chǔ)大模型及顛覆性上層應(yīng)用,但在去年就轉(zhuǎn)向了垂直模型。今年連應(yīng)用場景也收縮了,創(chuàng)始人王小川在兩周年全員信中“減少多余動(dòng)作,專注醫(yī)學(xué)方向”。零一萬物剛成立的時(shí)候,旨在打造AI2.0全新平臺(tái),加速AGI到來,但也是在去年放棄了原定的萬億參數(shù)模型訓(xùn)練計(jì)劃。今年初,創(chuàng)始人李開復(fù)表示“零一萬物全面轉(zhuǎn)向小而美”。
百川智能與零一萬物的選擇并不令人意外。在美國,除了OpenAI與Anthropic一邊頻繁落子應(yīng)用產(chǎn)品,一邊繼續(xù)競逐AGI,其他初創(chuàng)企業(yè)早已轉(zhuǎn)向應(yīng)用,或者選擇被巨頭并購;也許,除了從OpenAI出走的幾員舊將以外,美國其他初創(chuàng)企業(yè)也經(jīng)不起AGI這么燒錢。為了后來居上,xAI一個(gè)月要燒掉10億美元,馬斯克目前在到處融錢。
但初創(chuàng)企業(yè)從模型轉(zhuǎn)向應(yīng)用,往往也是九死一生。上一代的“四小龍”紛紛流血上市,它們的技術(shù)最終被證明并非不可逾越的門檻,有實(shí)際市場需求與現(xiàn)實(shí)世界數(shù)據(jù)的垂直行業(yè)巨頭往往能做的更好。大模型正在商品化,開源模型也正在追
平前沿閉源模型,巨頭可以單干,更小的市場意味著臟活苦活,它們能擺脫“四小龍”的覆轍嗎?而且,沒有了自己的底層模型,就意味著將命運(yùn)交給了他人,Windsurf遭遇Anthropic斷供的風(fēng)險(xiǎn)會(huì)發(fā)生在它們身上嗎?
剩下的四家都選擇了繼續(xù)堅(jiān)持,至少表態(tài)將繼續(xù)堅(jiān)持。除了前述MiniMax與月之暗面,階躍星辰開源了一波Step系列多模態(tài)模型,并開始在終端智能尋找機(jī)遇。該公司創(chuàng)始人姜大昕稱,在基座模型上面繼續(xù)投入以追求智能的上限,仍然是當(dāng)下最重要的,一條路是強(qiáng)化學(xué)習(xí),一條路就是多模態(tài)理解生成一體化。智譜繼續(xù)盯緊OpenAI,并承諾在年內(nèi)發(fā)布包括基座模型、推理模型、多模態(tài)模型及Agent在內(nèi)的全系列開源產(chǎn)品。
這次Minimax五連發(fā)的另外一重意思,是一心想做“模都”的上海,終于出了個(gè)能打上國際榜單的大模型。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.