99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

請(qǐng)記住 MiniMax M1:MiniMax 用自己的方法追上R1們,直奔最強(qiáng)Agent模型而去

0
分享至

  

  作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

  要不要完全跟隨 DeepSeek?

  這是每個(gè)仍想自己追逐基礎(chǔ)模型圣杯的公司,在過(guò)去半年里一直面對(duì)的靈魂拷問(wèn)。

  而 MiniMax 的答案很清楚,它要走自己的路。

  6月17日,MiniMax 發(fā)布了新模型MiniMax M1。這是一個(gè)繼續(xù)激進(jìn)地使用線性注意力 Lightning Attention機(jī)制的模型,同時(shí)它還巧妙地找到一種方式,將這種激進(jìn)的預(yù)訓(xùn)練機(jī)制帶來(lái)的長(zhǎng)文本能力用到后訓(xùn)練階段,提出一種全新的強(qiáng)化學(xué)習(xí)技巧,從而大幅提高了模型的推理能力。

  

  按照MiniMax的形容,這是“世界上第一個(gè)開源的大規(guī)模混合架構(gòu)的推理模型”。這些技術(shù)創(chuàng)新讓它有業(yè)內(nèi)最高的性價(jià)比——

  整個(gè)強(qiáng)化學(xué)習(xí)階段只用到512張H800 GPU,只需三周的時(shí)間訓(xùn)練完成,也就是租賃成本只有53.47萬(wàn)美金。

  顯然,MiniMax M1 讓 MiniMax 迎來(lái)了一個(gè)類似 DeepSeek R1 的關(guān)鍵時(shí)刻。

  1

  基座模型里久違的新鮮感

  MiniMax M1 是近期各種模型中,徹底開源且公開了自己最多新方法的一個(gè),無(wú)需先去討論它的評(píng)測(cè)成績(jī),僅從這些技術(shù)創(chuàng)新上就足夠吸引人。

  這是模型層面久違了的新鮮感。

  與此前發(fā)布的 MiniMax-01 系列相同,它繼續(xù)使用線性注意力Lightning Attention與傳統(tǒng) softmax attention注意力相結(jié)合的混合結(jié)構(gòu)。配比依然是7:1,每7個(gè) Lightning Attention 模塊插入1個(gè)傳統(tǒng) Transformer 模塊。

  如我們?cè)趫?bào)道MiniMax-01系列時(shí)所介紹,傳統(tǒng)Transformer使用的Softmax注意力,需要為此構(gòu)建一個(gè)N×N 的全連接矩陣,對(duì)于超長(zhǎng)序列,這個(gè)矩陣會(huì)非常龐大。而 Lightning Attention 這樣的線性注意力機(jī)制則是進(jìn)行“分塊計(jì)算”(tiling),先計(jì)算塊內(nèi)部的詞之間的關(guān)系,然后再傳遞塊與塊之間的信息,最終可以捕捉到全局語(yǔ)義關(guān)系。

  一個(gè)便于理解的類比是,如果把完全基于Softmax的傳統(tǒng)架構(gòu)看作看書時(shí)候每個(gè)字都看,那么混合架構(gòu)類似是挑重點(diǎn)看,然后偶爾看一下目錄對(duì)照一下整體。效率高了很多。它會(huì)大大減少計(jì)算和內(nèi)存需求,從傳統(tǒng) Softmax 注意力的平方復(fù)雜度降低為線性。

  根據(jù)M1 的技術(shù)報(bào)告,“它有一個(gè)顯著的優(yōu)勢(shì)是支持目前業(yè)內(nèi)最高的100萬(wàn)上下文的輸入,跟閉源模型里面的 Google Gemini 2.5 Pro 一樣,是 DeepSeek R1 的 8 倍,以及業(yè)內(nèi)最長(zhǎng)的8萬(wàn)Token的推理輸出。”

  8倍,夸張的提升。DeepSeek R1 目前的輸入長(zhǎng)度是128K ,輸出為64K 。

  

  在混合架構(gòu)上,M1在01基礎(chǔ)上用更大的7.5T token的數(shù)據(jù)集做了進(jìn)一步訓(xùn)練,而對(duì)于M1來(lái)說(shuō),更重要的是這種混合架構(gòu)基礎(chǔ)天然適合用來(lái)訓(xùn)練一個(gè)推理模型。

  “這種混合架構(gòu)設(shè)計(jì)在理論上能有效地將推理長(zhǎng)度擴(kuò)展到數(shù)十萬(wàn)個(gè)標(biāo)記。”技術(shù)報(bào)告稱。而且是以一種更加高效的方式實(shí)現(xiàn)——與DeepSeek R1 相比,M1在64k token 長(zhǎng)度的FLOP不到50%,100K token 長(zhǎng)度更是只有25%。FLOP即每秒浮點(diǎn)運(yùn)算次數(shù),用來(lái)體現(xiàn)算力。

  但要實(shí)現(xiàn)這一效果,不是僅僅使用了混合框架就可以做到的。反而,這種新框架在理論上有優(yōu)越性,但還沒有人在大規(guī)模生產(chǎn)環(huán)境里真正實(shí)現(xiàn)過(guò)。這意味著在后訓(xùn)練階段,也需要有匹配這種新架構(gòu)的創(chuàng)新。

  MiniMax 在M1 的訓(xùn)練中,創(chuàng)新了一種名為 CISPO(Clipped IS-weight Policy Optimization)的全新強(qiáng)化學(xué)習(xí)方法:

  過(guò)往為了訓(xùn)練的穩(wěn)定性,以及由于模型上下文長(zhǎng)度能力的限制,在強(qiáng)化學(xué)習(xí)過(guò)程里會(huì)采取裁剪token的做法,把那些看起來(lái)不那么重要的token給裁剪掉。

  但這導(dǎo)致了一些雖然看起來(lái)不重要——往往是因?yàn)槌霈F(xiàn)頻率低,但其實(shí)對(duì)于思考能力,尤其是更復(fù)雜的自我反思等推理能力很關(guān)鍵的token。

  比如,However, Recheck, Wait, Aha這樣明顯帶有反思和轉(zhuǎn)折含義的詞匯,這些詞匯對(duì)于引導(dǎo)模型進(jìn)行深入推理和修正思考路徑具有關(guān)鍵作用。但在過(guò)往的方法里可能就被拋棄了。

  CISPO放棄了直接裁剪 token 的做法,而是保留所有 token 的更新,只裁剪 importance sampling 權(quán)重,從而更好地保留了長(zhǎng)推理鏈條中的關(guān)鍵轉(zhuǎn)折點(diǎn),提高了學(xué)習(xí)效率與穩(wěn)定性。

  實(shí)驗(yàn)顯示,CISPO 算法的強(qiáng)化學(xué)習(xí)收斂速度達(dá)到現(xiàn)有主流方法的兩倍以上——“在AIME 的實(shí)驗(yàn)中,我們發(fā)現(xiàn)這比包括字節(jié)近期提出的 DAPO 等強(qiáng)化學(xué)習(xí)算法收斂性能快了一倍,顯著的優(yōu)于 DeepSeek 早期使用的 GRPO”。報(bào)告中提到。

  

  1

  MiniMax 用自己的方式越過(guò)大山

  在這些看起來(lái)很激進(jìn)的創(chuàng)新背后,MiniMax 卻并不是純粹地在做實(shí)驗(yàn),它這些改進(jìn)充滿了工程落地和實(shí)際提供服務(wù)的考量。這都體現(xiàn)在它的評(píng)測(cè)表現(xiàn)里。

  MiniMax M1在業(yè)內(nèi)主流的 17 個(gè)評(píng)測(cè)集上具體的結(jié)果如下:

  

  在 AIME 2024 數(shù)學(xué)奧賽中,MiniMax-M1-80k 達(dá)到 86.0%的成績(jī),僅次于 DeepSeek R1-0528(91.4%);而在真實(shí)代碼修復(fù)的 SWE-bench Verified 測(cè)評(píng)中,成績(jī)達(dá)到 56.0%,與 DeepSeek R1-0528 的 57.6% 非常接近,并明顯領(lǐng)先于其他開源模型。

  在長(zhǎng)文本理解的 OpenAI-MRCR(128K)評(píng)測(cè)中,M1 達(dá)到 76.1%的高分,甚至超過(guò)了閉源的OpenAI o3 和 Claude 4 Opus,僅次于 Gemini 2.5 Pro。

  從測(cè)評(píng)表現(xiàn)來(lái)看,它比 DeepSeek R1 等模型更加貼近真實(shí)場(chǎng)景的需求。

  

  “與最新的 DeepSeek-R1-0528 模型相比,MiniMax-M1 在數(shù)學(xué)和編碼競(jìng)賽中落后,但在更現(xiàn)實(shí)的工具使用和長(zhǎng)上下文場(chǎng)景中實(shí)現(xiàn)了可比或更優(yōu)的性能。值得注意的是,MiniMax-M1 在代理工具使用基準(zhǔn) TAU-Bench上優(yōu)于 Gemini 2.5 Pro,并在長(zhǎng)上下文理解基準(zhǔn)上超過(guò)了 OpenAI o3 和 Claude 4 Opus。通過(guò)有效的測(cè)試時(shí)間擴(kuò)展,我們認(rèn)為 MiniMax-M1 為下一代語(yǔ)言模型Agent解決現(xiàn)實(shí)世界挑戰(zhàn)奠定了堅(jiān)實(shí)的基礎(chǔ)。”報(bào)告里提到。

  關(guān)注 AI 落地進(jìn)展的人們會(huì)立即意識(shí)到,這些指標(biāo)明顯指向了 MiniMax M1 背后的真正野心與方向:成為面向真實(shí)世界解決復(fù)雜生產(chǎn)力場(chǎng)景需求最強(qiáng)的模型,進(jìn)而最終打造一個(gè)最強(qiáng)的 AI Agent 系統(tǒng)基座。

  今天AI agent的爆發(fā)已經(jīng)是實(shí)實(shí)在在正在發(fā)生的事情,這些agent需要更長(zhǎng)的上下文,需要更長(zhǎng)的推理時(shí)間,需要更便宜的價(jià)格。它們需要MiniMax M1這樣的模型。

  在此前MiniMax-01系列發(fā)布時(shí),MiniMax官方就曾表示,“我們希望這個(gè)模型能為接下來(lái)的AI Agent爆發(fā)做出貢獻(xiàn)。”

  而很多時(shí)候關(guān)鍵創(chuàng)新就是這樣接踵而來(lái)的。

  MiniMax-01作出的生產(chǎn)環(huán)境里最激進(jìn)的一次線性注意力的引入,帶來(lái)了長(zhǎng)文本的能力,在推理模型變成競(jìng)爭(zhēng)重地的今天,給強(qiáng)化學(xué)習(xí)過(guò)程帶來(lái)了新機(jī)會(huì),從而帶來(lái)了CISPO的出現(xiàn)。最終兩個(gè)技術(shù)創(chuàng)新共同讓MiniMax M1性能提升且成本大降。當(dāng)然,別忘了還有在MiniMax 01時(shí)就提到過(guò)的,它直接自己從零開始開發(fā)的適合線性注意力的CUDA 內(nèi)核,相應(yīng)的各種配套的框架,以及把硬件榨干到極致的軟硬件結(jié)合的技術(shù)。

  這也是一個(gè)MiniMax十分熟悉的過(guò)程,這個(gè)在ChatGPT出現(xiàn)之前就已經(jīng)投入到大模型技術(shù)研發(fā)里去的公司,習(xí)慣于根據(jù)自己對(duì)技術(shù)演進(jìn)的判斷做重投入、甚至全員撲上去做帶有賭注意味的創(chuàng)新。這自然會(huì)讓它遇到了一系列前所未見的新問(wèn)題。

  這也體現(xiàn)在此次M1的細(xì)節(jié)里:

  比如,當(dāng) Lightning Attention 帶來(lái)了更長(zhǎng)的推理空間時(shí),也首次出現(xiàn)了訓(xùn)練與推理階段的精度不匹配問(wèn)題,倒逼團(tuán)隊(duì)不得不更深入地理解模型內(nèi)部運(yùn)行機(jī)制,在輸出頭部統(tǒng)一了計(jì)算精度;

  當(dāng)訓(xùn)練過(guò)程中發(fā)現(xiàn)復(fù)雜的提示可能誘導(dǎo)有問(wèn)題的長(zhǎng)且重復(fù)的響應(yīng)、威脅模型穩(wěn)定性時(shí),MiniMax 果斷決定“先發(fā)制人地終止這些生成循環(huán),而不是事后懲罰已經(jīng)重復(fù)的文本”;

  在合成數(shù)據(jù)這一被外界視作關(guān)鍵訓(xùn)練環(huán)節(jié)上,M1 訓(xùn)練的實(shí)際表現(xiàn)卻指向了另一種可能——無(wú)論是在預(yù)訓(xùn)練階段,還是后訓(xùn)練的長(zhǎng)達(dá)80K輸出的模型訓(xùn)練階段,它都主動(dòng)降低甚至完全避免了合成數(shù)據(jù)的使用。這也很可能會(huì)引發(fā)行業(yè)跟進(jìn)的討論。

  這些觀察與應(yīng)對(duì),呈現(xiàn)出一種類似 OpenAI、Anthropic 和 DeepSeek 等在做開創(chuàng)性研究時(shí)的味道——這些來(lái)自新訓(xùn)練技巧所帶來(lái)的模型內(nèi)部機(jī)制觀察,非常有趣且重要,因?yàn)樗鼈兺褪侨俚年P(guān)鍵。

  在模型基本訓(xùn)練技巧日趨透明的今天,最終的競(jìng)爭(zhēng)必然回歸到這些關(guān)鍵細(xì)節(jié),以及對(duì)模型內(nèi)部運(yùn)轉(zhuǎn)機(jī)制更深刻的理解之上,它們積少成多,最終構(gòu)成模型的護(hù)城河。第一個(gè)直面并解決這些新問(wèn)題的團(tuán)隊(duì),將對(duì)這些技巧擁有最深刻的理解,而這正是堅(jiān)持自己訓(xùn)練模型的最大意義。

  沿著 DeepSeek 指引的路,努力復(fù)刻并無(wú)限逼近它的效果,當(dāng)然是一種選擇。在 DeepSeek R1 的巨大沖擊之后,許多仍在進(jìn)行預(yù)訓(xùn)練的公司正選擇這樣的跟隨路徑。

  但 MiniMax M1 顯然走的是另一條截然不同的道路:它是一個(gè)典型的“只有 MiniMax 能做出”的模型。在預(yù)訓(xùn)練階段堅(jiān)定地走線性注意力架構(gòu)路線,并因?yàn)檫@種大膽的架構(gòu)探索,激發(fā)并驅(qū)動(dòng)了強(qiáng)化學(xué)習(xí)方法的創(chuàng)新,最終實(shí)現(xiàn)了預(yù)訓(xùn)練架構(gòu)和后訓(xùn)練技巧在深度推理能力上的完美匯合與相互成全,彼此推動(dòng),共同使模型實(shí)現(xiàn)跨越式進(jìn)步。

  這絕非最容易的路,但如果你相信 AI 是一次前所未有的一生一次的機(jī)會(huì),那它本就應(yīng)當(dāng)是星辰大海,今天的格局還遠(yuǎn)遠(yuǎn)未定呢。

  

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓旭亞洲杯丟冠后社媒重申:一定會(huì)再次出去留洋 鍛煉與提升自己

韓旭亞洲杯丟冠后社媒重申:一定會(huì)再次出去留洋 鍛煉與提升自己

醉臥浮生
2025-07-21 13:17:54
二手房業(yè)主,被“降價(jià)”逼瘋

二手房業(yè)主,被“降價(jià)”逼瘋

中國(guó)新聞周刊
2025-07-21 10:10:07
德國(guó)終于發(fā)脾氣了,“如果美國(guó)想打仗,那就打”

德國(guó)終于發(fā)脾氣了,“如果美國(guó)想打仗,那就打”

觀察者網(wǎng)
2025-07-21 13:47:04
印度強(qiáng)烈反對(duì)無(wú)效,世紀(jì)水電工程開工,將徹底改變中印戰(zhàn)略格局

印度強(qiáng)烈反對(duì)無(wú)效,世紀(jì)水電工程開工,將徹底改變中印戰(zhàn)略格局

現(xiàn)代小青青慕慕
2025-07-21 03:02:31
“奧巴馬被捕”視頻瘋傳!特朗普也轉(zhuǎn)了

“奧巴馬被捕”視頻瘋傳!特朗普也轉(zhuǎn)了

環(huán)球時(shí)報(bào)國(guó)際
2025-07-21 17:34:15
剛剛,直線跳水!全部航班,停飛!

剛剛,直線跳水!全部航班,停飛!

證券時(shí)報(bào)
2025-07-21 14:46:04
復(fù)讀市場(chǎng)的天塌了!網(wǎng)傳毛坦廠中學(xué)只招不到100個(gè)班,同比銳減50%

復(fù)讀市場(chǎng)的天塌了!網(wǎng)傳毛坦廠中學(xué)只招不到100個(gè)班,同比銳減50%

火山詩(shī)話
2025-07-20 10:25:27
張雪峰把北大的文科也打趴下了!北大小語(yǔ)種、公共管理招不到生源

張雪峰把北大的文科也打趴下了!北大小語(yǔ)種、公共管理招不到生源

狐貍先森講升學(xué)規(guī)劃
2025-07-20 22:55:03
上海飛悉尼航班疑因“起落架銷未拔”放油返航 東航回應(yīng):已安排補(bǔ)班

上海飛悉尼航班疑因“起落架銷未拔”放油返航 東航回應(yīng):已安排補(bǔ)班

新民晚報(bào)
2025-07-21 19:36:59
哈哈長(zhǎng)公主的秘密前夫

哈哈長(zhǎng)公主的秘密前夫

深度報(bào)
2025-07-20 22:14:53
馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

馬未都:香港寧愿要20萬(wàn)菲傭,也不接受內(nèi)地保姆,原因很簡(jiǎn)單

深度報(bào)
2025-07-20 22:11:45
贏麻了,陳佩斯哭了,票房300倍逆襲,朱時(shí)茂百萬(wàn)投資可掙了不少

贏麻了,陳佩斯哭了,票房300倍逆襲,朱時(shí)茂百萬(wàn)投資可掙了不少

草莓解說(shuō)體育
2025-07-21 17:59:38
一男子駕車撞人致2人死亡,昆明警方通報(bào)

一男子駕車撞人致2人死亡,昆明警方通報(bào)

界面新聞
2025-07-21 13:15:08
想吃鵝肉的,何止烏克蘭!

想吃鵝肉的,何止烏克蘭!

近距離
2025-07-21 10:35:32
雅魯藏布江驚雷炸響!10萬(wàn)鐵軍筑壩,西方噤聲莫迪失語(yǔ)

雅魯藏布江驚雷炸響!10萬(wàn)鐵軍筑壩,西方噤聲莫迪失語(yǔ)

智觀科技
2025-07-20 23:52:15
“永不接受占領(lǐng),永不放棄”與“蠟燭兩頭燒”

“永不接受占領(lǐng),永不放棄”與“蠟燭兩頭燒”

山河路口
2025-07-20 15:37:26
馬上評(píng)丨全面調(diào)查問(wèn)責(zé)到底,更要警鐘長(zhǎng)鳴

馬上評(píng)丨全面調(diào)查問(wèn)責(zé)到底,更要警鐘長(zhǎng)鳴

澎湃新聞
2025-07-20 23:08:26
上周五歐盟宣布對(duì)部分中資銀行及5家中國(guó)企業(yè)實(shí)施制裁,中方回應(yīng)

上周五歐盟宣布對(duì)部分中資銀行及5家中國(guó)企業(yè)實(shí)施制裁,中方回應(yīng)

環(huán)球網(wǎng)資訊
2025-07-21 15:40:52
上海一日料店,倆女子誤認(rèn)為是自助餐,專門撿貴的點(diǎn),結(jié)賬時(shí)4302

上海一日料店,倆女子誤認(rèn)為是自助餐,專門撿貴的點(diǎn),結(jié)賬時(shí)4302

好賢觀史記
2025-07-19 16:41:42
碭山父子雙雙遇難!貨物價(jià)值3千萬(wàn),前妻已再婚,出事前曾招司機(jī)

碭山父子雙雙遇難!貨物價(jià)值3千萬(wàn),前妻已再婚,出事前曾招司機(jī)

史書無(wú)明
2025-07-21 07:44:32
2025-07-21 19:51:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2351文章數(shù) 10352關(guān)注度
往期回顧 全部

數(shù)碼要聞

新iPad Pro將配備前置雙攝像頭:橫屏豎屏都能用

頭條要聞

極氪銷售"0公里二手車":偽造收款頁(yè)面 隱瞞汽車信息

頭條要聞

極氪銷售"0公里二手車":偽造收款頁(yè)面 隱瞞汽車信息

體育要聞

這四位大兄弟,你們真敢要3000萬(wàn)吶

娛樂(lè)要聞

五哈全員為寶石老舅送祝福

財(cái)經(jīng)要聞

宗馥莉?yàn)楹我獙?duì)"小媽"杜建英虎視眈眈?

科技要聞

OpenAI自嗨“國(guó)際奧數(shù)金牌”遭官方怒斥

汽車要聞

勞斯萊斯前設(shè)計(jì)師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

游戲
家居
健康
數(shù)碼
公開課

巨大Doro現(xiàn)身紐約《勝利女神》夏日聯(lián)動(dòng)營(yíng)銷再整活

家居要聞

別樣老上海 重塑復(fù)古優(yōu)雅

呼吸科專家破解呼吸道九大謠言!

數(shù)碼要聞

"Strix Halo" 終端殺入萬(wàn)元之內(nèi),極摩客 EVO-X2 電競(jìng)版 9999 元

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 阜新| 会泽县| 沙田区| 阿尔山市| 望谟县| 张家港市| 武清区| 清水县| 乌兰浩特市| 桂平市| 陆丰市| 化州市| 宕昌县| 东阳市| 绥宁县| 聂拉木县| 房产| 湛江市| 柳州市| 广宗县| 临猗县| 瓦房店市| 洛扎县| 顺昌县| 麻栗坡县| 会同县| 丹巴县| 汕尾市| 河北区| 唐海县| 贵州省| 蕲春县| 西城区| 仲巴县| 平远县| 前郭尔| 文登市| 靖宇县| 蒙山县| 北川| 昭觉县|