99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MiniMax-M1 登場,MiniMax 再次證明自己是一家模型驅動的 AI 公司

0
分享至


推理模型極致的性能與性價比,這次 MiniMax 都要。


作者|甘德

編輯|鄭玄


好飯不怕晚,MiniMax 終于把這款金字塔尖的推理模型拿出來了。

在將 MoE 和 Lightning Attention(閃電注意力)的激進架構變革引入基礎模型底層,轉化為全新的 MiniMax-01 系列模型的 5 個月后,大模型公司 MiniMax 終于更進一步,捧出了醞釀許久的自研文本推理模型 MiniMax-M1,這也是全球首個開源、大規模實現混合注意力的推理模型。

推理模型已成為新的大模型技術浪潮,拿出一款強勁的自研推理模型,是近半年里國內第一陣營的大模型公司保持自己技術身位最直接的目標。


01

金字塔尖的文本推理模型

作為推理模型,MiniMax-M1在長上下文理解能力上,是目前包括所有閉源和開源模型在內,能力全球前二的模型,且在訓練和推理成本上極高的性價比。

M1 仍然延續著 MoE 架構,而在注意力機制上和強化學習算法上的創新讓 M1 鮮明的區別于其他推理模型。模型總參數達到 4560 億參數,原生支持 100 萬 token 的上下文長度輸入,以及目前所有模型中最長的 80k token 的輸出長度。

在上下文能力的評測基準 OpenAI-MRCR (128k/1M) 以及 LongBench-v2 中,M1 的表現遠超包括 DeepSeek-R1-0528 和 Qwen3-235B 在內的所有開源模型,甚至超越 OpenAI o3 和 Claude 4 Opus,僅小幅落后 SOTA 的 Gemini 2.5 Pro。


除了在長上下文能力上的強勢,M1 所展現出的在智能體工具使用(Agentic Tool Use)維度上的能力上限甚至更加讓人期待。從評測基準 TAU-Bench (airline) 中的表現來看,目前 M1 已經是市面上在 Agentic Tool Use 方面能力最強的模型。

技術報告中對于 M1 的概述是,這個新的開源模型已是與 DeepSeek-R1、Qwen3-235B 并列的世界頂尖開源推理模型,這一結論是在參與了業內主流的 17 個評測基準之后得出的。在處理復雜場景時長上下文、智能體工具使用能力上的長板足夠亮眼,M1 在更通用的模型性能上也已經跨入頂尖行列。


此外需要特意說明的是,M1 系列模型中的兩個模型中,MiniMax-M1-40K 模型是 MiniMax-M1-80K 模型在訓練時的中間階段。而在測評基準所呈現的總體表現中,MiniMax-M1-80k 在多數基準上持續優于 MiniMax-M1-40k,這也驗證了上下文窗口長度帶來了模型整體性能的顯著提升,而非僅僅意味著支持更長的輸入。

02

從架構到算法,更徹底的「雙線創新」

與市面上主流的推理模型相比,M1 在底層架構和算法層上都有所創新。

在底層架構層面,M1 是目前唯一一個用線性注意力機制「大改」傳統 Transformer 架構,從而大規模實現混合注意力的 MoE 推理模型;在算法層面,M1 提出了新的強化學習算法 CISPO。更徹底的雙線創新提高了 M1 的訓練效率,而訓練成本的下降也非??捎^。

為解放 Transformer 架構中核心的注意力機制 Softmax Attention 在計算資源消耗方面的局限性,M1 系列模型在注意力機制的架構設計方面相比傳統架構的推理做了更大膽的嘗試——采用混合注意力機制 Lightning Attention——來代替標準 Transformer 中使用的傳統 Softmax Attention。

獨特的注意力層設計讓 M1 在推理時具有顯著效率優勢,天然有利于強化學習的高效擴展,但走到混合架構大規模強化學習的無人區,MiniMax 顯然也會遇到新架構帶來的挑戰。

比如在混合架構的初步零強化學習(zero-RL)實驗中,團隊發現傳統的 PPO/GRPO 算法會意外的嚴重損害訓練性能。具體來說,與反思行為相關的關鍵 token——例如表示轉折的 however、wait——這些低概率 token 對穩定熵和促進可擴展 RL 至關重要,但卻容易在策略更新時被裁剪,難以保證這些 token 的梯度貢獻,導致難以促進長 CoT 推理行為。此問題在混合架構模型中尤為突出,阻礙了強化學習的規模擴展。

為此,M1 在算法層面提出了新的強化學習算法 CISPO,意在明確避免丟棄任何 token(即使更新幅度大),同時將熵維持在合理范圍以確保穩定探索。

在 zero-RL 設置下,MiniMax 團隊在數學推理數據集上訓練 Qwen2.5-32B-base,對比 CISPO、 字節跳動提出的 DAPO 以及 DeepSeek 提出的 GRPO 算法在 AIME 2024 上的表現。相同步數下 CISPO 顯著優于 DAPO 和 GRPO;其訓練效率更高,僅需 DAPO 50% 的步數即可達到同等性能。


底層架構上對于線性注意力機制的引入,以及算法層圍繞 CISPO 所形成的高效 RL 框架,最終讓 M1 的強化學習訓練變得十分高效,進而取得了訓練成本的大幅下降。

與模型一同發布的技術報告中顯示,在生成長度為 10 萬 Token 時,M1 的計算量僅為 Deepseek R1 的 25%,而整個 M1 的完整強化學習訓練能在 512 張 H800 GPU 上僅用 3 周完成,以目前的 GPU 租賃價格計算,成本僅為 53.47 萬美元。

MiniMax 官方也發布了幾個 demo,我們可以從中看到 M1 究竟能做到什么。

比如最經典的用貪吃蛇游戲測試 coding 能力的測試玩法,但這次 M1 展示的是用一句自然語言生成一個更復雜的迷宮游戲。

Prompt 是這樣的: 創建一個迷宮生成器和尋路可視化工具。隨機生成一個迷宮,并逐步可視化 A* 算法的求解過程。使用畫布和動畫,使其具有視覺吸引力。

或者讓 M1 來幫你從 0 到 1 搭建一個能夠測試打字速度的網頁:

demo 里可以清晰看到,M1 在生成的網頁中思路清晰的設置了代表打字速度的 WPM(words per minute)和準確度的 Accuracy 兩個指標,并且體貼的讓上方文字隨著你的輸入進程而同步變色。

又或者,用戶可以直接讓 M1 做一個可拖拽的便簽墻。

這些 demo 都在指向一些通用 agent 中產品化 feature 的可能性。長上下文理解、智能體這些在模型能力產品化過程中的核心能力,恰好是 M1 模型的強勢所在。這符合 MiniMax 最早以產品起勢的路線,而這家公司近來在基礎模型層面持續的激進探索,也以 M1 的出現為節點,在當下大模型公司們技術突破普遍降速的時候顯示出后勁。

03

從 MoE 到 Linear,再到 MiniMax-M1

M1 的出現,背后是一條 MiniMax 從傳統的稠密模型與 Transformer 架構,轉向 MoE 與線性注意力機制的草蛇灰線。在 MiniMax 決定引入 MoE 與線性注意力機制的時候,在當時幾乎都沒有什么可以參考的對象。

Mistral AI 在 2023 年底用開源的模型 Mistral 8??7B 擊敗了當時最優秀的開源模型之一,700 億參數的 Llama 2。2023 年夏天,MiniMax 已經在準備從稠密模型轉向 MoE,投入了當時公司 80% 的算力與研發資源,在 Mistral 8??7B 發布的一個月后,上線了國內首個 MoE 大模型 abab 6,并且由于這是個過于新的架構,MiniMax 為 MoE 自研更適配的訓練和推理框架。


MoE 架構

M1 的混合架構的特征,則開始于今年年初 MiniMax-Text-01 模型里線性注意力(Linear Attention)混合架構的引入。

MiniMax 開始投入 Linear Attention 是從 2024 年 4 月開始的,那時尚沒有模型在千億級別的參數規模層面挑戰傳統的 Transformer 架構。這使得 MiniMax 需要對分布式訓練和推理框架進行徹底的重新設計來適配,使得模型能夠在大規模 GPU 集群上高效運行,這才有了今年 1 月的 MiniMax-Text-01,這也是第一個依賴線性注意力機制大規模部署的模型。

可以說,MiniMax-Text-01 是 MiniMax 在線性注意力這件事上,為整個行業從小規模可行的共識,到 Scale up 的可行做了一次驗證。而推理模型 M1,本質上又是一次基于 MiniMax-Text-01 的 scale up 和架構創新。

MiniMax 也公開了一部分 M1 基于 MiniMax-Text-01 訓練的細節。

團隊以 MiniMax-Text-01 為基座,實施 7.5 萬億 token 的定向增強預訓練,將 STEM(科學/技術/工程/數學)、編程代碼與復雜推理三類核心領域的數據權重提升至總語料 70%。隨后通過監督微調階段注入鏈式思考(CoT)機制,系統性構建模型的分步推理能力,為強化學習奠定能力基礎。

最終這種激進式的創新得到了積極的驗證,M1 是目前全球最先抵達 80k 上下文輸出的推理模型,同時在長上下文,軟件工程和 Agent 工具使用方面體現出了優勢。

此前星野和 Talkie 在商業化上的優異表現,讓 MiniMax 早早成為一家可以自己獨立行走的大模型公司,也讓外界賦予了這家公司一個「產品驅動」這樣過于籠統的標簽。這一定程度上忽視了 MiniMax 在模型層面上相當強悍的研發能力。

值得注意的是,MiniMax 的官方公告透露,M1 系列模型同時也拉開了為期五天的 MiniMaxWeek 的序幕,未來五天,MiniMax 會圍繞文本、語音和視覺等多模態模型對外公布更多的技術進展。

與此前 MoE 的 Abab 6 模型剛出現時類似,此次發布的混合注意力機制的 M1 在底層架構層面仍然是一個「非共識」的推理模型,但也正是因為這些屢次探入模型底層架構「非共識」地帶所帶來的技術創新,一直在印證 MiniMax 終究是一家「模型驅動」的 AI 公司。

而這早該成為一種共識。

*頭圖來源:視覺中國

本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

極客一問

你如何看待 MiniMax-M1 ?


Sam Altman:公眾還未習慣人形機器人,街頭偶遇仍會覺得像科幻片。

點贊關注 極客公園視頻號 ,

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
演員馬景濤直播時突然暈倒,后腦著地,竟因……福建醫生:這樣做可快速緩解

演員馬景濤直播時突然暈倒,后腦著地,竟因……福建醫生:這樣做可快速緩解

福建衛生報
2025-06-22 12:26:00
被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

被病痛折磨,46歲周杰倫近況曝光,靠友人攙扶,上廁所都要靠別人

溫讀史
2025-06-21 09:03:51
申花新外援?媒體人:明晚新人到上海,不排除對亞泰坐上替補席

申花新外援?媒體人:明晚新人到上海,不排除對亞泰坐上替補席

直播吧
2025-06-22 21:31:16
中東局勢“歷史性升級”:美軍機“滿載”轟炸伊朗三處關鍵核設施

中東局勢“歷史性升級”:美軍機“滿載”轟炸伊朗三處關鍵核設施

澎湃新聞
2025-06-22 09:00:27
再見了章子怡,再見了趙麗穎,中國已告別“影后扛票房”的時代!

再見了章子怡,再見了趙麗穎,中國已告別“影后扛票房”的時代!

查爾菲的筆記
2025-06-20 15:41:56
8年監禁!再見了,NBA

8年監禁!再見了,NBA

吳朑愛游泳
2025-06-22 09:22:11
上海交通大學剛剛官宣:正式成立1個新學院!重組“萬人大院”→

上海交通大學剛剛官宣:正式成立1個新學院!重組“萬人大院”→

上觀新聞
2025-06-22 20:08:38
以伊持續對轟!以色列民眾哭訴:只想過正常生活

以伊持續對轟!以色列民眾哭訴:只想過正常生活

看看新聞Knews
2025-06-22 16:23:59
中東激戰正酣,中國在天上干了件大事,美國真正的麻煩要來

中東激戰正酣,中國在天上干了件大事,美國真正的麻煩要來

忠誠TALK
2025-06-18 16:08:59
茅臺總經理王莉率隊拜訪京東、阿里巴巴

茅臺總經理王莉率隊拜訪京東、阿里巴巴

三言科技
2025-06-22 15:22:07
哈梅內伊發表電視講話:伊朗不會投降,美方任何打擊都將帶來無法挽回的后果

哈梅內伊發表電視講話:伊朗不會投降,美方任何打擊都將帶來無法挽回的后果

環球網資訊
2025-06-18 18:47:48
3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

3-2,河南隊逆轉浙江晉級,王鈺棟上晚了,足協杯8強對陣全部確定

替補席看球
2025-06-22 21:34:28
曝安徽某寺廟僧侶的工資單,這工資完勝公務員工資

曝安徽某寺廟僧侶的工資單,這工資完勝公務員工資

小人物看盡人間百態
2025-06-16 21:31:01
海牙法院:中國不接受

海牙法院:中國不接受

智觀科技
2025-06-21 11:36:04
記者:申花新援恩拉沃明天到上海,不排除能踢長春亞泰

記者:申花新援恩拉沃明天到上海,不排除能踢長春亞泰

懂球帝
2025-06-22 21:28:07
最后提醒全體股民!A股即將迎來變盤,明天A股即將這樣走!

最后提醒全體股民!A股即將迎來變盤,明天A股即將這樣走!

悠然安晴
2025-06-22 11:44:06
世界各地驚現上古文明遺跡都在證明:華夏可能統一過全世界?

世界各地驚現上古文明遺跡都在證明:華夏可能統一過全世界?

宅家伍菇涼
2025-06-15 16:59:20
五六十歲中年男人,這3種T恤“能別穿就別穿”了!換成另外這三種

五六十歲中年男人,這3種T恤“能別穿就別穿”了!換成另外這三種

時尚穿搭生活館
2025-06-22 21:47:14
劉翔,戳穿了易建聯央視專訪被取消的真相,他給所有人提了個醒

劉翔,戳穿了易建聯央視專訪被取消的真相,他給所有人提了個醒

史鹷的生活科普
2025-06-21 21:35:34
尤文夢幻開局!圖拉姆&伊爾迪茲撞墻配合 伊爾迪茲小角度巧射破門

尤文夢幻開局!圖拉姆&伊爾迪茲撞墻配合 伊爾迪茲小角度巧射破門

直播吧
2025-06-23 00:19:06
2025-06-23 00:36:49
極客公園
極客公園
讓最棒的創新成為頭條
11195文章數 78636關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

健康
本地
教育
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

教育要聞

你又不是快遞,別讓人隨便貼標簽!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美對伊行動細節:使用14枚巨型鉆地彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 富锦市| 建始县| 乌海市| 灵丘县| 万年县| 遂平县| 平谷区| 南安市| 宿松县| 双城市| 儋州市| 报价| 民县| 永福县| 辽中县| 大洼县| 龙川县| 西乌珠穆沁旗| 岢岚县| 绥中县| 滦南县| 册亨县| 新津县| 安阳市| 嵊泗县| 大同市| 临高县| 海宁市| 神木县| 景洪市| 灵宝市| 土默特左旗| 丽水市| 通海县| 即墨市| 巍山| 雅安市| 无锡市| 揭西县| 石河子市| 广州市|