網易首頁 > 網易號 > 正文申請入駐

憋大招，MiniMax發布全球首個混合架構開源模型M1 能后來者居上嗎？

2025-06-17 23:00:08　來源: 每日經濟新聞

四川舉報

分享至

總部位于上海的人工智能獨角獸企業MiniMax突然放了個大招。

6月17日，MiniMax正式發布其自主研發的MiniMax-M1（以下簡稱M1）系列模型。根據MiniMax方面的介紹，M1被定義為“全球首個開源的大規模混合架構推理模型”。

此外，技術報告顯示：M1模型在處理百萬Token（大模型處理文本時的最小單位）級長文本的能力方面實現了重大突破，成為上下文最長的推理模型；其RL（強化訓練）成本下降一個量級，成本僅53萬美金，推理效率則數倍于競爭對手。

今年開年以來，DeepSeek持續沖擊著大模型行業的格局，接入DeepSeek-R1一度被很多企業視為擁抱AI（人工智能）的標志。

如今，MiniMax推出號稱具備“全球最長上下文”的M1模型，有可能后來者居上嗎？

當前上下文最長的推理模型價格還主打性價比

據了解，MiniMax不僅開源了模型權重，還提供了API（應用程序編程接口）服務，價格主打性價比。

其定價策略為：

在0~3.2萬（含）Token范圍，輸入時0.8元/百萬Token，輸出時8元/百萬Token；

在3.2萬~12.8萬（含）Token范圍，輸入時1.2元/百萬Token，輸出時16元/百萬Token；

在12.8萬~100萬Token范圍，輸入時2.4元/百萬Token，輸出時在24元/百萬Token。

據介紹，前兩個檔位的定價均低于DeepSeek-R1，而第三個超長文本檔位則是該模型目前尚未覆蓋的領域。此外，MiniMax宣布，在其自有的App（應用程序）和Web（網絡）端，M1模型將保持不限量免費使用。

此外，在長文本能力上，M1模型原生支持高達100萬Token的上下文窗口，這一數字與谷歌最新的Gemini 2.5 Pro持平，是DeepSeek-R1（12.8萬Token）的近8倍。同時，它還支持業內最長的8萬Token推理輸出。

圖片來源：開源技術報告截圖

MiniMax方面表示，實現這一突破的關鍵在于獨創的“Lightning Attention”混合構架。傳統的“Transformer”模型在處理長序列時，注意力機制的計算量會隨序列長度呈平方級增長，成為制約性能和成本的主要瓶頸。M1的混合架構，特別是注意力機制，能夠顯著優化長下文輸入的計算效率。

就這一模型，知名數字經濟學者、工信部信息通信經濟專家委員會委員盤和林對《每日經濟新聞》記者表示，之前大模型采用的“PPO/GRPO”裁剪方式有一些缺陷，MiniMax通過“CISPO”（Clipped IS-weight Policy Optimization）對這些缺陷進行了一些優化，其目的還是為了降低訓練成本和推理成本。

據記者了解，MiniMax此次提出的CISPO算法是另辟蹊徑，它沒有采用傳統算法中調整Token的更新方式，而是通過裁剪重要性采樣權重來提升、強化學習的效率、穩定性。

“這是進步，但這個進步是否能夠轉化為商業價值暫時還不清楚。要看具體工具在應用層面的反饋。”盤和林說。

值得一提的是，今年4月，阿里巴巴開源新一代通義千問模型Qwen3（以下簡稱千問3），參數量僅為DeepSeek-R1的1/3，成本大幅下降，據稱性能全面超越DeepSeek-R1、OpenAI o1等全球頂尖模型。

3月16日，百度正式發布“文心大模型4.5”“文心大模型X1”。據介紹，文心大模型4.5是百度首個原生多模態大模型，API調用價格僅為GPT-4.5的1%。文心大模型X1為深度思考模型，性能對標DeepSeek-R1，調用價格約為其一半。

圖片來源：視覺中國-VCG211431510188

大模型還有優化空間，誰找對方向就是下一科技巨頭

或許可以說，M1是MiniMax憋了許久的大招之一。

在DeepSeek的沖擊之下，大模型創業公司今年一開年就面對著戰略方向的轉折點：是做技術還是做產品？

今年1月，MiniMax創始人兼CEO閆俊杰在接受媒體采訪時表示，在更明確“智能水平的提升，沒那么依賴很多用戶”后，他做出了取舍，結束了整整半年多的焦慮。閆俊杰明確，現在MiniMax最重要的目標不是增長，也不是收入，是“加速技術迭代”。

同樣在1月，MiniMax發布并開源新一代“01系列”模型，包含基礎語言大模型“MiniMax-Text-01”和視覺多模態大模型“MiniMax-VL-01”。

到了3月，MiniMax對品牌進行了更清晰的拆分，據悉，MiniMax將旗下AI應用“海螺AI”正式更名為“MiniMax”，國內版和國際版同步調整。

5月，MiniMax發布新一代語音大模型“Speech-02”。據介紹，基于超強技術與足夠泛化的模型能力，Speech-02為用戶帶來超擬人、個性化、多樣性的語音服務。

雖說在重要性上讓步于技術攻堅，但在商業化上，MiniMax在B端（商業端）和C端（消費者端）上皆有布局，對國內市場和海外市場皆有涉獵。

此外，在今年1月發布并開源新一代01系列模型時，MiniMax方面便提及，2025年，AI將迎來至關重要的發展節點，AI Agent（智能體）有望成為新一年最重要的產品形態，引領AI從傳統的“工具”角色向更具互動性與協作性的“伙伴”角色轉變。

當時，MiniMax便表示：“首先，我們認為這有可能啟發更多長上下文的研究和應用，從而更快促進Agent時代的到來；第二，開源也能促使我們努力做更多創新，更高質量地開展后續的模型研發工作。”

國泰海通證券在近期的研報中提及，大模型在多模態理解和復雜推理上的突破，為AI Agent的發展提供了核心技術支撐。AI 應用雖尚處于落地初期，但未來發展路徑明晰，當前處于B端萌芽期，未來C端有望大規模爆發，最終將實現B端與C端并行發展，全面推動AI產業繁榮。

MiniMax剛剛推出的M1是否能助力其在AI Agent這一方向上的發展？對此，盤和林肯定其“有幫助”，但認為還沒有到革命性的程度，屬于漸進性算法優化。

早在今年1月接受采訪時，閆俊杰就明確了技術和產品的關系，他表示，更好的模型可以導向更好的應用，但更好的應用和更多用戶并不會導向更好的模型。

在DeepSeek火爆全網時，MiniMax堅持將目標定為“加速技術迭代”。半年后，MiniMax終于來到了自己的“主場時刻”。據記者了解，M1的發布僅僅是拉開了MiniMax“開源周”的序幕。在接下來的4個工作日里，MiniMax計劃每天發布一項新技術或產品更新。

就MiniMax堅持技術攻堅的前景，盤和林表示，他看好加碼大模型的創業公司。盤和林進一步分析說：“現階段的基礎模型依然有很大的提升空間，很多用戶并不喜歡用AI來干活，因為AI不聰明且很慢。之前，有人用所謂的智能體來生成報告，這些智能體卻用了數天乃至數周的時間還沒有完成，這效率并不比真人高。如今很多人用AI，也只能解決一部分工作，無法做到直接交付工作的程度。”

在盤和林看來，大模型一定還有優化空間，誰找對了大模型算法優化的方向，誰就是下一個科技巨頭。“DeepSeek向前走了一步，但還不夠。”盤和林說。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.