99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MiniMax開源報告精讀:規模化驗證替代傳統Transformer的新架構|甲子光年

0
分享至


線性注意力機制的Scaling Law。

作者|趙健

今天,國產大模型市場掀起巨浪。

MiniMax今天發布并開源了新模型MiniMax-01,并斷言:“傳統Transformer架構不再是唯一選擇。”

MiniMax-01包含兩個模型:基礎大語言模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。在大部分的學術集上,MiniMax-01都取得了比肩海外第一梯隊的成績,基本超越Qwen2.5-72B與Llama 3.1-405B,與DeepSeek V3相比互有勝負。


這不僅是MiniMax首次將模型開源,也是MiniMax首次公開其技術細節。在此之前,MiniMax一直以閉源模型的身份示人,外界對其底層模型細節知之甚少。

MiniMax發布了MiniMax-01的技術報告。技術報告中透露了MiniMax基礎大模型的大膽創新:一是線性注意力機制(LinearAttention)的大規模訓練,二是400萬Token的超長上下文。

之所以說“大膽創新”,是因為研究一個新的架構風險極大,有去無回。

MiniMax創始人、CEO閆俊杰曾表示,MiniMax在2023年夏天開始研發MoE混合專家架構,投入了80%的算力與研發資源,經歷了兩次失敗才成功。2024年4月,MiniMax開始鉆研Linear Attention,并將其與MoE架構融合,成功研發出新一代的基于MoE+Linear Attention的模型,并達到了可以比肩GPT-4o的水平。

將如此核心的技術開源,MiniMax給出的原因是:“一是因為我們認為這有可能啟發更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創新,更高質量地開展后續的模型研發工作。”

「甲子光年」認真閱讀了MiniMax的技術報告,將其核心信息梳理如下。

1.MiniMax想要解決什么問題?

大模型在業內的核心趨勢之一,就是越來越長的上下文。目前大多數模型的上下文窗口長度在32K到256K token之間。但這仍然無法滿足實際需求,比如使用專業書籍作為上下文協助整個編程項目,或者通過多示例學習最大化上下文學習的潛力。

過去兩年中,上下文窗口的擴展主要得益于更強大的GPU和更好的I/O感知softmax注意力實現。然而,進一步擴展這些窗口已經證明是具有挑戰性的。傳統Transformer架構的核心在于注意力機制,傳統注意力機制的計算復雜度是二次的,即隨著序列長度的增加,計算量呈平方增長,這在處理長序列時會導致計算效率低下。換句活說,即使有無限的硬件資源可供使用,企業也無法承受計算量暴漲帶來的成本壓力。

為了解決這一挑戰,研究人員提出了各種方法來降低注意力機制的計算復雜度:稀疏注意力、線性注意力、長卷積、狀態空間模型和線性RNN。盡管這些創新在理論上具有潛力,但它們在商業規模模型中的采用有限。

MiniMax就是從這一業務難題切入,目標是構建一個在性能上與領先商業模型相匹配的模型,同時提供一個長一個數量級的上下文窗口。

MiniMax選擇了線性注意力機制。線性注意力機制是一種改進的注意力機制,旨在解決傳統基于softmax的注意力機制在處理長序列時的計算復雜度問題。線性注意力機制通過將計算復雜度降低到線性,使得模型能夠更高效地處理長序列數據。

線性注意力機制并非MiniMax首次提出,但是此前線性注意力機制主要是學術研究以及小規模試驗,MiniMax首次實現了將線性注意力機制模型的大規模訓練。

線性注意力機制并非完美。MiniMax在技術報告中提到,線性注意力機制在高效并行計算中存在限制,這可能解釋了為什么盡管這一理論存在了九年之久,但領先的開源大模型包括Llama-3.1、Qwen-2.5、DeepSeek-V3以及Mistral都沒有采用線性注意力機制。

MiniMax就是要解決線性注意力機制在大規模訓練后如何高效計算的問題。

MiniMax創始人、CEO閆俊杰去年曾表示:“在做Linear Attention的過程中,我們非常驚喜地發現,其實GPT-4o也是這么做的。”

2.架構、數據與計算

MiniMax雄心勃勃的目標需要仔細平衡多個因素:網絡架構、數據和計算。

首先看網絡架構設計。為了在有限資源內實現最佳性能并更好地處理更長序列,MiniMax采用了MoE方法,并盡可能多地使用線性注意力而不是標準Transformer中使用的softmax注意力。

MoE基礎的大型語言模型的訓練可以分為token-drop和dropless兩種。MiniMax采用token-drop策略來提高訓練效率。通過這種方法,每個專家被分配一個容量限制,指定它最多可以處理的token數量。一旦達到這個容量,任何額外路由到該專家的token將被丟棄。

對于注意力機制,經過廣泛的實驗,MiniMax最終選擇了一種混合架構,主要使用閃電注意力(Lightning Attention),這是一種線性注意力變體的I/O感知實現,由MiniMax團隊在2024年提出。在混合架構中,每七個使用閃電注意力的transnormer塊后,跟隨一個使用softmax注意力的transformer塊。


基于對擴展法則實驗、下游性能和速度比較的分析,MiniMax得出的結論是,雖然純線性注意力模型在計算上是高效的,但它們不適合LLMs。這是因為純線性注意力機制在檢索方面存在固有的不足,而這是LLMs中上下文學習所必需的。相比之下,MiniMax的混合模型不僅匹配而且超越了softmax注意力在檢索和外推任務中的能力。

在最終確定模型模塊的架構后,下一步是進行模型的規模擴展。MiniMax根據實際約束確定模型的總參數:能夠在單機上使用多達8個GPU和640GB內存,通過8位量化處理超過100萬個token。

在綜合考慮訓練資源、推理資源和最終模型性能,并在三者之間找到平衡,MiniMax在廣泛的實驗后確定了最終模型規格:4560億參數,459億激活,32個專家。

接下來就是計算的優化,包括訓練與推理。MiniMax透露了其訓練集群的規模:一個動態變化的GPU集群,其中H800 GPU的數量在1500到2500之間波動

現有的分布式訓練和推理框架主要針對softmax注意力進行優化。然而,MiniMax的新架構集成了閃電注意力、softmax注意力和MoE,需要對訓練和推理框架進行徹底的重新設計。此外,框架必須具備支持訓練和推理數百億參數模型和數百萬token上下文窗口的能力。

MiniMax表示自己獨立且全面地重新發明了分布式訓練和推理框架,提出了針對MoE架構的優化策略,包括減少通信開銷、優化數據分布和管理推理時的批量輸入。這些優化策略使得模型能夠在大規模GPU集群上高效運行,在英偉達H20上端到端超過75%的模型浮點運算利用率(MFU),同時保持了模型性能和推理效率。

基于架構設計和計算優化,MiniMax訓練了最新版模型MiniMax-01。

3.訓練策略,以及User-in-the-loop

MiniMax-01具體是如何訓練出來的?MiniMax在報告中也給出詳細的過程。

預訓練過程從精心策劃和高質量語料庫的構建開始,通過嚴格的清理、基于獎勵的質量增強和更好的數據混合平衡進行驗證。為了充分利用架構的長上下文能力,MiniMax引入了超參數的深入分析,并提出了一個三階段訓練程序,成功將上下文窗口擴展到一百萬個token。

后訓練過程包括監督式微調(Supervised Fine-Tuning,簡稱SFT)、離線和在線強化學習(Reinforcement Learning,簡稱RL)。通過這些階段,MiniMax系統地使模型與定義的目標對齊。

在對齊階段,MiniMax通過精確調整獎勵維度和多階段訓練方法,激勵模型的各種能力,特別是在長上下文和實際場景方面。隨后,通過整合一個輕量級的視覺變換器(ViT)模塊,增強了語言模型的視覺能力,從而創建了視覺語言模型MiniMax-VL-01。MiniMax-VL-01通過額外的5120億視覺語言token進行訓練,采用四階段訓練過程。該訓練過程的最后階段專門設計用于優化用戶體驗。

在核心學術基準測試中,這兩個模型在文本和視覺語言任務中均達到了與封閉源代碼頂級模型相當的性能水平。


受益于架構創新,MiniMax的模型在處理長輸入的時候有非常高的效率,接近線性復雜度。和其他全球頂尖模型的對比如下:


當然,今天的測試集跑分數據很大程度上不能完全反映模型的真實能力。除了常見的刷榜之外,還有一個原因是學術評估缺乏對真實世界用戶交互的理解。

為此,MiniMax在技術報告中提出了在2023年就提過的“User-in-the-loop(用戶反饋數據驅動)”的模式。MiniMax專注于旗下C端AI智能助手工具海螺AI,通過基于真實案例的用戶參與循環評估來監控和提升用戶體驗,并適應工具以更好地在實際應用中實現可用性和性能。

MiniMax的研究表明,在學術基準測試和實際用戶體驗之間存在顯著差異,領先的開源和商業模型在用作交互助手時可能表現不佳。于是,MiniMax使用源自實際使用場景——主要來自海螺AI——的內部基準測試評估模型的性能,并顯示其模型在這些場景中處于頂級水平。


4.大模型的“六邊形戰士”

總結來說,MiniMax-01系列的兩個模型——MiniMax-Text-01和MiniMax-VL-01,在處理長上下文方面展現了頂級性能,同時提供了處理更長上下文的優越能力。

背后的核心創新在于閃電注意力及其高效的擴展能力。為了最大化計算能力,MiniMax將其與專家混合(MoE)集成,創建了一個擁有32個專家和4560億總參數的模型,其中每個token激活459億參數。

MiniMax為MoE和閃電注意力開發了優化的并行策略和高效的計算-通信重疊技術。這種方法使其能夠在跨越數百萬token的上下文中,對擁有數千億參數的模型進行高效的訓練和推理。MiniMax-Text-01的訓練上下文窗口可以達到100萬個token,并且在推理期間以可承受的成本外推到400萬個token。視覺-語言模型MiniMax-VL-01通過繼續訓練512億視覺-語言token構建而成。

MiniMax表示,其模型與GPT-4o和Claude-3.5-Sonnet等最先進模型的性能相匹配,同時提供了20-32倍更長的上下文窗口。

當然,MiniMax也提出了現有模型的局限性。

一是長上下文評估:當前長上下文檢索任務的評估數據集主要為人工或簡化場景設計,實際應用中如文檔分析的長文本推理能力的評估仍然有限。MiniMax計劃在更現實的設置中增強長上下文檢索,并在更廣泛的任務中擴展長上下文推理的評估。

二是模型架構:模型目前仍保留了1/8的組件使用傳統的softmax注意力。MiniMax表示正在研究更高效的架構,可以完全消除softmax注意力,可能實現無計算開銷的無限上下文窗口。

三是復雜編程任務:模型在高級編程任務上的性能需要改進,因為我們預訓練階段的編碼數據集仍然有限。MiniMax正在不斷改進訓練數據選擇和繼續訓練程序,以解決下一版本模型中的這些局限性。

可以說,MiniMax通過全面的基礎大模型布局——包括語言模型與視頻模型,以及海內外AI產品的布局——海螺AI、星野+Talkie,已經成為大模型領域的“六邊形戰士”。

不過,在OpenAI發布推理模型o1與o3之后,大模型的技術范式從預訓練擴展到了推理階段。國內不少大模型已經跟進,包括Kimi、DeepSeek、Qwen,以及科大訊飛今天剛剛發布的訊飛星火。MiniMax目前尚未發布相關模型。

此外,李開復近期公開表態放棄追求AGI。對于同為“六小虎”的MiniMax,不知又會做出什么選擇呢?

(封面圖來自MiniMax)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
林良銘你為什么要拿紅牌停賽,真是氣人

林良銘你為什么要拿紅牌停賽,真是氣人

茜子足球
2025-05-02 19:10:18
最積陰德的十件事,一定要經常去做!

最積陰德的十件事,一定要經常去做!

詩詞中國
2025-04-10 12:56:17
第三股勢力突然對巴開戰,遲早要被中國秋后算賬

第三股勢力突然對巴開戰,遲早要被中國秋后算賬

Ck的蜜糖
2025-04-30 04:19:56
孫穎莎賽后采訪感動觀眾,淚水濕潤心靈

孫穎莎賽后采訪感動觀眾,淚水濕潤心靈

格斗一點通
2025-05-03 01:21:11
打完庫爾斯克戰役,朝鮮兵傷亡到底有多大?英媒公布數據出乎意料

打完庫爾斯克戰役,朝鮮兵傷亡到底有多大?英媒公布數據出乎意料

影孖看世界
2025-05-02 22:24:34
姆希塔良:歐冠半決賽次回合不會容易,因為我們失去了隊長勞塔羅

姆希塔良:歐冠半決賽次回合不會容易,因為我們失去了隊長勞塔羅

直播吧
2025-05-02 21:56:10
網紅“小楊哥”離世,年僅33歲

網紅“小楊哥”離世,年僅33歲

最江陰
2025-04-30 13:32:06
調查發現:老年人若經常吃花生,用不了多久,身體或有這幾種改善

調查發現:老年人若經常吃花生,用不了多久,身體或有這幾種改善

奇妙的本草
2025-02-26 19:00:08
天助切爾西!0-2大冷門,英超第6遭英超第11掀翻,無緣升至第3

天助切爾西!0-2大冷門,英超第6遭英超第11掀翻,無緣升至第3

側身凌空斬
2025-05-02 05:42:29
華爾茲轉崗與魯比奧集權:特朗普政府人事震蕩背后的深層危機

華爾茲轉崗與魯比奧集權:特朗普政府人事震蕩背后的深層危機

澎湃新聞
2025-05-02 17:38:28
前TVB女星東莞打工 接廣告自嘲“把自己賣了”

前TVB女星東莞打工 接廣告自嘲“把自己賣了”

看看新聞Knews
2025-05-02 11:57:59
蘇迪曼杯4強出爐!產生5大不可思議,世界冠軍慘敗,中日韓印齊進

蘇迪曼杯4強出爐!產生5大不可思議,世界冠軍慘敗,中日韓印齊進

知軒體育
2025-05-02 22:24:11
女子倒追小3歲老公,敬酒時新郎全程高冷,網友:新娘笑得好卑微

女子倒追小3歲老公,敬酒時新郎全程高冷,網友:新娘笑得好卑微

梅子的小情緒
2025-05-02 21:07:48
中國批準了,澳大利亞業界“非常振奮”

中國批準了,澳大利亞業界“非常振奮”

上觀新聞
2025-05-02 14:50:27
脫北者揭秘張成澤被捕真相:死前曾給金正恩戴綠帽,9名愛人殉葬

脫北者揭秘張成澤被捕真相:死前曾給金正恩戴綠帽,9名愛人殉葬

神秘歷史故事
2023-12-18 13:57:42
你占過最大的便宜是什么?網友:買的二手房,燃氣表里有1200余額

你占過最大的便宜是什么?網友:買的二手房,燃氣表里有1200余額

解讀熱點事件
2025-04-25 00:20:04
別在樓下售水機里打水喝了!我打了3天水,發現5個大問題

別在樓下售水機里打水喝了!我打了3天水,發現5個大問題

裝修秀
2025-04-27 11:50:03
撩中年女人,直接發“5個字”,讓荷爾蒙飆升,對你心動不已

撩中年女人,直接發“5個字”,讓荷爾蒙飆升,對你心動不已

蓮子說情感
2025-04-02 10:33:22
中美俄衛星定位精度差距斷崖!美0.1米,俄1.5米,中國北斗多少米

中美俄衛星定位精度差距斷崖!美0.1米,俄1.5米,中國北斗多少米

溫讀史
2025-03-10 17:14:35
狂歡夜!曼聯3-0,熱刺3-1,切爾西4-1,曼聯棄將安東尼飆世界波

狂歡夜!曼聯3-0,熱刺3-1,切爾西4-1,曼聯棄將安東尼飆世界波

側身凌空斬
2025-05-02 05:17:32
2025-05-03 05:20:49
甲子光年
甲子光年
中國科技產業化前沿智庫
3050文章數 9237關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

體育要聞

北京3-0橫掃山西晉級總決賽戰廣廈 杰曼43分周琦19+11

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

游戲
健康
時尚
旅游
軍事航空

海外網友熱議BLG擊敗WBG:再見wei,北川更適合!支持BLG解雇茂凱

唇皰疹和口腔潰瘍是"同伙"嗎?

被這些中年女人驚艷了!闊腿褲和過膝裙一穿,優雅得體美出圈

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美航母撞船后又將戰機甩進海里 專家:艦員高度緊張

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 疏附县| 长岭县| 博客| 怀集县| 钟祥市| 德惠市| 临邑县| 延边| 通道| 康保县| 江达县| 额敏县| 从江县| 盈江县| 平顶山市| 乐东| 买车| 龙门县| 大丰市| 塘沽区| 萨迦县| 监利县| 石城县| 遵化市| 江油市| 松原市| 深圳市| 丹凤县| 铁岭市| 水富县| 岳西县| 嘉义县| 宁波市| 太康县| 探索| 射阳县| 韶关市| 文山县| 双江| 临沭县| 保山市|