線性注意力機制的Scaling Law。
作者|趙健
今天,國產大模型市場掀起巨浪。
MiniMax今天發布并開源了新模型MiniMax-01,并斷言:“傳統Transformer架構不再是唯一選擇。”
MiniMax-01包含兩個模型:基礎大語言模型MiniMax-Text-01和視覺多模態大模型MiniMax-VL-01。在大部分的學術集上,MiniMax-01都取得了比肩海外第一梯隊的成績,基本超越Qwen2.5-72B與Llama 3.1-405B,與DeepSeek V3相比互有勝負。
這不僅是MiniMax首次將模型開源,也是MiniMax首次公開其技術細節。在此之前,MiniMax一直以閉源模型的身份示人,外界對其底層模型細節知之甚少。
MiniMax發布了MiniMax-01的技術報告。技術報告中透露了MiniMax基礎大模型的大膽創新:一是線性注意力機制(LinearAttention)的大規模訓練,二是400萬Token的超長上下文。
之所以說“大膽創新”,是因為研究一個新的架構風險極大,有去無回。
MiniMax創始人、CEO閆俊杰曾表示,MiniMax在2023年夏天開始研發MoE混合專家架構,投入了80%的算力與研發資源,經歷了兩次失敗才成功。2024年4月,MiniMax開始鉆研Linear Attention,并將其與MoE架構融合,成功研發出新一代的基于MoE+Linear Attention的模型,并達到了可以比肩GPT-4o的水平。
將如此核心的技術開源,MiniMax給出的原因是:“一是因為我們認為這有可能啟發更多長上下文的研究和應用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創新,更高質量地開展后續的模型研發工作。”
「甲子光年」認真閱讀了MiniMax的技術報告,將其核心信息梳理如下。
1.MiniMax想要解決什么問題?
大模型在業內的核心趨勢之一,就是越來越長的上下文。目前大多數模型的上下文窗口長度在32K到256K token之間。但這仍然無法滿足實際需求,比如使用專業書籍作為上下文協助整個編程項目,或者通過多示例學習最大化上下文學習的潛力。
過去兩年中,上下文窗口的擴展主要得益于更強大的GPU和更好的I/O感知softmax注意力實現。然而,進一步擴展這些窗口已經證明是具有挑戰性的。傳統Transformer架構的核心在于注意力機制,傳統注意力機制的計算復雜度是二次的,即隨著序列長度的增加,計算量呈平方增長,這在處理長序列時會導致計算效率低下。換句活說,即使有無限的硬件資源可供使用,企業也無法承受計算量暴漲帶來的成本壓力。
為了解決這一挑戰,研究人員提出了各種方法來降低注意力機制的計算復雜度:稀疏注意力、線性注意力、長卷積、狀態空間模型和線性RNN。盡管這些創新在理論上具有潛力,但它們在商業規模模型中的采用有限。
MiniMax就是從這一業務難題切入,目標是構建一個在性能上與領先商業模型相匹配的模型,同時提供一個長一個數量級的上下文窗口。
MiniMax選擇了線性注意力機制。線性注意力機制是一種改進的注意力機制,旨在解決傳統基于softmax的注意力機制在處理長序列時的計算復雜度問題。線性注意力機制通過將計算復雜度降低到線性,使得模型能夠更高效地處理長序列數據。
線性注意力機制并非MiniMax首次提出,但是此前線性注意力機制主要是學術研究以及小規模試驗,MiniMax首次實現了將線性注意力機制模型的大規模訓練。
線性注意力機制并非完美。MiniMax在技術報告中提到,線性注意力機制在高效并行計算中存在限制,這可能解釋了為什么盡管這一理論存在了九年之久,但領先的開源大模型包括Llama-3.1、Qwen-2.5、DeepSeek-V3以及Mistral都沒有采用線性注意力機制。
MiniMax就是要解決線性注意力機制在大規模訓練后如何高效計算的問題。
MiniMax創始人、CEO閆俊杰去年曾表示:“在做Linear Attention的過程中,我們非常驚喜地發現,其實GPT-4o也是這么做的。”
2.架構、數據與計算
MiniMax雄心勃勃的目標需要仔細平衡多個因素:網絡架構、數據和計算。
首先看網絡架構設計。為了在有限資源內實現最佳性能并更好地處理更長序列,MiniMax采用了MoE方法,并盡可能多地使用線性注意力而不是標準Transformer中使用的softmax注意力。
MoE基礎的大型語言模型的訓練可以分為token-drop和dropless兩種。MiniMax采用token-drop策略來提高訓練效率。通過這種方法,每個專家被分配一個容量限制,指定它最多可以處理的token數量。一旦達到這個容量,任何額外路由到該專家的token將被丟棄。
對于注意力機制,經過廣泛的實驗,MiniMax最終選擇了一種混合架構,主要使用閃電注意力(Lightning Attention),這是一種線性注意力變體的I/O感知實現,由MiniMax團隊在2024年提出。在混合架構中,每七個使用閃電注意力的transnormer塊后,跟隨一個使用softmax注意力的transformer塊。
基于對擴展法則實驗、下游性能和速度比較的分析,MiniMax得出的結論是,雖然純線性注意力模型在計算上是高效的,但它們不適合LLMs。這是因為純線性注意力機制在檢索方面存在固有的不足,而這是LLMs中上下文學習所必需的。相比之下,MiniMax的混合模型不僅匹配而且超越了softmax注意力在檢索和外推任務中的能力。
在最終確定模型模塊的架構后,下一步是進行模型的規模擴展。MiniMax根據實際約束確定模型的總參數:能夠在單機上使用多達8個GPU和640GB內存,通過8位量化處理超過100萬個token。
在綜合考慮訓練資源、推理資源和最終模型性能,并在三者之間找到平衡,MiniMax在廣泛的實驗后確定了最終模型規格:4560億參數,459億激活,32個專家。
接下來就是計算的優化,包括訓練與推理。MiniMax透露了其訓練集群的規模:一個動態變化的GPU集群,其中H800 GPU的數量在1500到2500之間波動。
現有的分布式訓練和推理框架主要針對softmax注意力進行優化。然而,MiniMax的新架構集成了閃電注意力、softmax注意力和MoE,需要對訓練和推理框架進行徹底的重新設計。此外,框架必須具備支持訓練和推理數百億參數模型和數百萬token上下文窗口的能力。
MiniMax表示自己獨立且全面地重新發明了分布式訓練和推理框架,提出了針對MoE架構的優化策略,包括減少通信開銷、優化數據分布和管理推理時的批量輸入。這些優化策略使得模型能夠在大規模GPU集群上高效運行,在英偉達H20上端到端超過75%的模型浮點運算利用率(MFU),同時保持了模型性能和推理效率。
基于架構設計和計算優化,MiniMax訓練了最新版模型MiniMax-01。
3.訓練策略,以及User-in-the-loop
MiniMax-01具體是如何訓練出來的?MiniMax在報告中也給出詳細的過程。
預訓練過程從精心策劃和高質量語料庫的構建開始,通過嚴格的清理、基于獎勵的質量增強和更好的數據混合平衡進行驗證。為了充分利用架構的長上下文能力,MiniMax引入了超參數的深入分析,并提出了一個三階段訓練程序,成功將上下文窗口擴展到一百萬個token。
后訓練過程包括監督式微調(Supervised Fine-Tuning,簡稱SFT)、離線和在線強化學習(Reinforcement Learning,簡稱RL)。通過這些階段,MiniMax系統地使模型與定義的目標對齊。
在對齊階段,MiniMax通過精確調整獎勵維度和多階段訓練方法,激勵模型的各種能力,特別是在長上下文和實際場景方面。隨后,通過整合一個輕量級的視覺變換器(ViT)模塊,增強了語言模型的視覺能力,從而創建了視覺語言模型MiniMax-VL-01。MiniMax-VL-01通過額外的5120億視覺語言token進行訓練,采用四階段訓練過程。該訓練過程的最后階段專門設計用于優化用戶體驗。
在核心學術基準測試中,這兩個模型在文本和視覺語言任務中均達到了與封閉源代碼頂級模型相當的性能水平。
受益于架構創新,MiniMax的模型在處理長輸入的時候有非常高的效率,接近線性復雜度。和其他全球頂尖模型的對比如下:
當然,今天的測試集跑分數據很大程度上不能完全反映模型的真實能力。除了常見的刷榜之外,還有一個原因是學術評估缺乏對真實世界用戶交互的理解。
為此,MiniMax在技術報告中提出了在2023年就提過的“User-in-the-loop(用戶反饋數據驅動)”的模式。MiniMax專注于旗下C端AI智能助手工具海螺AI,通過基于真實案例的用戶參與循環評估來監控和提升用戶體驗,并適應工具以更好地在實際應用中實現可用性和性能。
MiniMax的研究表明,在學術基準測試和實際用戶體驗之間存在顯著差異,領先的開源和商業模型在用作交互助手時可能表現不佳。于是,MiniMax使用源自實際使用場景——主要來自海螺AI——的內部基準測試評估模型的性能,并顯示其模型在這些場景中處于頂級水平。
4.大模型的“六邊形戰士”
總結來說,MiniMax-01系列的兩個模型——MiniMax-Text-01和MiniMax-VL-01,在處理長上下文方面展現了頂級性能,同時提供了處理更長上下文的優越能力。
背后的核心創新在于閃電注意力及其高效的擴展能力。為了最大化計算能力,MiniMax將其與專家混合(MoE)集成,創建了一個擁有32個專家和4560億總參數的模型,其中每個token激活459億參數。
MiniMax為MoE和閃電注意力開發了優化的并行策略和高效的計算-通信重疊技術。這種方法使其能夠在跨越數百萬token的上下文中,對擁有數千億參數的模型進行高效的訓練和推理。MiniMax-Text-01的訓練上下文窗口可以達到100萬個token,并且在推理期間以可承受的成本外推到400萬個token。視覺-語言模型MiniMax-VL-01通過繼續訓練512億視覺-語言token構建而成。
MiniMax表示,其模型與GPT-4o和Claude-3.5-Sonnet等最先進模型的性能相匹配,同時提供了20-32倍更長的上下文窗口。
當然,MiniMax也提出了現有模型的局限性。
一是長上下文評估:當前長上下文檢索任務的評估數據集主要為人工或簡化場景設計,實際應用中如文檔分析的長文本推理能力的評估仍然有限。MiniMax計劃在更現實的設置中增強長上下文檢索,并在更廣泛的任務中擴展長上下文推理的評估。
二是模型架構:模型目前仍保留了1/8的組件使用傳統的softmax注意力。MiniMax表示正在研究更高效的架構,可以完全消除softmax注意力,可能實現無計算開銷的無限上下文窗口。
三是復雜編程任務:模型在高級編程任務上的性能需要改進,因為我們預訓練階段的編碼數據集仍然有限。MiniMax正在不斷改進訓練數據選擇和繼續訓練程序,以解決下一版本模型中的這些局限性。
可以說,MiniMax通過全面的基礎大模型布局——包括語言模型與視頻模型,以及海內外AI產品的布局——海螺AI、星野+Talkie,已經成為大模型領域的“六邊形戰士”。
不過,在OpenAI發布推理模型o1與o3之后,大模型的技術范式從預訓練擴展到了推理階段。國內不少大模型已經跟進,包括Kimi、DeepSeek、Qwen,以及科大訊飛今天剛剛發布的訊飛星火。MiniMax目前尚未發布相關模型。
此外,李開復近期公開表態放棄追求AGI。對于同為“六小虎”的MiniMax,不知又會做出什么選擇呢?
(封面圖來自MiniMax)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.