谷歌 DeepMind 與韓國科學技術院(KAIST)的研究人員近日聯合發布了一種名為“Mixture-of-Recursions”(MoR)的新型語言模型架構。據稱能在保持模型性能的同時,實現了推理速度翻倍、訓練計算量減少并降低了約 50% 的 KV 緩存內存使用。論文一經發布,便在社交媒體上引發了廣泛關注,甚至有評論稱其或許是“Transformer 殺手”。
自 2017 年問世以來,Transformer 架構已成為大型語言模型的技術基礎,目前幾乎所有先進模型都建立在這一架構之上。但隨著模型規模越來越大,Transformer 架構對計算和內存資源的需求也日益增加,訓練和部署成本十分高昂。過去的效率優化方法通常只關注單一方向,例如通過參數共享來縮小模型尺寸,或通過自適應計算來按需分配算力,但很少能將多個效率目標同時優化。
MoR 架構的核心創新在于將遞歸計算與動態路由機制相結合,在一個統一框架內解決多重效率問題。在標準的 Transformer 模型中,輸入文本的每一個 token 都要經過相同數量的計算層處理。MoR 則改變了這一模式,它允許不同的 token 根據自身的復雜度,接受不同深度的處理。
圖丨MoR 架構的概覽(來源:arXiv)
具體來說,MoR 使用共享的參數塊來提升參數效率,同時通過一個輕量級的“路由器”,來決定每個 token 需要經歷多少次遞歸計算。研究團隊測試了多種路由策略,例如“專家選擇”(expert-choice)和“token 選擇”(token-choice),以平衡計算負載和避免信息處理中的邏輯問題。在參數共享方面,測試結果表明“Middle-Cycle”策略表現最好,該策略保持模型的第一層和最后一層使用獨立的參數,只在中間層之間共享權重,以此在參數效率和模型的表達能力之間取得較好的平衡。
圖丨MoR 的核心組件(來源:arXiv)
內存管理是 MoR 的另一項關鍵改進。即使參數共享了,傳統遞歸模型在每一層遞歸時仍會產生獨立的 KV 緩存,導致內存占用依然很高。MoR 提出了兩種新的 KV 緩存策略來應對這一問題。一種是“遞歸式緩存”,只為被路由到特定遞歸步驟的 token 存儲 KV 數據,并將注意力計算限制在這些本地數據中,從而有效降低了 KV 緩存的內存占用和數據讀寫量。另一種“遞歸共享”策略則更進一步,利用所有 token 都會經過第一個遞歸塊的特性,只在第一步緩存 KV 數據,供后續所有遞歸步驟重復使用,以此最大化地節省內存。
研究團隊在 1.35 億到 17 億參數的多個模型規模上進行了測試。結果表明,在相同的訓練計算預算下,一個采用 MoR 架構的模型,雖然其參數量比基準 Transformer 模型少了近一半,但在多項少樣本學習任務中的平均準確率達到了 43.1%,超過了基準模型的 42.3%。
(來源:arXiv)
更重要的是,MoR 更高的計算效率,使其能在相同的計算預算內處理更多的訓練數據,這反過來也提升了模型的最終性能。在固定訓練數據量的對比實驗中,一個 MoR 配置在使用少 25% 訓練計算量的情況下,其性能依然超過了基準模型,同時訓練時間減少了 19%,峰值內存使用也降低了 25%。
在推理性能上,MoR 的優勢更加明顯。它采用了一種連續深度批處理技術,可以將處在不同計算階段的 token 組合到同一個批次中進行處理,因為它們都使用相同的參數塊。該技術配合模型的早期退出機制,顯著提升了處理吞吐量。在 3.6 億規模的模型測試中,MoR-4 配置在特定設置下實現了高達 2.06 倍的推理加速。
研究還發現,MoR 模型在處理不同類型 token 時,表現出一種與語義重要性相關的模式。內容豐富的 token,如“People”或“defensively confident”,會被分配更多的遞歸次數(三次);而功能性詞匯,如“and”,通常只需要較少的遞歸次數。這表明,模型學會了將更多的計算資源用于處理更重要的信息。
實際上,MoR 的出現也離不開谷歌此前相關研究的鋪墊。在早前的 Mixture-of-Depths(MoD)等技術中,谷歌 DeepMind 就已經探索了動態分配計算資源的方法。同時,遞歸 Transformer 作為一種參數共享技術,也為 MoR 提供了理論基礎。
MoR 進一步延續了這些研究對 AI 效率優化的探索,即從單一維度的優化,轉向參數、計算和內存等多個維度的協同優化。這對于降低大語言模型的部署和使用成本具有較大的實際意義。
總體而言,雖然現在斷言 MoR 能否完全替代 Transformer 還為時過早,但它確實為未來的語言模型架構設計,提供了一個在性能和效率上都極具潛力的發展方向。
參考資料:
1.https://arxiv.org/abs/2507.10524
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.