網易首頁 > 網易號 > 正文申請入駐

谷歌發布新架構，用一半內存實現推理速度翻倍

2025-07-17 17:49:23　來源: DeepTech深科技

北京舉報

分享至

谷歌 DeepMind 與韓國科學技術院（KAIST）的研究人員近日聯合發布了一種名為“Mixture-of-Recursions”（MoR）的新型語言模型架構。據稱能在保持模型性能的同時，實現了推理速度翻倍、訓練計算量減少并降低了約 50% 的 KV 緩存內存使用。論文一經發布，便在社交媒體上引發了廣泛關注，甚至有評論稱其或許是“Transformer 殺手”。

自 2017 年問世以來，Transformer 架構已成為大型語言模型的技術基礎，目前幾乎所有先進模型都建立在這一架構之上。但隨著模型規模越來越大，Transformer 架構對計算和內存資源的需求也日益增加，訓練和部署成本十分高昂。過去的效率優化方法通常只關注單一方向，例如通過參數共享來縮小模型尺寸，或通過自適應計算來按需分配算力，但很少能將多個效率目標同時優化。

MoR 架構的核心創新在于將遞歸計算與動態路由機制相結合，在一個統一框架內解決多重效率問題。在標準的 Transformer 模型中，輸入文本的每一個 token 都要經過相同數量的計算層處理。MoR 則改變了這一模式，它允許不同的 token 根據自身的復雜度，接受不同深度的處理。

圖丨MoR 架構的概覽（來源：arXiv）

具體來說，MoR 使用共享的參數塊來提升參數效率，同時通過一個輕量級的“路由器”，來決定每個 token 需要經歷多少次遞歸計算。研究團隊測試了多種路由策略，例如“專家選擇”（expert-choice）和“token 選擇”（token-choice），以平衡計算負載和避免信息處理中的邏輯問題。在參數共享方面，測試結果表明“Middle-Cycle”策略表現最好，該策略保持模型的第一層和最后一層使用獨立的參數，只在中間層之間共享權重，以此在參數效率和模型的表達能力之間取得較好的平衡。

圖丨MoR 的核心組件（來源：arXiv）

內存管理是 MoR 的另一項關鍵改進。即使參數共享了，傳統遞歸模型在每一層遞歸時仍會產生獨立的 KV 緩存，導致內存占用依然很高。MoR 提出了兩種新的 KV 緩存策略來應對這一問題。一種是“遞歸式緩存”，只為被路由到特定遞歸步驟的 token 存儲 KV 數據，并將注意力計算限制在這些本地數據中，從而有效降低了 KV 緩存的內存占用和數據讀寫量。另一種“遞歸共享”策略則更進一步，利用所有 token 都會經過第一個遞歸塊的特性，只在第一步緩存 KV 數據，供后續所有遞歸步驟重復使用，以此最大化地節省內存。

研究團隊在 1.35 億到 17 億參數的多個模型規模上進行了測試。結果表明，在相同的訓練計算預算下，一個采用 MoR 架構的模型，雖然其參數量比基準 Transformer 模型少了近一半，但在多項少樣本學習任務中的平均準確率達到了 43.1%，超過了基準模型的 42.3%。

（來源：arXiv）

更重要的是，MoR 更高的計算效率，使其能在相同的計算預算內處理更多的訓練數據，這反過來也提升了模型的最終性能。在固定訓練數據量的對比實驗中，一個 MoR 配置在使用少 25% 訓練計算量的情況下，其性能依然超過了基準模型，同時訓練時間減少了 19%，峰值內存使用也降低了 25%。

在推理性能上，MoR 的優勢更加明顯。它采用了一種連續深度批處理技術，可以將處在不同計算階段的 token 組合到同一個批次中進行處理，因為它們都使用相同的參數塊。該技術配合模型的早期退出機制，顯著提升了處理吞吐量。在 3.6 億規模的模型測試中，MoR-4 配置在特定設置下實現了高達 2.06 倍的推理加速。

研究還發現，MoR 模型在處理不同類型 token 時，表現出一種與語義重要性相關的模式。內容豐富的 token，如“People”或“defensively confident”，會被分配更多的遞歸次數（三次）；而功能性詞匯，如“and”，通常只需要較少的遞歸次數。這表明，模型學會了將更多的計算資源用于處理更重要的信息。

實際上，MoR 的出現也離不開谷歌此前相關研究的鋪墊。在早前的 Mixture-of-Depths（MoD）等技術中，谷歌 DeepMind 就已經探索了動態分配計算資源的方法。同時，遞歸 Transformer 作為一種參數共享技術，也為 MoR 提供了理論基礎。

MoR 進一步延續了這些研究對 AI 效率優化的探索，即從單一維度的優化，轉向參數、計算和內存等多個維度的協同優化。這對于降低大語言模型的部署和使用成本具有較大的實際意義。

總體而言，雖然現在斷言 MoR 能否完全替代 Transformer 還為時過早，但它確實為未來的語言模型架構設計，提供了一個在性能和效率上都極具潛力的發展方向。

參考資料：

1.https://arxiv.org/abs/2507.10524

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.