99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

有望成為Transformer殺手,谷歌DeepMind架構MoR實現兩倍推理速度

0
分享至

機器之心報道

編輯:冷貓

大型語言模型已展現出卓越的能力,但其部署仍面臨巨大的計算與內存開銷所帶來的挑戰。隨著模型參數規模擴大至數千億級別,訓練和推理的成本變得高昂,阻礙了其在許多實際應用中的推廣與落地。

這促使研究者們圍繞兩個主要方向積極探索高效化技術:一是通過權重共享提升參數效率,二是根據輸入復雜度動態分配計算資源,實現自適應計算

而一切的基礎則是 Transformer 架構。這次谷歌又一次坐不住了,在遞歸 Transformer 的基礎上再次進化,發布了名為 Mixture-of-Recursions (MoR)的新 LLM 模型架構,有學者認為這個新架構「有潛力成為 Transformer 的殺手」



MoR 框架引入了一種統一方法,同時實現參數共享和自適應計算。與以往孤立處理參數減少或自適應計算的方法不同,MoR 將動態 token 級路由集成到參數高效的遞歸 Transformer 中,創建了一種協同架構,實現了「無需承擔大模型成本的大模型質量」。



  • 論文標題:Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
  • 論文鏈接:alphaxiv.org/abs/2507.10524

在本研究中,作者提出了Mixture-of-Recursions(MoR),一個統一框架,旨在充分發揮遞歸 Transformer 的潛力(如圖所示)。MoR 通過端到端訓練輕量級的路由,為每個 token 分配專屬的遞歸深度:即根據每個 token 所需的「思考」深度,決定共享參數模塊對其重復應用的次數,從而將計算資源精準地分配到最需要的部分。

這種基于 token 的動態遞歸機制,天然支持遞歸級的鍵值(KV)緩存,即根據每個 token 所分配的遞歸深度,有選擇地存儲和檢索對應的鍵值對。該定向緩存策略顯著降低了內存帶寬壓力,從而無需后處理操作就能提升推理吞吐量。

因此,MoR 在一個統一架構中同時實現了三項優化:

1.參數共享:通過權重綁定顯著減少參數量;

2.計算路由:通過 token 路由避免冗余計算(減少無效的 FLOPs);

3.遞歸級緩存:按需緩存鍵值對,降低內存訪問開銷,提升吞吐效率。

MoR 以此兼顧了性能、效率和計算資源利用率,是遞歸 Transformer 架構的重要演進



MoR 總覽

左圖顯示每個遞歸步驟由一組固定堆疊的層與一個路由(router)組成。路由會為每個 token 決定是繼續通過遞歸塊(進行下一輪遞歸),還是提前退出。圖中灰色方框表示的就是該遞歸模塊。

中圖展示了完整的模型結構。對于每個 token,模型會根據路由的決策,對共享的遞歸模塊最多重復應用 N_r 次,從而實現動態遞歸深度。

右圖 是一個 token 級的路由示例,展示了每個 token 的實際遞歸次數。顏色越深的單元格表示該 token 在當前遞歸步驟中被激活參與了計算。底部顯示了每個文本 token 實際經歷的遞歸次數,使用不同顏色編碼標注(如:紫色 1 次、藍色 2 次、紅色 3 次)。

核心架構與方法

遞歸 Transformer 模型基礎

MoR 基于遞歸 Transformer,通過跨多個層共享權重來實現參數效率,而不是為每一層維護唯一參數。

多種參數共享模式

循環:遞歸塊循環復用(例如,重復層 [0,1,2])

序列:每個塊連續地重用相同的層(例如,[0,0,0],[1,1,1])

中周期 / 中序列:保留首層和尾層的獨特參數,同時共享中間層權重的變體

中周期策略在經驗上被證明最為有效,在參數效率和模型表達能力之間提供了最佳平衡。

動態路由機制

MoR 的核心創新在于其動態路由系統,該系統根據單個 token 的計算需求分配不同的遞歸深度。實現了兩種主要的路由策略:

1、在每一個遞歸步驟 r,路由器 G 會對每個 token 當前的隱藏狀態進行評估,并選擇 top-k 的 token 繼續進入下一層遞歸。



這會形成一個逐步收窄的計算漏斗:復雜的 token 會接受更深層的處理,而簡單的 token 會更早退出計算。然而,這種方法在訓練過程中會面臨因果性挑戰,因此需要采用一些專門的技術:

  • 輔助路由(Auxiliary Router):一個單獨的輕量網絡,用于在推理階段預測 top-k 的選擇;
  • 輔助損失(Auxiliary Loss):采用二元交叉熵損失,鼓勵路由器輸出接近二值化,從而實現更清晰的閾值判斷。

2、Token 選擇路由(Token-Choice Routing):每個 token 在一開始就做出一次路由決策,以確定其完整的遞歸深度。這種方式天然滿足因果性要求,但需要引入負載均衡機制:

  • 均衡損失(Balancing Loss):正則項,用于鼓勵遞歸深度之間的均勻分布;
  • 路由偏置(Router Bias):在訓練過程中動態調整各專家的偏置項。

KV緩存優化

MoR 引入了兩種針對動態深度模型的專用 KV 緩存策略:

遞歸式 KV 緩存:在每個遞歸深度選擇性地緩存 KV 對,注意力僅限于本地緩存的 token:



遞歸 KV 共享:所有 token 都會遍歷第一個遞歸塊,該塊的 KV 對會被緩存并在后續遞歸中重用:



實驗結果

MoR 在相同計算預算下以更少參數優于基線模型

在等效的訓練預算(16.5 × 101? FLOPs)下,作者將 MoR 模型與 原始 Transformer 及遞歸 Transformer 進行了比較。如表 3 所示,MoR 模型采用「專家選擇路由」(expert-choice routing)和兩層遞歸(N_r = 2),實現了更低的驗證損失,并在少樣本學習平均準確率上超越基線(43.1% 對比 42.3%)。值得注意的是,盡管參數量減少近 50%,MoR 依然取得了更優性能。這一優勢歸因于其更高的計算效率,使其在相同 FLOPs 預算下處理了更多訓練 token。



在固定 FLOPs(16.5e18)與固定 token 數(20B)兩種設定下,對 MoR、遞歸 Transformer(Recursive)和標準 Transformer(Vanilla)進行了對比。

MoR 在相同數據下以更少計算超越基線模型

為了單獨分析架構差異,作者在固定訓練 token 數量(20B)下進行評估。結果顯示,MoR 模型(N_r = 2)在使用比基線模型少 25% 的 FLOPs情況下,仍實現了更低的驗證損失和更高的準確率。

這種理論上的效率優勢在實踐中帶來了顯著提升:相比于基線模型,MoR 的訓練時間減少 19%,峰值內存使用量下降 25%。這些改進來源于 MoR 的層級過濾機制與遞歸注意力策略,有效縮短了序列長度,實現了更優的計算 - 準確率平衡,甚至在預訓練階段亦是如此。

MoR 性能受路由與緩存策略影響

作者還評估了 MoR 架構下的一些設計變體,特別是在輕量級的三層遞歸設置(N_r = 3)下仍具可比性的 Vanilla 模型。結果顯示,采用「token 選擇路由」時準確率較低(40.0%),而「專家選擇路由」表現更好(42.6%),表明路由粒度對模型性能具有關鍵影響。

此外,采用 KV 緩存共享略微降低了性能,但顯著提升了內存效率。在對內存占用有要求的部署場景中,這種性能與資源之間的權衡是值得接受的。



不同計算預算下的驗證損失,在四種模型規模(135M、360M、730M 和 1.7B 參數量)下進行對比。

MoR 是一種可擴展且參數高效的架構

如圖所示,MoR 在所有模型規模和計算預算下都穩定優于遞歸基線模型。盡管在最小規模(135M)下表現略低于原始 Transformer(可能由于遞歸容量瓶頸所致),但這種差距隨著模型規模的擴大迅速縮小。在參數量超過 360M 時,MoR 不僅能夠追平,而且在低至中等預算下常常超越原始 Transformer。

結果表明:MoR 是標準 Transformer 的一種可擴展且高效的替代方案

它在使用顯著更少參數的情況下,取得了優異的驗證性能,因而非常適合用于預訓練以及大規模部署。

MoR 通過連續深度批處理提升推理吞吐量

如圖 4a 所示,在上述兩種批處理設置下,所有 MoR 變體的推理吞吐量均高于 Transformer 基線模型。

隨著遞歸深度的增加,更多 token 可在早期階段退出,從而減少 KV 緩存的使用。這一機制顯著提升了推理速度:

例如,MoR-4 在最大批量配置下的吞吐量提升可達 2.06 倍

雖然這伴隨著輕微的性能下降,但考慮到吞吐量的大幅提升,這種權衡是值得的。

實驗結果表明:將深度方向批處理范式與提前退出機制相結合,能夠顯著提升 MoR 在實際部署場景中的推理吞吐能力。



圖中 (a) 在固定批量和最大批量設置下,MoR 與原始 Transformer 在推理吞吐量與對數似然(log-likelihood)之間的帕累托前沿(Pareto frontier)表現對比。

(b) 參數共享策略對遞歸 Transformer 的影響:展示了遞歸次數為 = 3 的遞歸 Transformers 在四種不同參數共享策略下的負對數似然(NLL)表現。這些模型在 100 億 token 上預訓練。圖中紅色虛線表示完整規模的原始 Transformer,黑色虛線表示參數量約為其三分之一的基線模型。

(c) 四種不同架構在啟用 KV 緩存共享時的 NLL 表現對比。其中:

  • MoR 的綠色表示禁用遞歸級 KV 緩存(recursion-wise KV caching),
  • 藍色表示啟用遞歸級 KV 緩存共享(recursive KV sharing);
  • MoR-E 表示采用專家選擇路由(expert-choice routing)的 MoR,
  • MoR-T 表示采用 token 選擇路由(token-choice routing)的 MoR。

另有消融實驗,請參照原論文。

總結與討論

MoR 通過證明參數效率和自適應計算可以協同結合,為高效的 LLM 架構建立了一種新的范例。該框架實現大型模型質量的同時顯著降低了計算需求的能力,解決了語言建模中的基本可擴展性挑戰。

最重要的是,MoR 為開發更具認知啟發性的 AI 系統提供了基礎。其在生成過程中能夠按每個 token 自適應地分配「思考深度」的能力,與語言模型中新興的潛在推理和內部思考研究相一致。這表明 MoR 可以作為一個平臺,用于研究模型如何學會在保持常規任務效率的同時,更深入地思考復雜問題。

該方法的確提高了推理速度,降低了 KV 緩存,但其是否能被稱為「Transformer 殺手」,仍然存在很多質疑。





更多細節內容,請參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國男籃2分惜敗!郭士強遭遇大逆轉,廖三寧被罰下,徐昕出場

中國男籃2分惜敗!郭士強遭遇大逆轉,廖三寧被罰下,徐昕出場

體壇瞎白話
2025-07-17 09:09:38
空調開一整天,需要每天關1小時讓它歇歇嗎?答案太意外了!

空調開一整天,需要每天關1小時讓它歇歇嗎?答案太意外了!

阿傖說事
2025-07-05 11:12:30
“大而美”法案確實是挽救美國的猛藥,但也可能一腳油門把美國送進“動物園”

“大而美”法案確實是挽救美國的猛藥,但也可能一腳油門把美國送進“動物園”

觀雨大神經
2025-07-16 20:19:42
廣東要求18日20時前全省海域漁船全部回撤

廣東要求18日20時前全省海域漁船全部回撤

環球網資訊
2025-07-17 23:12:11
英偉達向中國賣芯片,阿斯麥表態

英偉達向中國賣芯片,阿斯麥表態

觀察者網
2025-07-17 08:28:49
“真是自取其辱”,寶媽帶娃去清華旅游,被40元套餐搞到心態崩潰

“真是自取其辱”,寶媽帶娃去清華旅游,被40元套餐搞到心態崩潰

熙熙說教
2025-07-16 20:14:11
塞斯·庫里:我要做對自己最有利的事,斯蒂芬會很樂意我過去和他并肩作戰

塞斯·庫里:我要做對自己最有利的事,斯蒂芬會很樂意我過去和他并肩作戰

雷速體育
2025-07-18 07:00:13
面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

面相全變了!再看41歲王珞丹和41歲白百何,才明白兩人"差別"在哪

深析古今
2025-03-23 15:52:30
美考慮援烏射程1000公里巡航導彈,特朗普:莫斯科不能打

美考慮援烏射程1000公里巡航導彈,特朗普:莫斯科不能打

文匯報
2025-07-16 23:54:20
金球獎還有反轉?最新賠率榜更新,登貝萊優勢縮小,帕爾默第四

金球獎還有反轉?最新賠率榜更新,登貝萊優勢縮小,帕爾默第四

祥談體育
2025-07-17 11:15:48
兩位單身陪讀媽媽,為引導青春期兒子,達成了瘋狂而齷齪的決定

兩位單身陪讀媽媽,為引導青春期兒子,達成了瘋狂而齷齪的決定

金花食雜店秘聞
2025-07-13 15:49:58
WTO有點過時了,如今 CPTPP成為香餑餑!我們要二次申請了……

WTO有點過時了,如今 CPTPP成為香餑餑!我們要二次申請了……

翻開歷史和現實
2025-07-16 20:57:29
米利托給33歲老將設置1.22億歐違約金,創阿根廷足壇紀錄

米利托給33歲老將設置1.22億歐違約金,創阿根廷足壇紀錄

雷速體育
2025-07-17 11:24:40
中紀委再劃紅線!公職人員這3種行為要不得,一碰就翻車!

中紀委再劃紅線!公職人員這3種行為要不得,一碰就翻車!

細說職場
2025-07-17 12:39:07
正式退出,全紅嬋離開國家隊?到處玩耍,誰注意周繼紅回應

正式退出,全紅嬋離開國家隊?到處玩耍,誰注意周繼紅回應

懂球社
2025-07-16 17:21:33
被美國罰款531億,身家仍2300億,趙長鵬背后的女人終于藏不住了

被美國罰款531億,身家仍2300億,趙長鵬背后的女人終于藏不住了

毒sir財經
2025-04-10 21:52:38
男孩被塞后備箱續:后媽小三上位,被扒后失業,親爸力證很愛兒子

男孩被塞后備箱續:后媽小三上位,被扒后失業,親爸力證很愛兒子

吭哧有力
2025-07-17 15:23:56
宗馥莉的媽媽,盡管一千萬個不愿意,卻阻止不了她成為真正狠人

宗馥莉的媽媽,盡管一千萬個不愿意,卻阻止不了她成為真正狠人

硯底沉香LIU
2025-07-18 03:43:52
坐綠豆的光屁股娃“社會性死亡”:寶媽底褲被扒,囂張不起來了

坐綠豆的光屁股娃“社會性死亡”:寶媽底褲被扒,囂張不起來了

史行途
2025-07-16 15:58:34
官方:上海海港簽下中國香港邊后衛亞歷斯祖

官方:上海海港簽下中國香港邊后衛亞歷斯祖

懂球帝
2025-07-17 19:11:12
2025-07-18 07:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10889文章數 142384關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

頭條要聞

知情人:宗慶后有個孩子2017年出生 生母為年輕員工

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

健康
家居
數碼
房產
游戲

呼吸科專家破解呼吸道九大謠言!

家居要聞

空間分明 時尚風格并存

數碼要聞

倍思同芯充Pro充電頭登場:45W氮化鎵,預購價138元

房產要聞

突發!海航陳峰被判12年,罰2.2億!

魔獸懷舊服:HICC小怪削弱繼承,雙天賦出現BUG,0buff將持續四周

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鲜城| 西青区| 伊宁县| 平罗县| 临澧县| 福建省| 中江县| 新绛县| 寻乌县| 龙里县| 禹州市| 盱眙县| 襄樊市| 石嘴山市| 阜平县| 临湘市| 英德市| 原阳县| 尼勒克县| 当阳市| 扬中市| 土默特右旗| 桃园市| 东海县| 奉贤区| 鹤岗市| 同心县| 萨迦县| 呼和浩特市| 六安市| 重庆市| 青田县| 普兰县| 昔阳县| 石屏县| 郎溪县| 平武县| 乳山市| 合江县| 乡宁县| 怀集县|