99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sup id="g3cdr"></sup>

<strong id="g3cdr"></strong>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

2025-07-17 12:54:17　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：Aeneas KingHZ

【新智元導讀】Transformer殺手來了？KAIST、谷歌DeepMind等機構剛剛發布的MoR架構，推理速度翻倍、內存減半，直接重塑了LLM的性能邊界，全面碾壓了傳統的Transformer。網友們直呼炸裂：又一個改變游戲規則的炸彈來了。

就在剛剛，KAIST、Mila和谷歌DeepMind團隊等放出重磅炸彈——

一個名為Mixture-of-Recursions的全新LLM模型架構。

這個嶄新的架構，被業內認為有潛力成為Transformer殺手！

它的推理速度提升2倍，訓練FLOP減少，KV緩存內存直接減半。

最終，在135M到1.7B的參數規模下，MoR直接劃出了一個新的帕累托前沿：相同的訓練FLOPs，但困惑度更低、小樣本準確率更高，并且吞吐量提升超過2倍。

全面碾壓傳統的Transformer！

論文鏈接：https://arxiv.org/abs/2507.10524

其實，學界很早就發現，Transformer復雜度太高，算力需求驚人。

比如最近CMU大牛、Mamba架構作者Albert Gu就表示，Transformer模型能力的局限太大，所謂token就是胡扯。

而谷歌產品負責人Logan Kilpatrick公開指出了注意力機制的缺陷——不可能實現無限上下文，還強調必須要在核心架構層進行全面創新。

今天谷歌DeepMind的這項研究，和這些大牛的觀點不謀而合了。

對此，網友們紛紛表示實在炸裂。

有人預測，潛在空間推理可能會帶來下一個重大突破。

顯然，對于代碼、數學、邏輯這類分層分解問題的任務，MoR都是一個改變游戲規則的重磅炸彈。

甚至還有人評論道：看起來像是Hinton的膠囊網絡重生了。

谷歌DeepMind放大招

遞歸魔法讓LLM瘦身還提速

LLM發展到如今，接下來該怎樣做？靠堆參數、加層數，讓它更聰明嗎？

這項研究告訴我們：真正的高手，從來都不是靠堆料，而是靠設計的藝術。

這次他們做出的MoR全新架構，直譯出來是「遞歸混合體」，直接讓LLM推理速度噌噌翻倍！

所以，MoR究竟做了什么？

簡而言之，它做了以下兩點。

1. 不對所有token一視同仁

LLM在處理文本時，會把句子拆成一個個token，不過，像「的」「是」「在」這種詞，并不需要多高深的推理，只需要一次前向傳播就夠了。而復雜的token，則需多次經過同一層棧。

MoR的聰明之處就在于，因token而異。

MoR的秘密武器是小型路由器，會為每個token的隱藏狀態打分，僅高分token的會繼續循環，其余的則提前退出。

2. 循環復用：一個模塊搞定全部

傳統Transformer的思路就是不斷「堆層」，堆得越高，處理能力越強。但這樣的代價，就是內存和算力：模型會越來越慢，越來越貴。

而MoR則反其道而行之，專門設計了共享塊，每個token最多循環4次，只要路由器說「完成」，就提前跳出循環。

總之，如果說Transformer是一個龐大的工廠流水線，那MoR就更像一支高效的特種部隊。未來的AI，恐怕不會再比拼誰更重，而是誰更會分工調度、節省力氣。

而谷歌DeepMind，已經敏銳地把握到了這一點，給我們演示了這一趨勢的早期范本。

真自適應計算

只靠Scaling law，把語言模型做大，確實能讓它能力暴漲，但訓練、部署所需的算力和成本也跟著暴漲。

現在常見的「瘦身」招數，要么是把參數共享（省顯存），要么是按需計算（省算力）。

但目前仍缺乏一種能將兩者有機融合的架構。

「遞歸混合」(Mixture-of-Recursions, MoR)，充分發揮了遞歸Transformer的潛力（見圖1），成功融合了兩者。

圖1：遞歸混合（Mixture-of-Recursions,MoR）概覽

（左）每個遞歸步驟包含固定層堆棧和決定token是否繼續遞歸的路由器（中間灰框區域）。

（中）完整模型結構，其中共享遞歸步驟根據路由決策對每個token最多應用次。

（右）展示token級遞歸深度的路由模式示例，顏色越深表示該token在遞歸塊中的計算越活躍。底部數字以不同顏色標注各文本token的遞歸步數：1步、2步和3步。

在統一的架構中，MoR同時實現了三種效率優化：

通過共享權重壓縮參數量；通過動態路由減少冗余計算；通過智能緩存減少內存開銷。

遞歸混合架構

在預訓練和推理過程中，MoR為每個token動態調整遞歸步驟，依賴兩大組件：

路由機制和KV緩存策略。

路由機制：專家選擇vs.token選擇

受top-k門控機制的啟發，研究人員提出了專家選擇路由（Expert-choice routing）（見圖2a）。

在這種模式下，遞歸深度可看作「專家」，每輪遞歸時這些專家會挑選它們認為最值得處理的top-k個token。

為了讓遞歸更具一致性，團隊還引入了分層篩選機制（hierarchical filtering）：只有在第r層中被選中的token，才有資格參與第r+1層的評估。

這一設計模擬了早退出機制，讓模型在訓練初期就能自動「篩選」出需要深度處理的token，把算力集中到最困難的token上。

與前者不同，token選擇路由（token-choice routing）（見圖2b），在一開始就決定了每個token要走多少次遞歸流程。

具體來說，根據第1層的隱藏狀態，模型會計算每個專家的打分（如通過softmax或sigmoid）。

假設有個專家，每個專家對應一次遞歸，那么模型將token分配給得分最高的專家。 token將被送入前i層遞歸，每層都按順序進行處理。

在這種方式中，token在進入網絡時就確定好遞歸深度，同時避免了每一層的重新選擇，提升了推理效率。

表2左比較了兩種方法：

expert-choice路由的優點在于，它可以實現理想的計算負載均衡。然而，它容易信息泄露。

相比之下，token-choice路由天然不會泄露信息。但這種方式負載分配不均。

表2：路由策略與鍵值緩存策略的比較。(左)兩種路由策略總結：專家選擇與令牌選擇；(右)緩存策略相對于普通Transformer的相對成本效率

圖2：混合遞歸（MoR）的架構組件。(a)專家選擇路由；(b)token自主選擇路由；(c)KV緩存策略

KV緩存策略：按遞歸層緩存vs.跨層共享

針對MoR模型，研究人員提出了兩種KV緩存策略：按遞歸層緩存和跨遞歸共享。

1.按遞歸層緩存（見圖2c上）是「選擇性緩存」：只有被路由到某一遞歸層的Token，才會在該層生成并存儲它的KV對。

注意力計算僅在當前遞歸層的緩存內進行，這種設計有助于實現局部化計算，顯著提升了內存使用效率，并減少I/O負擔。

2.跨遞歸共享（見圖2c）：只在第一個遞歸層生成并緩存KV對，然后在之后所有層中重復使用。這種機制下，每一層參與注意力計算的Query數量可能會減少。

也就是說，所有Token無論在后續層是否繼續參與計算，都可以完整地訪問歷史上下文，無需重新計算。

表2右對比了兩種緩存策略：

按遞歸層緩存：KV內存與I/O負擔，被壓縮為原來的一半左右。
跨遞歸共享：只能線性壓縮注意力計算量，而且KV的讀寫次數較高，可能會成為性能瓶頸。

表3：在等計算量與等token數條件下，MoR、遞歸Transformer、普通Transformer的比較

實驗

研究者從零開始預訓練模型，采用基于Llama的Transformer架構，參考了SmolLM開源模型的配置，在FineWeb-Edu的驗證集和六個few-shot基準測試集上進行了評估。

主要結果

在相同訓練計算預算下，MoR以更少參數優于基線模型

在相同的訓練預算（16.5e18 FLOPs）下，研究者將MoR模型與標準Transformer和遞歸Transformer進行了對比。

在四種模型規模（135M、360M、730M和1.7B參數）下，不同計算預算對應的驗證損失對如圖

如表3所示，MoR模型采用專家選擇路由和兩次遞歸（Nr=2），不僅在驗證損失上更低，在few-shot平均準確率上也優于標準基線。

這得益于MoR更高的計算效率，使其在相同FLOPs預算下能處理更多的訓練token。

在相同數據量下，MoR用更少計算量仍優于基線模型

為了隔離架構差異的影響，研究者在固定訓練token數量（20B）的前提下進行分析。

結果證實，在少了25%訓練FLOPs的情況下，MoR模型（=2）仍然實現了更低的驗證損失和更高的準確率，超越了標準和遞歸基線。

與標準基線相比，MoR模型的訓練時間減少了19%，峰值內存使用量降低了25%。

這就要歸功于專門設計的分層過濾機制和按遞歸進行的注意力機制。

此外，MoR的性能也會受路由與緩存策略的影響。

IsoFLOP分析

評估一種新模型架構設計的核心標準之一，是其在模型規模和計算量增長時，性能是否能持續提升。

因此，研究團隊全面對比了MoR與標準Transformer（Vanilla）和遞歸Transformer。

實驗設置

實驗的模型規模有四種：135M、360M、730M 和1.7B 參數。

對于遞歸Transformer和MoR配置，遞歸次數統一設為3。

在三個不同的計算預算下，進行預訓練：2e18、5e18和16.5e18 FLOPs。

MoR架構：可擴展且參數高效

如圖3所示，在所有參數規模和算預算力下，MoR始終優于遞歸基線模型。

盡管在最小規模（135M）時，MoR表現略遜于標準Transformer，但隨著模型規模擴大，這一差距迅速縮小。

當參數規模超過360M時，MoR不僅能夠與標準Transformer持平，甚至在低計算量和中等計算預算下，表現更加優越。

總體而言，這些結果表明，MoR具備良好可擴展性和高參數效率，可替代舊架構。

推理吞吐量評估

通過參數共享，MoR能利用連續深度批處理技術，在推理階段顯著提升了吞吐量。

這種機制在解碼過程中，舊序列完成后立刻填入新tokens，持續保持了GPU的高利用率。

實驗設置

在360M參數規模下，在不同遞歸深度（2、3和4）下，團隊測試了MoR模型。

利用深度批處理，MoR顯著提升推理吞吐量

如圖4a所示，在兩種設置下，MoR變體的推理吞吐量都超過了普通Transformer。

遞歸深度越高，越多tokens會提早退出，從而減少KV緩存的使用，進一步大幅提升了推理速度。例如，在最大批設置（=Max）下，MoR-4速度可提升2.06倍。

實驗表明，結合深度批處理機制與提前退出策略，可大幅加速MoR模型在實際的推理速度。

消融實驗等更多內容和細節，請參閱原文。

參考資料：

https://arxiv.org/abs/2507.10524

https://x.com/rohanpaul_ai/status/1945342236310561091

https://www.rohan-paul.com/p/landmark-research-from-google-deepmind

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
免剪輯直出！AI生成多角色同框對話視頻，動態路由精準綁定音頻

新智元 2025-07-17 12:54:31
0 跟貼 0

DeepMind讓AI當「上帝」，導演一場只有AI演員的「西部世界」

機器之心Pro 2025-07-16 13:55:45
0 跟貼 0

失敗147次后，他三天寫出萬能提示詞模板，600萬網友吵翻了

量子位 2025-07-13 17:09:11
0 跟貼 0
AI圈:OpenAI藏 Meta詐國產MoE崛起

新智元 2025-07-16 09:42:27
1 跟貼 1

離職工程師長文復盤：為什么OpenAI總能誕生偉大產品？

虎嗅APP 2025-07-18 03:48:06
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
DeepSeek如何改變世界？效率狂魔外，更有開源格局

雷科技 2025-03-11 16:49:46
2 跟貼 2

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
199 跟貼 199
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
思維鏈之父跳槽Meta，不只因為1億美元！離開OpenAI前泄天機

新智元 2025-07-18 06:30:06
0 跟貼 0
OpenAI反挖四位特斯拉、xAI、Meta高級工程師

機器之心Pro 2025-07-09 17:14:35
0 跟貼 0
我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
剛剛，奧特曼放出ChatGPT「統一智能體」！驚呼真AGI，最卷打工人來了

新智元 2025-07-18 06:31:16
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13
OpenAI發布ChatGPT智能體能幫金融分析師做PPT和EXCEL

財聯社 2025-07-18 04:02:35
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
VLA 推理新范式！一致性模型 CEED-VLA 實現四倍加速！

機器之心Pro 2025-07-16 18:31:44
0 跟貼 0
訓練步數翻倍=推理能力質變，小模型突破推理極限

機器之心Pro 2025-06-04 19:08:50
0 跟貼 0
大模型轉行土木工程！首個「打灰人」評估基準：檢驗讀、改工程圖紙能力

新智元 2025-07-18 06:27:15
0 跟貼 0
有望成為Transformer殺手,谷歌DeepMind架構MoR實現兩倍推理速度

機器之心Pro 2025-07-17 13:08:14
0 跟貼 0
Transformer危！谷歌MoR架構發布：內存減半推理速度還翻倍

量子位 2025-07-17 17:22:15
4 跟貼 4
OpenAI想收購的Windsurf，被谷歌DeepMind搶走了核心團隊

機器之心Pro 2025-07-16 14:59:39
0 跟貼 0
小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
641 跟貼 641
何小鵬和雷軍真正的塑料兄弟

雷科技 2025-06-06 21:23:05
65 跟貼 65
京東取消超時20分鐘免單服務

主持人楊楊 2025-07-17 19:21:06
2 跟貼 2
家長因女兒患惡性腫瘤致電動物園希望退年卡

澎湃新聞 2025-07-17 07:30:25
1403 跟貼 1403
中國上半年GDP優于預期！歐盟要制裁波音報復特朗普？

巨龍事記 2025-07-17 09:12:21
0 跟貼 0
比亞迪李云飛：要忙在正道上，拒絕陰陽

每日經濟新聞 2025-06-06 17:55:12
248 跟貼 248
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機器之心Pro 2025-06-11 19:17:56
0 跟貼 0
ChatGPT還沒學會打電話，谷歌搜索AI已經替你電話約服務，還會談價砍單！

新智元 2025-07-17 12:55:15
0 跟貼 0
男子搞不懂這種商業邏輯，一分錢一個的打火機，賠的連底褲都沒了

美妙一籮筐 2025-07-17 14:23:05
55 跟貼 55
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167

知名女歌手確診急性骨壞死，演唱會宣布取消

知名女歌手確診急性骨壞死，演唱會宣布取消

惠州全接觸

2025-07-17 15:20:46

高加索變天了，兩小國公然向俄羅斯索要領土

高加索變天了，兩小國公然向俄羅斯索要領土

史政先鋒

2025-07-17 17:28:41

“終身免費換電”承諾成空談？蔚來單方面取消高里程車主權益

“終身免費換電”承諾成空談？蔚來單方面取消高里程車主權益

大象新聞

2025-07-17 20:15:34

美媒：楊瀚森提升了三分這讓人驚訝他可能是開拓者下一個基石

美媒：楊瀚森提升了三分這讓人驚訝他可能是開拓者下一個基石

直播吧

2025-07-17 19:32:16

科貝：姆巴佩向五名法國警察捐贈18萬歐元；相關行為正受調查

科貝：姆巴佩向五名法國警察捐贈18萬歐元；相關行為正受調查

懂球帝

2025-07-17 19:43:05

京東：外賣0元購是嚴重內卷，屬惡性競爭

京東：外賣0元購是嚴重內卷，屬惡性競爭

界面新聞

2025-07-17 22:49:30

房子斌夫婦回應女兒高考成績，謙虛稱不至于夸耀，女兒長相很漂亮

房子斌夫婦回應女兒高考成績，謙虛稱不至于夸耀，女兒長相很漂亮

影視口碑榜

2025-07-17 18:52:20

被前高層挖坑？徐正源按約要求續3年+薪水翻倍！蓉城怕遭追責拒簽

被前高層挖坑？徐正源按約要求續3年+薪水翻倍！蓉城怕遭追責拒簽

我愛英超

2025-07-17 21:29:04

開拓者更新楊瀚森專訪：接觸了很多先進打法，和誰都能玩到一起去，最喜歡Jony J

開拓者更新楊瀚森專訪：接觸了很多先進打法，和誰都能玩到一起去，最喜歡Jony J

雷速體育

2025-07-17 18:28:49

中國赴日留學生奇葩論文：中國高速公路建設加劇兒童拐賣，便于人販子轉移

中國赴日留學生奇葩論文：中國高速公路建設加劇兒童拐賣，便于人販子轉移

可達鴨面面觀

2025-07-17 11:45:56

無意間刷到的「哺乳期上環女」，把我惡心壞了

無意間刷到的「哺乳期上環女」，把我惡心壞了

媒體人溪婉

2025-07-17 12:31:25

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

悠閑歷史

2025-07-17 15:27:11

把孩子塞后備箱的親爸全網社死！滿口謊言，人品崩塌，有更惡劣的

把孩子塞后備箱的親爸全網社死！滿口謊言，人品崩塌，有更惡劣的

不寫散文詩

2025-07-17 14:36:49

宗慶后杜建英香港舊照曝光，眼神拉絲同住一間房，那時宗馥莉才13

宗慶后杜建英香港舊照曝光，眼神拉絲同住一間房，那時宗馥莉才13

硯底沉香LIU

2025-07-18 03:48:22

雅迪、九號全網下架多款電動自行車經銷商：要開始生產新國標款式了

雅迪、九號全網下架多款電動自行車經銷商：要開始生產新國標款式了

紅星資本局

2025-07-17 11:30:08

沒有商量余地，特朗普訪華之行要涼？中方7字堅決，12國等收信函

沒有商量余地，特朗普訪華之行要涼？中方7字堅決，12國等收信函

boss外傳

2025-07-17 06:00:03

宗馥莉“清算式”接班全記錄：騰籠換鳥，掏空娃哈哈，讓對手控股變廢紙

宗馥莉“清算式”接班全記錄：騰籠換鳥，掏空娃哈哈，讓對手控股變廢紙

風向觀察

2025-07-17 20:03:37

旁白｜王喜民被錯當被告的十一個月

旁白｜王喜民被錯當被告的十一個月

澎湃新聞

2025-07-17 14:58:28

杜建英在美豪宅曝光！99年購入，宗馥莉留學住過，價值300萬美元

杜建英在美豪宅曝光！99年購入，宗馥莉留學住過，價值300萬美元

火山詩話

2025-07-17 19:05:28

鎮江一工廠發生火災，七層廠房被燒得只?？蚣?，官方回應

鎮江一工廠發生火災，七層廠房被燒得只?？蚣?，官方回應

極目新聞

2025-07-17 18:40:31

AI產業主平臺領航智能+時代

13088文章數 66098關注度

往期回顧全部

科技要聞

沒有老黃不夸的中國公司了吧？？

頭條要聞

知情人：宗慶后有個孩子2017年出生生母為年輕員工

頭條要聞

知情人：宗慶后有個孩子2017年出生生母為年輕員工

體育要聞

楊力維和楊舒予，是姐妹，也是戰友

娛樂要聞

又相信愛情了，董璇二婚現場照曝光！

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市奧迪A6L e-tron申報信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

家居

親子

公開課

軍事航空

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

家居要聞

空間分明時尚風格并存

浪漫典雅法式風格別墅
自由開闊生活需求塑造
悅己環境藝術融入生活

親子要聞

雙胞胎寶寶準備自己動手煮面條，你們覺得我做的對嗎？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

軍事要聞

美考慮援烏射程1000公里的導彈特朗普：莫斯科不能打

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：扎兰屯市| 尼木县| 西乌珠穆沁旗| 黔东| 沙坪坝区| 石门县| 三原县| 盱眙县| 东宁县| 革吉县| 抚顺市| 龙南县| 开江县| 米脂县| 长春市| 咸宁市| 文山县| 行唐县| 株洲市| 米脂县| 平谷区| 海门市| 抚州市| 资兴市| 吴川市| 汶川县| 焦作市| 十堰市| 京山县| 安义县| 安乡县| 政和县| 淮南市| 光泽县| 密云县| 应用必备| 太原市| 天津市| 林周县| 宜州市| 郧西县|

<s id="hqu3r"><li id="hqu3r"><menuitem id="hqu3r"></menuitem></li></s><sub id="hqu3r"><p id="hqu3r"><li id="hqu3r"></li></p></sub>

<sup id="hqu3r"></sup>

<blockquote id="hqu3r"></blockquote>

^{<blockquote id="hqu3r"></blockquote>}
<cite id="hqu3r"><rp id="hqu3r"><form id="hqu3r"></form></rp></cite>