99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<progress id="0kmv0"><noscript id="0kmv0"></noscript></progress>

<sup id="0kmv0"><rt id="0kmv0"></rt></sup>

<strong id="0kmv0"><track id="0kmv0"></track></strong>

<blockquote id="0kmv0"><i id="0kmv0"><video id="0kmv0"></video></i></blockquote>

<sub id="0kmv0"></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Transformer危！谷歌MoR架構發布：內存減半推理速度還翻倍

2025-07-17 17:22:15　來源: 量子位

北京舉報

0

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

超越Transformer，谷歌推出全新底層架構——

Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV內存直接減半！

而且All in One，首次在單一框架中實現，用同一組參數處理不同任務的同時，進行動態分配計算資源。

就像給LLM開了個雙層增強buff，模型性能和效率全都要。

谷歌DeepMind聯合KAIST AI、Mila人團隊通過統一參數共享、自適應遞歸深度和高效KV緩存，在保持大模型性能的同時降低計算和內存成本，形成新的效率最優解。

不少網友甚至將它形容為Transformer Killer。

更有甚者表示，該架構的出現或許能代表，潛在空間推理也許將會成為下一個LLM突破所在。

具體MoR創新在哪些方面？下面一一詳解。

MoR：首次統一參數共享與自適應計算

Transformer的出現雖然帶來了優秀的少樣本泛化和推理能力，但隨之而來龐大的計算和內存需求還是讓訓練和部署成為難題。

目前相關優化方法主要是參數共享和自適應計算，但往往只能二選一，無法同時兼顧。

于是研究人員提出了遞歸混合模型MoR，可以在單一遞歸Transformer中同時融合兩個效率維度。

首先采用的遞歸Transformer，相比通過多個獨特層構建token的標準Transformer，其直接將模型劃分為遞歸塊，復用一組共享參數池。

主要包含三種參數共享策略：

Cycle：循環復用層。
Sequence：連續復用同一層。
Middle變體：保留首尾層獨特參數，僅共享中間層。

利用參數共享，可以減少獨特參數數量，提升分布式訓練效率，并通過連續深度批處理消除計算 “氣泡”，提高推理吞吐量。

然后MoR采用動態路由機制，通過輕量級路由器為每個token分配不同遞歸深度，并集中計算在復雜token上，可以分為兩種：

Expert-choice路由：將每個遞歸步驟視作 “專家”，基于隱藏狀態計算分數，通過閾值選擇合適的token繼續計算，采用層級過濾，優先為復雜token分配計算。
Token-choice路由：初始階段為每個token分配固定遞歸深度，通過softmax/sigmoid確定專家，然后token按分配深度依次完成遞歸。

另外，MoR本身還借助KV緩存策略，管理鍵值的存儲與使用，同時確保內存效率的提升：

Recursion-wise緩存：僅緩存當前遞歸步驟中活躍token的KV對，將注意力計算限制在本地緩存，降低內存和IO需求。
Recursive KV共享：復用首次遞歸的KV對供后續步驟使用，確保所有token可訪問歷史上下文，減少預填充操作，而此時注意力計算量下降幅度較小。

在三種策略共同作用下，MoR通過在解碼每個token時直接進行潛在思考，路由機制讓模型能進行自適應推理，突破了先前固定思考深度的限制，實現了參數效率與自適應計算的統一。

性能超越Transformer

研究人員在135M到1.7B不同參數規模的模型上，就原始Transformer、遞歸基線模型和MoR進行對比實驗。

實驗表明，在相同的16.5e18 FLOPs的訓練預算下，MoR使用了將近50%的更少參數，但實現了更低的驗證損失和更高的平均少樣本準確率43.1%。

而vanilla模型的少樣本準確率此時是42.3%，說明MoR擁有更高的計算效率，可以在相同FLOPs預算下處理更多訓練token。

在訓練固定的20B token時，MoR也減少了25%的訓練FLOPs，訓練時間還縮短了19%，峰值內存減少25%。

另外，通過分析路由策略，發現Expert-choice路由的性能會在一定程度上優于Token-choice路由，說明路由粒度會對性能產生重要影響。

研究人員還對MoR進行了IsoFLOP分析，發現在135M、360M、730M和1.7B參數規模，以及2e18、5e18、16.5e18的FLOPs預算下，MoR始終優于遞歸基線模型。

雖然受遞歸容量瓶頸限制，在135M時略遜于vanilla模型，但在360M及規模的進一步擴大，MoR性能接近甚至超過Vanilla模型，且參數僅為后者的1/3，驗證了MoR的可擴展性。

在推理吞吐量評估上，360M規模的MoR模型在固定批大小和最大批大小設置下，均優于vanilla。

遞歸深度的增加讓更多token提前退出，KV緩存占用減少，吞吐量顯著提升，驗證了深度批處理與早期退出結合對部署效率的提升。

谷歌對底層架構的再思考

這已經不是谷歌第一次對底層架構進行重新思考，甚至可以說，谷歌始終希望利用架構創新重構計算范式，重新尋找AI新的平衡。

例如混合專家模型（MoE）正是這一理念的集中體現。

最早是在2017年，谷歌首次將MoE引入LSTM層，通過稀疏門控機制，僅激活部分專家網絡從事輸入處理，但仍能讓參數量高達137B的模型保持高效訓練。

后面推出的GShard將MoE與Transformer結合，可實現動態負載均衡，2021年的Switch Transformer又進一步地簡化了路由機制。

而Gemini 1.5 Pro就是采用的分層MoE架構，將專家網絡與多模態處理深度結合，可以處理更為復雜的多模態任務，訓練和服務效率也得到顯著提升。

MoE的底層邏輯設計突破了傳統全連接模型的計算缺陷，現在已經成為了許多超大規模模型的優先選擇，為應對算力瓶頸提供了新范式。

另外還有像TokenFormer等可擴展架構，將模型參數視為可學習的token，通過增量訓練無縫擴展模型規模，為未來千億級模型的低成本迭代提供了可能。

所以有網友認為，關于谷歌如今推出的MoR，會在未來徹底改變AI世界規則，會超越Transformer嗎？一切交給時間驗證。

參考鏈接：
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

有望成為Transformer殺手,谷歌DeepMind架構MoR實現兩倍推理速度

機器之心Pro 2025-07-17 13:08:14
0 跟貼 0
1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

量子位 2025-07-17 14:34:39
4 跟貼 4

10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6

Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
0 跟貼 0
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
0 跟貼 0

搜狗輸入法2025表情包年中盤點：哪個最能戳中你的心？

雷科技 2025-07-17 22:00:32
0 跟貼 0

Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

新智元 2025-07-17 12:54:17
6 跟貼 6
家長因女兒患惡性腫瘤致電動物園希望退年卡

澎湃新聞 2025-07-17 07:30:25
1197 跟貼 1197

Digital Foundry 分析：索尼 PS6 主機配備 24GB 內存是合理選擇

IT之家 2025-07-17 21:16:30
1 跟貼 1
數毛社：下一代主機PS6很可能配備24GB內存

3DM游戲 2025-07-17 22:07:31
2 跟貼 2
《賽博朋克 2077：終極版》登陸蘋果Mac，App Store售82.9美元

IT之家 2025-07-18 00:06:03
0 跟貼 0
數毛社預測：PS6內存提升不會太大估計就24GB

游民星空 2025-07-17 22:35:30
0 跟貼 0
印度官宣對華重大勝利：他們有意贈送五架陣風，卻換來殲10參數

幽棠的趣式 2025-07-16 04:07:37
0 跟貼 0
想給iPhone擴內存，有些事必須要注意

X科技實驗室 2025-07-14 19:00:42
0 跟貼 0
ChatGPT還沒學會打電話，谷歌搜索AI已經替你電話約服務，還會談價砍單！

新智元 2025-07-17 12:55:15
0 跟貼 0
7月16日，上海網友發視頻稱，一群老人在麥當勞打牌。網友：用餐的人都沒地方坐。（編輯：琳琳）#麥當勞

中安在線 2025-07-17 11:55:36
8933 跟貼 8933
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
印度宣布重大戰果，殲10C等核心參數共享給盟友

琴琴有氧運動 2025-07-16 00:27:44
0 跟貼 0
蔡正元對我們的新款殲20S性能參數真是如數家珍，滿滿的自豪感！

爆笑星空 2025-07-15 05:10:32
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
SR-72速度驚人，解放軍擔憂中國衛星追蹤其模型進展

蕭鮖記錄風土人情 2025-07-16 00:17:30
0 跟貼 0
DeepSeek如何改變世界？效率狂魔外，更有開源格局

雷科技 2025-03-11 16:49:46
2 跟貼 2
全國一體化算力網探索與研究

通信世界 2025-04-23 15:02:10
0 跟貼 0
關于x的根式方程有解，求參數的取值范圍

三樂大掌柜 2025-07-17 07:47:58
3 跟貼 3
免費、開源！谷歌Gemini CLI

機器之心Pro 2025-06-26 14:16:59
0 跟貼 0
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機器之心Pro 2025-06-11 19:17:56
0 跟貼 0
谷歌將斥資超30億美元從資管巨頭博楓旗下水電廠購電，用于運營數據中心

界面新聞 2025-07-15 18:59:32
0 跟貼 0
谷歌CEO：中國在AI前沿競爭力不容忽視

財聯社 2025-05-19 17:56:27
0 跟貼 0
谷歌走在通往AGI的路上，哈薩比斯：一個艱難但正確的決定

機器之心Pro 2025-05-23 13:40:49
0 跟貼 0
沒有動力來源的模型飛機居然奇跡的載人飛了起來

酷啵追影 2025-07-16 17:27:56
1 跟貼 1
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
1476 跟貼 1476
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
經濟大省半年報：廣東為何越來越好？

新快報新聞 2025-07-17 10:20:46
318 跟貼 318
伊朗外長：感謝中方

環球時報 2025-07-17 10:34:38
102 跟貼 102
4600萬元的村企，被“明星書記”搞垮了

中國新聞周刊 2025-07-17 18:50:40
607 跟貼 607
華為、阿里之后，寶馬與中國科技公司Momenta牽手，雙方將基于國產寶馬新世代車型的智能架構和硬件平

封面新聞 2025-07-15 11:48:38
0 跟貼 0
又一開源AI神器！將機器學習論文自動轉為可運行代碼庫

量子位 2025-05-01 11:42:03
30 跟貼 30
強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0
莊建球當選鄭州市市長

澎湃新聞 2025-07-17 17:05:35
43 跟貼 43
第44集-通過廢棄架構改造成一座讓家人居住的莊園

一縷欣光的荒野生存 2025-07-17 21:17:32
3 跟貼 3

京東：外賣0元購是嚴重內卷，屬惡性競爭

京東：外賣0元購是嚴重內卷，屬惡性競爭

界面新聞

2025-07-17 22:49:30

中聯重科否認囂張男子是其員工，網友從員工合照那找到了他

中聯重科否認囂張男子是其員工，網友從員工合照那找到了他

映射生活的身影

2025-07-17 13:55:54

娃哈哈危機發酵：“布鞋首富”被曝有7個孩子，宗馥莉曾絕食對抗父親，宗慶后去世時捧靈牌與骨灰者為宗繼昌

娃哈哈危機發酵：“布鞋首富”被曝有7個孩子，宗馥莉曾絕食對抗父親，宗慶后去世時捧靈牌與骨灰者為宗繼昌

金融界

2025-07-17 08:29:49

“北大慘遭滑鐵盧！”內蒙招生零投檔，家長：沒有人愿意當炮灰！

“北大慘遭滑鐵盧！”內蒙招生零投檔，家長：沒有人愿意當炮灰！

知曉科普

2025-07-17 09:24:55

不到倆月獲利上億！河南小伙靠假煙狂賺，投入200萬不到一周回本

不到倆月獲利上億！河南小伙靠假煙狂賺，投入200萬不到一周回本

明月聊史

2025-07-17 14:31:40

加州州長跳腳：特朗普這是把未來交給中國，休想

加州州長跳腳：特朗普這是把未來交給中國，休想

觀察者網

2025-07-17 22:46:42

特朗普催可口可樂加蔗糖：82年的可樂，才是經典味道？

特朗普催可口可樂加蔗糖：82年的可樂，才是經典味道？

后廠村胖胖

2025-07-17 18:43:59

雅迪、九號全網下架多款電動自行車經銷商：要開始生產新國標款式了

雅迪、九號全網下架多款電動自行車經銷商：要開始生產新國標款式了

紅星資本局

2025-07-17 11:30:08

有網友曝宗慶后帶杜建英香港工作舊照，開一間房，那時就初見端倪

有網友曝宗慶后帶杜建英香港工作舊照，開一間房，那時就初見端倪

夢史

2025-07-17 15:23:06

宗慶后爺爺做過漢奸，但娃哈哈多次打愛國牌

宗慶后爺爺做過漢奸，但娃哈哈多次打愛國牌

合贊歷史

2025-07-17 13:57:57

7月17日俄烏：俄羅斯又出招了

7月17日俄烏：俄羅斯又出招了

山河路口

2025-07-17 17:36:58

宗慶后早與杜建英離婚！原因出在宗馥莉身上，去世時庶長子捧骨灰

宗慶后早與杜建英離婚！原因出在宗馥莉身上，去世時庶長子捧骨灰

說說史事

2025-07-17 16:25:17

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

官媒曝宗慶后私生活，72歲色心不改，網友：被4房姨太太掏空身體

悠閑歷史

2025-07-17 15:27:11

手段真高！宗慶后老員工曝更多內情，原來宗馥莉早就掀桌了

手段真高！宗慶后老員工曝更多內情，原來宗馥莉早就掀桌了

果娛

2025-07-17 11:58:12

大鵬《長安的荔枝》首波口碑出爐！看完我想只說：爛不是沒有理由

大鵬《長安的荔枝》首波口碑出爐！看完我想只說：爛不是沒有理由

小丸子的娛樂圈

2025-07-17 17:28:20

臺風直沖廣東，最強或達12級，本周日距佛山最近！連續多日有大到暴雨

臺風直沖廣東，最強或達12級，本周日距佛山最近！連續多日有大到暴雨

珠江時報

2025-07-17 13:31:58

永州一女子被打還手后被處拘留，起訴公安局，法院：屬正當防衛，撤銷處罰

永州一女子被打還手后被處拘留，起訴公安局，法院：屬正當防衛，撤銷處罰

極目新聞

2025-07-17 10:21:16

娃哈哈大戰升級！杜建英出手，港媒曝宗馥莉雙重國籍，曬購房記錄

娃哈哈大戰升級！杜建英出手，港媒曝宗馥莉雙重國籍，曬購房記錄

談史論天地

2025-07-17 07:49:39

國家能源局：7月16日全國電力負荷再創歷史新高，首次突破15億千瓦

國家能源局：7月16日全國電力負荷再創歷史新高，首次突破15億千瓦

澎湃新聞

2025-07-17 02:27:36

已確認裁員，很嚴重，大家做好準備吧！

已確認裁員，很嚴重，大家做好準備吧！

胖貓的生命科學札記

2025-07-17 08:06:03

追蹤人工智能動態

10878文章數 176189關注度

往期回顧全部

科技要聞

沒有老黃不夸的中國公司了吧？？

頭條要聞

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產戰進入高潮關鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予，是姐妹，也是戰友

娛樂要聞

又相信愛情了，董璇二婚現場照曝光！

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市奧迪A6L e-tron申報信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術

數碼

手機

軍事航空

教育要聞

速看！多校公布錄取分數線！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

數碼要聞

倍思同芯充Pro充電頭登場：45W氮化鎵，預購價138元

手機要聞

小米16外觀曝光，或9月發？

軍事要聞

美考慮援烏射程1000公里的導彈特朗普：莫斯科不能打

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：小金县| 威远县| 开封县| 南康市| 巨野县| 都兰县| 新田县| 志丹县| 庄浪县| 望江县| 南平市| 永修县| 金门县| 罗平县| 雅江县| 监利县| 微山县| 无为县| 江源县| 桐乡市| 霸州市| 武胜县| 扶沟县| 无为县| 莫力| 牟定县| 西充县| 铜陵市| 手游| 二手房| 子长县| 应城市| 太仓市| 临泽县| 南靖县| 张掖市| 原阳县| 西藏| 永兴县| 延安市| 阿拉善左旗|

<style id="oikep"></style>

<cite id="oikep"></cite>

<sup id="oikep"></sup>