99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

^{<blockquote id="79bhp"><i id="79bhp"></i></blockquote>}

<strong id="79bhp"><menu id="79bhp"></menu></strong>

<sub id="79bhp"><tfoot id="79bhp"></tfoot></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Transformer危！谷歌MoR架構發布：內存減半推理速度還翻倍

2025-07-17 17:22:15　來源: 量子位

北京舉報

0

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

超越Transformer，谷歌推出全新底層架構——

Mixture-of-Recursions（MoR），注意不是MoE，它能推理速度提高2倍，而KV內存直接減半！

而且All in One，首次在單一框架中實現，用同一組參數處理不同任務的同時，進行動態分配計算資源。

就像給LLM開了個雙層增強buff，模型性能和效率全都要。

谷歌DeepMind聯合KAIST AI、Mila人團隊通過統一參數共享、自適應遞歸深度和高效KV緩存，在保持大模型性能的同時降低計算和內存成本，形成新的效率最優解。

不少網友甚至將它形容為Transformer Killer。

更有甚者表示，該架構的出現或許能代表，潛在空間推理也許將會成為下一個LLM突破所在。

具體MoR創新在哪些方面？下面一一詳解。

MoR：首次統一參數共享與自適應計算

Transformer的出現雖然帶來了優秀的少樣本泛化和推理能力，但隨之而來龐大的計算和內存需求還是讓訓練和部署成為難題。

目前相關優化方法主要是參數共享和自適應計算，但往往只能二選一，無法同時兼顧。

于是研究人員提出了遞歸混合模型MoR，可以在單一遞歸Transformer中同時融合兩個效率維度。

首先采用的遞歸Transformer，相比通過多個獨特層構建token的標準Transformer，其直接將模型劃分為遞歸塊，復用一組共享參數池。

主要包含三種參數共享策略：

Cycle：循環復用層。
Sequence：連續復用同一層。
Middle變體：保留首尾層獨特參數，僅共享中間層。

利用參數共享，可以減少獨特參數數量，提升分布式訓練效率，并通過連續深度批處理消除計算 “氣泡”，提高推理吞吐量。

然后MoR采用動態路由機制，通過輕量級路由器為每個token分配不同遞歸深度，并集中計算在復雜token上，可以分為兩種：

Expert-choice路由：將每個遞歸步驟視作 “專家”，基于隱藏狀態計算分數，通過閾值選擇合適的token繼續計算，采用層級過濾，優先為復雜token分配計算。
Token-choice路由：初始階段為每個token分配固定遞歸深度，通過softmax/sigmoid確定專家，然后token按分配深度依次完成遞歸。

另外，MoR本身還借助KV緩存策略，管理鍵值的存儲與使用，同時確保內存效率的提升：

Recursion-wise緩存：僅緩存當前遞歸步驟中活躍token的KV對，將注意力計算限制在本地緩存，降低內存和IO需求。
Recursive KV共享：復用首次遞歸的KV對供后續步驟使用，確保所有token可訪問歷史上下文，減少預填充操作，而此時注意力計算量下降幅度較小。

在三種策略共同作用下，MoR通過在解碼每個token時直接進行潛在思考，路由機制讓模型能進行自適應推理，突破了先前固定思考深度的限制，實現了參數效率與自適應計算的統一。

性能超越Transformer

研究人員在135M到1.7B不同參數規模的模型上，就原始Transformer、遞歸基線模型和MoR進行對比實驗。

實驗表明，在相同的16.5e18 FLOPs的訓練預算下，MoR使用了將近50%的更少參數，但實現了更低的驗證損失和更高的平均少樣本準確率43.1%。

而vanilla模型的少樣本準確率此時是42.3%，說明MoR擁有更高的計算效率，可以在相同FLOPs預算下處理更多訓練token。

在訓練固定的20B token時，MoR也減少了25%的訓練FLOPs，訓練時間還縮短了19%，峰值內存減少25%。

另外，通過分析路由策略，發現Expert-choice路由的性能會在一定程度上優于Token-choice路由，說明路由粒度會對性能產生重要影響。

研究人員還對MoR進行了IsoFLOP分析，發現在135M、360M、730M和1.7B參數規模，以及2e18、5e18、16.5e18的FLOPs預算下，MoR始終優于遞歸基線模型。

雖然受遞歸容量瓶頸限制，在135M時略遜于vanilla模型，但在360M及規模的進一步擴大，MoR性能接近甚至超過Vanilla模型，且參數僅為后者的1/3，驗證了MoR的可擴展性。

在推理吞吐量評估上，360M規模的MoR模型在固定批大小和最大批大小設置下，均優于vanilla。

遞歸深度的增加讓更多token提前退出，KV緩存占用減少，吞吐量顯著提升，驗證了深度批處理與早期退出結合對部署效率的提升。

谷歌對底層架構的再思考

這已經不是谷歌第一次對底層架構進行重新思考，甚至可以說，谷歌始終希望利用架構創新重構計算范式，重新尋找AI新的平衡。

例如混合專家模型（MoE）正是這一理念的集中體現。

最早是在2017年，谷歌首次將MoE引入LSTM層，通過稀疏門控機制，僅激活部分專家網絡從事輸入處理，但仍能讓參數量高達137B的模型保持高效訓練。

后面推出的GShard將MoE與Transformer結合，可實現動態負載均衡，2021年的Switch Transformer又進一步地簡化了路由機制。

而Gemini 1.5 Pro就是采用的分層MoE架構，將專家網絡與多模態處理深度結合，可以處理更為復雜的多模態任務，訓練和服務效率也得到顯著提升。

MoE的底層邏輯設計突破了傳統全連接模型的計算缺陷，現在已經成為了許多超大規模模型的優先選擇，為應對算力瓶頸提供了新范式。

另外還有像TokenFormer等可擴展架構，將模型參數視為可學習的token，通過增量訓練無縫擴展模型規模，為未來千億級模型的低成本迭代提供了可能。

所以有網友認為，關于谷歌如今推出的MoR，會在未來徹底改變AI世界規則，會超越Transformer嗎？一切交給時間驗證。

參考鏈接：
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

楊植麟摸著DeepSeek過河

36氪 2025-07-19 12:31:08
0 跟貼 0
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
25 跟貼 25

Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
4 跟貼 4

重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
訓練太復雜？對圖片語義、布局要求太高？圖像morphing一步到位

機器之心Pro 2025-07-18 17:53:42
0 跟貼 0

前端程序員請注意！首個截圖就能生成現代前端代碼的AI來了|開源

量子位 2025-02-26 11:56:35
0 跟貼 0

One image is all you need多模態指令數據合成，只管給圖給Oasis

機器之心Pro 2025-07-18 18:03:34
0 跟貼 0
演講生成黑科技，PresentAgent從文本到演講視頻

機器之心Pro 2025-07-18 18:09:38
0 跟貼 0

WoW堆疊——引爆“終端AI”的突破性技術

華爾街見聞官方 2025-07-18 20:58:32
0 跟貼 0
2077更新Mac版配置需求：高清版本需求更加友善！

游民星空 2025-07-18 18:24:35
4 跟貼 4
數毛社預測：PS6內存提升不會太大估計就24GB

游民星空 2025-07-17 22:35:30
1 跟貼 1
本想去谷歌撈一筆就跑，卻成了改變AI歷史的人

量子位 2025-02-13 13:51:17
20 跟貼 20
一盤大棋！OpenAI「截胡」IMO金牌，奧特曼為GPT-5獻上「核彈級」預熱

新智元 2025-07-20 11:26:14
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167
谷歌AlphaFold得了諾獎，但DeepMind根本沒引用前人論文？

新智元 2025-07-20 12:57:53
0 跟貼 0
Uber Robotaxi車隊擠滿了中國人

智能車參考 2025-07-20 12:49:37
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
5 跟貼 5
中介"做局"銀行放水男子沒有償還能力竟成功貸款48萬

央視新聞客戶端 2025-07-20 07:35:42
10145 跟貼 10145
谷歌DeepMind證實：反對意見讓GPT-4o輕易放棄正確答案

量子位 2025-07-20 15:10:32
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
女學生在畫室里發現，畫畫用的模型竟被人換成了的真的人骨

柒柒看劇 2025-07-19 15:25:09
1 跟貼 1
全國一體化算力網探索與研究

通信世界 2025-04-23 15:02:10
0 跟貼 0
農民用大型工字鋼建別墅，框架不做任何防銹處理，全部是焊接而成

農場李哥 2025-07-19 10:12:58
0 跟貼 0
AI理解語言的終極密碼，千問3向量模型開源，性能超谷歌OpenAI

機器之心Pro 2025-06-11 19:17:56
0 跟貼 0
涉嫌洗錢，谷歌與元宇宙遭印監管機構傳喚

參考消息 2025-07-19 21:54:05
1 跟貼 1
Manus“撤退”，智能體“退潮”了？

鈦媒體APP 2025-07-20 09:34:18
2 跟貼 2
馬斯克AI女友直播"一秒變身"，Karpathy看完立刻投錢

新智元 2025-07-19 09:18:34
106 跟貼 106
免費、開源！谷歌Gemini CLI

機器之心Pro 2025-06-26 14:16:59
0 跟貼 0
過分了！大媽路過燒餅攤拿倆就走店主大喊制止她也充耳不聞

凌晨看看 2025-07-20 09:38:45
2303 跟貼 2303
不敵日本各界說啥？蘇群一針見血，馬健直指落后，李夢沖上熱搜！

籃球資訊達人 2025-07-19 23:17:48
8 跟貼 8
谷歌CEO：中國在AI前沿競爭力不容忽視

財聯社 2025-05-19 17:56:27
0 跟貼 0
谷歌走在通往AGI的路上，哈薩比斯：一個艱難但正確的決定

機器之心Pro 2025-05-23 13:40:49
0 跟貼 0
關于x的根式方程有解，求參數的取值范圍

三樂大掌柜 2025-07-17 07:47:58
3 跟貼 3
深觀察｜“新”大學成“黑馬” 廣東本科批次錄取有新變化

南方都市報 2025-07-19 18:28:07
649 跟貼 649
龐若鳴交班陳智峰，蘋果發布2025基礎模型技術報告

機器之心Pro 2025-07-18 17:21:19
0 跟貼 0
水質恢復之后不少市民用紗布測試，放幾小時后紗布依舊變黑

映射生活的身影 2025-07-19 18:43:38
6718 跟貼 6718
印度的噩夢來了，建雅魯藏布江電站開建，相當于3個三峽

影孖看世界 2025-07-19 23:07:55
35 跟貼 35
中超-申花客場3-1國安升至榜首吳曦傳射于漢超補時破門

網易體育 2025-07-19 21:44:41
2510 跟貼 2510
精仿的模型，做的太像了

小楊視頻剪輯 2025-07-18 16:40:35
1 跟貼 1
蘇超最新積分榜！蘇州排名有變化

魯中晨報 2025-07-20 10:24:21
251 跟貼 251

李璇：申花變得更純粹更勇敢，簽新外援&續約主教練兩事功不可沒

李璇：申花變得更純粹更勇敢，簽新外援&續約主教練兩事功不可沒

直播吧

2025-07-20 13:38:43

蔚來發布嚴正聲明：已報案！

每日經濟新聞

2025-07-19 21:43:30

1908年，慈禧臨死前，太監看她快不行了，趕緊給她喝了一碗海龜湯

1908年，慈禧臨死前，太監看她快不行了，趕緊給她喝了一碗海龜湯

南權先生

2025-07-19 14:28:17

湖人簽斯瑪特，大將軍怒斥，干脆簽夸梅布朗得了，老詹這都能忍！

湖人簽斯瑪特，大將軍怒斥，干脆簽夸梅布朗得了，老詹這都能忍！

陌識

2025-07-20 14:00:51

1920億美元，俄羅斯印鈔機被曝加速！最大最重要裝備展悄然取消

1920億美元，俄羅斯印鈔機被曝加速！最大最重要裝備展悄然取消

鷹眼Defence

2025-07-20 17:06:56

馬上登陸！東莞進入臺風8級風圈！非必要不出門

馬上登陸！東莞進入臺風8級風圈！非必要不出門

匹夫來搞笑

2025-07-20 15:34:36

蔣介石私生活有多混亂？貼身秘書晚年才敢說破，宋美齡的做法絕了

蔣介石私生活有多混亂？貼身秘書晚年才敢說破，宋美齡的做法絕了

回京歷史夢

2025-03-27 18:21:52

35歲哈雷女騎手祈鑠然去世，車友還原車禍經過，顏值比明星還漂亮

35歲哈雷女騎手祈鑠然去世，車友還原車禍經過，顏值比明星還漂亮

公子麥少

2025-07-20 11:51:02

云南特大持槍案！連殺19人還將11人煮熟后喂動物……

云南特大持槍案！連殺19人還將11人煮熟后喂動物……

極品小牛肉

2024-08-15 15:41:25

上海8口之家不工作月花3萬！36 歲前護士為百萬獎金和房產拼四胎

上海8口之家不工作月花3萬！36 歲前護士為百萬獎金和房產拼四胎

坦然風云

2025-06-19 16:19:02

《你行！你上！》首映口碑崩塌，各種理由出奇一致:掛羊頭賣狗肉

《你行！你上！》首映口碑崩塌，各種理由出奇一致:掛羊頭賣狗肉

洲洲影視娛評

2025-07-19 19:14:11

中國經濟咋突然慢下來了？真相藏得很深，大部分人沒搞懂原因

中國經濟咋突然慢下來了？真相藏得很深，大部分人沒搞懂原因

小談食刻美食

2025-07-20 15:39:54

還有操作？快船緩簽保羅，弗蘭克談補強計劃，他要讓鋒線富到流油

還有操作？快船緩簽保羅，弗蘭克談補強計劃，他要讓鋒線富到流油

巴叔GO聊體育

2025-07-20 15:21:01

北京國安球迷意難平！不止因為1-3上海申花，更多在于以下六點！

北京國安球迷意難平！不止因為1-3上海申花，更多在于以下六點！

去山野間追風

2025-07-20 15:25:24

水資源牌比稀土牌更絕！中國開建雅魯藏布江工程，印度強烈反對

水資源牌比稀土牌更絕！中國開建雅魯藏布江工程，印度強烈反對

傲傲講歷史

2025-07-20 16:16:11

范弗利特力拒保羅加盟，火箭后場風暴一觸即發

范弗利特力拒保羅加盟，火箭后場風暴一觸即發

開心芒果

2025-07-20 12:55:48

中國根本無路可退！美軍已經選好了主戰場，逼迫中國跳入戰爭陷阱

中國根本無路可退！美軍已經選好了主戰場，逼迫中國跳入戰爭陷阱

議紀史

2025-07-20 17:25:02

后天起江蘇迎10級妖風暴雨農田恐遭重創

后天起江蘇迎10級妖風暴雨農田恐遭重創

賽爾小開心

2025-07-20 05:15:11

隨著國安1-3申花，大連2-0泰山，中超最新積分榜出爐:榜首易主！

隨著國安1-3申花，大連2-0泰山，中超最新積分榜出爐:榜首易主！

楊仔述

2025-07-19 23:24:42

最新排名！中美德印俄位居前五

參考消息

2025-07-19 21:32:04

追蹤人工智能動態

10893文章數 176192關注度

往期回顧全部

科技要聞

Manus"跑路新加坡"后，創始人首次復盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量官方:正常商業行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量官方:正常商業行為

體育要聞

零成本搞定艾頓斯馬特湖人還有大動作？

娛樂要聞

肖戰改名官宣！徹底不裝了，要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評蔚來世界模型:大智小糙

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

教育

公開課

軍事航空

《馬里奧賽車：世界》制作人員名單暗示DLC可能性

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

教育要聞

浦口、江寧、六合、高淳…發布2025中招第二批次投檔線！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

軍事要聞

美記者：若特朗普決定澤連斯基或被流放

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：渭南市| 集贤县| 石嘴山市| 吴江市| 军事| 安仁县| 黄石市| 清流县| 永定县| 临安市| 平南县| 百色市| 宝山区| 大庆市| 灯塔市| 延吉市| 忻城县| 长沙县| 安平县| 通山县| 定结县| 溆浦县| 白朗县| 英吉沙县| 依安县| 邢台市| 晋江市| 曲沃县| 桂东县| 五大连池市| 云南省| 蒙城县| 永顺县| 济阳县| 苍山县| 宜都市| 盈江县| 股票| 南部县| 梧州市| 乐至县|

<s id="cvizq"><li id="cvizq"></li></s>

<em id="cvizq"></em>