99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Transformer危!谷歌MoR架構發布:內存減半推理速度還翻倍

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

超越Transformer,谷歌推出全新底層架構——

Mixture-of-Recursions(MoR),注意不是MoE,它能推理速度提高2倍,而KV內存直接減半!

而且All in One,首次在單一框架中實現,用同一組參數處理不同任務的同時,進行動態分配計算資源。

就像給LLM開了個雙層增強buff,模型性能和效率全都要。



谷歌DeepMind聯合KAIST AI、Mila人團隊通過統一參數共享、自適應遞歸深度高效KV緩存,在保持大模型性能的同時降低計算和內存成本,形成新的效率最優解。

不少網友甚至將它形容為Transformer Killer。



更有甚者表示,該架構的出現或許能代表,潛在空間推理也許將會成為下一個LLM突破所在。



具體MoR創新在哪些方面?下面一一詳解。

MoR:首次統一參數共享與自適應計算

Transformer的出現雖然帶來了優秀的少樣本泛化和推理能力,但隨之而來龐大的計算和內存需求還是讓訓練和部署成為難題。

目前相關優化方法主要是參數共享和自適應計算,但往往只能二選一,無法同時兼顧。

于是研究人員提出了遞歸混合模型MoR,可以在單一遞歸Transformer中同時融合兩個效率維度。

首先采用的遞歸Transformer,相比通過多個獨特層構建token的標準Transformer,其直接將模型劃分為遞歸塊,復用一組共享參數池。



主要包含三種參數共享策略:

  1. Cycle:循環復用層。
  2. Sequence:連續復用同一層。
  3. Middle變體:保留首尾層獨特參數,僅共享中間層。

利用參數共享,可以減少獨特參數數量,提升分布式訓練效率,并通過連續深度批處理消除計算 “氣泡”,提高推理吞吐量。



然后MoR采用動態路由機制,通過輕量級路由器為每個token分配不同遞歸深度,并集中計算在復雜token上,可以分為兩種:

  • Expert-choice路由:將每個遞歸步驟視作 “專家”,基于隱藏狀態計算分數,通過閾值選擇合適的token繼續計算,采用層級過濾,優先為復雜token分配計算。
  • Token-choice路由:初始階段為每個token分配固定遞歸深度,通過softmax/sigmoid確定專家,然后token按分配深度依次完成遞歸。



另外,MoR本身還借助KV緩存策略,管理鍵值的存儲與使用,同時確保內存效率的提升:

  • Recursion-wise緩存:僅緩存當前遞歸步驟中活躍token的KV對,將注意力計算限制在本地緩存,降低內存和IO需求。
  • Recursive KV共享:復用首次遞歸的KV對供后續步驟使用,確保所有token可訪問歷史上下文,減少預填充操作,而此時注意力計算量下降幅度較小。

在三種策略共同作用下,MoR通過在解碼每個token時直接進行潛在思考,路由機制讓模型能進行自適應推理,突破了先前固定思考深度的限制,實現了參數效率與自適應計算的統一。

性能超越Transformer

研究人員在135M到1.7B不同參數規模的模型上,就原始Transformer遞歸基線模型MoR進行對比實驗。



實驗表明,在相同的16.5e18 FLOPs的訓練預算下,MoR使用了將近50%的更少參數,但實現了更低的驗證損失和更高的平均少樣本準確率43.1%。

而vanilla模型的少樣本準確率此時是42.3%,說明MoR擁有更高的計算效率,可以在相同FLOPs預算下處理更多訓練token。

在訓練固定的20B token時,MoR也減少了25%的訓練FLOPs,訓練時間還縮短了19%,峰值內存減少25%。

另外,通過分析路由策略,發現Expert-choice路由的性能會在一定程度上優于Token-choice路由,說明路由粒度會對性能產生重要影響。

研究人員還對MoR進行了IsoFLOP分析,發現在135M、360M、730M和1.7B參數規模,以及2e18、5e18、16.5e18的FLOPs預算下,MoR始終優于遞歸基線模型。



雖然受遞歸容量瓶頸限制,在135M時略遜于vanilla模型,但在360M及規模的進一步擴大,MoR性能接近甚至超過Vanilla模型,且參數僅為后者的1/3,驗證了MoR的可擴展性。

推理吞吐量評估上,360M規模的MoR模型在固定批大小和最大批大小設置下,均優于vanilla。



遞歸深度的增加讓更多token提前退出,KV緩存占用減少,吞吐量顯著提升,驗證了深度批處理與早期退出結合對部署效率的提升。

谷歌對底層架構的再思考

這已經不是谷歌第一次對底層架構進行重新思考,甚至可以說,谷歌始終希望利用架構創新重構計算范式,重新尋找AI新的平衡。

例如混合專家模型(MoE)正是這一理念的集中體現。

最早是在2017年,谷歌首次將MoE引入LSTM層,通過稀疏門控機制,僅激活部分專家網絡從事輸入處理,但仍能讓參數量高達137B的模型保持高效訓練。



后面推出的GShard將MoE與Transformer結合,可實現動態負載均衡,2021年的Switch Transformer又進一步地簡化了路由機制。

Gemini 1.5 Pro就是采用的分層MoE架構,將專家網絡與多模態處理深度結合,可以處理更為復雜的多模態任務,訓練和服務效率也得到顯著提升。



MoE的底層邏輯設計突破了傳統全連接模型的計算缺陷,現在已經成為了許多超大規模模型的優先選擇,為應對算力瓶頸提供了新范式。

另外還有像TokenFormer等可擴展架構,將模型參數視為可學習的token,通過增量訓練無縫擴展模型規模,為未來千億級模型的低成本迭代提供了可能。

所以有網友認為,關于谷歌如今推出的MoR,會在未來徹底改變AI世界規則,會超越Transformer嗎?一切交給時間驗證。



參考鏈接:
[1]https://x.com/deedydas/status/1945313404958466519
[2]https://www.alphaxiv.org/abs/2507.10524
[3]https://x.com/reza_byt/status/1945498424536862841
[4]https://arxiv.org/abs/1701.06538

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李璇:申花變得更純粹更勇敢,簽新外援&續約主教練兩事功不可沒

李璇:申花變得更純粹更勇敢,簽新外援&續約主教練兩事功不可沒

直播吧
2025-07-20 13:38:43
蔚來發布嚴正聲明:已報案!

蔚來發布嚴正聲明:已報案!

每日經濟新聞
2025-07-19 21:43:30
1908年,慈禧臨死前,太監看她快不行了,趕緊給她喝了一碗海龜湯

1908年,慈禧臨死前,太監看她快不行了,趕緊給她喝了一碗海龜湯

南權先生
2025-07-19 14:28:17
湖人簽斯瑪特,大將軍怒斥,干脆簽夸梅布朗得了,老詹這都能忍!

湖人簽斯瑪特,大將軍怒斥,干脆簽夸梅布朗得了,老詹這都能忍!

陌識
2025-07-20 14:00:51
1920億美元,俄羅斯印鈔機被曝加速!最大最重要裝備展悄然取消

1920億美元,俄羅斯印鈔機被曝加速!最大最重要裝備展悄然取消

鷹眼Defence
2025-07-20 17:06:56
馬上登陸!東莞進入臺風8級風圈!非必要不出門

馬上登陸!東莞進入臺風8級風圈!非必要不出門

匹夫來搞笑
2025-07-20 15:34:36
蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

回京歷史夢
2025-03-27 18:21:52
35歲哈雷女騎手祈鑠然去世,車友還原車禍經過,顏值比明星還漂亮

35歲哈雷女騎手祈鑠然去世,車友還原車禍經過,顏值比明星還漂亮

公子麥少
2025-07-20 11:51:02
云南特大持槍案!連殺19人還將11人煮熟后喂動物……

云南特大持槍案!連殺19人還將11人煮熟后喂動物……

極品小牛肉
2024-08-15 15:41:25
上海8口之家不工作月花3萬!36 歲前護士為百萬獎金和房產拼四胎

上海8口之家不工作月花3萬!36 歲前護士為百萬獎金和房產拼四胎

坦然風云
2025-06-19 16:19:02
《你行!你上!》首映口碑崩塌,各種理由出奇一致:掛羊頭賣狗肉

《你行!你上!》首映口碑崩塌,各種理由出奇一致:掛羊頭賣狗肉

洲洲影視娛評
2025-07-19 19:14:11
中國經濟咋突然慢下來了?真相藏得很深,大部分人沒搞懂原因

中國經濟咋突然慢下來了?真相藏得很深,大部分人沒搞懂原因

小談食刻美食
2025-07-20 15:39:54
還有操作?快船緩簽保羅,弗蘭克談補強計劃,他要讓鋒線富到流油

還有操作?快船緩簽保羅,弗蘭克談補強計劃,他要讓鋒線富到流油

巴叔GO聊體育
2025-07-20 15:21:01
北京國安球迷意難平!不止因為1-3上海申花,更多在于以下六點!

北京國安球迷意難平!不止因為1-3上海申花,更多在于以下六點!

去山野間追風
2025-07-20 15:25:24
水資源牌比稀土牌更絕!中國開建雅魯藏布江工程,印度強烈反對

水資源牌比稀土牌更絕!中國開建雅魯藏布江工程,印度強烈反對

傲傲講歷史
2025-07-20 16:16:11
范弗利特力拒保羅加盟,火箭后場風暴一觸即發

范弗利特力拒保羅加盟,火箭后場風暴一觸即發

開心芒果
2025-07-20 12:55:48
中國根本無路可退!美軍已經選好了主戰場,逼迫中國跳入戰爭陷阱

中國根本無路可退!美軍已經選好了主戰場,逼迫中國跳入戰爭陷阱

議紀史
2025-07-20 17:25:02
后天起江蘇迎10級妖風暴雨 農田恐遭重創

后天起江蘇迎10級妖風暴雨 農田恐遭重創

賽爾小開心
2025-07-20 05:15:11
隨著國安1-3申花,大連2-0泰山,中超最新積分榜出爐:榜首易主!

隨著國安1-3申花,大連2-0泰山,中超最新積分榜出爐:榜首易主!

楊仔述
2025-07-19 23:24:42
最新排名!中美德印俄位居前五

最新排名!中美德印俄位居前五

參考消息
2025-07-19 21:32:04
2025-07-20 18:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動作?

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

游戲
藝術
教育
公開課
軍事航空

《馬里奧賽車:世界》制作人員名單暗示DLC可能性

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

浦口、江寧、六合、高淳…發布2025中招第二批次投檔線!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渭南市| 集贤县| 石嘴山市| 吴江市| 军事| 安仁县| 黄石市| 清流县| 永定县| 临安市| 平南县| 百色市| 宝山区| 大庆市| 灯塔市| 延吉市| 忻城县| 长沙县| 安平县| 通山县| 定结县| 溆浦县| 白朗县| 英吉沙县| 依安县| 邢台市| 晋江市| 曲沃县| 桂东县| 五大连池市| 云南省| 蒙城县| 永顺县| 济阳县| 苍山县| 宜都市| 盈江县| 股票| 南部县| 梧州市| 乐至县|