99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

谷歌發布新架構,用一半內存實現推理速度翻倍

0
分享至

谷歌 DeepMind 與韓國科學技術院(KAIST)的研究人員近日聯合發布了一種名為“Mixture-of-Recursions”(MoR)的新型語言模型架構。據稱能在保持模型性能的同時,實現了推理速度翻倍、訓練計算量減少并降低了約 50% 的 KV 緩存內存使用。論文一經發布,便在社交媒體上引發了廣泛關注,甚至有評論稱其或許是“Transformer 殺手”。

自 2017 年問世以來,Transformer 架構已成為大型語言模型的技術基礎,目前幾乎所有先進模型都建立在這一架構之上。但隨著模型規模越來越大,Transformer 架構對計算和內存資源的需求也日益增加,訓練和部署成本十分高昂。過去的效率優化方法通常只關注單一方向,例如通過參數共享來縮小模型尺寸,或通過自適應計算來按需分配算力,但很少能將多個效率目標同時優化。

MoR 架構的核心創新在于將遞歸計算與動態路由機制相結合,在一個統一框架內解決多重效率問題。在標準的 Transformer 模型中,輸入文本的每一個 token 都要經過相同數量的計算層處理。MoR 則改變了這一模式,它允許不同的 token 根據自身的復雜度,接受不同深度的處理。


圖丨MoR 架構的概覽(來源:arXiv)

具體來說,MoR 使用共享的參數塊來提升參數效率,同時通過一個輕量級的“路由器”,來決定每個 token 需要經歷多少次遞歸計算。研究團隊測試了多種路由策略,例如“專家選擇”(expert-choice)和“token 選擇”(token-choice),以平衡計算負載和避免信息處理中的邏輯問題。在參數共享方面,測試結果表明“Middle-Cycle”策略表現最好,該策略保持模型的第一層和最后一層使用獨立的參數,只在中間層之間共享權重,以此在參數效率和模型的表達能力之間取得較好的平衡。


圖丨MoR 的核心組件(來源:arXiv)

內存管理是 MoR 的另一項關鍵改進。即使參數共享了,傳統遞歸模型在每一層遞歸時仍會產生獨立的 KV 緩存,導致內存占用依然很高。MoR 提出了兩種新的 KV 緩存策略來應對這一問題。一種是“遞歸式緩存”,只為被路由到特定遞歸步驟的 token 存儲 KV 數據,并將注意力計算限制在這些本地數據中,從而有效降低了 KV 緩存的內存占用和數據讀寫量。另一種“遞歸共享”策略則更進一步,利用所有 token 都會經過第一個遞歸塊的特性,只在第一步緩存 KV 數據,供后續所有遞歸步驟重復使用,以此最大化地節省內存。

研究團隊在 1.35 億到 17 億參數的多個模型規模上進行了測試。結果表明,在相同的訓練計算預算下,一個采用 MoR 架構的模型,雖然其參數量比基準 Transformer 模型少了近一半,但在多項少樣本學習任務中的平均準確率達到了 43.1%,超過了基準模型的 42.3%。


(來源:arXiv)

更重要的是,MoR 更高的計算效率,使其能在相同的計算預算內處理更多的訓練數據,這反過來也提升了模型的最終性能。在固定訓練數據量的對比實驗中,一個 MoR 配置在使用少 25% 訓練計算量的情況下,其性能依然超過了基準模型,同時訓練時間減少了 19%,峰值內存使用也降低了 25%。

在推理性能上,MoR 的優勢更加明顯。它采用了一種連續深度批處理技術,可以將處在不同計算階段的 token 組合到同一個批次中進行處理,因為它們都使用相同的參數塊。該技術配合模型的早期退出機制,顯著提升了處理吞吐量。在 3.6 億規模的模型測試中,MoR-4 配置在特定設置下實現了高達 2.06 倍的推理加速。

研究還發現,MoR 模型在處理不同類型 token 時,表現出一種與語義重要性相關的模式。內容豐富的 token,如“People”或“defensively confident”,會被分配更多的遞歸次數(三次);而功能性詞匯,如“and”,通常只需要較少的遞歸次數。這表明,模型學會了將更多的計算資源用于處理更重要的信息。

實際上,MoR 的出現也離不開谷歌此前相關研究的鋪墊。在早前的 Mixture-of-Depths(MoD)等技術中,谷歌 DeepMind 就已經探索了動態分配計算資源的方法。同時,遞歸 Transformer 作為一種參數共享技術,也為 MoR 提供了理論基礎。

MoR 進一步延續了這些研究對 AI 效率優化的探索,即從單一維度的優化,轉向參數、計算和內存等多個維度的協同優化。這對于降低大語言模型的部署和使用成本具有較大的實際意義。

總體而言,雖然現在斷言 MoR 能否完全替代 Transformer 還為時過早,但它確實為未來的語言模型架構設計,提供了一個在性能和效率上都極具潛力的發展方向。

參考資料:

1.https://arxiv.org/abs/2507.10524

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
八路軍六位旅長,為何只有陳賡聞名天下?其他旅長大多名聲不顯?

八路軍六位旅長,為何只有陳賡聞名天下?其他旅長大多名聲不顯?

小童歷史
2025-07-15 15:51:14
11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛女兒

11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛女兒

娛圈小愚
2025-07-16 11:55:17
一石二鳥成了,他信這回也難跑,20年前的計劃,洪森終于要執行了

一石二鳥成了,他信這回也難跑,20年前的計劃,洪森終于要執行了

小濤叨叨
2025-07-16 17:06:38
46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

萌神木木
2025-07-16 17:26:47
為什么人類喝地球的水需要過濾、煮沸,而其他動物卻可以直接喝?

為什么人類喝地球的水需要過濾、煮沸,而其他動物卻可以直接喝?

半解智士
2025-07-10 22:54:29
詹姆斯:3巨頭時代早就有了 喬丹&伯德&張伯倫都是3巨頭模式

詹姆斯:3巨頭時代早就有了 喬丹&伯德&張伯倫都是3巨頭模式

直播吧
2025-07-17 10:00:45
閱兵成談判籌碼?美方暗示:不給稀土就不捧場,中方直接亮底線

閱兵成談判籌碼?美方暗示:不給稀土就不捧場,中方直接亮底線

傲傲講歷史
2025-07-17 11:11:16
貴州榕江一餐館災后重新開業縣領導成首批客人,老板:書記買的單

貴州榕江一餐館災后重新開業縣領導成首批客人,老板:書記買的單

上游新聞
2025-07-17 16:57:11
男孩比賽踹倒對手后續!已取消比賽資格,系教練授意,為故意報復

男孩比賽踹倒對手后續!已取消比賽資格,系教練授意,為故意報復

聯友說娛
2025-07-17 14:58:47
吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕上演

吃相太難看!陳佩斯砸上億的電影還沒上映,令人惡心一幕上演

查爾菲的筆記
2025-07-17 00:35:02
減持,今晚又是30多家公司發布減持公告,其中擬減持10家,真坑!

減持,今晚又是30多家公司發布減持公告,其中擬減持10家,真坑!

風風順
2025-07-17 00:20:07
40度高溫把人逼瘋!社會上出現三大“怪現象”,老人假節約太離譜

40度高溫把人逼瘋!社會上出現三大“怪現象”,老人假節約太離譜

跳跳歷史
2025-07-09 10:36:44
重磅!1億歐,利物浦出手,搶簽羅德里戈!

重磅!1億歐,利物浦出手,搶簽羅德里戈!

足球王國
2025-07-17 13:00:46
失去黃圣依的楊子徹底顛了?霸總變諧星,網友:評論區笑不活了!

失去黃圣依的楊子徹底顛了?霸總變諧星,網友:評論區笑不活了!

木子愛娛樂大號
2025-07-15 14:25:07
一天不到,第2艘巨輪被擊沉,中方強勢表態,警告也門胡塞武裝

一天不到,第2艘巨輪被擊沉,中方強勢表態,警告也門胡塞武裝

荷蘭豆愛健康
2025-07-14 04:11:39
寧波前首富家族轉讓股份,上海“女牛散”擬26.34億元接手!

寧波前首富家族轉讓股份,上海“女牛散”擬26.34億元接手!

紅星資本局
2025-07-17 17:07:20
2年1.1億,正式買斷!比爾加盟快船 豪華陣容超過火箭 劍指總冠軍

2年1.1億,正式買斷!比爾加盟快船 豪華陣容超過火箭 劍指總冠軍

老王大話體育
2025-07-17 23:23:45
沒有老黃不夸的中國公司了吧??

沒有老黃不夸的中國公司了吧??

量子位
2025-07-17 11:09:08
沒有腳踏,能裝后視鏡,9月1日實施的電動車新國標為什么又被吐槽?有4大原因

沒有腳踏,能裝后視鏡,9月1日實施的電動車新國標為什么又被吐槽?有4大原因

電動車小辣椒
2025-07-15 07:07:33
閨蜜在銀行,存了三年定期25萬, 取款時剩下20萬,原因讓人很痛心

閨蜜在銀行,存了三年定期25萬, 取款時剩下20萬,原因讓人很痛心

奇思妙想生活家
2025-07-17 10:28:35
2025-07-18 00:20:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15420文章數 513911關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

本地
藝術
房產
公開課
軍事航空

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

突發!海航陳峰被判12年,罰2.2億!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 马鞍山市| 赫章县| 鸡东县| 监利县| 绥化市| 东乌珠穆沁旗| 深州市| 遵义县| 南康市| 会同县| 昌吉市| 孟州市| 松潘县| 富源县| 玉门市| 正蓝旗| 周口市| 罗江县| 江北区| 民勤县| 隆德县| 平邑县| 衡东县| 济南市| 五河县| 东乌珠穆沁旗| 高碑店市| 兰坪| 桓仁| 中宁县| 汕头市| 宝丰县| 浦东新区| 抚顺县| 天台县| 锡林郭勒盟| 临泉县| 白河县| 彰化市| 昭苏县| 西乌|