99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta華人研究員提出輕量級結構Canon層,提升模型推理深度和廣度

0
分享至

“大模型設計迎來伽利略時刻。正如比薩斜塔實驗推動了現代物理學的發展,我們開發的受控合成預訓練平臺揭示了大模型架構的真正極限。這可能是一個轉折點,將大模型的研究劃分為‘之前’和‘之后’。” 清華本科校友、美國麻省理工學院博士畢業生、Meta 研究員朱澤園在 X 上寫道。


(來源:X)

這則推文介紹了一個名為“語言模型物理學”的長期項目。在這則推文發布之前,當地時間 5 月 2 日關于這一長期項目的一篇論文上線 [1]。


圖 | 朱澤園(來源:資料圖)

在這篇論文中,朱澤園和同事提出一種名為“Canon 層”的輕量級結構。

“Canon”原本是一個音樂術語,它指的是一種復調音樂的作曲技法,其特點是讓多個聲部以相同的旋律和不同時間進入,從而形成層疊交錯的效果。

而本次提出的“Canon 層”和上述音樂技法有著異曲同工之妙,它能促進相鄰 tokens 之間的水平信息流動,提升推理深度、推理廣度、知識容量和操控能力,并能在跨多種架構的層次結構學習上實現突破。

通過開展這些合成任務,研究團隊實現了架構性能的嚴格分離,讓有著 13 億參數和 1000 億 tokens 數據量的學術級預訓練實驗中的噪聲與隨機干擾因素,得到了有效消除。


(來源:資料圖)

研究人員在論文中表示,Canon 層能夠顯著提升傳統弱勢架構的性能,例如它能將無位置編碼(NoPE,No Positional Encoding)的 Transformer 提升至旋轉位置編碼(RoPE,Rotary Positional Encoding)水平,使線性注意力(GLA,Generalized Linear Attention)達到 Mamba 級表現,同時大幅降低對旋轉位置編碼的依賴,從而有效改善長程泛化能力。(注:Mamba,是此前由其他研究團隊提出的一種高效序列建模架構,下文的 Mamba2 是 Mamba 的升級版。)

據介紹,Canon 層能夠計算附近 tokens 表示的加權組合,并能無縫集成到 Transformer、線性注意力、狀態空間架構或任何通用序列模型中。

本次研究還表明,線性模型推理深度不足的原因在于 tokens 的壓縮過程和檢索過程效率低下。同時,本次研究中的合成任務也驗證了受控可預測基準在架構評估中的核心價值。

與此前經典的學術級別實驗場景相比,本次研究中的合成實驗平臺能夠更清晰地揭示模型的真實能力和擴展行為。

憑借無限高質量的數據,研究團隊希望該框架能夠預測架構如何隨著訓練流程的改進而演變。例如,預測該如何通過更好的數據整理或基于強化學習的后訓練,解鎖更深層次的推理能力和層次化推理能力。

研究團隊在論文中表示,他們更建議將智能分解為原子級組件,比如分為推理深度和推理廣度,并通過構建高度可控的合成預訓練任務,來獨立地分離和評估這些能力。

這樣一來,在理想化的實驗環境之下,就能清晰地界定不同架構的性能優勢與擴展潛力。


(來源:資料圖)

據研究人員介紹,本次方法通過實現單一技能的評估,消除了真實世界預訓練數據中的混雜因素。例如,本次方法既可以針對架構 A 在推理深度上是否優于架構 B 開展嚴謹對比,還能確保修改不會降低其他能力。

通過隔離固有的架構偏差,他們在合成預訓練任務中揭示了那些在傳統設置中往往會被噪聲掩蓋的特性。

研究中該團隊打造了一個合成訓練環境,并引入了五項合成預訓練任務,以便系統地評估語言模型中的關鍵認知能力。

通過這一實驗平臺研究人員揭示了在小規模場景下的架構趨勢:其一,線性注意力模型在各類任務中表現持續滯后;其二,Mamba2 這樣的遞歸架構在依賴記憶的任務中優勢顯著;其三,標準 Transformer 在復雜推理任務中占據主導型的優秀表現。

對于分析不同架構下的固有偏差和可擴展性來說,這些受控基準測試能為其提供一個較為嚴謹的框架。研究人員指出,Transformer 在層內缺乏水平信息流,即使在關聯回憶這樣的簡單任務上也會出現效率低下的情況。

另據研究人員在論文中表示,Canon 層可以靈活地嵌入網絡的不同位置,其中:

  • Canon-A:插入注意力機制之前;
  • Canon-B:嵌入注意力機制內部;
  • Canon-C:置于多層感知機(MLP,Multilayer Perceptron)之前;
  • Canon-D:整合至多層感知機內部。

雖然 Canon 層的實現方式有很多種,即便使用簡單的隨機平均操作也能取得顯著效果。但是,本次研究聚焦于采用可訓練的一維線性卷積核(核大小為 4),這種方法只需使用輕量計算、而且易于集成,只需少量代碼即可適配任意架構。

在研究團隊的實驗平臺中,Canon 層分別能將推理深度提升 200%-400%、將推理廣度提升 30%、將知識操作長度提升 30%,并且只需要極小的計算開銷能夠實現這些提升,而這主要依賴于更優的層次化學習動態。

將 Canon 層集成到模型中,能夠提高無位置編碼模型的性能,其性能與“旋轉位置編碼模型+Canon 層”的組合相當,甚至更勝一籌。在性能上,Canon 層優于像線性偏置注意力(ALiBi,Attention with Linear Biases)或混合線性偏置注意力(H - Alibi,Hybrid Attention with Linear Biases)這樣的位置修正方法,并且能夠降低或消除旋轉位置編碼的使用,從而顯著提升模型的長程泛化能力。

研究人員在論文中表示,Canon 層通過不同子層位置的累積式作用機制來實現性能提升,其效果獨立于注意力或多層感知機組件。殘差連接提高了訓練效率,在不影響穩定性的前提下,幾乎不需要進行參數調整。

通過提高訓練效率和穩定性,Canon 層還能恢復在門控多層感知機或混合專家架構中損失的部分知識承載能力。

研究中,該團隊還將線性注意力與 Canon 加以結合。通過此,Canon 層能夠顯著提升門控線性注意力的推理能力。其中,推理深度能從單跳(1-hop)被擴展至四跳(4-hop),推理廣度與知識操作長度能夠實現雙倍增長。最終可以使門控線性注意力達到與狀態空間模型架構 Mamba2 相當的性能,并能在 Brevo 等任務中實現反超。


(來源:資料圖)

據介紹,Mamba2 的性能得益于其內置的一維卷積(conv1d)機制,該機制相當于一個應用于選定坐標的非線性 CanonB 層。移除一維卷積機制之后,其性能下降到與門控線性注意力模型相當的水平。而使用完整的 Canon 層替代它則能進一步提升效果,這凸顯了在結構化狀態空間模型設計中水平信息流的重要性。

通過消融研究,該團隊發現 Canon 層在集成點和殘差鏈接上的選擇會影響到 Mamba2 的性能。作為一種使用學習線索來初始化 Transformer 自注意力權重的方法,模仿初始化(Mimetic initialization)雖然能在長度泛化上實現優化,但卻會給短上下文任務造成損害,而這恰恰凸顯多樣化預訓練環境的必要性。

研究中,該團隊還開展了架構比較。他們分別在旋轉位置編碼、無位置編碼、Mamba2 和門控線性注意力中同時使用完整的 Canon 層。結果表明,在層次推理任務中,完整 Transformer 的表現優于線性模型,其推理深度達到了線性模型的兩倍。

研究人員指出,線性模型在推理深度方面存在一定的局限性,這種局限性源于壓縮與檢索過程中累積的誤差,而非記憶容量的不足。而將滑動窗口 Transformer 與線性模型相結合的混合架構,則能為深度推理任務提供可擴展的解決方案。

與此同時,他們還開展了學術級別的真實預訓練。具體來說,他們在 1000 億個 tokens 上訓練具有 4096 個上下文長度的 13 億參數模型,結果顯示噪聲較大且分辨率有限,這使得大多數架構差異在統計上并不顯著。


(來源:資料圖)

盡管如此,課題組也收獲了一些發現:

首先,在檢索任務繁重的任務上,線性架構即使配備了 Canon 層,也始終落后于完整的 Transformer 架構。

其次,Canon 層能夠顯著提升門控線性注意力和無位置編碼,使門控線性注意力能夠達到與 Mamba2 相當的水平,以及使無位置編碼能夠達到與旋轉位置編碼相當的水平。然而,移除 conv1d 會使 Mamba2 性能下降到與門控線性注意力相當。

再次,即使在只有 100 個 tokens 的短文本中,所有模型在處理兩跳推理任務時都面臨一定的困難,這凸顯了學術級別預訓練的局限性。

最后,通過減少或去除旋轉位置編碼這一做法,尤其是在添加了 Canon 層的情況下使用這一做法,能在不影響整體性能的前提下,提升長上下文的泛化能力。

總之,Canon 層從根本上改善了跨不同架構的水平信息流,從而實現了更深入的推理和高效的可擴展性。未來,該團隊希望借助無限高質量的數據,通過本次成果來預測未來架構的演進方向,例如通過更完善的數據策展或基于強化學習的訓練后優化,從而釋放更深層次的推理與分層推斷能力,進而推動大模型訓練流程的持續進步。

參考資料:

1.論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5240330

https://www.linkedin.com/in/zeyuan-allen-zhu/details/education/

https://x.com/ZeyuanAllenZhu

http://zeyuan.allen-zhu.com/index.php

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

林林故事揭秘
2025-04-30 13:42:39
27億訂單告吹?泰國毀約中國潛艇訂單,美媒嘲諷:造一半砸手里了

27億訂單告吹?泰國毀約中國潛艇訂單,美媒嘲諷:造一半砸手里了

火星方陣
2025-05-04 07:52:24
樊振東恩師吳敬平“又發現一個小胖”:8歲,有點靈氣

樊振東恩師吳敬平“又發現一個小胖”:8歲,有點靈氣

魯中晨報
2025-05-04 18:16:11
四川發布今年首個山洪災害藍色預警 這4個縣注意

四川發布今年首個山洪災害藍色預警 這4個縣注意

封面新聞
2025-05-04 17:49:03
長城哈弗推出全系換新一口價:優惠至高 4 萬元

長城哈弗推出全系換新一口價:優惠至高 4 萬元

IT之家
2025-05-04 12:02:08
為何說梅毒病是最臟的病?醫生詳細講解,隔著屏幕都感到頭皮發麻

為何說梅毒病是最臟的病?醫生詳細講解,隔著屏幕都感到頭皮發麻

奇妙的本草
2025-04-28 18:00:08
中國雙星備戰NBA選秀:楊瀚森正式飛抵洛杉磯 林葳曬護照將赴美

中國雙星備戰NBA選秀:楊瀚森正式飛抵洛杉磯 林葳曬護照將赴美

醉臥浮生
2025-05-04 12:30:47
特朗普突然服軟,簽署“認慫令”,首次公開向中國認錯

特朗普突然服軟,簽署“認慫令”,首次公開向中國認錯

男女那點事兒兒
2025-05-04 17:59:26
河北省最牛的十個富豪縣,誰在悄悄富甲一方?

河北省最牛的十個富豪縣,誰在悄悄富甲一方?

小宇宙雙色球
2025-05-04 17:46:13
汪小菲:不在乎筱梅的任何謠言,馬筱梅:他們說什么不會影響我們

汪小菲:不在乎筱梅的任何謠言,馬筱梅:他們說什么不會影響我們

娛圈小愚
2025-05-04 08:53:49
“武契奇們”病得很是時候

“武契奇們”病得很是時候

李未熟擒話2
2025-05-04 06:38:42
古力娜扎穿透視裙,懟著鏡頭硬拍,這實力不簡單

古力娜扎穿透視裙,懟著鏡頭硬拍,這實力不簡單

星辰生肖館
2025-04-16 11:04:23
2025年高考殘酷真相:考上公辦二本,已經值得全家驕傲!

2025年高考殘酷真相:考上公辦二本,已經值得全家驕傲!

教育導向分享
2025-05-04 20:14:05
陜北8萬紅軍,4.5萬人改編八路軍,另外3.5萬人毛主席的安排真妙

陜北8萬紅軍,4.5萬人改編八路軍,另外3.5萬人毛主席的安排真妙

小女子不簡單
2024-07-07 14:58:25
敢動臺灣一下試試!大魚全都冒頭,國防部重磅表態,統一勢在必行

敢動臺灣一下試試!大魚全都冒頭,國防部重磅表態,統一勢在必行

傲氣經說
2025-05-04 00:00:04
老人每日齋戒保佑兒子,三個月后兒子去世,老人砸碎佛像當場傻眼

老人每日齋戒保佑兒子,三個月后兒子去世,老人砸碎佛像當場傻眼

古怪奇談錄
2025-05-03 16:12:20
項立剛的連續劇演砸了,他兒子留學的方式,竟然正如孤煙暮蟬所說

項立剛的連續劇演砸了,他兒子留學的方式,竟然正如孤煙暮蟬所說

讀鬼筆記
2025-05-03 20:10:44
總決賽首場!廣廈戰首鋼更改時間,票價最低480元,看許利民咋說

總決賽首場!廣廈戰首鋼更改時間,票價最低480元,看許利民咋說

老吳說體育
2025-05-04 00:22:17
知名女星確診精神疾病,杭州曾有人發病后一周刷掉70萬

知名女星確診精神疾病,杭州曾有人發病后一周刷掉70萬

都市快報橙柿互動
2025-05-03 17:17:39
蓉城VS浙江,賽前新聞發布會主帥徐正源的一句話,真是自信滿滿!

蓉城VS浙江,賽前新聞發布會主帥徐正源的一句話,真是自信滿滿!

田先生籃球
2025-05-04 22:06:23
2025-05-04 22:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15133文章數 513620關注度
往期回顧 全部

科技要聞

巴菲特:理性看待AI炒作 耐心是關鍵

頭條要聞

美司令:解放軍訓練廣度變化是"非線性的" 讓我夜不能寐

頭條要聞

美司令:解放軍訓練廣度變化是"非線性的" 讓我夜不能寐

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

數碼
教育
游戲
時尚
軍事航空

數碼要聞

游戲本市場精確化細分 機械革命多款5070Ti機型亮相

教育要聞

高考300分也能搶金飯碗!三線職院專業選得好,畢業直接端央企鐵飯碗

水晶哥談Uzi停播:直播不好做 現在多播反而沒工資

卷首語 | 今天,致敬青春,致敬自己!

軍事要聞

媒體:美俄兩場閱兵 都有新看頭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 邓州市| 桓仁| 通渭县| 澎湖县| 江陵县| 都匀市| 昌江| 中山市| 中宁县| 嘉定区| 屯昌县| 万全县| 庆元县| 古丈县| 双桥区| 左贡县| 舟曲县| 墨竹工卡县| 安达市| 西乌| 华亭县| 石河子市| 岢岚县| 车险| 商南县| 德钦县| 延长县| 荔波县| 翁源县| 连平县| 团风县| 新余市| 新民市| 尚志市| 贡山| 麦盖提县| 呈贡县| 团风县| 霍林郭勒市| 太原市| 长武县|