“大模型設計迎來伽利略時刻。正如比薩斜塔實驗推動了現代物理學的發展,我們開發的受控合成預訓練平臺揭示了大模型架構的真正極限。這可能是一個轉折點,將大模型的研究劃分為‘之前’和‘之后’。” 清華本科校友、美國麻省理工學院博士畢業生、Meta 研究員朱澤園在 X 上寫道。
(來源:X)
這則推文介紹了一個名為“語言模型物理學”的長期項目。在這則推文發布之前,當地時間 5 月 2 日關于這一長期項目的一篇論文上線 [1]。
圖 | 朱澤園(來源:資料圖)
在這篇論文中,朱澤園和同事提出一種名為“Canon 層”的輕量級結構。
“Canon”原本是一個音樂術語,它指的是一種復調音樂的作曲技法,其特點是讓多個聲部以相同的旋律和不同時間進入,從而形成層疊交錯的效果。
而本次提出的“Canon 層”和上述音樂技法有著異曲同工之妙,它能促進相鄰 tokens 之間的水平信息流動,提升推理深度、推理廣度、知識容量和操控能力,并能在跨多種架構的層次結構學習上實現突破。
通過開展這些合成任務,研究團隊實現了架構性能的嚴格分離,讓有著 13 億參數和 1000 億 tokens 數據量的學術級預訓練實驗中的噪聲與隨機干擾因素,得到了有效消除。
(來源:資料圖)
研究人員在論文中表示,Canon 層能夠顯著提升傳統弱勢架構的性能,例如它能將無位置編碼(NoPE,No Positional Encoding)的 Transformer 提升至旋轉位置編碼(RoPE,Rotary Positional Encoding)水平,使線性注意力(GLA,Generalized Linear Attention)達到 Mamba 級表現,同時大幅降低對旋轉位置編碼的依賴,從而有效改善長程泛化能力。(注:Mamba,是此前由其他研究團隊提出的一種高效序列建模架構,下文的 Mamba2 是 Mamba 的升級版。)
據介紹,Canon 層能夠計算附近 tokens 表示的加權組合,并能無縫集成到 Transformer、線性注意力、狀態空間架構或任何通用序列模型中。
本次研究還表明,線性模型推理深度不足的原因在于 tokens 的壓縮過程和檢索過程效率低下。同時,本次研究中的合成任務也驗證了受控可預測基準在架構評估中的核心價值。
與此前經典的學術級別實驗場景相比,本次研究中的合成實驗平臺能夠更清晰地揭示模型的真實能力和擴展行為。
憑借無限高質量的數據,研究團隊希望該框架能夠預測架構如何隨著訓練流程的改進而演變。例如,預測該如何通過更好的數據整理或基于強化學習的后訓練,解鎖更深層次的推理能力和層次化推理能力。
研究團隊在論文中表示,他們更建議將智能分解為原子級組件,比如分為推理深度和推理廣度,并通過構建高度可控的合成預訓練任務,來獨立地分離和評估這些能力。
這樣一來,在理想化的實驗環境之下,就能清晰地界定不同架構的性能優勢與擴展潛力。
(來源:資料圖)
據研究人員介紹,本次方法通過實現單一技能的評估,消除了真實世界預訓練數據中的混雜因素。例如,本次方法既可以針對架構 A 在推理深度上是否優于架構 B 開展嚴謹對比,還能確保修改不會降低其他能力。
通過隔離固有的架構偏差,他們在合成預訓練任務中揭示了那些在傳統設置中往往會被噪聲掩蓋的特性。
研究中該團隊打造了一個合成訓練環境,并引入了五項合成預訓練任務,以便系統地評估語言模型中的關鍵認知能力。
通過這一實驗平臺研究人員揭示了在小規模場景下的架構趨勢:其一,線性注意力模型在各類任務中表現持續滯后;其二,Mamba2 這樣的遞歸架構在依賴記憶的任務中優勢顯著;其三,標準 Transformer 在復雜推理任務中占據主導型的優秀表現。
對于分析不同架構下的固有偏差和可擴展性來說,這些受控基準測試能為其提供一個較為嚴謹的框架。研究人員指出,Transformer 在層內缺乏水平信息流,即使在關聯回憶這樣的簡單任務上也會出現效率低下的情況。
另據研究人員在論文中表示,Canon 層可以靈活地嵌入網絡的不同位置,其中:
- Canon-A:插入注意力機制之前;
- Canon-B:嵌入注意力機制內部;
- Canon-C:置于多層感知機(MLP,Multilayer Perceptron)之前;
- Canon-D:整合至多層感知機內部。
雖然 Canon 層的實現方式有很多種,即便使用簡單的隨機平均操作也能取得顯著效果。但是,本次研究聚焦于采用可訓練的一維線性卷積核(核大小為 4),這種方法只需使用輕量計算、而且易于集成,只需少量代碼即可適配任意架構。
在研究團隊的實驗平臺中,Canon 層分別能將推理深度提升 200%-400%、將推理廣度提升 30%、將知識操作長度提升 30%,并且只需要極小的計算開銷能夠實現這些提升,而這主要依賴于更優的層次化學習動態。
將 Canon 層集成到模型中,能夠提高無位置編碼模型的性能,其性能與“旋轉位置編碼模型+Canon 層”的組合相當,甚至更勝一籌。在性能上,Canon 層優于像線性偏置注意力(ALiBi,Attention with Linear Biases)或混合線性偏置注意力(H - Alibi,Hybrid Attention with Linear Biases)這樣的位置修正方法,并且能夠降低或消除旋轉位置編碼的使用,從而顯著提升模型的長程泛化能力。
研究人員在論文中表示,Canon 層通過不同子層位置的累積式作用機制來實現性能提升,其效果獨立于注意力或多層感知機組件。殘差連接提高了訓練效率,在不影響穩定性的前提下,幾乎不需要進行參數調整。
通過提高訓練效率和穩定性,Canon 層還能恢復在門控多層感知機或混合專家架構中損失的部分知識承載能力。
研究中,該團隊還將線性注意力與 Canon 加以結合。通過此,Canon 層能夠顯著提升門控線性注意力的推理能力。其中,推理深度能從單跳(1-hop)被擴展至四跳(4-hop),推理廣度與知識操作長度能夠實現雙倍增長。最終可以使門控線性注意力達到與狀態空間模型架構 Mamba2 相當的性能,并能在 Brevo 等任務中實現反超。
(來源:資料圖)
據介紹,Mamba2 的性能得益于其內置的一維卷積(conv1d)機制,該機制相當于一個應用于選定坐標的非線性 CanonB 層。移除一維卷積機制之后,其性能下降到與門控線性注意力模型相當的水平。而使用完整的 Canon 層替代它則能進一步提升效果,這凸顯了在結構化狀態空間模型設計中水平信息流的重要性。
通過消融研究,該團隊發現 Canon 層在集成點和殘差鏈接上的選擇會影響到 Mamba2 的性能。作為一種使用學習線索來初始化 Transformer 自注意力權重的方法,模仿初始化(Mimetic initialization)雖然能在長度泛化上實現優化,但卻會給短上下文任務造成損害,而這恰恰凸顯多樣化預訓練環境的必要性。
研究中,該團隊還開展了架構比較。他們分別在旋轉位置編碼、無位置編碼、Mamba2 和門控線性注意力中同時使用完整的 Canon 層。結果表明,在層次推理任務中,完整 Transformer 的表現優于線性模型,其推理深度達到了線性模型的兩倍。
研究人員指出,線性模型在推理深度方面存在一定的局限性,這種局限性源于壓縮與檢索過程中累積的誤差,而非記憶容量的不足。而將滑動窗口 Transformer 與線性模型相結合的混合架構,則能為深度推理任務提供可擴展的解決方案。
與此同時,他們還開展了學術級別的真實預訓練。具體來說,他們在 1000 億個 tokens 上訓練具有 4096 個上下文長度的 13 億參數模型,結果顯示噪聲較大且分辨率有限,這使得大多數架構差異在統計上并不顯著。
(來源:資料圖)
盡管如此,課題組也收獲了一些發現:
首先,在檢索任務繁重的任務上,線性架構即使配備了 Canon 層,也始終落后于完整的 Transformer 架構。
其次,Canon 層能夠顯著提升門控線性注意力和無位置編碼,使門控線性注意力能夠達到與 Mamba2 相當的水平,以及使無位置編碼能夠達到與旋轉位置編碼相當的水平。然而,移除 conv1d 會使 Mamba2 性能下降到與門控線性注意力相當。
再次,即使在只有 100 個 tokens 的短文本中,所有模型在處理兩跳推理任務時都面臨一定的困難,這凸顯了學術級別預訓練的局限性。
最后,通過減少或去除旋轉位置編碼這一做法,尤其是在添加了 Canon 層的情況下使用這一做法,能在不影響整體性能的前提下,提升長上下文的泛化能力。
總之,Canon 層從根本上改善了跨不同架構的水平信息流,從而實現了更深入的推理和高效的可擴展性。未來,該團隊希望借助無限高質量的數據,通過本次成果來預測未來架構的演進方向,例如通過更完善的數據策展或基于強化學習的訓練后優化,從而釋放更深層次的推理與分層推斷能力,進而推動大模型訓練流程的持續進步。
參考資料:
1.論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5240330
https://www.linkedin.com/in/zeyuan-allen-zhu/details/education/
https://x.com/ZeyuanAllenZhu
http://zeyuan.allen-zhu.com/index.php
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.