網易首頁 > 網易號 > 正文申請入駐

Mamba提出者再次挑戰Transformer，或成為通用基礎模型核心架構

2025-07-12 19:27:33　來源: DeepTech深科技

北京舉報

分享至

作為美國卡內基梅隆大學的助理教授和美國 AI 初創公司 Cartesia 的聯合創始人，Albert Gu 曾憑借聯合提出 Mamba 這一新型序列建模架構而入選 TIME 100 AI，還曾入選 2025 谷歌研究學者計劃名單。

圖丨Albert Gu（來源：https://memento.epfl.ch/event/ai-cente）

最近，他和自己的韓裔學生黃錫俊（Sukjun Hwang）以及 Cartesia 技術團隊的華裔成員 Brandon Wang 提出了一種端到端的分層網絡（H-Net，hierarchical network）。

圖丨黃錫俊（Sukjun Hwang）（來源：https://sukjunhwang.githu）

值得注意的是，作為一名華裔，本次相關論文的共同作者 Brandon Wang 高中畢業于美國加利福尼亞州的薩拉托加（Saratoga）高中，后于 2019 年獲得國際數學奧林匹克競賽（IMO，International Mathematics Olympiad）金牌，2024 年其本科畢業于美國麻省理工學院，之后便加入了 Albert Gu 的上述創業公司。

（來源：資料圖）

首個真正端到端無分詞器的語言模型

研究團隊表示，H-Net 通過遞歸的、數據依賴的動態分塊（DC，dynamic chunking）過程對原始數據進行壓縮，代表了首個真正端到端無分詞器的語言模型。該模型通過單階段動態分塊，當字節級的 H-Net 在參數規模超過 10 億時，其困惑度和下游任務性能可與基于字節對編碼（BPE，Byte Pair Encoding）分詞的 Transformer 模型相媲美。

圖丨相關論文（來源：arXiv）

據了解，H-Net 在保持分詞化流程效率的同時，通過使用數據驅動、內容感知且上下文相關的分割機制，來取代人工設計的啟發式規則，從而能夠顯著提升建模能力。

H-Net 采用了先前研究中的分層架構，這有些類似于自回歸 U-Net：首先，原始數據由一個小型編碼器網絡進行處理；然后，進行下采樣并傳入在壓縮塊上運行的主網絡；最后，進行上采樣并傳入在原始分辨率上運行的解碼器網絡。這種模塊化設計構建了一個自然的處理層級結構，即外層階段捕捉細粒度模式，而內層階段則基于類似于傳統分詞的粗粒度表示進行運算。盡管主網絡包含大部分參數，但是研究團隊發現編碼器和解碼器網絡通過使用狀態空間模型（SSM，state space model）能得到顯著改進，因為 SSM 具有用于壓縮的歸納偏置。

據介紹，H-Net 的核心在于采用了一種新穎的動態分塊（DC，dynamic chunking）機制，該機制能夠連接主網絡與編碼器/解碼器網絡，在使用標準可微優化算法的同時，可以學習如何對數據進行分割。

動態分塊技術由兩種互補的新技術組成：首先是一個路由模塊，該模塊通過相似度分數預測相鄰元素之間的邊界；其次是一個平滑模塊，該模塊利用路由模塊的輸出對表示進行插值，以此減弱不確定邊界帶來的影響，并能顯著提升可學習性。

研究團隊還結合了以下創新技術：第一，結合針對目標降采樣率設計的新型輔助損失函數；第二，結合基于梯度的離散決策現代學習技術。基于此，動態分塊讓 H-Net 能以完全端到端的方式學習數據壓縮方法。

研究團隊還引入了幾種架構和訓練技術，以便提高端到端優化過程中的穩定性和可擴展性。這些措施包括：一方面，精心設置投影層和歸一化層，以便平衡交互子網絡之間的信號傳播；另一方面，根據每個層的維度和有效批大小調整優化參數，而這些參數在層級結構的不同階段會發生變化。據介紹，H-Net 通過學習與主干網絡共同優化的分割策略，根據上下文信息動態地將輸入向量壓縮成有意義的塊。研究團隊在論文中寫道，從經驗上看，動態分塊模塊會自然地將數據壓縮到與 BPE 分詞器相近的分辨率（4.5-5 字節/塊），并且能定性地學習到有意義的邊界，整個過程無需任何外部監督或啟發式方法。

（來源：arXiv）

此前的端到端方法存在訓練不穩定性

據了解，深度學習的一個整體目標是從原始數據中學習有意義的模式，以端到端的方式自動提取特征并構建抽象概念。然而，固定詞匯分詞——即通過 BPE 等算法將原始文本壓縮成預定義塊的過程，仍然是現代語言模型中普遍存在的手工預處理步驟。

分詞存在諸多已被充分證實的缺陷：字符級理解能力薄弱、缺乏意義和可解釋性，以及在復雜語言和模態上性能會出現下降等。而使用單一的端到端模型取代分詞-語言模型-去詞化流程，也更加符合深度學習的本質。理想情況下，隨著數據和參數的增加，其擴展能力也會更強。

然而，分詞仍是語言模型和其他序列數據中不可或缺的組成部分，因為它能夠對序列進行壓縮和縮短。截至目前，在計算資源相當的情況下，還沒有任何端到端的無分詞器模型能達到基于分詞器的語言模型的性能水平。

近期的一系列研究開始致力于克服自回歸序列模型中的分詞問題，但這需要解決一系列復雜的技術挑戰。盡管可聯合訓練的邊界預測器是理想的解決方案，不過它們需要在無監督的情況下優化離散選擇操作，這從根本上而言是一個極具挑戰性的問題。因此，現有的端到端方法存在訓練不穩定性，這使得模型無法擴展到更大規模，也無法嵌套多級層級結構。

從根本上講，創建無分詞器架構需要將數據分塊過程直接整合到模型中，同時克服大規模場景下在效率、可學習性和穩定性方面的挑戰。基于此，研究團隊開展了本次研究。

有望成為通用基礎模型的核心架構

研究團隊在論文中表示，除了解決分詞問題外，H-Net 在多種場景下改進了通用序列建模。分塊是從低級數據構建高級抽象概念的過程，而語言模型中的子詞分詞是分塊的一種特殊情況，同時也是智能的核心組成部分。

更重要的是，由于 H-Net 是完全端到端的，因此它可以遞歸迭代，同時主網絡本身也可以是一個 H-Net。從直觀上看，更多的分塊階段代表著更高階的含義。就像字符可以組合成單詞一樣，單詞也可以組合成從句、句子，乃至更復雜的單位。所以，對層次結構進行迭代應該能夠實現計算資源和參數的更高效利用，并能更有效地對壓縮后的表示進行推理。研究團隊表示，H-Net 代表了一種新型的基礎模型架構，它不僅克服了分詞問題，還能發現并處理從原始數據中學習到的抽象特征，從而在更少的預處理情況下構建出更高質量的模型。

當將 1 階段 H-Net 迭代為 2 層級階段，其性能得到進一步提升，且顯著優于所有基線模型，不僅訓練曲線更陡峭，在數據擴展方面也表現更佳。字節級的 2 階段 H-Net 僅用 300 億訓練字節就超越了性能強勁的分詞 Transformer 的困惑度，且這一差距在整個訓練過程中不斷擴大，同時其下游任務評估結果與規模為其兩倍的分詞 Transformer 相當。

而由于 H-Net 中的編碼器和解碼器網絡具有雙重目標和計算需求，因此它們面臨著獨特的設計約束。每個編碼器必須同時做到以下兩點：其一，通過殘差連接保留細粒度信息，以傳輸至其對應的解碼器；其二，將輸入壓縮成具有更豐富表示的塊，以供主網絡使用。同時，解碼器必須有效地將主網絡的粗粒度表示與編碼器殘差的細粒度細節結合起來。同樣重要的是，編碼器和解碼器均作用于未壓縮的序列，這使得計算效率成為一項顯著的設計約束，進而影響著研究團隊的架構選擇。

近期有研究表明，SSM 在處理包括音頻、DNA 序列和機器人控制信號在內的細粒度數據方面表現出色。基于這些見解，研究團隊采用 Mamba-2 層作為編碼器和解碼器網絡的主要構建模塊。這一選擇帶來了兩個顯著的好處：一是能夠有效處理細粒度的輸入，二是在處理較長且未壓縮的序列時效率得到了大幅提升。消融實驗表明，基于 SSM 的編碼器/解碼器不僅在字節級別上顯著優于 Transformer 層，甚至在更粗糙的輸入上也是如此，研究團隊認為這歸因于它們對壓縮具有更強的歸納偏置，因此有助于構建抽象表示。

這一設計體現了兩個關鍵原則：首先，壓縮序列使得每個塊能夠分配到更多的參數和計算資源；其次，更高層次的抽象化受益于增強的處理能力。

主網絡起到標準語言模型的作用，并且可以采用任何序列混合架構。研究團隊默認使用 Transformer 層有兩個原因：第一，壓縮表示與 Transformer 在處理離散、語義豐富的 tokens 方面的優勢高度契合；第二，實驗中能夠與傳統基于 BPE 的 Transformer 基線進行更可控的比較。不過，這種模塊化設計也允許直接替換為其他架構。

（來源：arXiv）

與標準各向同性模型相比，H-Net 的結構引入了多個新的架構參數維度，以便平衡每個網絡的參數/計算分配。最終，H-Nets 實現了以下優勢：

其一，它具備較好的魯棒性：在無需特殊數據混合的情況下，經過預訓練的 H-Net 對文本擾動的魯棒性顯著優于基于分詞的 Transformer，這一點在含噪聲的 HellaSwag 基準測試套件上得到了驗證。

其二，它具備較好的可解釋性：通過對學習到的邊界進行定性可視化分析，研究團隊發現 H-Net 能夠自動識別語義連貫的單元，同時無需顯式監督。這驗證了端到端學習可以成功檢測出傳統上通過人工分詞強加的結構模式。

其三，它在其他語言上具有優勢：H-Net 帶來的改進在那些缺乏明顯分割線索的語言上更為顯著（包括中文和代碼）。在 XWinograd-zh 數據集上，相比基于分詞的 Transformer，H-Net 的分數從 59.9 提升至 66.3。在 DNA 語言建模中也是如此，與各向同性模型相比，H-Net 的數據效率提升了 3.6 倍。

（來源：arXiv）

總的來說，H-Net 大幅改善了分詞器存在的問題，在多種語言及類語言模態上展現出極強的性能，研究團隊認為它有望成為通用基礎模型的核心架構，讓這些模型以更少的處理量實現更高效的學習。目前，研究團隊已經開源了模型代碼和預訓練檢查點。

參考資料：

https://time.com/7012853/albert-gu/

https://cartesia.ai/

https://sukjunhwang.github.io/

https://www.linkedin.com/in/brwa/

https://br-wa.github.io/#top

https://www.linkedin.com/in/albert-gu-8ab677139/

https://goombalab.github.io/

https://arxiv.org/pdf/2507.07955v1

排版：劉雅坤

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.