網易首頁 > 網易號 > 正文申請入駐

Tokens是胡扯，Mamba作者顛覆性觀點，揭露Transformer深層缺陷

2025-07-09 18:14:42　來源: 機器之心Pro

北京舉報

分享至

機器之心編譯

原文作者：Albert Gu

編輯：陳陳、杜偉

「Tokenization（分詞）是 Transformer 模型為彌補自身缺陷不得不戴上的枷鎖?！?/p>

近日，Mamba 作者、CMU 助理教授、Cartesia AI 首席科學家 Albert Gu 撰寫了一篇新博客，探討了狀態空間模型（SSM）和 Transformer 之間的權衡，并提出了這樣一種觀點。

這篇博客改編自 Albert Gu 過去一年來多次進行的一場演講。雖然演講內容通俗易懂，面向比較廣泛的受眾群體，但其中的一些有趣的見解、觀點和原理闡釋，相信對專業研究者也不乏啟發價值。

在社交媒體 X 上，Albert Gu 拋出了「tokens are bullshit」的觀點，并預告了接下來要發布的重大架構進展。

圖源：https://x.com/_albertgu/status/1942615020111876248

評論區的很多網友贊成 Albert Gu 的觀點，認為移除 tokenization 會在計算效率方面帶來積極影響。

狀態空間模型

本文首先定義了什么是狀態空間模型（State Space Model，SSM）。

下面的公式定義了（結構化）狀態空間模型，它源自一系列工作，最終催生了 Mamba。狀態空間模型可被視為現代版本的循環神經網絡（RNN），具有一些關鍵的特性。盡管實現這類模型需要大量技術工作，但本文首先提煉出了使這類模型成功匹配 Transformer 語言建模性能的核心要素。

三大要素

1. 狀態大小

SSM 的一大特性是其隱藏狀態 h_t 的維度大于輸入和輸出「x_t, y_t.」。關鍵思路在于：在自回歸建模中，任何循環網絡的隱藏狀態是其獲取模型上下文的唯一途徑。所以，對于語言等信息密集模態的建模，模型需要足夠大的狀態空間來存儲其后續想要調用的相關信息。

在 SSM 中，如果每個輸入 x_t 是一維標量，則隱藏狀態 h_t 為 N 維向量，其中 N 是獨立超參數，被稱為狀態空間、狀態維度或者狀態擴展因子。這類模型也被稱為 SISO（單輸入單輸出）SSM，允許模型存儲的信息是 LSTM 和 GRU 等傳統 RNN 的 N 倍。

2. 狀態表現力

模型不僅需要擁有足夠大的狀態空間以在理論上存儲相關上下文信息，更需要具備表現力強大的狀態更新函數，以精確編碼和調用其需要的信息。

早期版本的「線性時不變」SSM 使用簡單的遞歸公式「h_t=Ah_t?1+Bx_t」，其更新規則在每一個時間步保持恒定。雖然這一機制對音頻等壓縮數據的適用性很好，卻難以應對語言這類信息速率多變的序列 —— 模型必須選擇性記憶關鍵信息。以 Mamba 為代表的選擇性 SSM 通過動態轉移矩陣解決了此問題：其轉移矩陣隨時間變化且依賴數據本身，使得遞歸過程更具有表現力。值得注意的是，這些機制與經典 RNN 的門控結構緊密相關。

這正是現代循環模型最活躍的研究領域，聚焦理解轉移矩陣 A_t 不同參數化的理論表現力，以及這些參數化如何影響模型在狀態空間中的記憶能力。

3. 訓練效率

擴展循環狀態的容量和表現力很重要，但隨之而來的是模型面臨的關鍵計算效率瓶頸。Mamba 通過精心設計遞歸參數化方式，并采用經典的并行掃描算法攻克了這一難題。

當前涌現的諸多算法創新都具有以下共性特征：

并行化能力：致力于實現并行化，并在 GPU、TPU 等加速器上達到實用級效率 —— 通常利用矩陣乘法（matmuls）作為主力運算；
內存管理機制：必須精細控制內存使用，尤其是采用狀態擴展的模型，實際上在主內存中無法實體化整個狀態！Mamba 憑借對 GPU 存儲層級的深度認知實現硬性解決，而大多數替代方案通過重構整個計算路徑，在并行訓練過程中規避顯式狀態計算；
線性特征：模型通常需要保持關于「x_t」的線性特征，因而一些人稱此類模型為線性循環模型。線性特征對計算效率以及建?；騼灮芰a生重要影響（具體分析詳見下文）。

Mamba—— 系統性整合

需特別指出，以下三大技術要素均非首創：

要素 1：線性注意力和早期 SSM 已經采用類似的狀態擴展公式；
要素 2：選擇性機制的設計靈感來自于 LSTM 和 GRU 等經典 RNN 的門控結構，兩者緊密相關；
要素 3：并行掃描算法在 S5 和 LRU 等早期 SSM 或線性 RNN 中已使用，線性注意力變體也采用了基于矩陣乘法的并行訓練算法。

Mamba 的核心突破在于證明了：當將所有這些技術要素整合在一起時，模型在語言建模任務中可以實現跨越式性能突破，并達到比肩 Transformer 的效果。

現代循環模型

此后，現代循環模型研究呈現爆發式增長，各類新模型密集涌現。這些研究雖然動機不同，術語繁雜，卻共享類似的技術內核：

RWKV、xLSTM 和 Griffin 等模型延續了 RNN 范式，將狀態擴展稱為矩陣化狀態（要素 1），將選擇性機制稱為門控；
線性注意力率先融合了要素 1 和要素 3（并行算法），后續變體如 GLA、Gated DeltaNet 等引入數據依賴型遞歸選擇性機制，并使用基于注意力的術語（如使用 (K,Q,V) 而不是 (B,C,X)）。Mamba-2 可以同時視為 SSM 或線形注意力；
近期的很多模型提出了測試時訓練 / 回歸框架，將遞歸更新視為上下文記憶的在線優化過程。在這些框架中，狀態被視為聯想記憶，并行化通過小批量梯度下降實現。

核心共性在于：幾乎所有模型可納入相同的 SSM 公式 (1)，主要差異在于轉移矩陣 A_t 的結構設計（要素 2）以及對應的高校訓練算法（要素 3）。本文采用狀態空間模型（或現代循環模型）來統稱這一大類新興模型 —— 它們精確捕捉了 SISO 線性遞歸和狀態擴展等核心共性特征。當然，考慮到技術同源性，其他命名體系同樣合理！

盡管該領域的研究加速推進，并且新模型持續涌現，但本文認為當前模型仍然呈現高度同質化的特征，實證性能也基本相當。尤其是相較于二次注意力機制，這些模型之間的相似度遠高于它們于 Transformer 的差異。

接下來將重點剖析 SSM 和 Transformer 之間的高階權衡關系。

狀態、大腦和數據庫

本文認為：可以通過觀察不同模型在自回歸狀態中存儲了什么，以及它們是如何操作這些狀態的，來更好地理解它們之間的權衡。這是什么意思呢？

從某種意義上說，每一個自回歸模型 —— 比如像現代大語言模型那樣按從左到右順序生成數據的模型 —— 都是一種「狀態空間模型」，它在內存中保存某種狀態，并在每一個時間步中對其進行更新（比如 LLM 生成每一個詞之間的過程）。

序列模型的自回歸狀態

自回歸 Transformer 的核心組件是（因果）自注意力機制，往往通過一種特定的操作來定義：計算序列中每一對元素之間的相互作用。因此，其計算成本隨著序列長度呈二次增長，這也常被視為注意力機制的主要劣勢。

相比之下，由于遞歸公式（1）中每一步的計算耗時是常數，整個序列的處理時間與序列長度成線性關系，這通常被認為是狀態空間模型的主要優勢。

但是，與其去思考這些模型在訓練階段的計算成本，本文認為更有啟發性的是去關注它們在推理階段處理新輸入時會發生什么。

當一個自注意力層接收到一個新 token 時，它需要將這個 token 與序列中此前出現的所有元素進行比較。這意味著，它必須緩存整個上下文中每一個先前 token 的表示。每接收一個新輸入，它都必須將其加入緩存，因此緩存的大小會隨著上下文長度線性增長。
相比之下，狀態空間模型始終將上下文「x_1,? ,x_t」總結為一個隱藏狀態 h_t（見公式 (1)），這個隱藏狀態的大小是固定的。這個固定大小的狀態就是模型與數據交互的唯一方式：它持續接收數據流，將其壓縮進狀態中，并依賴這一狀態來做出決策或生成新輸出。

這里甚至不需要深入探討這些不同模型的具體定義?？梢源致缘卣f，這些模型完全可以從「自回歸狀態」的第一性原理出發來定義：

Transformer（自注意力機制）的特點是其狀態會緩存歷史中的每一個元素，并通過遍歷整個緩存來與新輸入的數據進行交互。
狀態空間模型（SSM）的特點則是其狀態會壓縮整個歷史信息，并以在線流式的方式與新輸入數據進行交互。

粗略的類比

盡管狀態空間模型（SSM）常被視為更高效但稍遜于 Transformer 的變體，事情其實并沒有那么簡單。

即使不考慮計算效率，這兩類模型在歸納偏置（或建模能力）上也存在不同的權衡?？紤]到兩者處理數據的方式差異，本文做了一個粗略但貼切的類比來說明這一點。

Transformer 更像是數據庫：它們把每一個新的觀測都當作重要的信息存檔，以備將來查用。相比之下，狀態空間模型（SSM）更像是大腦：擁有有限大小的記憶，一直處于工作狀態，實時處理新輸入并產生輸出。

這個類比雖然有些淺顯，但在直觀上確實有助于解釋一些經驗上觀察到的行為模式。例如，SSM 無法在只讀一遍的情況下記住整個電話簿并完整背誦出來，或者從記憶中準確回憶任意一個人的電話號碼。當然，人類也做不到這一點 —— 我們在精確記憶和檢索方面表現得非常差 —— 但這似乎并不妨礙智能的產生！

另一方面，Transformer 在上下文長度上有一個根本的硬性限制（當緩存大小被超過時），而像 SSM 這樣的遞歸模型在理論上可以像人類一樣，保有一段無限長（但模糊）的過去記憶。

一個更有趣的經驗發現 —— 也許可以從上述類比中預測到 —— 將這兩種信息處理方式結合起來，可能會表現得更強大！就像人類的智能能夠通過使用筆記本和外部參考資料得到增強一樣，當語言模型通過一種簡單的交替策略將 SSM 與注意力層結合使用時，其能力也得到了提升。

更令人感興趣的是，經過多個研究團隊的獨立驗證（包括 H3、Jamba、Zamba、Samba 以及隨后涌現出的許多模型），最優的 SSM 與注意力層的比例大致在 3:1 到 10:1 之間。如果你認同這樣一個粗略的類比（即人類智能主要依賴于大腦，并通過輕量訪問外部數據庫得到增強），那么這個比例似乎也在某種程度上印證了這一觀點！

如今，這類混合模型已被大規模擴展到非常龐大的規模（例如采用 MoE 架構的總參數量達到 5600 億），并由一些頂級實驗室推出，如 NVIDIA 的 Nemotron-H 和騰訊的 T1/TurboS，都已在多個任務上取得了最先進的性能。

Is Attention All You Need?

所以，「Attention is all you need」，對吧？如今普遍存在一種看法：Transforme 是終極架構，能夠從原始數據中學到任何東西，只要數據足夠多、計算資源充足，唯一的瓶頸就是算力。

但事實并非如此簡單。Attention 確實非常出色，已經成為幾乎所有模態的核心骨干，從最初在語言上的應用拓展到了視覺、音頻，甚至更多領域。不過，這其中還有更多細節值得探討。

本文想提出的觀點是：要真正有效地使用 Transformer，數據必須經過相當程度的預處理。為了支持這個觀點，可以先來看看 Transformer 在實際中的使用方式。

在幾乎所有真實的應用流程中，原始數據在輸入 Transformer 之前都會先通過某種編碼器進行處理，例如：

在視覺任務中，無論是分類還是生成，都需要一個「切塊」（patchification）步驟；
在語言建模中，需要先進行「分詞」（tokenization）。

這聽起來也許很直觀：畢竟注意力機制的計算復雜度是二次的，我們會希望盡量簡化輸入數據（比如縮短序列長度）。

但本文想說的并不僅僅是計算效率的問題，而是一個更強的觀點：Transformer 在建模能力上本身就存在一定的局限性。

我們應該擺脫 tokenization 嗎？

Tokenization 是所有語言建模流程中一個重要步驟，最常見的是 BPE 算法，本文中 tokenization 與 BPE 可互換使用。

但這個過程帶來很多問題，如詢問大模型「strawberry 里有幾個字母 r？」，它們經常回答錯誤，這些都暴露了分詞機制在理解語言細節上的局限。

那我們為什么還要使用 tokenization 呢？

從大量觀點來看，幾乎所有人都同意：tokenizer 既笨拙又丑陋，但它又必然存在。

在實際應用中，tokenization 大約可以將序列長度縮短一個數量級左右，這顯著提升了語言模型的運算效率。盡管存在一些極端案例，但大多數情況下，它們確實能用。

但本文恰恰相反，認為我們應該徹底擺脫 tokenization，這不僅僅是出于實際原因，也是為了美觀和無形的考慮。

除了可以修復邊緣案例（如 strawberry 這個單詞里有幾個字母 r），移除 tokenization 更符合深度學習的本質。

深度學習一直都致力于用強大的端到端神經網絡取代手工設計的特征工程，這些神經網絡可以自動從數據中學習模式。從 CNN 取代計算機視覺領域中人工設計的邊緣檢測器，到 Transformers 取代自然語言處理領域的語言特征，人工智能的重大進步總是伴隨著更少的數據處理和更多的自動學習（正如《苦澀的教訓》所倡導的那樣）。

用端到端模型替代 tokenization 將帶來深遠的影響，具體體現在以下幾個方面：

擴展律（scaling laws）：從原始數據中學習更優的模式，總能帶來更強大的模型能力；
多語言與多模態處理：對某些語言和其他類型的序列數據而言，tokenization 一直是一個出了名的難題，甚至根本無法適配；
推理能力：模型可以從數據中學習到更具語義的模式，并在更高抽象層面上進行推理。

假如沒有 tokenization，會發生什么？

LLM 時代，幾乎沒有幾篇論文真正認真思考或嘗試解決「去除 tokenizer」這個問題。甚至很難找到一套可靠的基準，用來評估無 tokenizer 模型的表現。

假如沒有 tokenization，會發生什么？

由上圖，我們可以得出一些讓人頗感意外的結論。

但現在我們只做一件事：保持模型和數據不變，僅僅取消 tokenization（直接用字節輸入），結果是 ——Transformer 用上了更多的計算資源，表現卻明顯落后于 SSM。

首先要指出的是：在 FLOPs 匹配的前提下，SSM 的表現遠優于 Transformer。

這一點對一些人來說也許并不意外，因為在字節級建模中，輸入序列遠長于 BPE token 序列，而 Transformer 會因其對序列長度呈二次復雜度的計算瓶頸而受到影響。

然而，Transformer 的弱點并不僅僅在于效率問題，更在于其建模能力的局限。

值得注意的是，即使讓 Transformer 使用遠多于 SSM 的計算資源（以數據量匹配，而非計算量匹配），SSM 依然始終領先。

作為對比：如果用完全相同的數據對這兩類模型進行對比，但對數據做了 tokenization，那么兩者的困惑度（perplexity）曲線會基本相似（甚至 Transformer 會略優），并且它們的 FLOP 也會差不多。

但如果在保持模型和數據不變的前提下，只是將輸入不進行 tokenize，Transformer 雖然使用了更多的計算量，其性能反而相對 SSM 有明顯下降。

最初的 Mamba 論文顯示，在 DNA 語言建模任務中，Mamba 在無需特別調優的情況下，其擴展能力明顯優于 Transformer。

這或許給我們一點啟示：tokenization 本質上是為 Transformer 缺陷設計的補丁，而 SSM 類模型在原生處理低語義密度數據時展現出更根本的建模優勢，這可能重塑我們對語言模型本質能力的認知框架。

要理解這里發生了什么，一個有用的思維模型是回到自回歸狀態。簡而言之，由于 Transformer 顯式緩存了所有先前的 token，它就帶有一種歸納偏置：傾向于關注每一個具體的 token?；蛘吒啙嵉卣f：軟注意力的歸納偏置，其實是硬注意力。

在處理語言時，我們通常關注的是詞（word）或子詞（如詞根、前綴 / 后綴）這樣的單位，它們具有明確的語義含義。

但反過來看，如果這種假設不成立 —— 比如閱讀時我們很少會關注某個單獨的字符，那么注意力機制的表現就會下降。

更有趣的是，很多其他類型的數據處于這兩者之間的模糊地帶。

比如圖像中的 patch 在某些情況下能捕捉到顯著特征，有時是有意義的；但在其他時候，它們可能毫無用處，或者語義不完整。

一個假想

當序列中存在噪聲時會發生什么？

眾所周知，LLM 的訓練數據通常需要大量的預處理、篩選和清洗，但現實世界中的數據（尤其是多模態數據）并非如此。人類也能在大量噪聲中學習得很好！

那么，在一個非常簡單的情形下，如果我們在序列中插入一些不包含任何信息的填充 token，會發生什么呢？

圖中揭示了標準注意力機制的又一個失敗模式：計算不應該按 k^2 擴展，推理時的內存消耗更不應該這樣擴張，緩存這些毫無意義的噪聲 token 是完全沒有意義的。

相比之下，SSM 做得更好：即使冗余因子增加，模型的內存不會增加。

但這也并未完全解決問題，因為任何標準架構的計算量仍然會隨著 token 的增加而增加。所以說，所有當前的大模型在面對噪聲或冗余時都存在性能損耗的問題。

所以，理想的模型體系架構應該在不（實質上）增加計算或內存使用的情況下，能夠處理這種帶有填充序列的任務，而不是盲目地處理所有 token。

更一般地，假設我們有一個數據集的兩個副本，其中一個包含很多額外的噪聲，但總體而言，它們具有基本相同的有用信息。我們應該預期正確的架構在這兩個數據集上的表現基本相同。

這就引出一個問題：Is attention all you need? 答案是注意力機制對處于正確抽象層級的預壓縮數據最為有效。

當然，這種說法是對實際情況的過度簡化，作者表示也不知道該如何正式定義抽象層級這種概念。但作者相信，在某種模糊的意義上，這確實是對的。

狀態空間模型與 Transformer 之間的權衡

狀態空間模型

先說優勢，SSM 是一種天然具備狀態記憶的模型，擅長高效、交互式、在線處理。缺點是缺乏精細的回憶（recall）和檢索能力。

這兩者好比同一枚硬幣的兩面，根源都在于狀態壓縮機制的本質特性。

那么壓縮是否其實是智能的根本特征之一？是否有可能，正是因為將信息強行壓縮進一個更小的狀態空間，才迫使模型去學習更有用的模式和抽象？

雖然在很多文獻中，壓縮狀態常被視為一種缺陷，但這種觀點的產生可能是因為壓縮帶來的弱點很容易被量化衡量，而壓縮所帶來的那些更微妙的、定性的正面影響卻很難被準確評估。

無論如何，現在肯定有很多有趣的應用，SSM 看起來是非常合適的工具。

Transformer

Transformer 的表現非常出色，事實上，在那些需要關注上下文中單個 token 的任務中，Transformer 幾乎是唯一能夠勝任的工具。

Transformer 的優勢是擁有完美的召回率，并能在其上下文中對單個 token 進行細粒度的操作。

那么它的缺點呢？大家都知道 Transformer 的主要弱點是其二次方復雜度。

并非如此。這篇文章的主題是要闡明 Transformer 確實存在歸納偏差，這使其在建模能力方面存在弱點，而不僅僅是效率方面。與 SSM 一樣，Transformer 的高層優勢和劣勢是同一枚硬幣的兩面，都是其自回歸狀態結構的結果：token 緩存會維持給定輸入分辨率的粒度。

Transformer 弱點是受制于賦予它們的 token。

換句話說，它們對數據的分辨率和語義內容更加敏感。Transformer 的特點在于其上下文緩存，它為序列中的每個元素存儲單獨的表示，這意味著每個元素最好都有用。

最后，讓我們來談談當前人工智能發展浪潮的主要驅動力之一：擴展律 Scaling Laws，或者說，在模型上投入更多計算資源會持續帶來更多能力的現象。

這些定律總是以 FLOP（浮點運算次數）為 x 軸，以某種性能指標為 y 軸來繪制，其理念是，這條線的斜率衡量「計算能力轉化為能力的速率」。事實上，本文認為有一種流行的觀點認為 Transformer 只是一種以最佳方式執行這種轉換的工具。

這很好地描述了架構研究的目標，本文只是在尋找一個能夠以最佳方式執行這種轉換的黑匣子。從這個角度來看，只有一個核心問題：

模型是否合理地利用了它的計算能力？

換句話說，本文希望每個 FLOP 都有效。希望讀完這篇文章后，大家能夠清楚地認識到 Transformer 遠非最佳方案（至少作者已經說服了自己?。?。

題外話：這真的重要嗎？

盡管作者被譽為 Transformer 替代方案方向的領導者，但他同時也認為 Transformer 非常棒，注意力機制確實是建模的基本原語。但作者也認為，Transformer 本身顯然不是最終的解決方案。我們還有很多工作要做。

博客鏈接：https://goombalab.github.io/blog/2025/tradeoffs/#a-coarse-analogy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.