網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

Mamba一作預(yù)告新架構(gòu)！長文論述Transformer≠最終解法

2025-07-09 13:09:46　來源: 量子位

北京舉報(bào)

分享至

Mamba一作最新大發(fā)長文！

主題只有一個(gè)，即探討兩種主流序列模型——狀態(tài)空間模型（SSMs）和Transformer模型的權(quán)衡之術(shù)。

簡單介紹下，Mamba就是一種典型的SSMs，它建立在更現(xiàn)代的適用于深度學(xué)習(xí)的結(jié)構(gòu)化SSM基礎(chǔ)上，與經(jīng)典架構(gòu)RNN有相似之處。

在最受關(guān)注的語言任務(wù)上，Mamba-3B超越同等規(guī)模的Transformer，與兩倍大的Transformer匹敵，因此被視為Transformer架構(gòu)的有力挑戰(zhàn)者。

現(xiàn)在，Mamba一作將自己去年的幾場演講整合成一篇科普長文，向大眾分享了如下觀點(diǎn)：

Attention雖強(qiáng)，但不是萬能。
Transformer≠最終解法，而是階段性最優(yōu)。
“讓每個(gè)FLOPs都有意義”才是架構(gòu)設(shè)計(jì)的最終目標(biāo)。
將SSM層與注意力層按一定比例混合能帶來更強(qiáng)大的模型。

而且他還提前劇透，幾天后將發(fā)布“架構(gòu)領(lǐng)域的下一個(gè)重大進(jìn)展”。

雖然還不知道具體內(nèi)容，但他目前扔出來的消息已經(jīng)足夠大家抓耳撓腮一段時(shí)間了。

因?yàn)樗岬搅艘粋€(gè)重要觀點(diǎn)——注意力機(jī)制的缺點(diǎn)實(shí)際上并不是它的二次復(fù)雜度。

要知道之前大家都認(rèn)為，ChatGPT等大模型之所以處理長文本算力消耗巨大，背后原因是Transformer架構(gòu)中注意力機(jī)制的二次復(fù)雜度。

而現(xiàn)在，這樣的共識(shí)或許即將被推翻~

不過好消息是，即將推出的新架構(gòu)能夠和Transformers兼容。

那么在迎來新架構(gòu)之前，先讓我們完整回顧下SSMs和Transformers的“世子之爭”吧（doge）。

SSMs就像人類的大腦

一上來，作者先定義了什么是狀態(tài)空間模型（SSMs）？

方程看不懂不要緊，只需要知道它可以通俗理解為循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的現(xiàn)代版。

更直觀的類比如下：

Transformer就像人類每寫一個(gè)字之前，都把前面的所有字+輸入都復(fù)習(xí)一遍，所以寫的慢。

RNN每次只參考前面固定的字?jǐn)?shù)，寫的快，但容易忘掉更前面的內(nèi)容。

而以Mamba為代表的SSMs每次參考前面所有內(nèi)容的一個(gè)概括，越往后寫對(duì)前面內(nèi)容概括得越狠，丟掉細(xì)節(jié)保留大意。

這一工作方式有點(diǎn)像人類的大腦——不斷接收新信息（輸入），并將其壓縮、總結(jié)成一個(gè)固定大小的“隱藏狀態(tài)”（即模型的內(nèi)部記憶），一旦模型需要處理新信息時(shí)，它只與這個(gè)總結(jié)過的“記憶”互動(dòng)，而不是回顧所有舊細(xì)節(jié)。

這也意味著，SSM相比其他架構(gòu)更適合處理長序列信息，而且它還具備兩大優(yōu)勢：

第一，非常適合處理非結(jié)構(gòu)化或“低分辨率”數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明，采用SSM架構(gòu)的Mamba在語言、音頻、DNA序列模態(tài)上都實(shí)現(xiàn)了SOTA。

第二，處理長序列信息時(shí)，其計(jì)算成本與序列長度呈線性關(guān)系（不會(huì)突然急劇上升），且無論輸入序列有多長，模型在推理過程中所需的內(nèi)存量都是固定的（適合資源有限的環(huán)境）。

按照作者總結(jié)，Mamba的成功得益于SSM的三個(gè)關(guān)鍵要素：

（1）狀態(tài)大小 (State size)

傳統(tǒng)RNN通常只有一個(gè)較小的隱藏狀態(tài)，而SSMs通過允許隱藏狀態(tài)成為一個(gè)更高維度的向量，能夠存儲(chǔ)比舊RNN多N倍的信息。

（2）狀態(tài)表達(dá)能力 (State expressivity)

早期SSMs以固定不變的方式更新狀態(tài)，適合處理音頻（信息變化規(guī)律）但不適合處理語言（信息速率變化快、需要選擇性記憶）數(shù)據(jù)。

而Mamba通過引入“選擇性SSMs”解決了這個(gè)問題，與經(jīng)典RNN“門控機(jī)制”相似，它可以根據(jù)當(dāng)前輸入數(shù)據(jù)來決定哪些信息該記住，哪些該遺忘。

（3）訓(xùn)練效率 (Training efficiency)

盡管狀態(tài)更大、表達(dá)力更強(qiáng)會(huì)增加計(jì)算難度，但Mamba通過精心的參數(shù)化和利用經(jīng)典的并行掃描算法來解決計(jì)算效率問題。

而且它和其他現(xiàn)代循環(huán)模型一樣，都注重并行化、內(nèi)存管理以及模型線性度以提高計(jì)算效率。

不過作者也提醒，SSMs缺乏對(duì)過去信息的精細(xì)回憶和精確檢索能力。

Transformer模型更像一個(gè)數(shù)據(jù)庫

相比之下，Transformer模型更像一個(gè)數(shù)據(jù)庫——

會(huì)把收到的每一個(gè)信息（通常是經(jīng)過Tokenization處理的“token”）都完整記錄下來，并儲(chǔ)存在一個(gè)叫做“KV緩存”的臨時(shí)記憶區(qū)中。當(dāng)模型需要處理新信息時(shí)，它會(huì)回顧并比較所有以前儲(chǔ)存過的“token”。

其核心組件是自注意力機(jī)制，所帶來的優(yōu)缺點(diǎn)也非常明顯。

一方面，Transformer模型能完美記住并精細(xì)處理序列中每一個(gè)單獨(dú)的“token”。

這使得它在處理已經(jīng)過預(yù)處理、每個(gè)“token”都具有明確含義的數(shù)據(jù)時(shí)表現(xiàn)出色。如經(jīng)過分詞（Tokenization）處理的文本，每個(gè)詞都帶有語義，Transformer就能很好地利用它們。

缺點(diǎn)就是計(jì)算成本高以及過于依賴高質(zhì)量數(shù)據(jù)。

而針對(duì)Tokenization，作者也探討了它是否應(yīng)該存在的問題，并得出如下觀點(diǎn)：

盡管Tokenization有實(shí)用價(jià)值，但強(qiáng)烈建議廢除。

作者認(rèn)為，雖然Tokenization能夠?qū)⑿蛄虚L度縮短約5倍，從而顯著提高語言模型的效率，但這只是表面現(xiàn)象。

首先，Tokenization違背了深度學(xué)習(xí)“端到端”的自動(dòng)學(xué)習(xí)精神，即模型應(yīng)該從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)，而不是依賴人工預(yù)處理。

更要命的是，Tokenization在多語言和多模態(tài)應(yīng)用中實(shí)施起來非常困難甚至不可能，而且還可能限制模型的Scaling Law和推理能力。

比如眾所周知的翻車事件，模型不會(huì)數(shù)“strawberry”這個(gè)詞中有多少個(gè)R，就有Tokenization的影響。

一句話，作者堅(jiān)持認(rèn)為從原始數(shù)據(jù)中學(xué)習(xí)才是一種更好的模式。

而且已有實(shí)驗(yàn)證據(jù)表明，在未經(jīng)Tokenization處理的數(shù)據(jù)上，SSMs的表現(xiàn)顯著優(yōu)于Transformer，即使Transformer被允許使用更多的計(jì)算資源。這進(jìn)一步強(qiáng)調(diào)了Transformer在處理非語義化“token”數(shù)據(jù)時(shí)的弱點(diǎn)。

至此可以小結(jié)一下，SSMs和Transformer模型可謂各有千秋。

那么能不能將二者結(jié)合一下呢？

混合一下性能更佳

答案是yes！

作者發(fā)現(xiàn)，將兩種類型的信息處理方式結(jié)合起來，可能會(huì)產(chǎn)生更強(qiáng)大的效果。

這類似于人類智能既有大腦的模糊記憶，又有外部數(shù)據(jù)庫的精確檢索能力。

多項(xiàng)獨(dú)立研究表明，在這些混合模型中，SSM層與注意力層之間的最佳比例大約在3:1到10:1之間。

如此也說明，Attention并非All You Need。

作者明確表示，他的主張不僅僅關(guān)乎計(jì)算效率（盡管簡化數(shù)據(jù)可以減少注意力機(jī)制的二次復(fù)雜度開銷），而是一個(gè)更強(qiáng)烈的聲明，即Transformer在建模能力上存在固有的局限性。

最后，他也提到了已經(jīng)為人熟知的Scaling Law定律。

在他看來，雖然Transformer目前很流行，但它們遠(yuǎn)非計(jì)算資源轉(zhuǎn)化的最優(yōu)選擇，而要設(shè)計(jì)新的架構(gòu)，一個(gè)重要衡量標(biāo)準(zhǔn)是每個(gè)FLOPs（算力）能否物盡其用，快速轉(zhuǎn)化為模型能力。

一言以蔽之，未來的方向可能是結(jié)合兩者的優(yōu)勢，并開發(fā)能夠直接處理原始數(shù)據(jù)的模型。

不知道新架構(gòu)又能帶來多大驚喜？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.