99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Mamba一作預(yù)告新架構(gòu)!長文論述Transformer≠最終解法

0
分享至

Mamba一作最新大發(fā)長文!

主題只有一個(gè),即探討兩種主流序列模型——狀態(tài)空間模型(SSMs)和Transformer模型的權(quán)衡之術(shù)



簡單介紹下,Mamba就是一種典型的SSMs,它建立在更現(xiàn)代的適用于深度學(xué)習(xí)的結(jié)構(gòu)化SSM基礎(chǔ)上,與經(jīng)典架構(gòu)RNN有相似之處。

在最受關(guān)注的語言任務(wù)上,Mamba-3B超越同等規(guī)模的Transformer,與兩倍大的Transformer匹敵,因此被視為Transformer架構(gòu)的有力挑戰(zhàn)者

現(xiàn)在,Mamba一作將自己去年的幾場演講整合成一篇科普長文,向大眾分享了如下觀點(diǎn):

  • Attention雖強(qiáng),但不是萬能。
  • Transformer≠最終解法,而是階段性最優(yōu)。
  • “讓每個(gè)FLOPs都有意義”才是架構(gòu)設(shè)計(jì)的最終目標(biāo)。
  • 將SSM層與注意力層按一定比例混合能帶來更強(qiáng)大的模型。

而且他還提前劇透,幾天后將發(fā)布“架構(gòu)領(lǐng)域的下一個(gè)重大進(jìn)展”



雖然還不知道具體內(nèi)容,但他目前扔出來的消息已經(jīng)足夠大家抓耳撓腮一段時(shí)間了。

因?yàn)樗岬搅艘粋€(gè)重要觀點(diǎn)——注意力機(jī)制的缺點(diǎn)實(shí)際上并不是它的二次復(fù)雜度

要知道之前大家都認(rèn)為,ChatGPT等大模型之所以處理長文本算力消耗巨大,背后原因是Transformer架構(gòu)中注意力機(jī)制的二次復(fù)雜度。

而現(xiàn)在,這樣的共識或許即將被推翻~

不過好消息是,即將推出的新架構(gòu)能夠和Transformers兼容



那么在迎來新架構(gòu)之前,先讓我們完整回顧下SSMs和Transformers的“世子之爭”吧(doge)。

SSMs就像人類的大腦

一上來,作者先定義了什么是狀態(tài)空間模型(SSMs)?



方程看不懂不要緊,只需要知道它可以通俗理解為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的現(xiàn)代版

更直觀的類比如下:

Transformer就像人類每寫一個(gè)字之前,都把前面的所有字+輸入都復(fù)習(xí)一遍,所以寫的慢。

RNN每次只參考前面固定的字?jǐn)?shù),寫的快,但容易忘掉更前面的內(nèi)容。

而以Mamba為代表的SSMs每次參考前面所有內(nèi)容的一個(gè)概括,越往后寫對前面內(nèi)容概括得越狠,丟掉細(xì)節(jié)保留大意。

這一工作方式有點(diǎn)像人類的大腦——不斷接收新信息(輸入),并將其壓縮、總結(jié)成一個(gè)固定大小的“隱藏狀態(tài)”(即模型的內(nèi)部記憶),一旦模型需要處理新信息時(shí),它只與這個(gè)總結(jié)過的“記憶”互動(dòng),而不是回顧所有舊細(xì)節(jié)。

這也意味著,SSM相比其他架構(gòu)更適合處理長序列信息,而且它還具備兩大優(yōu)勢:

第一,非常適合處理非結(jié)構(gòu)化或“低分辨率”數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,采用SSM架構(gòu)的Mamba在語言、音頻、DNA序列模態(tài)上都實(shí)現(xiàn)了SOTA。

第二,處理長序列信息時(shí),其計(jì)算成本與序列長度呈線性關(guān)系(不會(huì)突然急劇上升),且無論輸入序列有多長,模型在推理過程中所需的內(nèi)存量都是固定的(適合資源有限的環(huán)境)

按照作者總結(jié),Mamba的成功得益于SSM的三個(gè)關(guān)鍵要素:

(1)狀態(tài)大小 (State size)

傳統(tǒng)RNN通常只有一個(gè)較小的隱藏狀態(tài),而SSMs通過允許隱藏狀態(tài)成為一個(gè)更高維度的向量,能夠存儲比舊RNN多N倍的信息。

(2)狀態(tài)表達(dá)能力 (State expressivity)

早期SSMs以固定不變的方式更新狀態(tài),適合處理音頻(信息變化規(guī)律)但不適合處理語言(信息速率變化快、需要選擇性記憶)數(shù)據(jù)。

而Mamba通過引入“選擇性SSMs”解決了這個(gè)問題,與經(jīng)典RNN“門控機(jī)制”相似,它可以根據(jù)當(dāng)前輸入數(shù)據(jù)來決定哪些信息該記住,哪些該遺忘。

(3)訓(xùn)練效率 (Training efficiency)

盡管狀態(tài)更大、表達(dá)力更強(qiáng)會(huì)增加計(jì)算難度,但Mamba通過精心的參數(shù)化和利用經(jīng)典的并行掃描算法來解決計(jì)算效率問題。

而且它和其他現(xiàn)代循環(huán)模型一樣,都注重并行化、內(nèi)存管理以及模型線性度以提高計(jì)算效率。

不過作者也提醒,SSMs缺乏對過去信息的精細(xì)回憶和精確檢索能力

Transformer模型更像一個(gè)數(shù)據(jù)庫

相比之下,Transformer模型更像一個(gè)數(shù)據(jù)庫——

會(huì)把收到的每一個(gè)信息(通常是經(jīng)過Tokenization處理的“token”)都完整記錄下來,并儲存在一個(gè)叫做“KV緩存”的臨時(shí)記憶區(qū)中。當(dāng)模型需要處理新信息時(shí),它會(huì)回顧并比較所有以前儲存過的“token”。



其核心組件是自注意力機(jī)制,所帶來的優(yōu)缺點(diǎn)也非常明顯。

一方面,Transformer模型能完美記住并精細(xì)處理序列中每一個(gè)單獨(dú)的“token”。

這使得它在處理已經(jīng)過預(yù)處理、每個(gè)“token”都具有明確含義的數(shù)據(jù)時(shí)表現(xiàn)出色。如經(jīng)過分詞(Tokenization)處理的文本,每個(gè)詞都帶有語義,Transformer就能很好地利用它們。

缺點(diǎn)就是計(jì)算成本高以及過于依賴高質(zhì)量數(shù)據(jù)。

而針對Tokenization,作者也探討了它是否應(yīng)該存在的問題,并得出如下觀點(diǎn):

  • 盡管Tokenization有實(shí)用價(jià)值,但強(qiáng)烈建議廢除。

作者認(rèn)為,雖然Tokenization能夠?qū)⑿蛄虚L度縮短約5倍,從而顯著提高語言模型的效率,但這只是表面現(xiàn)象。

首先,Tokenization違背了深度學(xué)習(xí)“端到端”的自動(dòng)學(xué)習(xí)精神,即模型應(yīng)該從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí),而不是依賴人工預(yù)處理。

更要命的是,Tokenization在多語言和多模態(tài)應(yīng)用中實(shí)施起來非常困難甚至不可能,而且還可能限制模型的Scaling Law和推理能力。

比如眾所周知的翻車事件,模型不會(huì)數(shù)“strawberry”這個(gè)詞中有多少個(gè)R,就有Tokenization的影響。



一句話,作者堅(jiān)持認(rèn)為從原始數(shù)據(jù)中學(xué)習(xí)才是一種更好的模式

而且已有實(shí)驗(yàn)證據(jù)表明,在未經(jīng)Tokenization處理的數(shù)據(jù)上,SSMs的表現(xiàn)顯著優(yōu)于Transformer,即使Transformer被允許使用更多的計(jì)算資源。這進(jìn)一步強(qiáng)調(diào)了Transformer在處理非語義化“token”數(shù)據(jù)時(shí)的弱點(diǎn)。

至此可以小結(jié)一下,SSMs和Transformer模型可謂各有千秋。



那么能不能將二者結(jié)合一下呢?

混合一下性能更佳

答案是yes!

作者發(fā)現(xiàn),將兩種類型的信息處理方式結(jié)合起來,可能會(huì)產(chǎn)生更強(qiáng)大的效果。

這類似于人類智能既有大腦的模糊記憶,又有外部數(shù)據(jù)庫的精確檢索能力。



多項(xiàng)獨(dú)立研究表明,在這些混合模型中,SSM層與注意力層之間的最佳比例大約在3:1到10:1之間。

如此也說明,Attention并非All You Need

作者明確表示,他的主張不僅僅關(guān)乎計(jì)算效率(盡管簡化數(shù)據(jù)可以減少注意力機(jī)制的二次復(fù)雜度開銷),而是一個(gè)更強(qiáng)烈的聲明,即Transformer在建模能力上存在固有的局限性。

最后,他也提到了已經(jīng)為人熟知的Scaling Law定律。

在他看來,雖然Transformer目前很流行,但它們遠(yuǎn)非計(jì)算資源轉(zhuǎn)化的最優(yōu)選擇,而要設(shè)計(jì)新的架構(gòu),一個(gè)重要衡量標(biāo)準(zhǔn)是每個(gè)FLOPs(算力)能否物盡其用,快速轉(zhuǎn)化為模型能力



一言以蔽之,未來的方向可能是結(jié)合兩者的優(yōu)勢,并開發(fā)能夠直接處理原始數(shù)據(jù)的模型。

不知道新架構(gòu)又能帶來多大驚喜?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
海事系統(tǒng)交流任職陸續(xù)公布,鄂海亮已任浙江海事局局長

海事系統(tǒng)交流任職陸續(xù)公布,鄂海亮已任浙江海事局局長

澎湃新聞
2025-07-20 10:00:27
7月19日俄烏最新:最好的決定

7月19日俄烏最新:最好的決定

西樓飲月
2025-07-19 20:03:31
為啥很多國家,哪怕窮的國家,都不太喜歡中國人?

為啥很多國家,哪怕窮的國家,都不太喜歡中國人?

小談食刻美食
2025-07-18 20:59:43
Here we go!羅馬諾:利物浦將簽23歲埃基蒂克,總價(jià)達(dá)9500萬歐

Here we go!羅馬諾:利物浦將簽23歲埃基蒂克,總價(jià)達(dá)9500萬歐

直播吧
2025-07-20 17:40:48
鄭欽文幾乎已賽季報(bào)銷!手術(shù)后6個(gè)月才能復(fù)出 提前無緣年終總決賽

鄭欽文幾乎已賽季報(bào)銷!手術(shù)后6個(gè)月才能復(fù)出 提前無緣年終總決賽

風(fēng)過鄉(xiāng)
2025-07-20 09:20:54
今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預(yù)兆?

今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預(yù)兆?

阿傖說事
2025-07-20 08:02:46
“戀愛腦”女孩看婦科火了,讓醫(yī)生三觀盡毀,網(wǎng)友:被PUA

“戀愛腦”女孩看婦科火了,讓醫(yī)生三觀盡毀,網(wǎng)友:被PUA

菁媽育兒
2025-07-15 12:30:47
志愿軍老兵:上甘嶺電影是假的,知道真相就沒人當(dāng)兵了

志愿軍老兵:上甘嶺電影是假的,知道真相就沒人當(dāng)兵了

史政先鋒
2025-07-20 15:27:23
三峽大壩“賬本”曝光:運(yùn)行了20余年,2500億投入如今回本了嗎?

三峽大壩“賬本”曝光:運(yùn)行了20余年,2500億投入如今回本了嗎?

霽寒飄雪
2025-07-20 09:18:01
中國應(yīng)大力發(fā)展西部電力!谷歌前高層公開承認(rèn):制約AI發(fā)展的不是半導(dǎo)體,是能源電力

中國應(yīng)大力發(fā)展西部電力!谷歌前高層公開承認(rèn):制約AI發(fā)展的不是半導(dǎo)體,是能源電力

風(fēng)向觀察
2025-07-20 11:24:40
張峰,履新“全國經(jīng)濟(jì)最強(qiáng)鎮(zhèn)”黨委書記

張峰,履新“全國經(jīng)濟(jì)最強(qiáng)鎮(zhèn)”黨委書記

上觀新聞
2025-07-20 17:34:09
折疊屏iPhone定價(jià)或超15000元,“折痕做到了行業(yè)最佳”

折疊屏iPhone定價(jià)或超15000元,“折痕做到了行業(yè)最佳”

瀟湘晨報(bào)
2025-07-20 09:44:05
10個(gè)臺風(fēng)紅色預(yù)警生效中,廣東正處于臺風(fēng)“韋帕”“危險(xiǎn)半圓”內(nèi),警惕:非登陸點(diǎn)也危險(xiǎn)

10個(gè)臺風(fēng)紅色預(yù)警生效中,廣東正處于臺風(fēng)“韋帕”“危險(xiǎn)半圓”內(nèi),警惕:非登陸點(diǎn)也危險(xiǎn)

環(huán)球網(wǎng)資訊
2025-07-20 15:04:47
逼停119和120的‘暴走團(tuán)’發(fā)聲,群主的解釋,讓大家發(fā)現(xiàn)罵對了!

逼停119和120的‘暴走團(tuán)’發(fā)聲,群主的解釋,讓大家發(fā)現(xiàn)罵對了!

占理兒
2025-07-19 17:13:24
沈騰林允緋聞再添新料!兩人前后現(xiàn)身偏僻公園,孩子疑似也去了

沈騰林允緋聞再添新料!兩人前后現(xiàn)身偏僻公園,孩子疑似也去了

古希臘掌管月桂的神
2025-07-20 09:53:27
卡車司機(jī)帶16歲兒子出車雙雙遇難,親屬:他開車十幾年了

卡車司機(jī)帶16歲兒子出車雙雙遇難,親屬:他開車十幾年了

極目新聞
2025-07-20 11:08:16
湖南一高校成立燒烤研究院?多方回應(yīng)

湖南一高校成立燒烤研究院?多方回應(yīng)

大象新聞
2025-07-20 07:08:15
獲賠88萬拿55萬的律師終于發(fā)聲!案件細(xì)節(jié)披露,恐怕已經(jīng)違法了!

獲賠88萬拿55萬的律師終于發(fā)聲!案件細(xì)節(jié)披露,恐怕已經(jīng)違法了!

青青子衿
2025-07-19 17:48:36
熱搜第一!高鐵不允許吃方便面?12306回應(yīng),網(wǎng)友吵翻了

熱搜第一!高鐵不允許吃方便面?12306回應(yīng),網(wǎng)友吵翻了

中國基金報(bào)
2025-07-20 00:13:10
1.2 萬億世界級水電工程開工,券商周末開啟“戰(zhàn)斗模式”:五大板塊暗藏投資良機(jī)

1.2 萬億世界級水電工程開工,券商周末開啟“戰(zhàn)斗模式”:五大板塊暗藏投資良機(jī)

每日經(jīng)濟(jì)新聞
2025-07-20 14:47:03
2025-07-20 18:07:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10893文章數(shù) 176192關(guān)注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復(fù)盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業(yè)行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業(yè)行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動(dòng)作?

娛樂要聞

肖戰(zhàn)改名官宣!徹底不裝了,要自由

財(cái)經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
手機(jī)
軍事航空

房產(chǎn)要聞

海南中學(xué)江東校區(qū)學(xué)區(qū)劃片重磅出爐!這些項(xiàng)目贏麻了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

RTX 5050 Ti首次現(xiàn)身!可惜只是個(gè)誤會(huì)

手機(jī)要聞

騰訊《和平精英》144Hz 高刷新幀率模式上線

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 广水市| 长丰县| 武城县| 钟山县| 修水县| 大余县| 孝义市| 江华| 揭西县| 乐亭县| 剑川县| 拜泉县| 鹤峰县| 天长市| 沛县| 承德县| 策勒县| 鹤峰县| 鄂托克前旗| 平罗县| 竹山县| 济南市| 交城县| 潼关县| 邛崃市| 定安县| 新干县| 夏河县| 青田县| 大厂| 公安县| 察隅县| 太和县| 登封市| 伽师县| 日照市| 永川市| 福鼎市| 聂荣县| 凤山市| 松溪县|