最近一個火爆AI圈的一個線性時間序列模型框架Mamba引起了大家的討論,由于其性能在相關的實驗上超越了transformer模型,讓人不禁討論注意力機制是否是大模型唯一的出路。transformer模型與mamba模型的大戰(zhàn)也是一觸即發(fā),很多小伙伴們已經(jīng)開始嘗試把項目轉移到mamba框架上。且mamba的開源代碼已經(jīng)上傳到GitHub上,小伙伴們可以運行代碼嘗試。
目前幾乎所有的大語言模型都是基于transformer模型框架。許多二次時間序列架構(例如線性注意力、門控卷積和循環(huán)模型以及結構化狀態(tài)空間模型(SSM))已被開發(fā)來解決 Transformers 在長序列上的計算效率低下問題,但它們在重要模態(tài)上的表現(xiàn)并不好。
Mamba 是一種新的狀態(tài)空間模型架構,在語言建模等信息密集數(shù)據(jù)上顯示出良好的性能,而以前的二次模型在 Transformers 方面存在不足。Mamba基于結構化狀態(tài)空間模型的,并使用FlashAttention進行高效的硬件設計和實現(xiàn)。
Mamba 享有快速推理(吞吐量比 Transformer 高 5 倍)和序列長度線性縮放,并且其性能在高達百萬長度序列的實際數(shù)據(jù)上得到了很多的提高。 作為通用序列模型骨干,Mamba 在語言、音頻和基因組學等多種任務上實現(xiàn)了最先進的性能。 在語言建模方面, Mamba-3B 模型在預訓練和下游任務方面都優(yōu)于相同大小的 Transformer模型,并且與兩倍大小的 Transformer 相匹配。
Mamba模型采用門控MLP單元,并與歸一化殘差連接組成新的Mamba基礎模型,并使用此模型搭建整體的Mamba模型,整個模型框架并未采用transformer模型的注意力機制。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.