99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Transformer死角,只需500步后訓練,循環模型突破256k長度泛化極限

0
分享至



機器之心報道

編輯:陳陳、笑寒

線性循環模型(如 Mamba)和線性注意力機制都具備這樣一個顯著優勢:它們能夠處理極長的序列,這一能力對長上下文推理任務至關重要。

事實上,這正是它們相較于 Transformer 的關鍵優勢 —— 后者受限于有限的上下文窗口,且在序列長度上的計算復雜度是二次的,成為性能瓶頸。

過去,循環模型面臨的主要問題是性能不足:在處理短序列時,它們的表現往往不如 Transformer。然而,隨著架構上的一系列突破,循環模型的性能已經顯著提升,在許多任務中已能與 Transformer 媲美,甚至已經被應用于多個工業場景中,如音頻建模和代碼補全等。

但近期的多項研究發現,循環模型仍存在一個關鍵短板:盡管它們在訓練長度范圍內表現良好,但在處理超出訓練長度的序列時,往往難以泛化,表現明顯下降。

事實也確實如此,舉例來說,下圖為 Mamba-2 檢查點在不同序列位置上的性能變化(以困惑度 Perplexity 衡量,數值越低代表性能越好)??梢悦黠@看到,一旦序列位置超出了訓練上下文范圍,這些模型幾乎就變得毫無作用:它們無法實現長度泛化。



這就帶來一個問題:現有的循環模型在長序列上表現較差,而在短序列上相比 Transformer 也沒有明顯的效率優勢;換句話說,它們在兩個維度上似乎都顯得不夠理想。

那這是否意味著循環模型就毫無用處了呢?

當然不是!

本文,來自 CMU、 Cartesia AI 的研究者證明了通過簡單的訓練干預,循環模型是完全可以實現長度泛化的。只需 500 步后訓練(約占預訓練預算的 0.1%),就能讓模型在高達 256k 長度的序列上實現泛化!

因此,循環模型并不是存在根本性缺陷,而是擁有尚未被充分釋放的潛力。

值得一提的是,Mamba 作者之一 Albert Gu 也參與了這項研究。2023 年他和 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 共同創立了 Cartesia 。公司的使命就是「構建具有長記憶能力的實時智能,無論你身在何處都能運行」,也和這篇文章的主題不謀而合。



  • 論文地址:https://arxiv.org/pdf/2507.02782
  • 博客地址:https://goombalab.github.io/blog/2025/improving-length-generalization/
  • 論文標題: Understanding and Improving Length Generalization in Recurrent Models

為什么循環模型不能進行長度泛化?



函數 f 和 g 不依賴于位置 t,因此理論上循環模型可以自然地處理任何序列長度。但是,當 t 很大時,它們為什么會失敗呢?

本文展示了狀態 h_t 的分布會隨時間的變化。因此,即使 g 和 f 在某個 T 之前工作正常,其他 t>T 的 h_t 可能會有顯著不同,從而導致模型無法產生正確的輸出。實際上,下圖展示了 Mamba-2 的狀態范數隨時間顯著增加:



這就解釋了為什么循環模型無法實現長度泛化:當處理超過訓練長度的序列時,模型會遇到在訓練過程中從未接觸過的狀態 h_t,因此模型并沒有學會如何處理這些狀態。

基于這一觀察,本文提出了一個新的解釋框架 —— 未探索狀態假說(unexplored states hypothesis),用于說明循環模型在長度泛化上失敗的根本原因。

未探索狀態假說(Unexplored States Hypothesis)

當循環模型只在所有可能狀態分布的一個子集上進行訓練時,它們就難以實現長度泛化 —— 也就是說,模型只學習了在有限訓練步數內可能出現的狀態,而未曾接觸那些在無限時間展開狀態遞推后可能出現的狀態分布。
當訓練時間足夠長時,模型會過擬合于這一有限狀態子集,從而在處理更長序列時表現不佳,因為它們會遭遇未被探索過的狀態分布,從而導致性能下降。

訓練干預,使長度泛化

未探索狀態假說指出:要實現長度泛化,并不需要改變模型的架構或機制,而是應該讓模型在訓練階段接觸到更加多樣的狀態分布 —— 尤其是那些在長序列狀態遞推過程中自然產生的分布。

為此,最直接的方法是讓模型直接在更長的序列上進行訓練,但這在實際中往往不可行,原因包括:

  • GPU 顯存限制;
  • 缺乏足夠長的訓練數據。

因此,我們需要尋找更高效的訓練方法來覆蓋這些狀態分布,從而提升模型的長度泛化能力。

實現長度泛化的方法是:對初始狀態進行干預

一般而言,現代模型架構假設初始狀態為 h_(-1)=0,本文考慮了對初始狀態 h_(-1) 的四種簡單干預。這四種訓練干預措施可以看作是從四種不同的分布中采樣初始狀態 h_(-1) :

  • 隨機噪聲(Random Noise):將模型狀態初始化為獨立同分布(IID)高斯噪聲,均值為 0,標準差為常數。所有層和注意力頭使用相同的均值和標準差。
  • 擬合噪聲(Fitted Noise):在訓練過程中,記錄所有層和注意力頭上,序列最終狀態的均值和標準差。然后使用與這些統計量相匹配的 IID 高斯分布來初始化狀態,即為每一層和每一個頭分別設置不同的均值和標準差。
  • 狀態傳遞(State Passing,SP):使用先前(不相關)序列的最終狀態作為初始狀態。這些最終狀態是通過在給定序列上應用狀態遞歸獲得的,得到 h_T 并將其用作另一個序列的 h_(-1)。這類似于驗證過程中發生的情況:模型不會在 T 停止,而是繼續滾動狀態并從 h_T 生成輸出。
  • TBTT(Truncated Backpropagation Through Time): 將一條長序列劃分為多個較小的片段,并將每個片段的最終狀態作為下一個片段的初始狀態。這等價于處理整條完整序列,但在片段之間停止梯度的反向傳播。

下圖展示了 Mamba-2 模型經過 500 步(約預訓練總步數的 0.1%)后訓練后,在不同干預措施下的結果:





核心發現 1:SP 與 TBTT 機制可實現長度泛化

SP 和 TBTT 這兩種干預方法,能使模型在遠超訓練序列長度的情況下實現泛化。由此可見:長度泛化有望通過簡單的訓練干預在循環模型中容易實現。

請注意,結果只達到了原始預訓練預算的 0.02% !

核心發現 2:循環模型狀態的性質,可以通過觀察干預的表現來推斷循環模型狀態分布的性質

在 370M 參數規模的模型中,隨機噪聲干預未能實現長度泛化,而擬合噪聲則有效。這表明,對于 370M 模型來說,模型可達狀態的分布無法通過具有固定方差的高斯分布來近似,但可以通過在每一層和每個注意力頭中使用擬合方差的 IID 高斯分布來近似。

然而,擬合噪聲在 1.3B 模型中未能成功實現長度泛化,這說明大模型的狀態在其元素之間可能存在更復雜的依賴關系,因此無法再用簡單的 IID 分布來建模。

此外,這些干預方法還能解決此前展示的狀態范數隨時間增長的問題,使模型在所有時間步輸出的狀態保持相近的范數,從而提升整體穩定性。



長上下文任務的表現

本文觀察到,這些干預措施能夠實現長度魯棒性(即在訓練上下文長度 T 后,性能不會下降),但尚不清楚它們是否能實現長度泛化(即解決需要利用距離超過 T 個位置的 token 之間關系的任務)。

可能會有疑問,干預措施是否只是簡單地通過阻止模型在訓練上下文長度之外進行推理來實現長度魯棒性 ?

這類似于滑動窗口注意力,無法推理超過滑動窗口的 token,模型在所有評估 t > T 的上下文中會保持恒定性能,但無法解決需要長上下文推理的任務。

在本文的工作中,通過在三個長上下文任務上的實驗結果,展示了這些干預措施確實能夠實現長度泛化。

BABILong

BABILong 是一個具有挑戰性的基準測試,它考察了模型的常識理解能力以及捕捉文本中長程依賴關系的能力。

從下圖可以觀察到,狀態傳遞(State Passing)在少樣本和微調設置下都增強了模型的長度泛化能力(模型是在長度為 2048 的序列上進行訓練和微調的)。

因此,狀態傳遞不僅有助于解決已建立語言模型的困惑度發散問題,還能增強它們解決長上下文推理任務的能力。



密碼檢索任務

密碼檢索任務要求模型在長上下文中的給定深度處檢索一個 5 位數字的密碼。

下圖展示了 Mamba-2 370M 和 780M 官方檢查點在三種設置下的表現:零樣本、常規微調和使用擬合噪聲進行微調。經過擬合噪聲微調的模型能夠利用超過 2048 個位置(訓練上下文長度)之間的 token 關系。特別地,780M 模型能夠完美地解決長度為 256k 的序列中的密碼檢索任務。



合成復制任務

合成復制任務要求模型復制一個任意的 token 序列。

下表展示了在訓練過程中使用狀態傳遞顯著提高了模型在長度超過三倍的序列中的驗證表現。因此,狀態傳遞幫助模型實現長度泛化,解決了比訓練過程中遇到的任務更為復雜的長上下文任務。



深入探討循環模型如何處理上下文

本文已經展示了對初始狀態的干預能夠實現長度魯棒性,并使模型能夠解決長上下文任務。在這些發現的基礎上,本文提出一個度量標準,幫助我們深入了解序列模型是如何處理上下文的。

理想情況下,在文本建模中,希望模型能夠關注最近的上下文,而不是過多地關注那些距離過遠的 token。那么,該如何量化這種行為呢?





盡管每個 token 都會對模型的輸出產生影響,但從直覺上我們會期望最近的 token 應該具有顯著更強的影響力。

然而,注意到 EffRem 曲線在立即上升后逐漸平緩下去。這種情況顯然是有問題的:在 T=8192 時,下一 token 的預測不應該因為模型是只看到最近的 token 還是完整的序列而發生劇烈變化。

在自然語言中,模型應該主要依賴于最近的上下文,而早期的 token 不應該完全改變預測,尤其不應該改變到兩個輸出概率分布之間的整體變差接近 1 的程度。這意味著模型在序列開頭的 token 上受到了不成比例的影響。

狀態傳遞修正了有效記憶

經過狀態傳遞的后訓練,EffRem 曲線顯示出逐漸上升,表明模型對遠程 token 的權重最小,并逐漸增加對最近 token 的權重。特別是,緊鄰上下文中的 token(例如句子中的前一個詞)對下一 token 的預測具有重要影響,這正是文本建模中期望的行為。



簡而言之,通過有效記憶,我們可以確認狀態傳遞幫助模型優先考慮最近的上下文,而不會被遠處的過往 token 不必要地干擾。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
永遠不要跟認知不同的人溝通:認知的9個層次,你在哪一層?

永遠不要跟認知不同的人溝通:認知的9個層次,你在哪一層?

尚曦讀史
2025-03-04 06:01:10
張國清出席第十二屆世界高速鐵路大會開幕式并致辭

張國清出席第十二屆世界高速鐵路大會開幕式并致辭

澎湃新聞
2025-07-08 21:03:15
沒想到,你這么大了!

沒想到,你這么大了!

文刀萬
2025-06-03 17:04:14
以身入局5:虎落平陽,勇哥和杰哥被打

以身入局5:虎落平陽,勇哥和杰哥被打

金昔說故事
2025-07-08 12:21:54
妻子生下三胞胎突然消失,父子四人苦尋千里,真相卻讓人崩潰!

妻子生下三胞胎突然消失,父子四人苦尋千里,真相卻讓人崩潰!

碎碎紀實
2025-04-24 19:05:07
2025年9月3日閱兵安排已經公布!邀請了哪些國家參加?

2025年9月3日閱兵安排已經公布!邀請了哪些國家參加?

動漫里的童話
2025-07-06 06:12:07
以色列軍隊遭遇復雜伏擊,車輛被燒毀!造成至少5死16傷

以色列軍隊遭遇復雜伏擊,車輛被燒毀!造成至少5死16傷

魯中晨報
2025-07-08 22:00:06
“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

冷紫葉
2025-07-08 21:20:03
天塌了!現在勞改不踩縫紉機,改做建模動畫了,有人哭暈在評論區

天塌了!現在勞改不踩縫紉機,改做建模動畫了,有人哭暈在評論區

有趣的火烈鳥
2025-07-08 08:41:30
中紀委打下今年第34“虎”,武漢原市長周先旺被查!正部級蔣超良4個月前落馬

中紀委打下今年第34“虎”,武漢原市長周先旺被查!正部級蔣超良4個月前落馬

上觀新聞
2025-07-08 13:59:14
小米首款增程SUV曝光:5.3米車身+1500公里續航,40萬挑戰問界M9

小米首款增程SUV曝光:5.3米車身+1500公里續航,40萬挑戰問界M9

艾米手工作品
2025-07-08 13:20:46
3對母女川西墜河:父親已接走孩子遺體,搜救大佬發聲,搜救暫停

3對母女川西墜河:父親已接走孩子遺體,搜救大佬發聲,搜救暫停

涵豆說娛
2025-07-08 15:01:45
知名導演再曝猛料!古天樂美國秘密結婚多年,婚姻狀態令人擔憂

知名導演再曝猛料!古天樂美國秘密結婚多年,婚姻狀態令人擔憂

胡一舸北游
2025-07-08 21:33:24
男子開車送醉酒好友回家,半路上好友和妻子車震,男子被好友殺害

男子開車送醉酒好友回家,半路上好友和妻子車震,男子被好友殺害

丫頭舫
2025-07-08 23:18:15
倒反天罡!江西3名學霸不報北大清華,老師破防后張雪峰揭開真相

倒反天罡!江西3名學霸不報北大清華,老師破防后張雪峰揭開真相

寒士之言本尊
2025-07-08 15:04:31
陌生的國米,瘋狂的夏窗!凈投入1億歐,或有5000萬歐豪購!

陌生的國米,瘋狂的夏窗!凈投入1億歐,或有5000萬歐豪購!

肥強侃球
2025-07-08 22:41:54
我在泰國地下娛樂城,一晚花5萬,多數是中國女孩,很難忘

我在泰國地下娛樂城,一晚花5萬,多數是中國女孩,很難忘

程哥歷史觀
2024-01-02 13:38:18
悼念好友,羅伯遜今日歸隊時在安菲爾德為若塔獻花

悼念好友,羅伯遜今日歸隊時在安菲爾德為若塔獻花

懂球帝
2025-07-09 01:09:22
一個花卷33,一碗豆腐湯要69元,貴到離譜的西貝,為什么是擠滿人

一個花卷33,一碗豆腐湯要69元,貴到離譜的西貝,為什么是擠滿人

青眼財經
2025-07-08 19:53:47
舔狗和備胎一旦消失了,基本上就很難在出現了

舔狗和備胎一旦消失了,基本上就很難在出現了

加油丁小文
2025-07-04 20:30:03
2025-07-09 02:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10810文章數 142356關注度
往期回顧 全部

科技要聞

余承東回應開車"睡覺":平生第一次去自首

頭條要聞

美媒問王毅外長會否在東亞外長會會見魯比奧 中方回應

頭條要聞

美媒問王毅外長會否在東亞外長會會見魯比奧 中方回應

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

本地
親子
藝術
數碼
軍事航空

本地新聞

云游中國|踏入時光長廊!岐山八景訴說古今歲月風華

親子要聞

天水??!我們要叫你鉛水嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

AIDA64 發布 7.70 正式版:首次支持 PCIe 7.0,提前支持 Zen 6

軍事要聞

特朗普:美國將對烏克蘭輸送更多武器

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苏尼特左旗| 马龙县| 朝阳市| 石景山区| 体育| 徐汇区| 平谷区| 扬中市| 梁山县| 资兴市| 屏山县| 沾益县| 申扎县| 囊谦县| 阿瓦提县| 镶黄旗| 台南市| 榆林市| 马公市| 三河市| 区。| 图木舒克市| 五原县| 潞城市| 三原县| 琼海市| 平果县| 胶州市| 辉南县| 岳普湖县| 黄冈市| 霍林郭勒市| 新和县| 上林县| 义马市| 五河县| 米脂县| 黑河市| 东乡族自治县| 新河县| 资兴市|