99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICML | 千倍長度泛化!螞蟻注意力機制GCA 16M長上下文精準理解

0
分享至



該工作第一作者為螞蟻技術(shù)研究院副研究員胡翔,螞蟻技術(shù)研究院高級研究員武威為通訊作者。

在大語言模型如火如荼的當下,長文本建模仍然是一個極具挑戰(zhàn)的問題。糾其根源,一方面在于主流 LLMs 的架構(gòu) Transformers 中平方復雜度及隨序列長度線性增長的推理階段顯存開銷;另一方面在于 full-attention 有限的外推能力,難以泛化到遠超預訓練階段長度的輸入。

而高效處理長上下文能力,除了簡單的工業(yè)界降本增效的需求外,還涉及通用人工智能 (AGI) 的核心問題:具有永久記憶的智能體。如果將人類從出生開始接收到的信息視作長上下文,人類擁有記憶無非是訪問這些上下文。因此記憶可以看作是超長上下文訪問能力,而擁有與用戶所有對話記憶的智能體,很可能為大語言模型公司構(gòu)建數(shù)據(jù)護城河 (事實上,OpenAI 已經(jīng)開放了類似能力)。

近日,螞蟻的研究團隊為這個問題帶來了一個新思路。就像人類開卷考試只會挑和當前問題相關(guān)的關(guān)鍵頁作為參考,語言模型也可以只關(guān)注與當前上下文相關(guān)的過去片段。以此為出發(fā)點,他們提出一種基于因果檢索的注意力機制 GCA (Grouped Cross Attention),完全端到端地學習如何從上文檢索并挑選最相關(guān)片段,從而實現(xiàn)超長序列高性能處理與泛化能力。人類記憶的另一個特性是大部分時候記憶處于沉睡狀態(tài),相關(guān)記憶片段只會在激活時進入意識。類似地,GCA 通過將上文信息卸載到 CPU / 磁盤,只在需要的時候動態(tài)加載需要的片段到 GPU 的方式,大幅降低了長文本處理的顯存開銷。

目前,GCA 的 Triton kernel 實現(xiàn)已全部開源,相關(guān)論文已被 ICML 2025 接收。



  • 論文標題:Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling
  • 論文地址:https://arxiv.org/abs/2410.01651
  • GitHub 主頁:https://github.com/ant-research/long-context-modeling

實驗結(jié)果也令人振奮:整合 GCA 的模型不僅在長文本數(shù)據(jù)集上展現(xiàn)了更優(yōu)的 perplexity,更展現(xiàn)了 1000 倍以上的長度泛化能力,在 16K 上下文預訓練的模型可在 16M 長上下文密鑰檢索 (passkey retrieval) 實現(xiàn) 100% 準確率,并在更復雜的多跳檢索任務持續(xù)展現(xiàn)了超強外推能力。此外長度泛化與檢索能力效果拔群,基于 GCA 的模型訓練開銷隨序列長度幾乎呈線性關(guān)系,并且推理的顯存開銷接近常數(shù),同時基本持平 Transformers 推理速度。

值得一提的是,本工作 24 年 10 月在 arXiv 公開后,國產(chǎn)之光 DeepSeek 在 25 年初公開了 NSA,兩者思路都是通過挑選過去 chunk 并 attention 的方式實現(xiàn)性能優(yōu)化。但各有側(cè)重,GCA 核心亮點在于超長的長度泛化,NSA 通過巧妙的 kernel 設(shè)計實現(xiàn)了逐 token 的稀疏 attention。受 NSA 的啟發(fā),GCA 的后繼工作 HSA (https://arxiv.org/abs/2504.16795) 結(jié)合了兩者的優(yōu)點進行了融合。

長文本處理難點及現(xiàn)有方案的局限性

近年來,有不少工作討論 Transformers (TRMs) 架構(gòu)如何高效處理長文本。因為基于全量上文 attention 的 TRMs 有一個很顯著的局限:輸入長度超過預訓練長度一定程度后,perplexity 會飆升,無法生成正常文本。如果只是解決正常生成的問題,一個最簡單的思路是滑動窗口注意力,即每個 token 僅關(guān)注最鄰近的 N 個 token 即可。這種方式可以保證 LLMs 持續(xù)生成,但它犧牲了長程信息獲取能力。

另一種思路是認為 attention 窗口擴大到預訓練長度范圍之外后會導致原本的 attention 權(quán)重分布發(fā)生變化,因此通過調(diào)整 softmax 溫度的方式進行長度泛化。但這類方法經(jīng)實驗驗證往往泛化的倍率也有限。

因此,attention 長度泛化的難點在于處理超長序列的同時,能夠真正有效利用上文中的信息。

GCA: 基于端到端因果檢索的注意力機制

現(xiàn)有一些工作通過檢索增強 (RAG) 的思路來進行長文本建模,其基本思路是將文本分段,譬如每 64 個 token 為一個 chunk;每生成一個 chunk 后,模型根據(jù)當前上文信息檢索歷史 chunk 來輔助下一個 chunk 的生成。理想情況下,只要能檢索到對下文生成最有幫助的 chunk,再通過 cross-attention 機制從相關(guān) chunk 收集信息即可。但通常檢索模塊是單獨訓練的,只能檢索到相似內(nèi)容,無法保證挑選對下文生成最有幫助的 chunk。

和已有工作相比,GCA 的一個顯著優(yōu)勢是能夠與自回歸語言模型聯(lián)合預訓練,從而實現(xiàn)端到端學習。



上圖對比了 GCA 與傳統(tǒng)檢索方式的運作區(qū)別。傳統(tǒng)方式中 (a), 檢索模塊檢索并返回相關(guān) chunk,但檢索分只用于挑選 chunk 完全不參與 forward 運算,因此無法獲得梯度,無法學習。GCA 的核心創(chuàng)新在于通過一種兩階段的注意力機制,使得每個 chunk 的檢索分能參與到自回歸預測中,如圖中(b)所示。

1. 分組注意力機制

不同于 (a) 中直接將 chunk 拼接在一起進行 attention, GCA 分別對每個 chunk 進行 attention (分組 attention),從各個 chunk 收集 token 粒度的信息并整合,作為每個 chunk 整體的信息。

2. Chunk-level 信息融合

GCA 將每個 chunk 的檢索相關(guān)分通過 softmax 得到一個概率分布,將其作為權(quán)重對第一步所有 chunk 的表征進行加權(quán)求和,融合所有 chunk 信息用于下一個 token 預測。在反向傳播過程中,更有助于預測下文的 chunk 將被分配更大的權(quán)重,從而實現(xiàn)檢索模塊的端到端學習。

模型整體架構(gòu)是通過 GCA 與 sliding window attention 結(jié)合實現(xiàn)長上下文建模;前者負責長程信息檢索,后者負責整合短程信息。為了進一步提升 GCA 性能,降低顯存開銷,研究團隊將整個 GCA 封裝成由 Triton 實現(xiàn)的 kernel,方便未來工作可以直接復用。

實驗結(jié)果

在語言模型,長程檢索等任務上的實驗表明:

1. 基于 GCA 的 128M 的模型在大海撈針任務即可超越大部分主流 7B 模型,達成 1000 倍外推,實現(xiàn) 16M 上下文的完美大海撈針

在該實驗中,所有模型都僅在不超過 16K 的上下文進行預訓練,baseline 囊括了包含 sliding window attention 等主流注意力機制。基于 GCA 的模型無論在簡單大海撈針,還是更復雜的變量追蹤任務,都保持了穩(wěn)定的外推能力。

注意到幾乎所有 baseline 在上下文長度超過 64K 后幾乎都歸零,這些不同模型存在不同原因。劃窗注意力因為只能看最鄰近的 token,無法實現(xiàn)長程信息獲取;基于循環(huán)結(jié)構(gòu)的由于所有上下文信息都被壓縮在一個固定維度的表征,必然存在信息損失的問題;基于單獨訓練檢索器的模型 (RPTContriever) 的結(jié)果進一步驗證了檢索模型未必能檢索到對下文有幫助的上文。

這一結(jié)果經(jīng)驗性地為可長度泛化的注意力機制提供了一個成功的概念原型。同時證明可泛化的長程信息獲取能力取決于注意力機制原理上的改進,與參數(shù)量的提升無關(guān)。



在摘要及 RULER 榜單的效果

2. 預訓練高效,推理時顯存開銷接近常數(shù):GCA 是一種 sparse attention,其 attention 的視野域保持常數(shù),因此在 batch size 一定的情況下,訓練開銷幾乎與序列長度呈線性。由于 GCA 在生成階段將所有上文的 KV cache 都卸載到 CPU,每次檢索的時候才把相關(guān) chunk 的 kv cache 載入 GPU,因此超長上文也不會有 KV cache 顯存爆炸的問題。而 GPU-CPU 的交換控制在每 64 個 token 一次,因此對推理速度影響非常小,從而實現(xiàn)接近常數(shù)的顯存開銷,但仍保持高效的推理速度及長程信息獲取能力。



訓練時間及 ppl 隨序列長度的變化



推理速度與顯存開銷相比基線 (基于劃窗注意力的 Transformers) 的倍率關(guān)系(越低越好)



相同條件不同模型各個參數(shù)規(guī)模下的訓練吞吐量,相比劃窗注意力有額外 20% 的開銷,但帶來超長程信息獲取的能力

3. 在 arXiv-math 上的數(shù)據(jù)分析發(fā)現(xiàn),通過 GCA,語言模型會根據(jù)當前上下文,檢索下文生成中可能會用到的引理及變量聲明。這說明 GCA 學到的不僅僅是字面相似性,更包含了語義乃至邏輯相關(guān)性。



黑體是當前 chunk,紅色,藍色,黃色,分別代表 top3 相關(guān) chunk、

結(jié)語

本工作提出一種可以長度泛化的稀疏注意力機制 GCA, 其核心在于可導的檢索模塊,可以有效處理 1000 倍于預訓練長度的文本,首次實現(xiàn)在 16M 長度完美的大海撈針。雖然當前實驗的模型規(guī)模較小,但期望該工作可以為機器如何實現(xiàn)永久記憶提供新的研究思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
洞房夜新娘說上聯(lián)“兩座高山守玉門”,新郎對下聯(lián)后,她:沒羞沒臊

洞房夜新娘說上聯(lián)“兩座高山守玉門”,新郎對下聯(lián)后,她:沒羞沒臊

蕭竹輕語
2025-06-20 17:21:16
普京:已得到以色列的保證

普京:已得到以色列的保證

魯中晨報
2025-06-21 21:13:06
狂降14萬!又一中產(chǎn)“神車”跌成白菜價,老車主慘遭集體背刺!

狂降14萬!又一中產(chǎn)“神車”跌成白菜價,老車主慘遭集體背刺!

芳芳歷史燴
2025-06-21 16:32:59
伊朗突發(fā)5.5級地震,距福爾多核設(shè)施約280公里,專家:與所謂的核試驗無關(guān),系自然發(fā)

伊朗突發(fā)5.5級地震,距福爾多核設(shè)施約280公里,專家:與所謂的核試驗無關(guān),系自然發(fā)

魯中晨報
2025-06-21 19:41:09
太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺
2025-06-21 17:25:41
46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

娛樂圈圈圓
2025-06-20 17:30:24
厚底跑鞋鼻祖,hoka 歐尼歐尼再現(xiàn)“一鞋難求”經(jīng)典之作!

厚底跑鞋鼻祖,hoka 歐尼歐尼再現(xiàn)“一鞋難求”經(jīng)典之作!

超級數(shù)學建模
2025-06-20 22:40:10
美女網(wǎng)紅律師“翻車”,線上線下“兩張臉”?網(wǎng)友:美顏開大了

美女網(wǎng)紅律師“翻車”,線上線下“兩張臉”?網(wǎng)友:美顏開大了

電影爛番茄
2025-06-19 20:58:44
罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

獵火照狼山
2025-06-21 21:48:12
足協(xié)杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協(xié)杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側(cè)身凌空斬
2025-06-21 20:56:31
郭碧婷自爆生產(chǎn)過程,為二胎吃盡苦頭,網(wǎng)友:絕對是個狠人

郭碧婷自爆生產(chǎn)過程,為二胎吃盡苦頭,網(wǎng)友:絕對是個狠人

魚樂大使
2025-06-19 15:26:19
“電報”創(chuàng)始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產(chǎn)

“電報”創(chuàng)始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產(chǎn)

現(xiàn)代快報
2025-06-21 15:46:24
費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

網(wǎng)球之家
2025-06-21 23:07:20
經(jīng)紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

經(jīng)紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

懂球帝
2025-06-21 11:26:29
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

粵語音樂噴泉
2025-06-20 11:08:17
英媒獨家:貝蒂斯與曼聯(lián)商談安東尼轉(zhuǎn)會,球員愿降薪30%

英媒獨家:貝蒂斯與曼聯(lián)商談安東尼轉(zhuǎn)會,球員愿降薪30%

雷速體育
2025-06-21 21:47:38
剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

每日經(jīng)濟新聞
2025-06-21 20:21:17
4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

一娛三分地
2025-06-19 20:34:17
中東局勢最新進展:6月21日下午最新消息

中東局勢最新進展:6月21日下午最新消息

第一校尉
2025-06-21 15:05:57
普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

亡海中的彼岸花
2025-06-21 19:21:00
2025-06-21 23:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10687文章數(shù) 142343關(guān)注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關(guān)情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經(jīng)要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

家居
本地
時尚
房產(chǎn)
公開課

家居要聞

山水之間 墨染風雨云間

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

天啊,凱特王妃都在準備葬禮了?

房產(chǎn)要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 独山县| 新巴尔虎左旗| 鞍山市| 依安县| 井研县| 小金县| 南昌县| 汽车| 图们市| 黔南| 拉萨市| 嘉兴市| 昭平县| 醴陵市| 晋宁县| 老河口市| 堆龙德庆县| 赞皇县| 沙田区| 宽甸| 阜平县| 石阡县| 南岸区| 十堰市| 井研县| 瑞昌市| 台南市| 台中市| 阳山县| 泸溪县| 汤阴县| 石城县| 双城市| 龙陵县| 南京市| 靖远县| 钦州市| 齐河县| 濉溪县| 顺平县| 青冈县|