99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

差分注意力機(jī)制引領(lǐng)變革,DIFF Transformer攻克長序列建模難題

0
分享至




近年來,Transformer 架構(gòu)在自然語言處理領(lǐng)域取得了巨大成功,從機(jī)器翻譯到文本生成,其強(qiáng)大的建模能力為語言理解與生成帶來了前所未有的突破。

然而,隨著模型規(guī)模的不斷擴(kuò)大和應(yīng)用場景的日益復(fù)雜,傳統(tǒng) Transformer 架構(gòu)逐漸暴露出缺陷,尤其是在處理長文本、關(guān)鍵信息檢索以及對抗幻覺等任務(wù)時,Transformer 常常因過度關(guān)注無關(guān)上下文而陷入困境,導(dǎo)致模型表現(xiàn)受限。

為攻克這一難題,來自微軟和清華的研究團(tuán)隊(duì)提出了DIFF Transformer,一種基于差分注意力機(jī)制的創(chuàng)新基礎(chǔ)模型架構(gòu)。



  • 論文標(biāo)題:Differential Transformer
  • 論文鏈接:https://openreview.net/pdf?id=OvoCm1gGhN
  • 代碼鏈接:https://aka.ms/Diff-Transformer

其核心思想是通過計(jì)算兩組 Softmax 注意力圖的差值來放大對關(guān)鍵上下文的關(guān)注,同時消除注意力噪聲干擾。DIFF Transformer 具備以下顯著優(yōu)勢:

在語言建模任務(wù)中,DIFF Transformer 在模型大小、訓(xùn)練 token 數(shù)量等方面展現(xiàn)出了卓越的可擴(kuò)展性,僅需約 65% 的模型規(guī)模或訓(xùn)練 token 數(shù)量即可達(dá)到與傳統(tǒng) Transformer 相當(dāng)?shù)男阅埽蠓嵘苏Z言模型通用表現(xiàn)。

在長文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對抗幻覺、上下文學(xué)習(xí)、模型激活值量化等一系列任務(wù)中,DIFF Transformer 展現(xiàn)了獨(dú)特優(yōu)勢,相比傳統(tǒng) Transformer 有顯著提升。

DIFF Transformer 的特性使其在自然語言處理領(lǐng)域具有廣闊的應(yīng)用前景,有望成為推動語言模型發(fā)展的新動力。此外,已有跟進(jìn)研究初步驗(yàn)證方法在視覺、多模態(tài)等領(lǐng)域中的有效性,顯示出其跨模態(tài)通用的潛力。該研究已被 ICLR 2025 接收,并獲選為 Oral 論文(入選比例 1.8%)。

方法

本文提出了一種名為 Differential Transformer(DIFF Transformer) 的基礎(chǔ)模型架構(gòu),旨在解決傳統(tǒng) Transformer 在長文本建模中對無關(guān)上下文過度分配注意力的問題。該方法通過差分注意力機(jī)制(Differential Attention)放大對關(guān)鍵上下文的關(guān)注,同時消除注意力噪聲,從而顯著提升模型在多種任務(wù)中的性能。

差分注意力機(jī)制

傳統(tǒng) Transformer 的注意力機(jī)制通過 Softmax 函數(shù)對輸入序列中的不同 token 進(jìn)行加權(quán),但 Softmax 的性質(zhì)導(dǎo)致模型難以完全消除無關(guān)上下文的影響。為了克服這一問題,DIFF Transformer 引入了差分注意力機(jī)制。

具體而言,該機(jī)制將查詢向量(Query)和鍵向量(Key)在注意力頭(Head)維度分為兩組,分別計(jì)算兩組的 Softmax 注意力圖,然后計(jì)算兩者的差值作為最終的注意力分?jǐn)?shù)。這一設(shè)計(jì)類似于電子工程中的差分放大器,以及降噪耳機(jī),通過兩組信號相減以消除共有噪聲。

差分注意力的數(shù)學(xué)表達(dá)如下:







圖 2. Transformer 與 DIFF Transformer 注意力分?jǐn)?shù)分布可視化

圖 2 展示了 DIFF Transformer 和傳統(tǒng) Transformer 在注意力分?jǐn)?shù)分配上的顯著差異。作者將一段關(guān)鍵信息插入大段不相關(guān)文本的中間位置,并對模型抽取關(guān)鍵信息時的注意力分?jǐn)?shù)分配進(jìn)行可視化。

傳統(tǒng) Transformer 的注意力分?jǐn)?shù)被廣泛分配到整個上下文中,只有極少分?jǐn)?shù)分配至關(guān)鍵信息;而 DIFF Transformer 能夠?qū)⒏叩姆謹(jǐn)?shù)集中在目標(biāo)答案上,并且?guī)缀醪幌驘o關(guān)上下文分配注意力。

注意力分?jǐn)?shù)分配的稀疏性與精準(zhǔn)性也使得 DIFF Transformer 在處理長文本關(guān)鍵信息檢索任務(wù)時顯著優(yōu)于 Transformer。

實(shí)驗(yàn)

作者通過一系列實(shí)驗(yàn)驗(yàn)證了 DIFF Transformer 在多個方面的卓越性能,證明了其在大語言模型中應(yīng)用的獨(dú)特潛力與優(yōu)勢。

語言建模

作者研究了 DIFF Transformer 在擴(kuò)展模型規(guī)模和訓(xùn)練數(shù)據(jù)量時的性能,如圖 3 所示。實(shí)驗(yàn)表明,DIFF Transformer 僅需約 65% 的參數(shù)規(guī)模或訓(xùn)練數(shù)據(jù)量即可達(dá)到與 Transformer 相當(dāng)?shù)恼Z言建模性能。例如,6.8B 參數(shù)規(guī)模的 DIFF Transformer 在語言建模損失上與 11B 參數(shù)規(guī)模的 Transformer 相當(dāng)。



圖 3. 語言建模上的模型參數(shù)、訓(xùn)練數(shù)據(jù)量可擴(kuò)展性實(shí)驗(yàn)

長文本建模

作者將模型擴(kuò)展到 64K 上下文長度,并在長文本書籍?dāng)?shù)據(jù)上進(jìn)行了評估。結(jié)果顯示,考慮累積平均負(fù)對數(shù)似然(NLL)指標(biāo), DIFF Transformer 在不同序列位置上均優(yōu)于 Transformer,能夠更有效地利用長上下文信息。



圖 4. 長文本書籍?dāng)?shù)據(jù)模型性能評估

關(guān)鍵信息檢索

作者通過「多針檢索」(Multi-Needle Retrieval)實(shí)驗(yàn)評估了模型從大量上下文中提取關(guān)鍵信息的能力,如圖 5 所示。實(shí)驗(yàn)表明,DIFF Transformer 在不同上下文長度和答案深度下均表現(xiàn)出更高的準(zhǔn)確率,尤其是在文本較長以及答案位于文本更靠前位置時,優(yōu)勢更為明顯。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度時的準(zhǔn)確率比 Transformer 高出 76%。此外,統(tǒng)計(jì)信息顯示,DIFF Transformer 在注意力分?jǐn)?shù)分配上也表現(xiàn)出更高的聚焦能力,能夠準(zhǔn)確定位關(guān)鍵信息,并展現(xiàn)了更高的信噪比。



圖 5. 多針檢索評估

上下文學(xué)習(xí)

作者從兩個角度評估了 DIFF Transformer 的上下文學(xué)習(xí)能力:多樣本上下文學(xué)習(xí)和樣本順序魯棒性測試。 如圖 6 所示,在多樣本上下文學(xué)習(xí)任務(wù)中,作者使用了 4 個不同的數(shù)據(jù)集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例數(shù)量,直到總長度達(dá)到 64K tokens。結(jié)果顯示,DIFF Transformer 在不同數(shù)據(jù)集上均優(yōu)于 Transformer,平均準(zhǔn)確率提升顯著。



圖 6. 多樣本上下文學(xué)習(xí)

在魯棒性測試中,作者通過打亂示例順序的方式評估了模型的性能穩(wěn)定性。如圖 7 所示,DIFF Transformer 在不同示例排列下的性能方差顯著低于 Transformer,表明其對輸入順序的敏感性更低,具有更強(qiáng)的魯棒性。



圖 7. 樣本順序魯棒性測試

幻覺評測

作者利用文本摘要和問答任務(wù)作為兩個典型的幻覺評測場景,評估了 DIFF Transformer 在降低大模型幻覺(hallucination)方面的表現(xiàn)。結(jié)果如圖 8 所示,DIFF Transformer 在生成摘要和回答問題時顯著提升了準(zhǔn)確率,減少了幻覺現(xiàn)象。這是因?yàn)椴罘肿⒁饬C(jī)制能夠準(zhǔn)確定位重要文段,避免無關(guān)上下文對模型預(yù)測的干擾。



圖 8. 利用文本摘要、問答任務(wù)進(jìn)行幻覺評測

異常激活值分析

作者還發(fā)現(xiàn) DIFF Transformer 能夠顯著減少模型激活中的異常值,這為模型激活值的量化提供了新的可能性。實(shí)驗(yàn)表明,DIFF Transformer 在注意力激活值(attention logits)和隱藏狀態(tài)(hidden states)中的最大激活值顯著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用這一性質(zhì),DIFF Transformer 在注意力激活值的低比特量化下的性能也優(yōu)于 Transformer,如圖 9 所示。



圖 9. 注意力激活值的低比特量化

數(shù)學(xué)推理能力

作者在數(shù)學(xué)推理任務(wù)上進(jìn)一步驗(yàn)證了 DIFF Transformer 的性能。作者采用兩階段訓(xùn)練,在 3B 預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào),并在 MATH 等 8 個數(shù)學(xué)數(shù)據(jù)集上評測模型性能。在第一階段,采用 20B token 合成數(shù)學(xué)數(shù)據(jù)對模型進(jìn)行微調(diào),使模型獲得基礎(chǔ)數(shù)學(xué)能力,評測結(jié)果如圖 10 所示。從 15B token 開始,DIFF Transformer 展現(xiàn)出了顯著優(yōu)于 Transformer 的數(shù)學(xué)能力,至 20B token 結(jié)束的時候,準(zhǔn)確率的差距達(dá)到了 11% 左右。



圖 10. 第一階段數(shù)學(xué)合成數(shù)據(jù)微調(diào)

在第二階段,作者利用 Deepseek-R1 輸出所構(gòu)造的數(shù)據(jù)集 OpenThoughts-114K-Math 對模型進(jìn)行蒸餾,使模型更強(qiáng)大的深度推理能力。如圖 11 所示,在 8 個數(shù)據(jù)集上,DIFF Transformer 相較 Transformer 均有不同程度的提升,平均準(zhǔn)確率提升了 7.5%,這表明差分注意力機(jī)制更強(qiáng)大的上下文建模能力在推理任務(wù)中也至關(guān)重要。



圖 11. 第二階段深度推理能力評測

討論與未來工作

DIFF Transformer 自發(fā)布以來獲得了較大關(guān)注與討論。作者在Hugging Face論文討論平臺、alphaXiv平臺上與社區(qū)開展了深入的探討。在 X 平臺(原 Twitter)上,Google DeepMind 高級研究科學(xué)家(Senior Staff Research Scientist)Petar Veli?kovi?與作者就文章中的理論分析展開討論,ViT 核心作者Lucas Beyer也在閱讀文章后撰寫了一篇深入的論文總結(jié),相關(guān)發(fā)帖已獲得數(shù)十萬瀏覽。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 庫中。

  • Hugging Face:https://huggingface.co/papers/2410.05258
  • alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1
  • Petar Veli?kovi?:https://x.com/PetarV_93/status/1874820028975267866
  • Lucas Beyer:https://x.com/giffmana/status/1873869654252544079
  • transformers庫:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama

未來工作方面,作者認(rèn)為可以利用 DIFF Transformer 的性質(zhì)設(shè)計(jì)低比特注意力算子,以及利用差分注意力的稀疏特性進(jìn)行鍵值緩存(key-value cache)的剪枝。此外,將 DIFF Transformer 應(yīng)用在除語言以外的其他模態(tài)上也值得探索。近期工作DiffCLIP將差分注意力擴(kuò)展至視覺、多模態(tài)領(lǐng)域,揭示了 DIFF Transformer 在不同模態(tài)任務(wù)中的更多結(jié)構(gòu)特性與應(yīng)用潛力。

  • DiffCLIP:https://arxiv.org/abs/2503.06626

總結(jié)

本文的貢獻(xiàn)主要在兩個方面:

(1)DIFF Transformer 通過創(chuàng)新的差分注意力機(jī)制,有效解決了傳統(tǒng) Transformer 在處理文本時受到噪聲干擾、注意力分配不準(zhǔn)確的問題;

(2)憑借對關(guān)鍵信息的關(guān)注和對噪聲的抵御能力,DIFF Transformer 在語言建模、長文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對抗幻覺、上下文學(xué)習(xí)、模型激活值量化等任務(wù)中表現(xiàn)出色,有望在自然語言處理、多模態(tài)等領(lǐng)域作為基礎(chǔ)模型架構(gòu)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天吶!這是電影節(jié)的章子怡?怎么看著像老年人 160身高硬是拍成150

天吶!這是電影節(jié)的章子怡?怎么看著像老年人 160身高硬是拍成150

鄉(xiāng)野小珥
2025-06-15 13:42:29
單位出現(xiàn)奇怪現(xiàn)象:領(lǐng)導(dǎo)和同事像集體約好的一樣,一過55歲就開始喜歡獨(dú)來獨(dú)往了

單位出現(xiàn)奇怪現(xiàn)象:領(lǐng)導(dǎo)和同事像集體約好的一樣,一過55歲就開始喜歡獨(dú)來獨(dú)往了

職場火鍋
2025-06-14 20:33:22
成都男子入戶錘人后續(xù)!打人者囂張至極,正臉曝光,當(dāng)事人透細(xì)節(jié)

成都男子入戶錘人后續(xù)!打人者囂張至極,正臉曝光,當(dāng)事人透細(xì)節(jié)

石辰搞笑日常
2025-06-16 11:36:47
2025年獎金榜:薩巴倫卡4244萬領(lǐng)跑!鄭欽文1034萬,終于闖入前十

2025年獎金榜:薩巴倫卡4244萬領(lǐng)跑!鄭欽文1034萬,終于闖入前十

侃球熊弟
2025-06-15 23:54:43
震撼!伊朗亮出“王炸”,15馬赫導(dǎo)彈暴雨般砸向以色列

震撼!伊朗亮出“王炸”,15馬赫導(dǎo)彈暴雨般砸向以色列

小小小白看世界
2025-06-16 06:33:39
投降派,就是這個下場

投降派,就是這個下場

毛豆論道
2025-06-15 10:07:10
中足聯(lián)官方:強(qiáng)烈譴責(zé)傷害球迷情感、損害職業(yè)聯(lián)賽形象的行為

中足聯(lián)官方:強(qiáng)烈譴責(zé)傷害球迷情感、損害職業(yè)聯(lián)賽形象的行為

懂球帝
2025-06-16 12:15:08
快訊!尹錫悅第七次受審,趙恩錫亮劍,首爾上演檢察官對決!

快訊!尹錫悅第七次受審,趙恩錫亮劍,首爾上演檢察官對決!

野山歷史
2025-06-16 10:55:03
為什么黃種人進(jìn)化最徹底?你看黃種男性有什么特點(diǎn),就明白了

為什么黃種人進(jìn)化最徹底?你看黃種男性有什么特點(diǎn),就明白了

詩意世界
2025-06-15 19:37:54
豪門千金的芭比魅力:妮可拉·佩爾茨

豪門千金的芭比魅力:妮可拉·佩爾茨

述家娛記
2025-05-23 21:08:52
美國知名醫(yī)生解讀馬斯克的精神狀態(tài)

美國知名醫(yī)生解讀馬斯克的精神狀態(tài)

17譚
2025-06-16 10:23:17
楊絳:記住,和周圍人搞好關(guān)系的秘訣就是,不要分享任何開心的事

楊絳:記住,和周圍人搞好關(guān)系的秘訣就是,不要分享任何開心的事

詩詞中國
2024-12-30 12:45:52
鼻子修復(fù)得七七八八了,蘋果肌又移位,金晨這張臉成無底洞

鼻子修復(fù)得七七八八了,蘋果肌又移位,金晨這張臉成無底洞

素衣讀史
2025-06-16 11:44:01
特權(quán)高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

特權(quán)高墻下的冷漠:解析伊朗民眾對高層遇刺的沉默邏輯

步論天下事
2025-06-14 20:17:14
美國閱兵,為什么看起來這么隨意?

美國閱兵,為什么看起來這么隨意?

點(diǎn)評校尉
2025-06-15 14:16:36
灰熊已送走貝恩!名嘴:現(xiàn)在就等佩林卡用八村塁+1個首輪換JJJ了

灰熊已送走貝恩!名嘴:現(xiàn)在就等佩林卡用八村塁+1個首輪換JJJ了

直播吧
2025-06-16 10:16:07
挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

挖2棵以上就定罪!2024年廣東男子挖13萬斤,每斤賣8毛

萬象硬核本尊
2025-06-13 11:37:17
通縮一般持續(xù)多久

通縮一般持續(xù)多久

藍(lán)色海邊
2025-06-16 00:43:03
伊朗反對軍準(zhǔn)備發(fā)起進(jìn)攻!德黑蘭核設(shè)施遭受重?fù)?>
    </a>
        <h3>
      <a href=項(xiàng)鵬飛
2025-06-15 20:21:18
44歲謝娜回四川,為二爸慶80大壽,保溫杯不離手!大哥二哥罕露面

44歲謝娜回四川,為二爸慶80大壽,保溫杯不離手!大哥二哥罕露面

娛圈小愚
2025-06-16 10:45:51
2025-06-16 13:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10643文章數(shù) 142339關(guān)注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態(tài)度耐人尋味

頭條要聞

媒體:在伊朗與以色列的沖突中 伊拉克的態(tài)度耐人尋味

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

郭富城官宣方媛懷三胎 拒絕透露性別

財(cái)經(jīng)要聞

大廠搶灘的「穩(wěn)定幣」,能火多久?

汽車要聞

前臉與N7相似 新一代日產(chǎn)軒逸假想圖曝光

態(tài)度原創(chuàng)

藝術(shù)
教育
手機(jī)
房產(chǎn)
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

青春不應(yīng)該被定義,更不應(yīng)該被設(shè)限!祝大家金榜題名,前程似錦

手機(jī)要聞

華為HDC周末松山湖見 HarmonyOS 6.0要來了

房產(chǎn)要聞

又一城購房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 房山区| 雅江县| 禄丰县| 兴隆县| 新沂市| 菏泽市| 崇文区| 宾川县| 湖口县| 重庆市| 高雄市| 牡丹江市| 新郑市| 阳高县| 晋江市| 武鸣县| 滨州市| 韶山市| 永顺县| 广东省| 惠来县| 湾仔区| 综艺| 峨眉山市| 元谋县| 成都市| 阳西县| 昌乐县| 万安县| 扬州市| 临西县| 阿克苏市| 华池县| 紫阳县| 城固县| 宝兴县| 桃江县| 方正县| 大埔区| 平邑县| 江阴市|