99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

差分注意力機(jī)制引領(lǐng)變革,DIFF Transformer攻克長(zhǎng)序列建模難題

0
分享至




近年來(lái),Transformer 架構(gòu)在自然語(yǔ)言處理領(lǐng)域取得了巨大成功,從機(jī)器翻譯到文本生成,其強(qiáng)大的建模能力為語(yǔ)言理解與生成帶來(lái)了前所未有的突破。

然而,隨著模型規(guī)模的不斷擴(kuò)大和應(yīng)用場(chǎng)景的日益復(fù)雜,傳統(tǒng) Transformer 架構(gòu)逐漸暴露出缺陷,尤其是在處理長(zhǎng)文本、關(guān)鍵信息檢索以及對(duì)抗幻覺(jué)等任務(wù)時(shí),Transformer 常常因過(guò)度關(guān)注無(wú)關(guān)上下文而陷入困境,導(dǎo)致模型表現(xiàn)受限。

為攻克這一難題,來(lái)自微軟和清華的研究團(tuán)隊(duì)提出了DIFF Transformer,一種基于差分注意力機(jī)制的創(chuàng)新基礎(chǔ)模型架構(gòu)。



  • 論文標(biāo)題:Differential Transformer
  • 論文鏈接:https://openreview.net/pdf?id=OvoCm1gGhN
  • 代碼鏈接:https://aka.ms/Diff-Transformer

其核心思想是通過(guò)計(jì)算兩組 Softmax 注意力圖的差值來(lái)放大對(duì)關(guān)鍵上下文的關(guān)注,同時(shí)消除注意力噪聲干擾。DIFF Transformer 具備以下顯著優(yōu)勢(shì):

在語(yǔ)言建模任務(wù)中,DIFF Transformer 在模型大小、訓(xùn)練 token 數(shù)量等方面展現(xiàn)出了卓越的可擴(kuò)展性,僅需約 65% 的模型規(guī)模或訓(xùn)練 token 數(shù)量即可達(dá)到與傳統(tǒng) Transformer 相當(dāng)?shù)男阅埽蠓嵘苏Z(yǔ)言模型通用表現(xiàn)。

在長(zhǎng)文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對(duì)抗幻覺(jué)、上下文學(xué)習(xí)、模型激活值量化等一系列任務(wù)中,DIFF Transformer 展現(xiàn)了獨(dú)特優(yōu)勢(shì),相比傳統(tǒng) Transformer 有顯著提升。

DIFF Transformer 的特性使其在自然語(yǔ)言處理領(lǐng)域具有廣闊的應(yīng)用前景,有望成為推動(dòng)語(yǔ)言模型發(fā)展的新動(dòng)力。此外,已有跟進(jìn)研究初步驗(yàn)證方法在視覺(jué)、多模態(tài)等領(lǐng)域中的有效性,顯示出其跨模態(tài)通用的潛力。該研究已被 ICLR 2025 接收,并獲選為 Oral 論文(入選比例 1.8%)。

方法

本文提出了一種名為 Differential Transformer(DIFF Transformer) 的基礎(chǔ)模型架構(gòu),旨在解決傳統(tǒng) Transformer 在長(zhǎng)文本建模中對(duì)無(wú)關(guān)上下文過(guò)度分配注意力的問(wèn)題。該方法通過(guò)差分注意力機(jī)制(Differential Attention)放大對(duì)關(guān)鍵上下文的關(guān)注,同時(shí)消除注意力噪聲,從而顯著提升模型在多種任務(wù)中的性能。

差分注意力機(jī)制

傳統(tǒng) Transformer 的注意力機(jī)制通過(guò) Softmax 函數(shù)對(duì)輸入序列中的不同 token 進(jìn)行加權(quán),但 Softmax 的性質(zhì)導(dǎo)致模型難以完全消除無(wú)關(guān)上下文的影響。為了克服這一問(wèn)題,DIFF Transformer 引入了差分注意力機(jī)制。

具體而言,該機(jī)制將查詢向量(Query)和鍵向量(Key)在注意力頭(Head)維度分為兩組,分別計(jì)算兩組的 Softmax 注意力圖,然后計(jì)算兩者的差值作為最終的注意力分?jǐn)?shù)。這一設(shè)計(jì)類(lèi)似于電子工程中的差分放大器,以及降噪耳機(jī),通過(guò)兩組信號(hào)相減以消除共有噪聲。

差分注意力的數(shù)學(xué)表達(dá)如下:







圖 2. Transformer 與 DIFF Transformer 注意力分?jǐn)?shù)分布可視化

圖 2 展示了 DIFF Transformer 和傳統(tǒng) Transformer 在注意力分?jǐn)?shù)分配上的顯著差異。作者將一段關(guān)鍵信息插入大段不相關(guān)文本的中間位置,并對(duì)模型抽取關(guān)鍵信息時(shí)的注意力分?jǐn)?shù)分配進(jìn)行可視化。

傳統(tǒng) Transformer 的注意力分?jǐn)?shù)被廣泛分配到整個(gè)上下文中,只有極少分?jǐn)?shù)分配至關(guān)鍵信息;而 DIFF Transformer 能夠?qū)⒏叩姆謹(jǐn)?shù)集中在目標(biāo)答案上,并且?guī)缀醪幌驘o(wú)關(guān)上下文分配注意力。

注意力分?jǐn)?shù)分配的稀疏性與精準(zhǔn)性也使得 DIFF Transformer 在處理長(zhǎng)文本關(guān)鍵信息檢索任務(wù)時(shí)顯著優(yōu)于 Transformer。

實(shí)驗(yàn)

作者通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了 DIFF Transformer 在多個(gè)方面的卓越性能,證明了其在大語(yǔ)言模型中應(yīng)用的獨(dú)特潛力與優(yōu)勢(shì)。

語(yǔ)言建模

作者研究了 DIFF Transformer 在擴(kuò)展模型規(guī)模和訓(xùn)練數(shù)據(jù)量時(shí)的性能,如圖 3 所示。實(shí)驗(yàn)表明,DIFF Transformer 僅需約 65% 的參數(shù)規(guī)模或訓(xùn)練數(shù)據(jù)量即可達(dá)到與 Transformer 相當(dāng)?shù)恼Z(yǔ)言建模性能。例如,6.8B 參數(shù)規(guī)模的 DIFF Transformer 在語(yǔ)言建模損失上與 11B 參數(shù)規(guī)模的 Transformer 相當(dāng)。



圖 3. 語(yǔ)言建模上的模型參數(shù)、訓(xùn)練數(shù)據(jù)量可擴(kuò)展性實(shí)驗(yàn)

長(zhǎng)文本建模

作者將模型擴(kuò)展到 64K 上下文長(zhǎng)度,并在長(zhǎng)文本書(shū)籍?dāng)?shù)據(jù)上進(jìn)行了評(píng)估。結(jié)果顯示,考慮累積平均負(fù)對(duì)數(shù)似然(NLL)指標(biāo), DIFF Transformer 在不同序列位置上均優(yōu)于 Transformer,能夠更有效地利用長(zhǎng)上下文信息。



圖 4. 長(zhǎng)文本書(shū)籍?dāng)?shù)據(jù)模型性能評(píng)估

關(guān)鍵信息檢索

作者通過(guò)「多針檢索」(Multi-Needle Retrieval)實(shí)驗(yàn)評(píng)估了模型從大量上下文中提取關(guān)鍵信息的能力,如圖 5 所示。實(shí)驗(yàn)表明,DIFF Transformer 在不同上下文長(zhǎng)度和答案深度下均表現(xiàn)出更高的準(zhǔn)確率,尤其是在文本較長(zhǎng)以及答案位于文本更靠前位置時(shí),優(yōu)勢(shì)更為明顯。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度時(shí)的準(zhǔn)確率比 Transformer 高出 76%。此外,統(tǒng)計(jì)信息顯示,DIFF Transformer 在注意力分?jǐn)?shù)分配上也表現(xiàn)出更高的聚焦能力,能夠準(zhǔn)確定位關(guān)鍵信息,并展現(xiàn)了更高的信噪比。



圖 5. 多針檢索評(píng)估

上下文學(xué)習(xí)

作者從兩個(gè)角度評(píng)估了 DIFF Transformer 的上下文學(xué)習(xí)能力:多樣本上下文學(xué)習(xí)和樣本順序魯棒性測(cè)試。 如圖 6 所示,在多樣本上下文學(xué)習(xí)任務(wù)中,作者使用了 4 個(gè)不同的數(shù)據(jù)集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例數(shù)量,直到總長(zhǎng)度達(dá)到 64K tokens。結(jié)果顯示,DIFF Transformer 在不同數(shù)據(jù)集上均優(yōu)于 Transformer,平均準(zhǔn)確率提升顯著。



圖 6. 多樣本上下文學(xué)習(xí)

在魯棒性測(cè)試中,作者通過(guò)打亂示例順序的方式評(píng)估了模型的性能穩(wěn)定性。如圖 7 所示,DIFF Transformer 在不同示例排列下的性能方差顯著低于 Transformer,表明其對(duì)輸入順序的敏感性更低,具有更強(qiáng)的魯棒性。



圖 7. 樣本順序魯棒性測(cè)試

幻覺(jué)評(píng)測(cè)

作者利用文本摘要和問(wèn)答任務(wù)作為兩個(gè)典型的幻覺(jué)評(píng)測(cè)場(chǎng)景,評(píng)估了 DIFF Transformer 在降低大模型幻覺(jué)(hallucination)方面的表現(xiàn)。結(jié)果如圖 8 所示,DIFF Transformer 在生成摘要和回答問(wèn)題時(shí)顯著提升了準(zhǔn)確率,減少了幻覺(jué)現(xiàn)象。這是因?yàn)椴罘肿⒁饬C(jī)制能夠準(zhǔn)確定位重要文段,避免無(wú)關(guān)上下文對(duì)模型預(yù)測(cè)的干擾。



圖 8. 利用文本摘要、問(wèn)答任務(wù)進(jìn)行幻覺(jué)評(píng)測(cè)

異常激活值分析

作者還發(fā)現(xiàn) DIFF Transformer 能夠顯著減少模型激活中的異常值,這為模型激活值的量化提供了新的可能性。實(shí)驗(yàn)表明,DIFF Transformer 在注意力激活值(attention logits)和隱藏狀態(tài)(hidden states)中的最大激活值顯著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用這一性質(zhì),DIFF Transformer 在注意力激活值的低比特量化下的性能也優(yōu)于 Transformer,如圖 9 所示。



圖 9. 注意力激活值的低比特量化

數(shù)學(xué)推理能力

作者在數(shù)學(xué)推理任務(wù)上進(jìn)一步驗(yàn)證了 DIFF Transformer 的性能。作者采用兩階段訓(xùn)練,在 3B 預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行有監(jiān)督微調(diào),并在 MATH 等 8 個(gè)數(shù)學(xué)數(shù)據(jù)集上評(píng)測(cè)模型性能。在第一階段,采用 20B token 合成數(shù)學(xué)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),使模型獲得基礎(chǔ)數(shù)學(xué)能力,評(píng)測(cè)結(jié)果如圖 10 所示。從 15B token 開(kāi)始,DIFF Transformer 展現(xiàn)出了顯著優(yōu)于 Transformer 的數(shù)學(xué)能力,至 20B token 結(jié)束的時(shí)候,準(zhǔn)確率的差距達(dá)到了 11% 左右。



圖 10. 第一階段數(shù)學(xué)合成數(shù)據(jù)微調(diào)

在第二階段,作者利用 Deepseek-R1 輸出所構(gòu)造的數(shù)據(jù)集 OpenThoughts-114K-Math 對(duì)模型進(jìn)行蒸餾,使模型更強(qiáng)大的深度推理能力。如圖 11 所示,在 8 個(gè)數(shù)據(jù)集上,DIFF Transformer 相較 Transformer 均有不同程度的提升,平均準(zhǔn)確率提升了 7.5%,這表明差分注意力機(jī)制更強(qiáng)大的上下文建模能力在推理任務(wù)中也至關(guān)重要。



圖 11. 第二階段深度推理能力評(píng)測(cè)

討論與未來(lái)工作

DIFF Transformer 自發(fā)布以來(lái)獲得了較大關(guān)注與討論。作者在Hugging Face論文討論平臺(tái)、alphaXiv平臺(tái)上與社區(qū)開(kāi)展了深入的探討。在 X 平臺(tái)(原 Twitter)上,Google DeepMind 高級(jí)研究科學(xué)家(Senior Staff Research Scientist)Petar Veli?kovi?與作者就文章中的理論分析展開(kāi)討論,ViT 核心作者Lucas Beyer也在閱讀文章后撰寫(xiě)了一篇深入的論文總結(jié),相關(guān)發(fā)帖已獲得數(shù)十萬(wàn)瀏覽。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 庫(kù)中。

  • Hugging Face:https://huggingface.co/papers/2410.05258
  • alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1
  • Petar Veli?kovi?:https://x.com/PetarV_93/status/1874820028975267866
  • Lucas Beyer:https://x.com/giffmana/status/1873869654252544079
  • transformers庫(kù):https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama

未來(lái)工作方面,作者認(rèn)為可以利用 DIFF Transformer 的性質(zhì)設(shè)計(jì)低比特注意力算子,以及利用差分注意力的稀疏特性進(jìn)行鍵值緩存(key-value cache)的剪枝。此外,將 DIFF Transformer 應(yīng)用在除語(yǔ)言以外的其他模態(tài)上也值得探索。近期工作DiffCLIP將差分注意力擴(kuò)展至視覺(jué)、多模態(tài)領(lǐng)域,揭示了 DIFF Transformer 在不同模態(tài)任務(wù)中的更多結(jié)構(gòu)特性與應(yīng)用潛力。

  • DiffCLIP:https://arxiv.org/abs/2503.06626

總結(jié)

本文的貢獻(xiàn)主要在兩個(gè)方面:

(1)DIFF Transformer 通過(guò)創(chuàng)新的差分注意力機(jī)制,有效解決了傳統(tǒng) Transformer 在處理文本時(shí)受到噪聲干擾、注意力分配不準(zhǔn)確的問(wèn)題;

(2)憑借對(duì)關(guān)鍵信息的關(guān)注和對(duì)噪聲的抵御能力,DIFF Transformer 在語(yǔ)言建模、長(zhǎng)文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對(duì)抗幻覺(jué)、上下文學(xué)習(xí)、模型激活值量化等任務(wù)中表現(xiàn)出色,有望在自然語(yǔ)言處理、多模態(tài)等領(lǐng)域作為基礎(chǔ)模型架構(gòu)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
疑似董家在紐約的豪宅被曝光!每平米人民幣12.3萬(wàn),總價(jià)超千萬(wàn),地理位置極佳

疑似董家在紐約的豪宅被曝光!每平米人民幣12.3萬(wàn),總價(jià)超千萬(wàn),地理位置極佳

不掉線電波
2025-05-01 14:23:50
上海67歲大爺去朝鮮看望初戀,相見(jiàn)后,竟發(fā)現(xiàn)自己已有兒孫

上海67歲大爺去朝鮮看望初戀,相見(jiàn)后,竟發(fā)現(xiàn)自己已有兒孫

蘭姐說(shuō)故事
2025-04-30 15:00:12
尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

尼日爾撕毀4億美元合同,并驅(qū)逐中方高管,我方暗藏后手漂亮反擊

詭譎怪談
2025-04-30 22:17:42
副部級(jí)龍翔,被撤職

副部級(jí)龍翔,被撤職

政知新媒體
2025-05-01 16:58:57
搞特權(quán)實(shí)錘?網(wǎng)友挖出18年巴納德學(xué)院畢業(yè)典禮視頻,疑似董小姐微笑出場(chǎng)

搞特權(quán)實(shí)錘?網(wǎng)友挖出18年巴納德學(xué)院畢業(yè)典禮視頻,疑似董小姐微笑出場(chǎng)

可達(dá)鴨面面觀
2025-05-01 08:57:13
美烏協(xié)議已簽,普京和澤連斯基的處境變了

美烏協(xié)議已簽,普京和澤連斯基的處境變了

千里持劍
2025-05-01 09:13:09
董襲瑩博士論文與北科大一發(fā)明專(zhuān)利多處雷同

董襲瑩博士論文與北科大一發(fā)明專(zhuān)利多處雷同

揚(yáng)子晚報(bào)
2025-05-01 09:11:38
看來(lái)董襲瑩的家人真的急了,也讓我們見(jiàn)識(shí)了什么是速度

看來(lái)董襲瑩的家人真的急了,也讓我們見(jiàn)識(shí)了什么是速度

魔都姐姐雜談
2025-04-30 18:57:09
南京三甲醫(yī)院院長(zhǎng)一家三口被砍,行兇過(guò)程被揭露,知情人曝內(nèi)情

南京三甲醫(yī)院院長(zhǎng)一家三口被砍,行兇過(guò)程被揭露,知情人曝內(nèi)情

天天熱點(diǎn)見(jiàn)聞
2025-05-01 13:30:22
三千游客擠癱榮昌公務(wù)員食堂:門(mén)口停滿車(chē),飯碗都不夠了

三千游客擠癱榮昌公務(wù)員食堂:門(mén)口停滿車(chē),飯碗都不夠了

上觀新聞
2025-05-01 15:45:29
烏美簽了! 烏克蘭未來(lái) 怕是要被掏空了!

烏美簽了! 烏克蘭未來(lái) 怕是要被掏空了!

每日經(jīng)濟(jì)新聞
2025-05-01 10:23:00
貿(mào)易戰(zhàn)終于亮劍了!5月1日,今日凌晨的三大重要消息沖擊市場(chǎng)!

貿(mào)易戰(zhàn)終于亮劍了!5月1日,今日凌晨的三大重要消息沖擊市場(chǎng)!

風(fēng)口招財(cái)豬
2025-05-01 02:44:19
董小姐已從北京轉(zhuǎn)到廊坊醫(yī)院!你以為這下老實(shí)了?答案震碎你三觀

董小姐已從北京轉(zhuǎn)到廊坊醫(yī)院!你以為這下老實(shí)了?答案震碎你三觀

美美談情感
2025-05-01 12:49:39
美烏礦產(chǎn)協(xié)議,特朗普“交易外交”為何難奏效?|新京報(bào)專(zhuān)欄

美烏礦產(chǎn)協(xié)議,特朗普“交易外交”為何難奏效?|新京報(bào)專(zhuān)欄

新京報(bào)評(píng)論
2025-05-01 15:12:01
饒毅發(fā)文稱(chēng)請(qǐng)勿錯(cuò)怪王辰教授

饒毅發(fā)文稱(chēng)請(qǐng)勿錯(cuò)怪王辰教授

第一財(cái)經(jīng)資訊
2025-05-01 11:32:13
央媒三問(wèn)董小姐!直擊問(wèn)題根源!董小姐的天徹底塌了!

央媒三問(wèn)董小姐!直擊問(wèn)題根源!董小姐的天徹底塌了!

一支破筆半支煙
2025-04-30 21:09:17
以色列因耶路撒冷山火進(jìn)入“國(guó)家緊急狀態(tài)”,巴勒斯坦民權(quán)機(jī)構(gòu)提出協(xié)助滅火

以色列因耶路撒冷山火進(jìn)入“國(guó)家緊急狀態(tài)”,巴勒斯坦民權(quán)機(jī)構(gòu)提出協(xié)助滅火

環(huán)球網(wǎng)資訊
2025-05-01 06:41:14
印度國(guó)會(huì)議員大放厥詞:到2025年底,巴基斯坦這個(gè)國(guó)家將不復(fù)存在

印度國(guó)會(huì)議員大放厥詞:到2025年底,巴基斯坦這個(gè)國(guó)家將不復(fù)存在

凱撒談兵
2025-04-30 06:36:16
今晚19:30中央五套直播表:CCTV5 CCTV5+節(jié)目單 附CBA半決賽賽程

今晚19:30中央五套直播表:CCTV5 CCTV5+節(jié)目單 附CBA半決賽賽程

夢(mèng)憶之淺
2025-05-01 15:13:27
董襲瑩抖音百科已經(jīng)更新,上面顯示其父董曉輝,母親米振莉

董襲瑩抖音百科已經(jīng)更新,上面顯示其父董曉輝,母親米振莉

映射生活的身影
2025-05-01 10:40:01
2025-05-01 17:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
10436文章數(shù) 142300關(guān)注度
往期回顧 全部

科技要聞

DeepSeek新數(shù)學(xué)模型刷爆記錄

頭條要聞

山西"聚寶盆"汽車(chē)炫鍋場(chǎng)出事故致1死 律師:保險(xiǎn)或拒賠

頭條要聞

山西"聚寶盆"汽車(chē)炫鍋場(chǎng)出事故致1死 律師:保險(xiǎn)或拒賠

體育要聞

天王山的哈登,是如何迷失的?

娛樂(lè)要聞

62歲阿湯哥有新戀情 開(kāi)飛機(jī)載36歲女友

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動(dòng)與中方接觸

汽車(chē)要聞

預(yù)售32.98萬(wàn)起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

房產(chǎn)
手機(jī)
家居
旅游
軍事航空

房產(chǎn)要聞

火了!一二手房交易量大漲,五一購(gòu)房窗口期來(lái)了!

手機(jī)要聞

中端機(jī)、豎向折疊屏全都有!5月這批國(guó)產(chǎn)新機(jī)又卷麻了

家居要聞

輕奢婚房 自由隨性生活

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

軍事要聞

解放軍儀仗隊(duì)首次應(yīng)邀赴越南參加閱兵

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 商丘市| 怀来县| 化德县| 麦盖提县| 夏邑县| 灌南县| 凤山县| 玛曲县| 天柱县| 鄯善县| 江城| 阜平县| 鄂托克前旗| 博罗县| 伊通| 永宁县| 墨竹工卡县| 阿图什市| 久治县| 涟源市| 邹平县| 新沂市| 霍林郭勒市| 五原县| 古浪县| 嵊州市| 天气| 黑河市| 正宁县| 桑植县| 泽州县| 墨脱县| 肥城市| 静海县| 长寿区| 安溪县| 同仁县| 梨树县| 东兰县| 仪征市| 类乌齐县|