99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ICML 2025|注意力機制中極大值:破解大語言模型上下文理解的關(guān)鍵

0
分享至




大型語言模型(LLMs)在上下文知識理解方面取得了令人矚目的成功。

近日,一項來自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型語言模型中一個重要現(xiàn)象:在注意力機制的查詢 (Q) 和鍵 (K) 表示中存在非常集中的極大值,而在值 (V) 表示中卻沒有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼 (RoPE) 的現(xiàn)代 Transformer 模型中普遍存在,對我們理解 LLM 內(nèi)部工作機制具有重要意義。

本研究由羅格斯大學張永鋒教授的團隊完成,一作為金明宇,羅格斯大學博士生,在 ACL、ICML、AAAI、NAACL、COLM、ICLR、EMNLP、COLING 等頂級會議上發(fā)表過論文。



  • 論文標題:Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding
  • arXiv 鏈接:https://arxiv.org/pdf/2502.01563
  • 代碼鏈接:https://github.com/MingyuJ666/Rope_with_LLM

研究亮點

極大值如何影響模型性能

當我們談論大型語言模型的理解能力時,通常將其知識分為兩類:參數(shù)知識(存儲在模型權(quán)重中的事實和信息)和上下文知識(從當前輸入文本中獲取的信息)。本研究通過一系列精心設計的實驗,揭示了自注意力模塊中極大值的存在與上下文知識理解之間的關(guān)鍵聯(lián)系。

四大核心發(fā)現(xiàn)

1. 極大值在 Q 和 K 中高度集中分布

研究發(fā)現(xiàn),這些極大值在每個注意力頭的特定區(qū)域高度集中。這一現(xiàn)象非常反常識,因為 LLM 內(nèi)部每個注意力頭的運算理論上應該是獨立的,但這些極大值的分布卻顯示出驚人的一致性。研究團隊通過可視化方法清晰地展示了這一分布特征,橫跨多個層和頭,這種規(guī)律性模式與傳統(tǒng)認知形成鮮明對比。



更引人注目的是,這一極大值現(xiàn)象僅存在于使用 RoPE(旋轉(zhuǎn)位置編碼)的模型中,如 LLaMA、Qwen 和 Gemma 等主流模型。而在未使用 RoPE 的模型(如 GPT-2 和 OPT)中不存在這種模式。這一發(fā)現(xiàn)將極大值現(xiàn)象直接與位置編碼機制建立了聯(lián)系。

2. Q 和 K 中的極大值對理解上下文知識至關(guān)重要



通過設計「破壞性實驗」,研究團隊將極大值重置為平均值,觀察模型性能變化。結(jié)果表明,這些極大值主要影響模型處理當前上下文窗口中的信息的能力,而非影響從參數(shù)中提取的知識。在需要上下文理解的任務上,破壞極大值會導致性能的災難性下降。

例如,在「大海撈針」類型的任務中,模型需要從大量文本中檢索特定信息。當極大值被破壞時,模型在此類任務上的表現(xiàn)幾乎完全崩潰。這直接說明了極大值對上下文理解的關(guān)鍵作用。

相比之下,對于只需要參數(shù)知識的任務(如「中國首都是哪里」),破壞極大值對性能影響有限。這種對比鮮明的結(jié)果表明,極大值特別與上下文信息處理相關(guān),而非參數(shù)知識檢索。

3. 特定量化技術(shù)能更好地保存上下文知識理解能力



隨著大型語言模型的普及,量化技術(shù)成為降低計算和存儲需求的關(guān)鍵手段。然而,不同的量化方法對模型性能的影響各異。研究發(fā)現(xiàn),專門處理極大值的量化方法(如 AWQ 和 SmoothQuant)能有效維持模型的上下文理解能力,而未特別處理極大值的方法則會導致性能明顯下降(GMS8K 和 AQUA 數(shù)據(jù)集)。

這一發(fā)現(xiàn)為量化技術(shù)的設計和選擇提供了重要指導,特別是對保留模型的上下文理解能力至關(guān)重要的應用場景。設計新的量化方法時應重點考慮保護 Q 和 K 中的大值,對于優(yōu)先保持上下文理解能力的應用場景,AWQ 和 SmoothQuant 等方法更為合適。

4. 極大值集中現(xiàn)象由 RoPE 引起,并在早期層就已出現(xiàn)

研究通過深入分析發(fā)現(xiàn),RoPE 位置編碼使 Q 和 K 中的低頻區(qū)域受位置信息影響較小,從而導致極大值集中現(xiàn)象。這種現(xiàn)象從模型的最初層就開始顯現(xiàn),并隨著層數(shù)增加而變得更加明顯。

由于 RoPE 只作用于 QK,而不作用于 V,這也解釋了為什么只有 QK 存在極大值集中現(xiàn)象。這一發(fā)現(xiàn)不僅解釋了極大值的來源,也揭示了 RoPE 在大型語言模型中的工作機制。并且我們檢查了有 rope 的模型和沒有 rope 的模型,結(jié)果如圖所示,llama,qwen 都有集中的極大值;相反 gpt-2,jamba,opt 就沒有。



實驗結(jié)果

極大值對不同知識任務的差異化影響

研究團隊設計了一系列實驗,系統(tǒng)評估極大值對不同類型知識任務的影響。結(jié)果顯示出明顯的差異化效應:

A. 參數(shù)知識檢索任務的韌性

當大值被破壞時:

  1. 城市類任務仍然保持 76%-88% 的準確率,僅下降 15-20%
  2. 體育、藝術(shù)和技術(shù)類別任務保持在 65%-75% 的表現(xiàn)
  3. 名人類別表現(xiàn)尤其穩(wěn)定,各模型均保持 70% 以上的準確率

這些結(jié)果表明,參數(shù)知識檢索主要依賴于模型權(quán)重中存儲的知識,受極大值破壞的影響相對較小。

B. 上下文知識理解任務的災難性下降

相比之下,依賴上下文理解的任務在極大值被破壞后表現(xiàn)災難性下降:

1. 數(shù)學推理任務出現(xiàn)嚴重退化

  • GSM8K: 從 81.30% 降至 15.10%
  • Llama3-8B: 從 76.90% 降至 4.00%
  • Qwen2.5-7B: 從 86.60% 降至 16.10%

2. 密鑰檢索任務 (Passkey Retrieval) 準確率從 100% 直接崩潰至接近 0%

3. IMDB 情感分析從 94% 以上下降至個位數(shù)

這些對比鮮明的結(jié)果強有力地證明了極大值在上下文知識理解中的關(guān)鍵作用。

C. 非大值破壞的對照實驗

為驗證研究發(fā)現(xiàn)的可靠性,研究團隊還設計了對照實驗:當僅破壞非極大值部分時,所有任務的表現(xiàn)保持穩(wěn)定,變化通常小于 ±1%。這進一步確認了極大值在上下文知識理解中的特殊重要性。

研究意義與影響

這項研究首次揭示了大型語言模型內(nèi)部自注意力機制中極大值的存在及其功能,為理解模型如何處理上下文信息提供了新視角。研究結(jié)果對 LLM 的設計、優(yōu)化和量化都具有重要啟示:

  1. 模型設計方面:突顯了位置編碼機制(尤其是 RoPE)對模型理解上下文能力的影響,為未來模型架構(gòu)設計提供了新思路。
  2. 模型優(yōu)化方面:識別出極大值是上下文理解的關(guān)鍵組件,為針對性地提升模型上下文理解能力提供了可能路徑。
  3. 模型量化方面:強調(diào)了保護極大值在模型壓縮過程中的重要性,為開發(fā)更高效的量化方法提供了方向。

未來方向

該研究打開了多個值得進一步探索的方向:

  1. 探索是否可以通過特殊設計增強或調(diào)整極大值分布,從而提升模型的上下文理解能力。
  2. 研究極大值現(xiàn)象在不同架構(gòu)、不同規(guī)模模型中的普遍性和特異性。
  3. 設計更有針對性的量化方法,專門保護與上下文理解相關(guān)的極大值。
  4. 探索極大值與模型其他特性(如對抗穩(wěn)健性、推理能力等)之間的潛在聯(lián)系。

這項研究不僅加深了我們對大型語言模型內(nèi)部工作機制的理解,也為未來更高效、更強大的模型開發(fā)鋪平了道路。通過揭示極大值的關(guān)鍵作用,研究者們?yōu)槲覀兲峁┝私怄i大語言模型上下文理解能力的一把新鑰匙。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
猛降10℃!湖北今晚將迎暴雨

猛降10℃!湖北今晚將迎暴雨

魯中晨報
2025-05-07 12:52:09
情侶臉紅名場面你知道哪些?網(wǎng)友:在酒店床上舌吻了2個小時

情侶臉紅名場面你知道哪些?網(wǎng)友:在酒店床上舌吻了2個小時

解讀熱點事件
2025-05-08 01:50:03
媒體人證實:中國男籃主帥郭士強正在考慮歸化廣廈小外援巴里·布朗

媒體人證實:中國男籃主帥郭士強正在考慮歸化廣廈小外援巴里·布朗

雷速體育
2025-05-07 19:15:14
48歲趙薇“女兒”因長得太好看,被全網(wǎng)“禁止整容”,如今17歲變化大到不敢認!

48歲趙薇“女兒”因長得太好看,被全網(wǎng)“禁止整容”,如今17歲變化大到不敢認!

美芽
2025-04-12 12:04:23
大橋連續(xù)兩場絕殺搶斷!塔圖姆19中5+致命失誤 綠凱0-2落后陷困局

大橋連續(xù)兩場絕殺搶斷!塔圖姆19中5+致命失誤 綠凱0-2落后陷困局

顏小白的籃球夢
2025-05-08 09:28:11
連續(xù)兩場20分逆轉(zhuǎn)!尼克斯爆冷2-0綠軍 塔圖姆19中5丟絕殺

連續(xù)兩場20分逆轉(zhuǎn)!尼克斯爆冷2-0綠軍 塔圖姆19中5丟絕殺

醉臥浮生
2025-05-08 09:31:04
74歲張紀中送娃上學出車禍,亮身份說我是張紀中,對方說不認識

74歲張紀中送娃上學出車禍,亮身份說我是張紀中,對方說不認識

新語愛八卦
2025-05-08 08:38:51
逆轉(zhuǎn)廣廈!常規(guī)賽“裝死”的那個人,砍13分10板,正負值全場第一

逆轉(zhuǎn)廣廈!常規(guī)賽“裝死”的那個人,砍13分10板,正負值全場第一

金山話體育
2025-05-08 06:51:18
終于反擊了!馬筱梅開始曬幸福了!巴厘島度蜜月,倆人恩愛如初!

終于反擊了!馬筱梅開始曬幸福了!巴厘島度蜜月,倆人恩愛如初!

小娛樂悠悠
2025-05-08 06:42:54
全球4大“隱世家族”,據(jù)說他們控制著整個世界,中國也有一家

全球4大“隱世家族”,據(jù)說他們控制著整個世界,中國也有一家

大千世界觀
2025-04-26 08:41:16
印度稱對巴發(fā)動“精確打擊”

印度稱對巴發(fā)動“精確打擊”

參考消息
2025-05-07 11:28:06
三元鋰寫成磷酸鐵鋰!問界M8,合格證不合格?

三元鋰寫成磷酸鐵鋰!問界M8,合格證不合格?

熱點科技
2025-05-07 16:24:26
國小骨頭硬!兩個小國拒絕武契奇飛越其領空赴俄:菲佐也不給過

國小骨頭硬!兩個小國拒絕武契奇飛越其領空赴俄:菲佐也不給過

大風文字
2025-05-07 10:33:06
第8架!巴鐵放開手腳,給俄軍上一課,印度LCA,陣風剛起飛就擊落

第8架!巴鐵放開手腳,給俄軍上一課,印度LCA,陣風剛起飛就擊落

說天說地說實事
2025-05-07 15:13:45
笑掉大牙?日票房僅253萬,血虧出局,馬麗把耗資13億的大片打懵

笑掉大牙?日票房僅253萬,血虧出局,馬麗把耗資13億的大片打懵

易同學愛談娛樂
2025-05-08 08:40:49
跳船了!卡德羅夫請求辭去車臣首領職務,被曝在迪拜買了4棟別墅

跳船了!卡德羅夫請求辭去車臣首領職務,被曝在迪拜買了4棟別墅

娛宙觀
2025-05-07 13:19:49
印度不讓一滴水流入巴鐵,中方已行動,不到24小時,莫迪致電普京

印度不讓一滴水流入巴鐵,中方已行動,不到24小時,莫迪致電普京

吳欣純Deborah
2025-05-07 11:19:19
宋茜陳好大理被偶遇,買衣服搶著結(jié)賬,網(wǎng)友:宋茜身材比例超好

宋茜陳好大理被偶遇,買衣服搶著結(jié)賬,網(wǎng)友:宋茜身材比例超好

娛圈小愚
2025-05-08 08:56:11
于承惠談李小龍:李小龍的寸拳,就是手頂住了,一下子進去了

于承惠談李小龍:李小龍的寸拳,就是手頂住了,一下子進去了

陳耳朵先生
2025-04-29 21:06:00
首批145%關(guān)稅中國貨船抵洛杉磯港,美業(yè)界預警…

首批145%關(guān)稅中國貨船抵洛杉磯港,美業(yè)界預警…

觀察者網(wǎng)
2025-05-07 17:14:14
2025-05-08 09:56:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10453文章數(shù) 142303關(guān)注度
往期回顧 全部

科技要聞

蘋果宣布重大計劃 谷歌市值蒸發(fā)1500億美元

頭條要聞

國泰航空空姐誤給3歲男童白葡萄酒 家屬:她一直未道歉

頭條要聞

國泰航空空姐誤給3歲男童白葡萄酒 家屬:她一直未道歉

體育要聞

未來是你們這些年輕人的,但現(xiàn)在還不行!

娛樂要聞

出道15年零緋聞,被劉濤贊揚演技的他

財經(jīng)要聞

特朗普修改AI芯片出口管制?美商務部回應

汽車要聞

《臺州宣言》再進一步 吉利汽車將全資控股極氪

態(tài)度原創(chuàng)

藝術(shù)
本地
游戲
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

為什么太行山上長滿了韓國人?

經(jīng)典RPG游戲《空之軌跡 the 1st》將于9月19日發(fā)售

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

巴基斯坦與印度在巴控克什米爾發(fā)生交火

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 汉寿县| 平顺县| 竹北市| 资中县| 和静县| 苍山县| 晋城| 克东县| 边坝县| 扬州市| 绥江县| 白山市| 东方市| 玛多县| 芜湖市| 道孚县| 怀远县| 桐庐县| 罗定市| 清苑县| 招远市| 台南县| 佛坪县| 阿拉善盟| 罗山县| 五指山市| 沾化县| 永顺县| 嘉禾县| 鹤山市| 清远市| 农安县| 松江区| 九台市| 南充市| 县级市| 广安市| 泸水县| 汉中市| 宜君县| 山阳县|