99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AAAI 2025 | 大模型會(huì)組合關(guān)系推理嗎?打開黑盒,窺探Transformer腦回路

0
分享至

人類擁有一種強(qiáng)大的能力,能夠理解多個(gè)實(shí)體之間復(fù)雜的關(guān)系并基于這些關(guān)系進(jìn)行推理,這被稱為組合關(guān)系推理(Compositional Relational Reasoning, CRR)。這種能力不僅是智能的標(biāo)志,也是我們應(yīng)對(duì)日常問題和復(fù)雜任務(wù)的核心技能。那么,像 GPT 這樣的大型語(yǔ)言模型(LLM)是否具備這種能力?它們又是如何在內(nèi)部處理這種任務(wù)的?為了回答這個(gè)問題,研究者開發(fā)了一個(gè)新的基準(zhǔn)測(cè)試,稱為廣義關(guān)聯(lián)回憶(Generalized Associative Recall, GAR),專門用來(lái)評(píng)估 LLM 在組合推理任務(wù)中的表現(xiàn),并進(jìn)一步研究模型如何解決這些任務(wù)。論文《Benchmarking and Understanding Compositional Relational Reasoning of LLMs》已被 AAAI 2025 接收。本工作由北京郵電大學(xué)和彩云科技合作完成。


論文標(biāo)題: Benchmarking and Understanding Compositional Relational Reasoning of LLMs 論文地址: https://arxiv.org/abs/2412.12841 代碼地址: https://github.com/Caiyun-AI/GAR

一、GAR 基準(zhǔn)測(cè)試

研究者注意到,目前大多數(shù)用于測(cè)試 LLM 的任務(wù)要么過于簡(jiǎn)單,只能用于可解釋性分析,無(wú)法真實(shí)反映模型在復(fù)雜推理場(chǎng)景下的表現(xiàn),要么過于復(fù)雜,不適合深入研究模型的內(nèi)部機(jī)制。因此,他們?cè)O(shè)計(jì)了 GAR,一個(gè)更加多樣化和具有挑戰(zhàn)性的基準(zhǔn)測(cè)試。GAR 整合了多個(gè)經(jīng)典任務(wù)(如 knowledge recall、associate recall、Indirect Object Identification (IOI) 等),并通過不同的任務(wù)形式(如肯定 / 否定句、生成 / 分類任務(wù))和難度等級(jí),系統(tǒng)地考察模型的推理能力。

簡(jiǎn)單來(lái)講(更多例子見下圖 1 和圖 2):

  • associate recall 就是從前文 “抄寫”:前文說(shuō)了 “小明有蘋果”,后文再說(shuō) “小明有__”,就知道要填 “蘋果”;

  • knowledge recall 就是記到 “腦子” 里的各種常識(shí)知識(shí):蘋果是一種__(水果),巴黎在__(法國(guó))

  • IOI 就是排除(否定):【蘋果、狗、蘋果】哪個(gè)不是蘋果?__(狗)

GAR 的特點(diǎn)是:

  1. 挑戰(zhàn)性足夠高:即使是最先進(jìn)的 LLM,在 GAR 任務(wù)上的表現(xiàn)也并不理想,暴露了它們?cè)诮M合推理能力上的缺陷。

  2. 適合深入研究:GAR 任務(wù)相對(duì)簡(jiǎn)單的生成過程,使得研究者能夠更好地追蹤模型內(nèi)部的推理機(jī)制。


圖 1 廣義關(guān)聯(lián)回憶(Generalized Associative Recall, GAR)任務(wù)構(gòu)建框架。GAR 任務(wù)的設(shè)計(jì)流程包括三個(gè)步驟:選擇關(guān)系模式(如 “same” 或 “kindOf”)、采樣數(shù)據(jù)構(gòu)建關(guān)系環(huán)(結(jié)合語(yǔ)義與語(yǔ)法關(guān)系)以及生成語(yǔ)句并引入語(yǔ)義和句法變體(如否定形式或主賓交換),圖中左中右部分分別展示了關(guān)系環(huán)的構(gòu)建、任務(wù)數(shù)據(jù)的生成與語(yǔ)句的多樣化處理,體現(xiàn)了 GAR 在任務(wù)靈活性和復(fù)雜度上的優(yōu)勢(shì)


圖 2 GAR 任務(wù)示例。任務(wù)分為兩大類:生成式(填空題,補(bǔ)全最后一個(gè)詞)和判別式(判斷題,回答 Yes 或 No)
二、現(xiàn)有模型的表現(xiàn)

通過對(duì)主流開源(如 Llama-2/3 7B/13B/33B/70B)和閉源模型(如 GPT-3.5/4)的測(cè)試發(fā)現(xiàn):

  • 任務(wù)難度顯著影響表現(xiàn):當(dāng)任務(wù)的推理步驟或復(fù)雜度增加時(shí),模型的正確率會(huì)明顯下降

  • “組合性差距(Compositionality Gap)”:模型在回答任務(wù)的各個(gè)子問題時(shí)可能表現(xiàn)良好,但無(wú)法正確組合這些答案以得出最終結(jié)論。例如,模型能回答對(duì) “【小明有蘋果,小紅有狗】小明有__(蘋果)”(前文抄寫),對(duì) “蘋果是一種__(水果)”(常識(shí))和 “【小明、小紅】里哪個(gè)不是小紅?__ (小明)”(否定排除)也毫無(wú)壓力,但把它們組合起來(lái):“【小明有蘋果,小紅有狗】小紅沒有一種__ (水果)”,模型就很容易蒙圈(在不允許 CoT 的情況下)。

  • 模型規(guī)模與性能:雖然更大的模型在一些任務(wù)上表現(xiàn)更好,但它們的 “組合性差距” 往往更明顯,這表明增加模型規(guī)模并不能完全解決這個(gè)問題。


圖 3 (a) 不同 LLM 在 GAR 上的表現(xiàn)。本圖比較了生成任務(wù)(Gen.)和分類任務(wù)(Cls.)的平均準(zhǔn)確率和正確答案的預(yù)測(cè)概率,隨著模型規(guī)模增大,準(zhǔn)確率和答案概率均呈正相關(guān)增長(zhǎng)


圖 3 (b 左) GPT-4 和 Vicuna-33B 在不同難度的生成式任務(wù)上的表現(xiàn),通過增加非相同語(yǔ)義關(guān)系和引入否定語(yǔ)義變體調(diào)整任務(wù)難度;(c 中) 組合性差距隨模型規(guī)模的變化, Llama 系列模型隨規(guī)模增大而表現(xiàn)出更大的組合性差距,反映出 LLM 在組合關(guān)系推理中的不足;(d 右) 語(yǔ)法變化差距隨模型規(guī)模的變化,句法變體對(duì)模型性能影響較小,表明模型對(duì)語(yǔ)法變化的敏感性較低

GAR 任務(wù)還有個(gè)很有趣的特點(diǎn):盡管它對(duì)最先進(jìn)的 LLM 都具有挑戰(zhàn)性,它對(duì)人類來(lái)說(shuō)卻非常簡(jiǎn)單:研究者評(píng)估,在具備必要知識(shí)(如國(guó)家 - 首都關(guān)系)的情況下,人類完成任務(wù)的準(zhǔn)確率超過 90%。并且通過實(shí)驗(yàn)表明,LLM 回答錯(cuò)誤并不是因?yàn)槿鄙龠@些事實(shí)性知識(shí)。這揭示了 LLM 在組合關(guān)系推理上存在某些根本性缺陷

三、模型內(nèi)部的推理機(jī)制

為了更好地理解 LLM 如何解決 GAR 任務(wù),研究者采用了歸因補(bǔ)丁(attribution patching)的方法。這種技術(shù)可以幫助發(fā)現(xiàn)模型在推理過程中依賴的關(guān)鍵計(jì)算單元,特別是某些注意力頭的作用。值得指出的是,這里無(wú)論任務(wù)難度、回路復(fù)雜度還是模型大小,都遠(yuǎn)超已有模型可解釋性工作。研究發(fā)現(xiàn):

  1. 核心回路:Vicuna-33B 模型中存在一組通用的核心回路,能夠被不同任務(wù)重復(fù)利用。

  2. 注意力頭的作用:研究者識(shí)別出兩類關(guān)鍵注意力頭(True head 和 False head),它們的激活狀態(tài)分別表示抽象的 “真” 和 “假” 的概念。進(jìn)一步的實(shí)驗(yàn)表明,這些頭在不同任務(wù)和模型中都扮演了重要角色,是組合推理能力的基礎(chǔ)。


圖 4 (a 左) True head 子回路 (b 右) False head 子回路


圖 4 (c) 判別回路


圖 4 (d) 肯定式生成回路


圖 4 (e) 否定式生成回路

研究者發(fā)現(xiàn),無(wú)論哪種回路,從更高的層次看,都包含我們稱之為 “relational loop” 的由注意力邊組成的閉環(huán)。這和構(gòu)造 GAR 任務(wù)時(shí)的關(guān)系環(huán)是一致的。研究者認(rèn)為正是這些閉環(huán)的存在保證了可預(yù)測(cè)性

四、通過干預(yù)關(guān)鍵注意力頭提升 LLM 表現(xiàn)

注意到 True/False 頭在圖 4 的所有回路中都有出現(xiàn)并扮演了關(guān)鍵角色。為了驗(yàn)證 Vicuna 模型中的 True/False 頭的通用性和有效性,并探討其在不同模型規(guī)模上的一致性。研究者選擇了三個(gè)具有代表性的分類任務(wù):由 GendersOfPersons 關(guān)系模式分別與 CountriesOfCities (CoC)、KindsOfThings (KoT) 和 UsagesOfThings (UoT) 三個(gè)關(guān)系模式組合作為數(shù)據(jù)源。首先,利用 attribution patching 識(shí)別不同規(guī)模的 Vicuna 模型(Vicuna-7B/13B/33B)的 True/False 頭。隨后,在模型推理過程中對(duì) True/False 頭進(jìn)行干預(yù):當(dāng)答案為 Yes/No 時(shí),對(duì) True/False 頭施加干預(yù),同時(shí)屏蔽 False/True 頭,以觀察其對(duì)模型判斷的影響。


圖 5 (a 左) 干預(yù) Vicuna-7B 的 True / False heads 提升判別任務(wù)的準(zhǔn)確率,干預(yù)后模型準(zhǔn)確率分別提高了 17%/14%/6%,證明 True/False 頭在各個(gè)模型中均表現(xiàn)出一致的效果;(b 右) True / False heads 的激活區(qū)分真 / 假陳述,通過可視化 True 和 False 頭的激活值,發(fā)現(xiàn)它們有效地區(qū)分了真假語(yǔ)句。這表明,True/False 頭編碼了真假概念,并在 GAR 任務(wù)中起到了判斷語(yǔ)句真?zhèn)蔚年P(guān)鍵作用

五、研究意義

這項(xiàng)研究首次明確指出了 LLMs 在組合關(guān)系推理任務(wù)中的核心缺陷,并通過實(shí)驗(yàn)揭示了模型內(nèi)部的關(guān)鍵推理機(jī)制。這不僅加深了我們對(duì) LLMs 工作原理的理解,也為模型改進(jìn)提供了啟發(fā)和洞見。例如:

  • 優(yōu)化注意力機(jī)制:通過改進(jìn)關(guān)鍵注意力頭的功能,可以顯著提升模型的推理能力,例如研究團(tuán)隊(duì)的 DCFormer 工作 [1] 的最早期想法就是分析 LLM 在類似 GAR 任務(wù)上的表現(xiàn)啟發(fā)而來(lái)的。

  • 設(shè)計(jì)更具多樣性的基準(zhǔn):在真實(shí)世界任務(wù)中測(cè)試和改進(jìn)模型的組合推理表現(xiàn)。

參考文獻(xiàn)

[1] Da Xiao 1 Qingye Meng 2 Shengping Li 2 Xingyuan Yuan. Improving Transformers with Dynamically Composable Multi-Head Attention. ICML 2024.

作者:倪睿康 來(lái)源:公眾號(hào)【機(jī)器之心 】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(

www.techbeat.net
) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長(zhǎng)。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //

// 前沿資訊解說(shuō)/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說(shuō)明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國(guó)的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動(dòng),蔣凡離接班人又近了一步?

阿里大變動(dòng),蔣凡離接班人又近了一步?

新10億商業(yè)參考
2025-06-25 18:51:08
你見過最無(wú)知的人是什么樣?網(wǎng)友:尊重他人命運(yùn),這種人該被淘汰

你見過最無(wú)知的人是什么樣?網(wǎng)友:尊重他人命運(yùn),這種人該被淘汰

解讀熱點(diǎn)事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現(xiàn)得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現(xiàn)得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長(zhǎng)期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長(zhǎng)期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價(jià)超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價(jià)超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產(chǎn)也不能治愈?提醒:這6種病根本無(wú)法根治,別白花冤枉錢

傾家蕩產(chǎn)也不能治愈?提醒:這6種病根本無(wú)法根治,別白花冤枉錢

39健康網(wǎng)
2025-06-24 20:02:57
這瓶“沒貼標(biāo)簽”的水,出自山姆和農(nóng)夫山泉的聯(lián)手

這瓶“沒貼標(biāo)簽”的水,出自山姆和農(nóng)夫山泉的聯(lián)手

中國(guó)商報(bào)
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達(dá)線人數(shù)不到44萬(wàn),達(dá)線率不足33%

真慘!河南高考新鮮出爐:本科達(dá)線人數(shù)不到44萬(wàn),達(dá)線率不足33%

二月侃事
2025-06-25 16:47:23
李夢(mèng)宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

李夢(mèng)宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號(hào)劇委會(huì)
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會(huì)以任何形式出席北約峰會(huì)

匈牙利總理:澤連斯基不會(huì)以任何形式出席北約峰會(huì)

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對(duì)伊朗西部軍事目標(biāo)發(fā)動(dòng)新一輪打擊

新華社消息|以軍稱對(duì)伊朗西部軍事目標(biāo)發(fā)動(dòng)新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場(chǎng)喪生

俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場(chǎng)喪生

環(huán)球熱點(diǎn)快評(píng)
2025-06-24 09:03:00
還有更猛的交易要來(lái)!Shams告訴主持人今晚千萬(wàn)別睡覺

還有更猛的交易要來(lái)!Shams告訴主持人今晚千萬(wàn)別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬(wàn)的紅旗渠工程,十年七萬(wàn)人,零貪腐零瀆職!

反腐神話:投資七千萬(wàn)的紅旗渠工程,十年七萬(wàn)人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標(biāo)三峽學(xué)院85萬(wàn)元防火墻項(xiàng)目”:調(diào)查已超30個(gè)工作日,尚在走處理程序

“300元路由器中標(biāo)三峽學(xué)院85萬(wàn)元防火墻項(xiàng)目”:調(diào)查已超30個(gè)工作日,尚在走處理程序

大風(fēng)新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動(dòng)型初創(chuàng)企業(yè)
2156文章數(shù) 591關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國(guó)

頭條要聞

與汪峰節(jié)目牽手引猜測(cè) 寧?kù)o談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測(cè) 寧?kù)o談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無(wú)交流像陌生人

財(cái)經(jīng)要聞

免除蘇寧易購(gòu)5億債務(wù)的神秘人是誰(shuí)?

汽車要聞

售14.99萬(wàn)/限量200臺(tái) 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
本地
藝術(shù)
軍事航空

數(shù)碼要聞

打開京東搜“小米新品0626” 有機(jī)會(huì)搶先體驗(yàn)小米AI眼鏡

挑對(duì)耳環(huán)=開掛!這15款巨in巨高級(jí),太顯臉小了!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭(zhēng)結(jié)束 重建工作開啟

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 谢通门县| 上饶市| 新疆| 昌黎县| 和田县| 同仁县| 行唐县| 满洲里市| 高青县| 喀喇| 荆门市| 许昌市| 平湖市| 林甸县| 大足县| 曲麻莱县| 莱阳市| 济源市| 大姚县| 洞头县| 永年县| 青铜峡市| 万安县| 通化县| 泰州市| 大冶市| 土默特左旗| 浦城县| 安龙县| 浦县| 彝良县| 鄱阳县| 岐山县| 永善县| 正镶白旗| 临洮县| 永福县| 宁化县| 广平县| 衡阳市| 固镇县|