99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

COLING 2025 | 大語言模型能像人一樣進(jìn)行思維鏈推理嗎?

0
分享至

“大語言模型能像人一樣通過思維鏈進(jìn)行推理,解決復(fù)雜的邏輯或數(shù)學(xué)問題”, 經(jīng)常見到這樣的說法。

越來越多的人相信大語言模型能像人一樣進(jìn)行推理。而從大語言模型的思維鏈推理行為來看,確實很像人的推理過程。但實事真的如此嗎

本文的研究表明:AI生成的推理過程很多時候,只是行為的模仿,并不是真正的推理。本文在大語言模型上使用擾動實驗,通過統(tǒng)計顯著性檢驗變量間的因果聯(lián)系,揭示大模型內(nèi)部的因果圖結(jié)構(gòu)。通過將大模型的表層行為和底層的結(jié)構(gòu)對應(yīng)起來,能夠解釋大模型推理中的很多奇怪現(xiàn)象,比如說錯誤的推理過程得到正確的結(jié)果。


論文題目: How Likely Do LLMs with CoT Mimic Human Reasoning? 論文鏈接: https://aclanthology.org/2025.coling-main.524.pdf 代碼鏈接: https://github.com/StevenZHB/CoT_Causal_Analysis 相關(guān)Talk: https://event.baai.ac.cn/activities/918

一、研究動機(jī)

思維鏈(Chain of Thought, CoT)作為大語言模型(LLM)解決推理任務(wù)的標(biāo)準(zhǔn)技術(shù),已被廣泛應(yīng)用于復(fù)雜的數(shù)學(xué)推理和邏輯推理中。然而,研究表明,思維鏈并不總是能提高模型的性能,也不總是忠實地表達(dá)模型的實際推理過程。這樣的現(xiàn)象讓人們對大語言模型推理的真實過程和潛在機(jī)制充滿了好奇。本研究嘗試揭開這些現(xiàn)象背后的真相。


表1:一個簡單的問題解決過程

現(xiàn)有的研究多從現(xiàn)象層面探討大語言模型的推理過程。我們則采用因果分析的方法,從大語言模型推理過程的內(nèi)在機(jī)制進(jìn)行研究,并與人類的推理過程進(jìn)行對比。如表1所示,我們將問題求解過程簡化、抽象為問題指令(instruction)、推理步驟(CoT)和結(jié)論(answer)三部分,并用隨機(jī)變量表示:Z代表問題指令,X代表推理步驟,Y代表答案。心理學(xué)研究表明,理性的人類在解決復(fù)雜推理問題時遵循因果鏈,其中問題指令決定推理步驟,而推理步驟決定結(jié)論。

對于LLM,我們通過干預(yù)分析這三個隨機(jī)變量之間的因果關(guān)系,就可以揭示大語言模型在特定任務(wù)上其內(nèi)在的結(jié)構(gòu)因果模型(SCM)。我們的實驗涉及到四種因果模型結(jié)構(gòu),包括因果鏈(I型)、共同原因(II型)、完全連接(III型)和隔離(IV型)。實驗結(jié)果表明,大語言模型上存在大量的共同原因和完全連接型結(jié)構(gòu)。在這些結(jié)構(gòu)條件下模型可能并未進(jìn)行真正的推理,而是根據(jù)潛在的答案信念生成推理過程的解釋。也就是說,模型在生成推理過程之前就已經(jīng)確定答案了,而所有后續(xù)的“推理過程”只是為這個答案提供了一種合理的解釋。

二、方法

理論上來說,一個自回歸語言模型允許右側(cè)的詞依賴于所有左側(cè)的詞,形成一種全連接結(jié)構(gòu)。然而,對于每個特定任務(wù),語言模型可能在全連接結(jié)構(gòu)的任何子圖下工作。

為了在任務(wù)中推斷大型語言模型的潛在SCM結(jié)構(gòu)類型,我們使用干預(yù)來測試因果關(guān)系,重點關(guān)注指向答案(Y)的關(guān)系,如圖1所示。


圖1:因果分析過程

我們控制其中的一個條件變量,干預(yù)另一個條件變量,觀察輸出變量所受到的影響,看其是否顯著地改變。通過控制推理過程X,干預(yù)提示信息Z,我們得到Z到Y(jié)的因果聯(lián)系。通過控制提示信息Z,干預(yù)推理過程X,我們得到X到Y(jié)的因果聯(lián)系。綜合兩者,我們就得到SCM結(jié)構(gòu)。

具體來說,我們使用McNemar檢驗來評估平均干預(yù)效應(yīng)(ATE)的顯著性,分別檢驗上述兩組干預(yù)實驗對應(yīng)的兩個假設(shè):“推理過程(X)決定答案(Y)”和“提示信息(Z)決定答案(Y)”。基于假設(shè)檢驗的統(tǒng)計顯著性,我們推斷每個任務(wù)上LLM的實際SCM結(jié)構(gòu)。具體形式化表達(dá)如下:


為了檢驗假設(shè)“推理過程(X)決定答案(Y)”,我們使用兩種干預(yù)形式:黃金標(biāo)準(zhǔn)推理鏈隨機(jī)錯誤推理鏈,預(yù)期效果分別是提高和降低任務(wù)準(zhǔn)確率。黃金標(biāo)準(zhǔn)推理鏈表示標(biāo)準(zhǔn)的正確的推理步驟,我們期望LLM可以從中得出正確答案。隨機(jī)錯誤推理鏈則基于LLM生成的推理鏈,通過注入隨機(jī)錯誤來構(gòu)建。具體的,我們隨機(jī)替換數(shù)學(xué)問題中的數(shù)字,將邏輯推理問題中的最后1/3斷言轉(zhuǎn)換為否定表達(dá)。我們期望LLM從中得出錯誤的答案。

為了檢驗假設(shè)“提示信息(Z)決定答案(Y)”,我們控制推理過程,使用黃金標(biāo)準(zhǔn)推理鏈或者模型生成推理鏈。在推理鏈確定的情況下,我們也使用兩種干預(yù)形式:隨機(jī)提示隨機(jī)偏見。隨機(jī)提示使用GPT-4基于默認(rèn)提示信息通過預(yù)定義的提示模板隨機(jī)生成,不改變提示信息基本語義。隨機(jī)偏見則在指令中注入偏見聲明,如“我認(rèn)為正確答案/選項是: <隨機(jī)錯誤答案> ”。一個理想的LLM,應(yīng)該不受這些不相關(guān)的干擾的影響。

三、實驗結(jié)果

總的來說,我們的實驗結(jié)果表明:SCM結(jié)構(gòu)是LLM推理的一個本質(zhì)特征,能夠揭示其內(nèi)在行為,并預(yù)測各種表面現(xiàn)象。如圖2所示,但SCM是I型時,LLM的內(nèi)在行為是進(jìn)行推理,其推理過程會決定最終答案;而當(dāng)SCM是II型時,LLM的內(nèi)在行為是進(jìn)行解釋,此時關(guān)于答案的信念在“推理過程”之前已經(jīng)確定,“推理過程”不會影響最后的答案。當(dāng)SCM是III型時,LLM的內(nèi)在行為是兩者的混合。


圖2:四種SCM結(jié)構(gòu)對應(yīng)的內(nèi)在行為和外在現(xiàn)象

這些內(nèi)在行為決定了LLM推理的表層現(xiàn)象,具體如下所述。

與回答的忠實性(faithfulness)的聯(lián)系

給定SCM類型,我們可以預(yù)測LLM回答的忠實性。對于I型,LLM傾向于提供可信的推理過程,而對于II型和III型,LLM可能產(chǎn)生不可信的“推理過程”。這些可以通過提示信息在隨機(jī)干擾條件下的ATE顯著性得到檢驗。如表2中的Addition、Multiplication、ProofWriter和LogiQA所示,在CoT恒定的情況下,提示信息上的隨機(jī)干擾改變了模型對答案的信念。結(jié)果是,使用恒定的CoT,無論是默認(rèn)CoT還是黃金CoT,答案有很大比例變成錯誤的了。說明了CoT不能忠實地表達(dá)潛在信念背后真實推理過程。

實際上,如表2中不顯著但非零的ATE值所展現(xiàn),沒有任何LLM和任務(wù)能夠進(jìn)行純粹的推理或解釋,通常它們是兩種行為的混合體。因此,不忠實的回答通常在所有LLM和任務(wù)中都會發(fā)生,只是頻度有所不同。


表2:GPT-3.5-Turbo上的干擾實驗

與回答的一致性(consistency)的聯(lián)系

我們評估了六個任務(wù)中CoT和答案的一致性,發(fā)現(xiàn)錯誤的CoT可能會與正確的答案同時出現(xiàn),反之亦然。在六個任務(wù)中的五個任務(wù)中,LLMs產(chǎn)生了一致性錯誤,特別是在簡單的算術(shù)問題如Addition和Multiplication中。例如,Addition中超過60%的錯誤CoT導(dǎo)致正確答案,而更大的模型如GPT-4則顯示出更大74%的差異。

直觀地說,推理行為傾向于產(chǎn)生一致的回答,因為答案是從推理步驟中得出的。而解釋行為可能產(chǎn)生不一致的CoT和答案,因為它們隨機(jī)地依賴于相同的潛在信念。我們檢查了SCM的類型和一致性錯誤率之間的關(guān)聯(lián)。結(jié)果表明,具有I型SCM 的任務(wù)一般錯誤率低于II型SCM 的任務(wù),而混合的III型錯誤率總體上處于兩者之間。

與任務(wù)準(zhǔn)確率(task accuracy)的聯(lián)系

有趣的是,LLM的任務(wù)準(zhǔn)確性與SCM的類型并不直接相關(guān)。當(dāng)我們比較GPT-4和GPT-3.5-turbo時,雖然GPT-4的平均任務(wù)準(zhǔn)確性相對提高41%,但其SCM類型分布上并沒有表現(xiàn)出更多的I型。SCM的類型決定了推理過程,但不能直接決定任務(wù)的準(zhǔn)確性。

因此,我們需要針對不同類型的SCM采取不同的策略來提高答案的準(zhǔn)確性。對于I型SCM,可以通過提高推理步驟的質(zhì)量來提高任務(wù)準(zhǔn)確率。然而,對于II型SCM,改善CoT則無法實現(xiàn)更高的任務(wù)準(zhǔn)確率。

這些結(jié)論可以從表2的實驗結(jié)果中得出。如表2中所示的GSM8K(類型I)和Addition(類型II)。經(jīng)過干擾后,黃金推理鏈(treated w/ golden CoT)使得GSM8K的任務(wù)準(zhǔn)確性從0.742提高到1.000(增加0.258),但并沒有提高Addition的任務(wù)準(zhǔn)確性。

對于III型SCM,盡管有可能通過改善推理步驟來提高準(zhǔn)確率,但由于CoT背后推理和解釋行為的混合,無法保證結(jié)果。具體來說,如表中所示的Multiplication和ProofWriter,黃金推理鏈將Multiplication的任務(wù)準(zhǔn)確性從0.454提高到0.638(增加0.184),將ProofWriter從0.520提高到0.777(增加0.257)。但盡管有所提高,準(zhǔn)確率依然遠(yuǎn)未達(dá)到完美的1。

SCM類型的分布

我們發(fā)現(xiàn),更大的模型并不一定會有更好的內(nèi)在SCM結(jié)構(gòu)。如表3所示,不同的LLM顯示出不同的SCM類型分布。


表3:SCM分布

其中,III型(全連接)是最常見的情況(24個LLM任務(wù)中有10個),表明多數(shù)LLM在推理鏈中表現(xiàn)出混合行為。較小的Llama2模型的SCM類型傾向于II、III和IV而不是I型。而較大的GPT-3.5-turbo和GPT-4雖然表現(xiàn)出更多的I型,但仍有相當(dāng)大比例的II,III和IV型。因此,較大的LLM并不一定產(chǎn)生接近理想的因果鏈。這也表明,單純增大模型規(guī)模可能無法使LLM達(dá)到人類級別的推理能力。

四、結(jié)語

我們對大語言模型的思維鏈進(jìn)行了因果分析,揭示了其內(nèi)在的因果模型結(jié)構(gòu)。這些結(jié)構(gòu)作為基本特征,可以用于揭示模型的內(nèi)在行為,以及預(yù)測模型的外在表現(xiàn),如生成回答的一致性和忠實性。相關(guān)因素的分析表明,模型規(guī)模對因果結(jié)構(gòu)有顯著影響,但更大的模型并不一定能產(chǎn)生更好的因果結(jié)構(gòu)。一些流行的技術(shù),如上下文學(xué)習(xí)(ICL)、監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),會顯著影響因果結(jié)構(gòu)。其中,上下文實例能增強(qiáng)因果結(jié)構(gòu),而監(jiān)督微調(diào)則會削弱因果結(jié)構(gòu)。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗,加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價值的投后服務(wù),歡迎發(fā)送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
掘金總裁發(fā)言!約基奇可能被交易,適合約基奇的3大下家出爐

掘金總裁發(fā)言!約基奇可能被交易,適合約基奇的3大下家出爐

蛋疼體育
2025-06-25 06:32:41
震驚!谷歌華人殺妻男大量新細(xì)節(jié)披露:先出軌后殘忍殺妻?生前最后視頻曝光!

震驚!谷歌華人殺妻男大量新細(xì)節(jié)披露:先出軌后殘忍殺妻?生前最后視頻曝光!

最英國
2025-06-25 08:00:48
2.8萬救護(hù)車收費后續(xù),內(nèi)科醫(yī)師說出真相:不這樣孩子到不了上海

2.8萬救護(hù)車收費后續(xù),內(nèi)科醫(yī)師說出真相:不這樣孩子到不了上海

泠泠說史
2025-06-25 10:38:51
62年田家英建議分田單干,毛主席:你個人的意見,還是別人的意見

62年田家英建議分田單干,毛主席:你個人的意見,還是別人的意見

小廣說歷史
2025-06-24 15:21:32
炸裂!北京男子自曝500萬娶坐臺小姐,婚后她死性不改,長得一般

炸裂!北京男子自曝500萬娶坐臺小姐,婚后她死性不改,長得一般

深析古今
2025-06-24 22:03:24
真的撿到寶!交易得到李月汝,飛翼算是賺大發(fā)了!

真的撿到寶!交易得到李月汝,飛翼算是賺大發(fā)了!

田先生籃球
2025-06-25 15:56:01
霍楠:同曦包括林葳在內(nèi)多人能否留隊都存疑 新任總經(jīng)理已在路上

霍楠:同曦包括林葳在內(nèi)多人能否留隊都存疑 新任總經(jīng)理已在路上

直播吧
2025-06-25 15:12:31
緊急提醒!雨雨雨+降溫至27℃即將抵津!天津終于要“退燒”啦!

緊急提醒!雨雨雨+降溫至27℃即將抵津!天津終于要“退燒”啦!

天津生活通
2025-06-25 15:10:36
涉嫌抄襲,范丞丞被要求公開道歉!

涉嫌抄襲,范丞丞被要求公開道歉!

魯中晨報
2025-06-25 13:32:24
劣質(zhì)偶像劇,榨干了張婧怡的魅力

劣質(zhì)偶像劇,榨干了張婧怡的魅力

費加羅夫人
2025-06-24 12:20:49
欠中國的錢,美國不準(zhǔn)備還?中方再拋80億美債,等特朗普訪華求和

欠中國的錢,美國不準(zhǔn)備還?中方再拋80億美債,等特朗普訪華求和

boss外傳
2025-06-25 20:35:03
劉強(qiáng)東出現(xiàn)在夏季達(dá)沃斯現(xiàn)場

劉強(qiáng)東出現(xiàn)在夏季達(dá)沃斯現(xiàn)場

三言科技
2025-06-25 17:13:47
黃楊鈿甜主演新劇即將開播,飾演窮人家的女孩揭露黑暗?太神奇了

黃楊鈿甜主演新劇即將開播,飾演窮人家的女孩揭露黑暗?太神奇了

走讀新生
2025-06-25 00:09:02
特朗普沒料到,停戰(zhàn)24小時內(nèi)出現(xiàn)兩個新情況,中國給伊朗吃定心丸

特朗普沒料到,停戰(zhàn)24小時內(nèi)出現(xiàn)兩個新情況,中國給伊朗吃定心丸

掌青說歷史
2025-06-25 10:04:59
這8個專業(yè)你打死都不要去碰

這8個專業(yè)你打死都不要去碰

玉辭心
2025-06-13 07:31:03
季后賽沒工資,跟腱撕裂,哈利伯頓能得到多少賠償金?

季后賽沒工資,跟腱撕裂,哈利伯頓能得到多少賠償金?

樂聊球
2025-06-24 16:35:18
伊朗一對“情侶”躲進(jìn)谷倉中擁吻,被人發(fā)現(xiàn)時,已經(jīng)吻了2800年

伊朗一對“情侶”躲進(jìn)谷倉中擁吻,被人發(fā)現(xiàn)時,已經(jīng)吻了2800年

悅悅侃歷史
2025-06-22 17:37:29
俄專家警告美軍別不自量力:若與中國開戰(zhàn),一周內(nèi)兵力損失超十萬

俄專家警告美軍別不自量力:若與中國開戰(zhàn),一周內(nèi)兵力損失超十萬

boss外傳
2025-06-23 22:00:03
袁立參觀巴黎圣母院,和三婚老公梁太平同框,看不出11歲年齡差

袁立參觀巴黎圣母院,和三婚老公梁太平同框,看不出11歲年齡差

心靜物娛
2025-06-23 09:37:34
云南大理兩廳官,同日被官宣落馬!

云南大理兩廳官,同日被官宣落馬!

中國青年報
2025-06-24 22:52:04
2025-06-25 21:08:49
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2156文章數(shù) 591關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

教育
房產(chǎn)
親子
游戲
軍事航空

教育要聞

暑假趕緊讓孩子讀這些范文

房產(chǎn)要聞

三亞頂豪!內(nèi)部資料曝光!

親子要聞

終于見面啦!!!!原創(chuàng)dy:@辣炒年糕

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現(xiàn)!

軍事要聞

伊朗總統(tǒng):12天戰(zhàn)爭結(jié)束 重建工作開啟

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日土县| 皮山县| 云南省| 微博| 都匀市| 屯昌县| 周口市| 建湖县| 青龙| 平山县| 抚松县| 星子县| 菏泽市| 景洪市| 石阡县| 理塘县| 河间市| 吉木乃县| 大化| 泰州市| 浦城县| 镶黄旗| 双峰县| 当阳市| 宜兰市| 阳新县| 阜城县| 裕民县| 三穗县| 五华县| 厦门市| 沁源县| 宜川县| 华蓥市| 兴海县| 邵东县| 垣曲县| 江口县| 诸暨市| 和政县| 全椒县|