99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Bengio親手戳穿CoT神話!LLM推理是假象,25%頂會論文遭打臉

0
分享至


新智元報道

編輯:YHluck 桃子

【新智元導讀】原來,CoT推理竟是假象!Bengio帶隊最新論文戳穿了CoT神話——我們所看到的推理步驟,并非是真實的。不僅如此,LLM在推理時會悄然糾正錯誤,卻在CoT中只字未提。

圖靈獎大牛Bengio新作上線了!

這篇由牛津、谷歌DeepMind、Mila多家機構聯(lián)手論文指出——思維鏈并非可解釋性。

這一觀點徹底打破了許多人的認知:

CoT看似一步步給出答案,實則并不一定是其真實的推理過程。


論文地址:https://www.alphaxiv.org/abs/2025.02

這么說來,能夠暴露LLM內心世界的「思維鏈」,如今也不可靠了?

論文中,研究人員撕開了CoT的面紗,揭露了一個令人震驚的真相:思維鏈的透明度,可能只是一種精心編織的假象!


思維鏈「謊言」被揭穿

然而,現(xiàn)實中,約25%的近期AI論文錯誤地將CoT標榜為「可解釋性技術」。

這一概念最先由前谷歌研究院Jason Wei在論文中提出,一時間,CoT被廣泛應用在推理模型當中。


它最大的特點,就是能夠多步驟推理,提升模型準確性。與此同時,讓AI黑盒變得不再那么神秘。

然而, CoT思考過程,是其真正的內心OS嗎?

一些論文信誓旦旦地宣稱,CoT可以讓我們看清AI的推理過程,但事實遠非如此。


尤其是,在高風險領域,這個誤解的代價可能是致命的。

研究人員發(fā)現(xiàn),在使用CoT論文中,約38%醫(yī)療 AI、25%法律AI、63%自動駕駛汽車相關論文,都盲目地將CoT視為可解釋性方法。

更令人毛骨悚然的是,帶有明確偏見的提示詞,可以輕易左右模型的答案。

而且,這些偏見在AI給出的「推理步驟」中只字不提。

AI能為帶有偏見的答案,編織出看似合理的解釋,卻從不暴露背后的「黑手」。


因此,輕信這些帶有偏見的答案,可能十分危險。

不僅如此,AI還會在推理過程中,常常「偷偷」修正自己的錯誤。

表面上看,大模型給出的步驟可能漏洞百出,但它卻能通過未被表述的「暗箱操作」得出正確答案。

這便制造了一種透明的假象。為何會出現(xiàn)這種脫節(jié)?

研究人員推測,簡潔的CoT無法完全捕捉基Transformer大模型中存在的分布式并行計算過程。

CoT如何掩蓋真實推理?

越來越多的實證研究已經(jīng)發(fā)現(xiàn)了大量案例,其中模型的思維鏈與其內部推理過程相偏離。

需要指出的是,在審視不忠實性的具體模式之前,CoT解釋的忠實性因模型架構等多種因素而異。

研究人員也總結了4項關鍵發(fā)現(xiàn):偏見驅動的合理化與動機性推理、隱性錯誤糾正(Silent Error Correction)、不忠實的非邏輯捷徑(Unfaithful Illogical Shortcuts)、填充詞元 (Filler Tokens)。

每一項都闡明了CoT是如何誤導或掩蓋模型的實際決策過程,我們?yōu)槟闶崂砹岁P鍵發(fā)現(xiàn)中的要點問題:

偏見驅動的合理化與動機性推理

Turpin等研究者通過巧妙地偏置模型輸入證明偏見驅動的合理化。

舉個栗子:

在提示中重新排序多項選擇題的選項,使得正確選項總是在同一位置(例如,總是字母B)。

在這種情況下,盡管它們的CoT解釋從未提及選項重排是一個影響因素,GPT-3.5和Claude 1.0經(jīng)常會選擇那個被偏置的選項。

當模型被偏向錯誤答案時,它們仍然會生成詳細的CoT來為那些錯誤答案進行合理化解釋。

結果導致在一系列任務上準確率下降了高達36%,而CoT則給出了一個具有誤導性的推理假象。

另一項研究通過在提示中添加明確答案(例如,「答案是C」)來調查提示注入的偏見,然后要求模型為其選擇提供理由。

Claude 3.7-Sonnet和DeepSeek-R1分別僅在約25%和約39%的情況下承認了被注入的答案。

這些發(fā)現(xiàn)表明,思維鏈常常作為事后合理化(post-hoc rationalisations)運作,忽略了真正的因果因素,并制造了一種透明解釋的假象。

隱性錯誤糾正(Silent Error Correction)

研究人員指出,模型可能會在其思維鏈中犯錯,然后在內部糾正這些錯誤,而CoT卻不反映這一糾正過程。

舉個栗子:

在一個CoT推理過程中,模型可能將一個三角形的斜邊錯誤地計算為16,而正確值應為13,但隨后卻陳述:「我們將斜邊長度13與其他兩條邊長相加得到周長。」

模型在內部檢測并糾正了錯誤,但CoT的敘述從未修正或標記這個錯誤——它讀起來像一個連貫的解題過程。

這些隱性錯誤表明,最終答案是通過敘述步驟之外的計算得出的。

不忠實的非邏輯捷徑(Unfaithful Illogical Shortcuts)

研究人員表示,模型會通過潛在的捷徑得出正確答案,例如利用記憶的模式作為替代推理路徑,從而繞過完整的算法推理,這使得明確的推理鏈變得不相關或不正確。

來個典型案例:

有研究者使用歸因圖(一種追蹤哪些計算步驟對最終輸出有貢獻的方法)發(fā)現(xiàn),在解決像「36 + 59」這樣的問題時,Claude 3.5 Haiku同時使用了查找表特征(例如,用于「將接近36的數(shù)與接近60的數(shù)相加」)和加法計算特征。

有趣的是,當被要求描述模型如何得出答案時,模型報告稱,其執(zhí)行了逐位相加進位,完全忽略了其使用查找表捷徑的事實。

填充詞元(Filler Tokens)

研究指出,在某些算法推理任務中,使用填充詞元——例如「...」或學習到的「停頓」詞元這類對任務沒有語義貢獻但會影響模型內部計算的輸入詞元——可以提高模型性能。

方便你理解,舉個栗子:

研究者發(fā)現(xiàn),輸入中附加可學習的停頓詞元(可作為一種填充詞元),在許多任務上都帶來了顯著的性能提升。

無獨有偶,研究者還發(fā)現(xiàn),添加填充詞元使模型能夠解決它們以前失敗的問題,尤其是在使用密集監(jiān)督進行訓練時。

以上幾項關鍵發(fā)現(xiàn),均解釋了CoT的不忠實性是一個普遍存在于不同模型架構和規(guī)模中的根本性挑戰(zhàn)。

其由提示詞偏見、未能承認隱藏影響以及在復雜推理任務中系統(tǒng)性的修復錯誤等因素導致,發(fā)生率相當高。

CoT解釋與內部計算不一致,是為何?

以上案例中,我們看到了一些關于CoT表里不一的現(xiàn)象,那么,究竟是什么原因導致的?

分布式并行計算,而非順序

「機制可解釋性」研究表明,Transformer架構可能從根本上限制了CoT的忠實度。

基于Transformer搭建的LLM,通常以分布式方式同時通過多個組件處理信息,而不是CoT呈現(xiàn)的順序步驟。

正是因為這種架構差異,導致了模型計算方式與語言表達方式之間,存在固有的不匹配。

舉個栗子,面對「24÷3=?」這樣簡單的數(shù)學問題,LLM會怎么做?

它一定不會像人類學生那樣,逐一分析「3能除24多少次」,或是列出長除法的步驟。

相反,LLM內的多個注意力頭,會同時處理這些數(shù)字之間的關系。

它可能將其識別為記憶中的事實,確認其為8的乘法表的一部分,并計算除法——所有這些都在并行進行。

為了生成簡潔且看似合理的輸出,LLM通常只生成一個這樣的敘述來合理化它們的答案,而不是表達所有并行路徑,即使是那些可能顯著影響最終答案的路徑。

因此,CoT通常會忽略有影響的因素,僅作為模型底層分布式、疊加計算的部分、事后合理化。

冗余路徑

此外,LLM在處理任務時,往往會通過多條冗余計算路徑得出相同結論。

以計算√144為例,模型可能同時執(zhí)行以下操作:

  • 識別這是一個記憶中的事實(12×12=144)

  • 應用平方根算法

  • 與訓練數(shù)據(jù)中的類似問題進行模式匹配

當從模型解釋「√144=12」的CoT中移除關鍵步驟「144=12×12」時,LLM仍能夠正確輸出12。

這表明,LLM的答案并不完全依賴于語言化的推理步驟,而是依賴其內部的多條冗余路徑。

這種冗余計算路徑的現(xiàn)象,被研究者稱為「九頭蛇效應」(Hydra Effect)。

即如果LLM一條路徑被阻斷或移除,另一條路徑可以接替。

這也就解釋了,為什么對CoT的某些部分進行修改或刪除,對最終答案的影響微乎其微。

CoT忠實性挑戰(zhàn)

Tanneru等研究者曾嘗試通過在訓練中懲罰不一致性,引導LLM生成忠實的CoT推理。

然而,這一方法僅取得了部分成功,尤其是在復雜問題上,模型傾向于生成看似合理但非因果的解釋。

比如,模型可能輸出一個邏輯清晰的CoT,卻掩蓋了其真正的決策路徑。

這種「合理化」傾向不僅難以完全消除,還可能在微調或持續(xù)學習過程中重新出現(xiàn)。

另有研究人員Chua和Evans,進一步研究了經(jīng)過專門「推理訓練」的模型,結果發(fā)現(xiàn):

DeepSeek-R1在59%的測試中能提及提示線索,但仍有41%的情況,未能識別關鍵影響因素。

即便是最先進的DeepSeek-V3,也僅在7%案例中提及線索,表明推理訓練的效果極其有限。

更令人擔憂的是,LLM可能通過CoT「欺騙」監(jiān)控機制。

當CoT被用于監(jiān)控RL獎勵函數(shù)中的推理時,模型學會生成看似無害的推理軌跡,實則暗中執(zhí)行有害策略。

CoT假象,破解之法

論文的最后,針對CoT透明度的問題,研究人員指出,「我們不能繼續(xù)被假象蒙蔽」。

為此,他們提出了以下幾點建議:

1. 重新定義CoT的角色

CoT不是可解釋性的「萬能鑰匙」,而應視為一種補充工具。它能提供線索,但絕非真相的全部。

2. 引入嚴格的驗證機制

通過因果驗證技術,如激活修補(activation patching)、反事實檢驗、驗證器模型,深入探查AI的推理過程是否忠實。

3. 借鑒認知科學

模仿人類的錯誤監(jiān)控、自我修正敘事和雙重過程推理(直覺+反思),讓AI的解釋更接近真實。

4. 強化人工監(jiān)督

開發(fā)更強大的工具,讓人類專家能夠審查和驗證AI的推理過程,確保其可信度。

參考資料:

https://x.com/FazlBarez/status/1940070420692312178

https://www.alphaxiv.org/abs/2025.02


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一覺醒來,李嘉誠的天塌了?香港權貴懷念殖民榮光的時代已經(jīng)結束

一覺醒來,李嘉誠的天塌了?香港權貴懷念殖民榮光的時代已經(jīng)結束

豆腐腦觀察局
2025-07-01 13:00:55
網(wǎng)傳南航吉林分公司發(fā)生傷人事件!

網(wǎng)傳南航吉林分公司發(fā)生傷人事件!

西虹市閑話
2025-07-02 18:32:45
西媒報道細節(jié):事故發(fā)生于今天凌晨,若塔和弟弟在車禍中雙雙遇難

西媒報道細節(jié):事故發(fā)生于今天凌晨,若塔和弟弟在車禍中雙雙遇難

直播吧
2025-07-03 16:12:15
美政府取消對華EDA出口限制 三大芯片軟件商恢復對華供貨

美政府取消對華EDA出口限制 三大芯片軟件商恢復對華供貨

財聯(lián)社
2025-07-03 12:50:05
南航機長扎傷同事后墜樓家屬發(fā)聲:他被降為副駕駛,覺得領導不公

南航機長扎傷同事后墜樓家屬發(fā)聲:他被降為副駕駛,覺得領導不公

貓頭鷹視頻
2025-07-03 11:44:46
廣州一模特赴泰國拍廣告卻身陷緬甸,姐姐:曾接到弟弟視頻電話,說“回不去了”

廣州一模特赴泰國拍廣告卻身陷緬甸,姐姐:曾接到弟弟視頻電話,說“回不去了”

封面新聞
2025-07-03 16:02:11
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀實文錄
2025-06-21 14:47:10
全班48人,46人過600分,班主任被教育局約談,結局令人意外

全班48人,46人過600分,班主任被教育局約談,結局令人意外

五元講堂
2025-07-02 10:36:58
大瓜!SHE日本逛街,任家萱發(fā)福明顯,田馥甄孕肚搶鏡疑懷孕七八個月

大瓜!SHE日本逛街,任家萱發(fā)福明顯,田馥甄孕肚搶鏡疑懷孕七八個月

扒星人
2025-07-03 11:41:15
30歲女子多次吃緊急避孕藥,突發(fā)腦梗

30歲女子多次吃緊急避孕藥,突發(fā)腦梗

觀威海
2025-07-02 12:07:15
只是下了個館子,高洪波的政治風險卻被拉滿了

只是下了個館子,高洪波的政治風險卻被拉滿了

推石頭的林律師
2025-07-03 16:38:58
王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

王欣瑜自帶水杯喝水,主裁多次提醒要遮擋,原因竟是不能露商標

小娛樂悠悠
2025-07-03 13:24:00
國務院任免國家工作人員:免去費東斌的國家鐵路局局長職務

國務院任免國家工作人員:免去費東斌的國家鐵路局局長職務

界面新聞
2025-07-03 16:47:53
娛樂圈又丟人!韓紅公布馳援貴州名單,年入上億明星,全輸給網(wǎng)紅

娛樂圈又丟人!韓紅公布馳援貴州名單,年入上億明星,全輸給網(wǎng)紅

削桐作琴
2025-07-02 00:41:18
突發(fā)!南京某汽車廠關閉,36萬的年產(chǎn)能,如今近3000多人面臨失業(yè)

突發(fā)!南京某汽車廠關閉,36萬的年產(chǎn)能,如今近3000多人面臨失業(yè)

明月雜談
2025-07-03 12:37:15
重磅!橋水基金創(chuàng)始人瑞·達利歐:“中國的情況比1990年代的日本更有挑戰(zhàn)性!”

重磅!橋水基金創(chuàng)始人瑞·達利歐:“中國的情況比1990年代的日本更有挑戰(zhàn)性!”

資本Capital
2025-07-03 12:03:21
“清華沒把學生當人類”,研究生憤而曬出宿舍環(huán)境,跟宣傳得不一樣

“清華沒把學生當人類”,研究生憤而曬出宿舍環(huán)境,跟宣傳得不一樣

熙熙說教
2025-07-02 19:36:42
若塔生涯最后一場定格在歐國聯(lián)決賽,替補登場助葡萄牙奪冠

若塔生涯最后一場定格在歐國聯(lián)決賽,替補登場助葡萄牙奪冠

直播吧
2025-07-03 16:34:12
重磅!219票贊成、213票反對,美眾議院通過程序性投票推進“大而美”法案!此前曾有共和黨眾議員“反水”

重磅!219票贊成、213票反對,美眾議院通過程序性投票推進“大而美”法案!此前曾有共和黨眾議員“反水”

每日經(jīng)濟新聞
2025-07-03 16:26:26
K1373列車被砸窗后續(xù):官方緊急通報,砸窗者沒錯,因為有人中暑

K1373列車被砸窗后續(xù):官方緊急通報,砸窗者沒錯,因為有人中暑

鋭娛之樂
2025-07-03 12:16:08
2025-07-03 18:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
12981文章數(shù) 66080關注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

尹錫悅曾派無人機侵入誘使朝鮮進攻韓國 更多錄音披露

頭條要聞

尹錫悅曾派無人機侵入誘使朝鮮進攻韓國 更多錄音披露

體育要聞

湖人得到艾頓,而沒有了艾頓的開拓者呢?

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經(jīng)要聞

起底"醫(yī)美四大家族":人性、泡沫與時代

汽車要聞

強化安全標簽,沃爾沃轉型的守與破

態(tài)度原創(chuàng)

本地
親子
數(shù)碼
公開課
軍事航空

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

親子要聞

為什么長得和我一模一樣!老婆懷孕拍完四維彩超

數(shù)碼要聞

PCIe 5.0×16 帶寬,HighPoint 推出專業(yè)顯卡塢 RocketStor 8631CW

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:若敵人再次侵略 將做出毀滅性回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 明水县| 张家界市| 常州市| 翁源县| 道孚县| 七台河市| 辰溪县| 大港区| 宜章县| 北京市| 舟山市| 北流市| 吉木乃县| 无棣县| 当雄县| 通州区| 托克托县| 沂源县| 连州市| 赤水市| 白水县| 谢通门县| 景德镇市| 平原县| 邳州市| 柘荣县| 都昌县| 聊城市| 山东省| 海安县| SHOW| 临西县| 肃北| 东乡族自治县| 冷水江市| 周宁县| 定襄县| 搜索| 蒲江县| 夏邑县| 金华市|