網易首頁 > 網易號 > 正文申請入駐

大模型越反思越錯，原來是長鏈推理通過自我說服加重幻覺 | 北郵

2025-07-03 14:45:16　來源: 量子位

北京舉報

分享至

北郵網安團隊投稿
量子位 | 公眾號 QbitAI

當推理鏈從3步延伸到50+步，幻覺率暴增10倍；反思節點也束手無策。

來自北京郵電大學的研究團隊通過思維鏈審計實驗，首次定量揭示了這一“越想越錯”現象背后的元認知偏差：

長鏈推理中的反思不是糾錯機制，而是給幻覺頒發“理性證書”——

模型為保持與用戶提示語義一致，寧可篡改協議定義也不否定前提。

風險缺口：長鏈CoT放大“誤差滾雪球”

推理大模型（RLLMs）能把復雜問題拆解成幾十步推理，再給出看似縝密的結論。然而，隨著推理鏈條變長，一個令人不安的趨勢浮出水面——錯誤不再是偶發失誤，而是沿鏈條滾雪球式放大。

在醫療、金融、法律等高風險場景，一次細小偏差就可能釀成災難。

遺憾的是，當前安全評估幾乎都停留在結果級：判定答案對錯、衡量毒性與否，猶如“考試只看最后分數”。

這種做法忽視了一個關鍵問題：錯誤到底是如何在鏈內生根、擴散并固化的？如果無法洞察這一機制，就難以對癥下藥。

北京郵電大學的研究團隊為解決這一問題，采取了以下方法：

首先基于RFC協議文檔構建受控知識域，再讓模型生成30–60步的長鏈推理，并在關鍵節點插入reflection操作以實時記錄置信度變化。

具體而言，他們構建了一個受控知識領域，該領域捕獲了兩種類型的幻覺案例，克服了在受控環境中可靠地重現幻覺的困難（圖a）。

這個領域具有以下三個特點：

封閉性：1515道問題嚴格限定在314份RFC技術文檔內，杜絕外部干擾；
可驗證：每個知識單元帶明確真值標簽；
高壓陷阱：在30%的問題中預埋三重錯誤事實（如篡改協議校驗規則），測試模型糾偏能力。

然后，他們提出了一種針對長鏈推理的建模系統，該系統追蹤知識是如何在多個推理步驟中被引入、反饋和完善的，解決了在復雜的推理軌跡中研究幻覺演化的挑戰（圖b）。

更進一步，他們還審計了幻覺實例，以歸因于現實案例中幻覺的傳播，應對了理解長鏈推理背后幻覺潛在機制這一挑戰。如圖c所示，k1和k3通過錯誤知識引入幻覺，將最初正確的思維鏈第一步（c1）經由c3反射扭曲為幻覺產生的c4，從而揭示了推理模型中存在的潛在風險。

反思越深錯誤越真：長鏈推理的自我說服

通過對結果進行分析，北京郵電大學的研究團隊揭示了RLLM產生幻覺的核心機制：

當模型在長思維鏈中反復掙扎，它不是在逼近真相——而是在用千余詞的復雜推理，固化幾十個詞的錯誤答案。

1、外部錯誤誘發內部造假

實驗顯示，當模型遭遇預埋錯誤（如“UDP校驗綁定HMAC安全”）時：

僅25.9%直接采納
55.9%觸發內部知識編造流程（例如：虛構“RFC5.2要求校驗位包含密鑰”）

2、反思（Reflection）淪為自我說服工具

自我說服：生成假設性主張(“或許校驗確保HMAC完整”)
知識造假：追加虛構依據(“參見RFCXX.Y條款”)；
元認知漂移：token/claim雙級別置信度不降反升。

正向干預實驗：解析長鏈推理的“病變”現象

為了檢驗上游推理的變化如何影響下游，北京郵電大學的研究團隊設計了一個正向干預實驗，可以拆解為以下三步：

1.精準定位：在1015條長鏈樣本中標記首個錯誤知識節點（如虛構的協議條款）。

2.三階段干預：

錯誤發生前（Edit1）：在首個錯誤節點前注入修正知識；
錯誤發生時（Edit2）：直接替換錯誤節點；
錯誤發生后（Edit3）：在錯誤下游插入修正。

3.六維評估指標：

是否接受修正？
推理鏈是否發生改變？
最終答案是否隨之改變？
推理鏈與答案是否保持一致？
修正在整個鏈條中的傳播程度如何？
殘留幻覺的比率有多少？

長鏈幻覺檢測結果：現有方法難以應對

評測7大主流檢測方法，最優者耗時2小時/樣本，準確率仍不足79%。
在1500+tokens的長思維鏈樣本上驗證，結果顯示當前檢測方法在元認知級幻覺面前效果堪憂。

通過正向干預實驗對長鏈幻覺進行檢測，結果顯示：

Edit1對下游推理的影響顯著大于Edit2和Edit3，表明干預效果會沿推理鏈遞減。

Edit2編輯案例比Edit1表現出更高的接受度和更低的幻覺率，這意味著模型對Edit2的置信度較低，更容易受到干預影響。

使用7種主流的檢測方法對幻覺進行檢測，得到以下結果：

速度與精度互斥：分鐘級方法準確率≤61.6%，78.9%高精度需較高算力；
細粒度檢測無解：現有技術無法識別元認知漂移（如反思中錯誤強化）。

也就是說，現有干預措施無法從根本上消除幻覺現象，當前模型也缺乏足夠的應對能力。

論文原文：https://arxiv.org/abs/2505.13143
代碼倉庫：https://github.com/Winnie-Lian/AHa_Meta_Cognitive

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

清華教授楊睿，出任中科院 1 區 TOP 期刊新主編

生物學霸 2025-07-03 17:17:15
0 跟貼 0
在開始統計分析前，如何對數據進行清洗或轉換？

醫咖會 2025-07-03 19:45:19
0 跟貼 0

長鏈推理表象下，大模型精細表征張冠李戴的本質

機器之心Pro 2025-03-13 17:09:44
0 跟貼 0

大模型的「aha moment」不是裝腔作勢，內部信息量暴增數倍！

機器之心Pro 2025-07-03 17:14:11
0 跟貼 0
北京大學提出LSTKC++長短期知識解耦與鞏固驅動的終身行人重識別

機器之心Pro 2025-07-03 12:18:09
0 跟貼 0

河北637，張雪峰老師：你愿意每年花十萬換個北郵的文憑嗎？

楓樹林 2025-07-03 07:30:35
0 跟貼 0

男人只要一發燒，就會從傻子變成聰明的偵探

三毛看劇 2025-07-02 10:57:21
1 跟貼 1
惡意別車，真實案例教你如何反擊

小紅帽的丫丫 2025-07-02 21:35:30
526 跟貼 526

老班和學生做實驗，老班沒面子，學生再裝一下！

瘋狂生活家 2025-07-03 20:27:38
1 跟貼 1
我國洲際導彈飛行軌跡，經過菲律賓直達美國，戰時沒有攔截的可能

萌一萌笑笑 2025-07-01 14:42:01
3 跟貼 3
黃山學院信息工程學院：“科普進校園”惠及千名學子

安青傳媒 2025-07-03 10:32:10
0 跟貼 0
英國防大臣：英國準備好作為北約成員國與俄羅斯開戰

紅星新聞 2025-07-03 17:56:11
37078 跟貼 37078
福爾摩斯：你們拉低了整條街的智商

豫新影視 2025-06-30 23:24:05
1 跟貼 1
老婆離奇失蹤，丈夫眉開眼笑？懸疑驚悚佳作《消失的愛人》P1

誰語Whospeak 2025-06-29 18:09:59
5 跟貼 5
美國警察實拍，六車道沒一輛敢開過去，真正的規則威懾力

爆笑趣世界 2025-07-04 08:38:10
1 跟貼 1
劉宇寧一碗水端平，給金靖熱巴抓娃娃，結果能力有限丨開始推理吧

愛八卦的曉請 2025-07-01 11:50:49
1 跟貼 1
伊朗用假戰機成功騙過了全球偵察，以色列擊毀兩架F14居然是模型

十三級臺階 2025-07-03 06:03:29
228 跟貼 228
一口氣看完驚悚懸疑電影

洋蔥燃剪 2025-07-02 11:16:04
3 跟貼 3
鹿晗與關曉彤：八年戀情背后的職業軌跡對比

樂享人生風雨 2025-07-02 09:44:55
0 跟貼 0
在美官員挑唆后莫迪就"金磚"作最新表態

澎湃新聞 2025-07-03 21:07:37
2495 跟貼 2495
肖戰《藏海傳》表演入北電教學案例,業內盛贊實力派標桿

娛樂在一起668 2025-06-30 05:33:04
0 跟貼 0
羅翔教授喊你報考中國政法大學，自謙是知識殿堂小門童

愛看新聞 2025-06-29 18:25:48
1 跟貼 1
激光反無人機21發21中！中國“天穹”改寫中東戰爭規則

斜煙風起雨未 2025-07-03 01:51:17
12 跟貼 12
她的眼睛就是尺，中國神技“碼蹤術”傳人，當代的福爾摩斯

人間放映廳 2025-06-30 18:43:48
0 跟貼 0
《高度潛力》第二季，辣媽偵探再度回歸

奇妙故事會 2025-07-03 18:28:54
3 跟貼 3
7大銀行開一類儲蓄卡實測：有人被卡1小時

南方都市報 2025-07-03 11:07:23
17288 跟貼 17288
推理AI致命弱點，大模型變「杠精」！被帶偏后死不悔改

新智元 2025-07-03 13:05:10
0 跟貼 0
推理天才巧布替罪死局

瘋貓影視 2025-07-03 16:30:32
1 跟貼 1
和尚扔米最新后續！系外來僧人，已被遣返回老家，知情人爆更多

南南說娛 2025-07-03 14:29:44
4507 跟貼 4507
鄭宇伯逆天清臺，裁判激動到忘記規則，球迷直呼厲害

啊噠體育 2025-07-03 00:24:29
5 跟貼 5
美方議員威脅征500%關稅印度外長：船到橋頭自然直

澎湃新聞 2025-07-04 07:20:36
442 跟貼 442
費東斌被免去國家鐵路局局長職務

界面新聞 2025-07-03 16:47:53
347 跟貼 347
香港市民：“ 起猛了，航母開樓下了”

新華社 2025-07-03 13:12:31
832 跟貼 832
祝緒丹的掛脖白裙殺瘋了！網友：她的天鵝頸是AI建模的吧？

傳遞滿滿正能量 2025-07-02 11:18:18
1 跟貼 1
為什么要封偽史論者，看看這個人說蒸汽機，就能知道原因

讀鬼筆記 2025-07-03 21:35:34
728 跟貼 728
人死后四樣能留，三樣要燒掉，看完瞬間漲知識！

發怒的福貓 2025-07-03 09:03:52
1 跟貼 1
Meta-Think ≠ 記套路，多智能體強化學習解鎖大模型元思考泛化

機器之心Pro 2025-07-03 17:20:46
0 跟貼 0
《護寶》這個女人太狡猾了，懸疑電影

莫涵Movie 2025-07-02 18:35:23
1 跟貼 1
首次！世界模型、動作模型融合，全自回歸模型WorldVLA來了

機器之心Pro 2025-07-03 17:41:49
0 跟貼 0
拒絕為獵奇而獵奇，國產懸疑劇怎么拍？

環球網資訊 2025-07-03 21:59:19
3 跟貼 3

手機 / 數碼

房產 / 家居

大模型越反思越錯，原來是長鏈推理通過自我說服加重幻覺 | 北郵

風險缺口：長鏈CoT放大“誤差滾雪球”

反思越深錯誤越真：長鏈推理的自我說服

正向干預實驗：解析長鏈推理的“病變”現象

長鏈幻覺檢測結果：現有方法難以應對

英偉達再創新高，市值已逼近4萬億美元

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

你永不獨行！球迷前往安菲爾德悼念若塔

森林北又有緋聞傳出？汪峰毫不在意？

闖禍電芯商部分產線停產!羅馬仕通知停工

6.5秒破百 長安第三代UNI-V有更強2.0T

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

蘋果 iPhone 16 的降價推廣為中國市場帶來了罕見的增長

考大學選城市：京滬寧漢蓉，杭深蘇穗鎬，這10個城市為什么香？

云游中國 | 穿越三國！赤壁古戰場藏了多少英雄傳奇？

俄海軍副司令在庫爾斯克州遇襲身亡

烏方"紅軍村"被俄軍集11萬兵力猛攻俄方戰報泄露天機

烏方"紅軍村"被俄軍集11萬兵力猛攻俄方戰報泄露天機

6.5秒破百長安第三代UNI-V有更強2.0T