北郵網安團隊 投稿
量子位 | 公眾號 QbitAI
當推理鏈從3步延伸到50+步,幻覺率暴增10倍;反思節點也束手無策。
來自北京郵電大學的研究團隊通過思維鏈審計實驗,首次定量揭示了這一“越想越錯”現象背后的元認知偏差:
長鏈推理中的反思不是糾錯機制,而是給幻覺頒發“理性證書”——
模型為保持與用戶提示語義一致,寧可篡改協議定義也不否定前提。
風險缺口:長鏈CoT放大“誤差滾雪球”
推理大模型(RLLMs)能把復雜問題拆解成幾十步推理,再給出看似縝密的結論。然而,隨著推理鏈條變長,一個令人不安的趨勢浮出水面——錯誤不再是偶發失誤,而是沿鏈條滾雪球式放大。
在醫療、金融、法律等高風險場景,一次細小偏差就可能釀成災難。
遺憾的是,當前安全評估幾乎都停留在結果級:判定答案對錯、衡量毒性與否,猶如“考試只看最后分數”。
這種做法忽視了一個關鍵問題:錯誤到底是如何在鏈內生根、擴散并固化的?如果無法洞察這一機制,就難以對癥下藥。
北京郵電大學的研究團隊為解決這一問題,采取了以下方法:
首先基于RFC協議文檔構建受控知識域,再讓模型生成30–60步的長鏈推理,并在關鍵節點插入reflection操作以實時記錄置信度變化。
具體而言,他們構建了一個受控知識領域,該領域捕獲了兩種類型的幻覺案例,克服了在受控環境中可靠地重現幻覺的困難(圖a)。
這個領域具有以下三個特點:
- 封閉性:1515道問題嚴格限定在314份RFC技術文檔內,杜絕外部干擾;
- 可驗證:每個知識單元帶明確真值標簽;
- 高壓陷阱:在30%的問題中預埋三重錯誤事實(如篡改協議校驗規則),測試模型糾偏能力。
然后,他們提出了一種針對長鏈推理的建模系統,該系統追蹤知識是如何在多個推理步驟中被引入、反饋和完善的,解決了在復雜的推理軌跡中研究幻覺演化的挑戰(圖b)。
更進一步,他們還審計了幻覺實例,以歸因于現實案例中幻覺的傳播,應對了理解長鏈推理背后幻覺潛在機制這一挑戰。如圖c所示,k1和k3通過錯誤知識引入幻覺,將最初正確的思維鏈第一步(c1)經由c3反射扭曲為幻覺產生的c4,從而揭示了推理模型中存在的潛在風險。
反思越深錯誤越真:長鏈推理的自我說服
通過對結果進行分析,北京郵電大學的研究團隊揭示了RLLM產生幻覺的核心機制:
- 當模型在長思維鏈中反復掙扎,它不是在逼近真相——而是在用千余詞的復雜推理,固化幾十個詞的錯誤答案。
1、外部錯誤誘發內部造假
實驗顯示,當模型遭遇預埋錯誤(如“UDP校驗綁定HMAC安全”)時:
- 僅25.9%直接采納
- 55.9%觸發內部知識編造流程(例如:虛構“RFC5.2要求校驗位包含密鑰”)
2、反思(Reflection)淪為自我說服工具
- 自我說服:生成假設性主張(“或許校驗確保HMAC完整”)
- 知識造假:追加虛構依據(“參見RFCXX.Y條款”);
- 元認知漂移:token/claim雙級別置信度不降反升。
正向干預實驗:解析長鏈推理的“病變”現象
為了檢驗上游推理的變化如何影響下游,北京郵電大學的研究團隊設計了一個正向干預實驗,可以拆解為以下三步:
1.精準定位:在1015條長鏈樣本中標記首個錯誤知識節點(如虛構的協議條款)。
2.三階段干預:
- 錯誤發生前(Edit1):在首個錯誤節點前注入修正知識;
- 錯誤發生時(Edit2):直接替換錯誤節點;
- 錯誤發生后(Edit3):在錯誤下游插入修正。
3.六維評估指標:
- 是否接受修正?
- 推理鏈是否發生改變?
- 最終答案是否隨之改變?
- 推理鏈與答案是否保持一致?
- 修正在整個鏈條中的傳播程度如何?
- 殘留幻覺的比率有多少?
長鏈幻覺檢測結果:現有方法難以應對
- 評測7大主流檢測方法,最優者耗時2小時/樣本,準確率仍不足79%。
在1500+tokens的長思維鏈樣本上驗證,結果顯示當前檢測方法在元認知級幻覺面前效果堪憂。
通過正向干預實驗對長鏈幻覺進行檢測,結果顯示:
Edit1對下游推理的影響顯著大于Edit2和Edit3,表明干預效果會沿推理鏈遞減。
Edit2編輯案例比Edit1表現出更高的接受度和更低的幻覺率,這意味著模型對Edit2的置信度較低,更容易受到干預影響。
使用7種主流的檢測方法對幻覺進行檢測,得到以下結果:
- 速度與精度互斥:分鐘級方法準確率≤61.6%,78.9%高精度需較高算力;
- 細粒度檢測無解:現有技術無法識別元認知漂移(如反思中錯誤強化)。
也就是說,現有干預措施無法從根本上消除幻覺現象,當前模型也缺乏足夠的應對能力。
論文原文:https://arxiv.org/abs/2505.13143
代碼倉庫:https://github.com/Winnie-Lian/AHa_Meta_Cognitive
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.