99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型越反思越錯,原來是長鏈推理通過自我說服加重幻覺 | 北郵

0
分享至

北郵網安團隊 投稿
量子位 | 公眾號 QbitAI

當推理鏈從3步延伸到50+步,幻覺率暴增10倍;反思節點也束手無策。

來自北京郵電大學的研究團隊通過思維鏈審計實驗,首次定量揭示了這一“越想越錯”現象背后的元認知偏差:

長鏈推理中的反思不是糾錯機制,而是給幻覺頒發“理性證書”——

模型為保持與用戶提示語義一致,寧可篡改協議定義也不否定前提



風險缺口:長鏈CoT放大“誤差滾雪球”

推理大模型(RLLMs)能把復雜問題拆解成幾十步推理,再給出看似縝密的結論。然而,隨著推理鏈條變長,一個令人不安的趨勢浮出水面——錯誤不再是偶發失誤,而是沿鏈條滾雪球式放大

在醫療、金融、法律等高風險場景,一次細小偏差就可能釀成災難。

遺憾的是,當前安全評估幾乎都停留在結果級:判定答案對錯、衡量毒性與否,猶如“考試只看最后分數”。

這種做法忽視了一個關鍵問題:錯誤到底是如何在鏈內生根、擴散并固化的?如果無法洞察這一機制,就難以對癥下藥。

北京郵電大學的研究團隊為解決這一問題,采取了以下方法:

首先基于RFC協議文檔構建受控知識域,再讓模型生成30–60步的長鏈推理,并在關鍵節點插入reflection操作以實時記錄置信度變化。



具體而言,他們構建了一個受控知識領域,該領域捕獲了兩種類型的幻覺案例,克服了在受控環境中可靠地重現幻覺的困難(圖a)。

這個領域具有以下三個特點:

  • 封閉性:1515道問題嚴格限定在314份RFC技術文檔內,杜絕外部干擾;
  • 可驗證:每個知識單元帶明確真值標簽;
  • 高壓陷阱:在30%的問題中預埋三重錯誤事實(如篡改協議校驗規則),測試模型糾偏能力。

然后,他們提出了一種針對長鏈推理的建模系統,該系統追蹤知識是如何在多個推理步驟中被引入、反饋和完善的,解決了在復雜的推理軌跡中研究幻覺演化的挑戰(圖b)。

更進一步,他們還審計了幻覺實例,以歸因于現實案例中幻覺的傳播,應對了理解長鏈推理背后幻覺潛在機制這一挑戰。如圖c所示,k1和k3通過錯誤知識引入幻覺,將最初正確的思維鏈第一步(c1)經由c3反射扭曲為幻覺產生的c4,從而揭示了推理模型中存在的潛在風險。

反思越深錯誤越真:長鏈推理的自我說服

通過對結果進行分析,北京郵電大學的研究團隊揭示了RLLM產生幻覺的核心機制:

  • 當模型在長思維鏈中反復掙扎,它不是在逼近真相——而是在用千余詞的復雜推理,固化幾十個詞的錯誤答案。





1、外部錯誤誘發內部造假

實驗顯示,當模型遭遇預埋錯誤(如“UDP校驗綁定HMAC安全”)時:

  • 僅25.9%直接采納
  • 55.9%觸發內部知識編造流程(例如:虛構“RFC5.2要求校驗位包含密鑰”)

2、反思(Reflection)淪為自我說服工具

  • 自我說服:生成假設性主張(“或許校驗確保HMAC完整”)
  • 知識造假:追加虛構依據(“參見RFCXX.Y條款”);
  • 元認知漂移:token/claim雙級別置信度不降反升。
正向干預實驗:解析長鏈推理的“病變”現象



為了檢驗上游推理的變化如何影響下游,北京郵電大學的研究團隊設計了一個正向干預實驗,可以拆解為以下三步:

1.精準定位:在1015條長鏈樣本中標記首個錯誤知識節點(如虛構的協議條款)。

2.三階段干預

  • 錯誤發生前(Edit1):在首個錯誤節點前注入修正知識;
  • 錯誤發生時(Edit2):直接替換錯誤節點;
  • 錯誤發生后(Edit3):在錯誤下游插入修正。

3.六維評估指標

  • 是否接受修正?
  • 推理鏈是否發生改變?
  • 最終答案是否隨之改變?
  • 推理鏈與答案是否保持一致?
  • 修正在整個鏈條中的傳播程度如何?
  • 殘留幻覺的比率有多少?
長鏈幻覺檢測結果:現有方法難以應對
  • 評測7大主流檢測方法,最優者耗時2小時/樣本,準確率仍不足79%。
    在1500+tokens的長思維鏈樣本上驗證,結果顯示當前檢測方法在元認知級幻覺面前效果堪憂。



通過正向干預實驗對長鏈幻覺進行檢測,結果顯示:

Edit1對下游推理的影響顯著大于Edit2和Edit3,表明干預效果會沿推理鏈遞減。

Edit2編輯案例比Edit1表現出更高的接受度和更低的幻覺率,這意味著模型對Edit2的置信度較低,更容易受到干預影響。



使用7種主流的檢測方法對幻覺進行檢測,得到以下結果:

  • 速度與精度互斥:分鐘級方法準確率≤61.6%,78.9%高精度需較高算力;
  • 細粒度檢測無解:現有技術無法識別元認知漂移(如反思中錯誤強化)。

也就是說,現有干預措施無法從根本上消除幻覺現象,當前模型也缺乏足夠的應對能力

論文原文:https://arxiv.org/abs/2505.13143
代碼倉庫:https://github.com/Winnie-Lian/AHa_Meta_Cognitive

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最敷衍的通知書出現了,家長以為孩子造假,連一張紙都舍不得給?

最敷衍的通知書出現了,家長以為孩子造假,連一張紙都舍不得給?

妍妍教育日記
2025-07-03 19:37:27
青島一地管道漏水致路面塌陷一公交車受困,官方通報

青島一地管道漏水致路面塌陷一公交車受困,官方通報

界面新聞
2025-07-04 09:54:41
安徽蚌埠市人大常委會原秘書長朱琳接受審查調查

安徽蚌埠市人大常委會原秘書長朱琳接受審查調查

界面新聞
2025-07-04 09:36:28
對陣水星李月汝繼續首發登場,飛翼隊友佩奇迎來復出

對陣水星李月汝繼續首發登場,飛翼隊友佩奇迎來復出

雷速體育
2025-07-04 07:32:08
“限籍令”失效了?長安的荔枝5位主演竟4個國籍,33位配角純老外

“限籍令”失效了?長安的荔枝5位主演竟4個國籍,33位配角純老外

二月侃事
2025-06-13 12:14:38
痞幼與張繼科交往拍私密照!發文抱怨被騙,床照流出50歲男友分手

痞幼與張繼科交往拍私密照!發文抱怨被騙,床照流出50歲男友分手

八星人
2025-07-03 12:59:37
大瓜!SHE日本逛街,任家萱發福明顯,田馥甄孕肚搶鏡疑懷孕七八個月

大瓜!SHE日本逛街,任家萱發福明顯,田馥甄孕肚搶鏡疑懷孕七八個月

扒星人
2025-07-03 11:41:15
8名醫生集體遇難

8名醫生集體遇難

醫脈圈
2025-07-03 12:08:27
湖人簽場均7分強援,送他NBA天字第一號霸王條款!比肩詹皇PK比爾

湖人簽場均7分強援,送他NBA天字第一號霸王條款!比肩詹皇PK比爾

嘴炮體壇
2025-07-04 09:36:44
荒誕魔幻的氛圍下,大惡之人為何不被人提及?

荒誕魔幻的氛圍下,大惡之人為何不被人提及?

吳女士
2025-07-02 03:57:17
K1373列車被砸窗后續:官方緊急通報,砸窗者沒錯,因為有人中暑

K1373列車被砸窗后續:官方緊急通報,砸窗者沒錯,因為有人中暑

悠閑歷史
2025-07-03 15:10:02
1971年,周恩來人民大會堂嚎啕大哭,紀登奎亂了方寸:您該高興

1971年,周恩來人民大會堂嚎啕大哭,紀登奎亂了方寸:您該高興

南書房
2025-07-02 13:50:03
小鵬G7上市!果然比小米YU7便宜,各種超越特斯拉Model Y

小鵬G7上市!果然比小米YU7便宜,各種超越特斯拉Model Y

科客
2025-07-03 21:59:45
韓紅撞臉Labubu玩偶,本人認證:這太像了!

韓紅撞臉Labubu玩偶,本人認證:這太像了!

紅星新聞
2025-07-03 16:21:21
雷軍:YU7 訂單女性用戶占 30%;傳字節已量產千臺機器人;淘寶閃購宣布 500 億補貼 | 極客早知道

雷軍:YU7 訂單女性用戶占 30%;傳字節已量產千臺機器人;淘寶閃購宣布 500 億補貼 | 極客早知道

極客公園
2025-07-03 08:30:16
張柏芝兒子終于長大!近照曝光后全網震驚:誰是生父已經很明顯了

張柏芝兒子終于長大!近照曝光后全網震驚:誰是生父已經很明顯了

扒星人
2025-07-01 14:31:13
已下架,七大著名酸奶全軍覆沒,實為科技糖水,以后別再當冤大頭

已下架,七大著名酸奶全軍覆沒,實為科技糖水,以后別再當冤大頭

深度報
2025-07-02 20:55:00
3換1!國王報價庫明加!勇士態度明確,拒絕成人之美

3換1!國王報價庫明加!勇士態度明確,拒絕成人之美

鬼魅突破上籃
2025-07-03 14:44:08
何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

何君堯提議,將香港皇后大道改名,并移走女王雕像,換成林則徐像

通鑒史智
2025-07-03 14:31:53
張紀中家保姆闖禍了,燙傷9個月孩子故意隱瞞,夫妻倆非常生氣

張紀中家保姆闖禍了,燙傷9個月孩子故意隱瞞,夫妻倆非常生氣

TVB的四小花
2025-07-04 02:22:57
2025-07-04 10:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10790文章數 176178關注度
往期回顧 全部

科技要聞

英偉達再創新高,市值已逼近4萬億美元

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

頭條要聞

烏方"紅軍村"被俄軍集11萬兵力猛攻 俄方戰報泄露天機

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經要聞

闖禍電芯商部分產線停產!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態度原創

藝術
手機
教育
本地
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

蘋果 iPhone 16 的降價推廣為中國市場帶來了罕見的增長

教育要聞

考大學選城市:京滬寧漢蓉,杭深蘇穗鎬,這10個城市為什么香?

本地新聞

云游中國 | 穿越三國!赤壁古戰場藏了多少英雄傳奇?

軍事要聞

俄海軍副司令在庫爾斯克州遇襲身亡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰都县| 河曲县| 西林县| 通渭县| 旬邑县| 唐海县| 雷波县| 贵阳市| 东乡族自治县| 马鞍山市| 叶城县| 枣强县| 浮梁县| 宿州市| 泰和县| 无棣县| 丹巴县| 沛县| 依安县| 五大连池市| 南靖县| 余干县| 长汀县| 永清县| 曲麻莱县| 金昌市| 襄樊市| 泰顺县| 安多县| 汝阳县| 富锦市| 渭源县| 平顶山市| 安图县| 天等县| 宁海县| 苍溪县| 沂南县| 石柱| 钦州市| 临西县|