ACL 2025｜自我懷疑還是自我糾正？清華團隊揭示LLMs反思技術(shù)暗面

2025-07-14 18:36:55　來源: 機器之心Pro

河北舉報

分享至

本文第一作者是張清杰，清華大學(xué)博士生，研究方向是大語言模型異常行為和可解釋性；本文通訊作者是清華大學(xué)邱寒副教授；其他合作者來自南洋理工大學(xué)和螞蟻集團。

反思技術(shù)因其簡單性和有效性受到了廣泛的研究和應(yīng)用，具體表現(xiàn)為在大語言模型遇到障礙或困難時，提示其“再想一下”，可以顯著提升性能 [1]。然而，2024 年谷歌 DeepMind 的研究人員在一項研究中指出，大模型其實分不清對與錯，如果不是僅僅提示模型反思那些它回答錯誤的問題，這樣的提示策略反而可能讓模型更傾向于把回答正確的答案改錯 [2]。

基于此，來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員進一步設(shè)想，如果模型沒有外部的認知控制（避免使用說服語和誤導(dǎo)性質(zhì)的詞語），僅通過提示其「思考后再回答」，其表現(xiàn)會如何呢？結(jié)果發(fā)現(xiàn)，模型的表現(xiàn)仍然不盡如人意。如下動畫所示，OpenAI 于 2025 年 4 月 16 日最新推出的能在AIME 數(shù)學(xué)競賽上取得 99.5% pass@1 成績的推理模型 ChatGPT o4-mini-high 甚至在簡單的事實問題上「地球是不是平的？」也會出錯。

圖 1: 反思技術(shù)會導(dǎo)致 OpenAI 先進的推理模型 o4-mini-high 在簡單事實問題「Is Earth flat?」上出錯。盡管推理過程認為地球不是平的，模型最終答案仍然出錯。（實驗時間：2025 年 7 月 4 日）

因此，本研究設(shè)計三種解釋方法，深入剖析了沒有外部認知控制的反思技術(shù)（Intrinsic self-correction，下文中簡稱為反思技術(shù)）在開源和閉源的 LLMs、四種任務(wù)上失敗的原因，并且提出輕量級的緩解方案（問題重復(fù)，少樣本微調(diào)），為反思技術(shù)的可解釋性研究奠定基礎(chǔ)。

論文標(biāo)題：
Understanding the Dark Side of LLMs’ Intrinsic Self-Correction
項目網(wǎng)站：https://x-isc.info/
論文發(fā)表：
ACL 2025 main（主會）已接受，審稿人提名「Best paper: Maybe」

反思技術(shù)的失敗情況

這項研究首先系統(tǒng)性評測了反思技術(shù)在多種 LLMs，多種任務(wù)中的失敗情況。

LLMs：ChatGPT (o1-preview, o1-mini, 4o, 3.5-turbo), Llama (3.1-8B, 3-8B, 2-7B), DeepSeek (R1, V3)
任務(wù)：Yes/No questions, Decision making, Reasoning, Programming

如下表所示，反思技術(shù)在包括簡單事實問答任務(wù)和復(fù)雜推理任務(wù)的多種任務(wù)中都會失敗，甚至比成功的案例多。對于更先進的模型，反思失敗有減少但沒有解決，甚至在部分任務(wù)中更加嚴重。例如，o1-mini 在 Decision making 任務(wù)上的反思失敗率（將初始正確答案改錯的概率）高于 4o 和 3.5-turbo；Llama-3.1-8B 在 Yes/No questions 任務(wù)上的反思失敗率高于 Llama-2-7B。

表 1: 反思技術(shù)在多個 LLMs，多種任務(wù)中的失敗情況。（實驗時間：2025 年 2 月 15 日）注：更多例子參見論文網(wǎng)站：https://x-isc.info

研究團隊近期對一些最新的 ChatGPT 模型（4.5，4.1，o4-mini，o3）也進行了評測。如下表所示，反思失敗情況同樣嚴重。

表 2: 反思技術(shù)在最新的 ChatGPT 模型上也容易失敗。（實驗時間：2025 年 7 月 4 日）

原因一：內(nèi)部答案波動 —— 自我懷疑？

為了解釋反思失敗的原因，本研究從簡單事實問題入手，觀測了 LLMs 在回復(fù)時的答案波動情況。如下圖所示，研究團隊觀察到在多輪問答任務(wù)上，「你確定嗎？請思考后再回答」的提示語會讓 LLMs 反復(fù)更改答案。例如在 10 輪對話中，GPT-3.5-turbo 甚至對于 81.3% 的問題更改答案超過 6 次。

圖 2: LLMs 在多輪對話中會頻繁更改答案。（實驗時間：2025 年 2 月 15 日）

這一現(xiàn)象意味著 LLMs 也許對于自己的答案是不自信的。因此，研究團隊利用探針方法 [3] 逐層分析了 Llama-3-8B 對于正確、錯誤答案的置信度。如下圖所示，與初始回復(fù)相比，反思技術(shù)會造成 LLMs 內(nèi)部答案的波動，表現(xiàn)出「自我懷疑」的傾向，最終可能導(dǎo)致回答出錯；并且，研究發(fā)現(xiàn)提示模型「你確定嗎？」的內(nèi)部狀態(tài)表現(xiàn)與告訴模型「你的回答錯了」相似。因此，內(nèi)部答案波動是反思技術(shù)失敗的原因。

圖 3: 反思技術(shù)會導(dǎo)致 LLMs 的內(nèi)部答案波動（左圖）。而右圖顯示：對 Llama3-8B 模型而言，提示「你確定嗎？」對模型的影響與提示「你的回答錯了」非常相似。

原因二：提示語偏差—— 過度關(guān)注反思指令

對于內(nèi)部狀態(tài)不可知的黑盒模型，研究團隊進一步從提示語層面分析了詞元對 LLMs 輸出答案的貢獻度。如下圖所示，LLMs 在反思失敗時會過度關(guān)注提示語「你確定嗎？想一想再回答。」，而忽略問題本身；當(dāng)反思失敗時，LLMs 在 76.1% 的情況下會更關(guān)注反思指令，而當(dāng)堅持正確答案時，LLMs 對反思指令和問題本身的關(guān)注度非常相近，分別為 50.8% 和 49.2%。這一現(xiàn)象意味著 LLMs 對提示語的理解往往與人類的期望存在偏差，從而導(dǎo)致任務(wù)失敗。

圖 4: 反思技術(shù)會導(dǎo)致 LLMs 過度關(guān)注反思指令而忽略問題本身。綠色 / 黃色表示 LLMs 關(guān)注多 / 少的詞元。

原因三：認知偏差 —— 像人一樣犯錯

對于復(fù)雜任務(wù)，研究團隊進一步分析了 LLMs 的推理過程，發(fā)現(xiàn) LLMs 會像人一樣犯錯。如下圖所示，反思技術(shù)會讓 LLMs 在 Decision-making 任務(wù)中生成過量的「think」指令，導(dǎo)致過度思考策略而停滯不前。基于這一發(fā)現(xiàn)，研究團隊進一步應(yīng)用認知科學(xué)理論將 LLMs 的反思失敗總結(jié)成三種認知偏差模式：

過度思考：過度制定策略而不采取行動
認知過載：在長文本的反思中忽略關(guān)鍵信息
完美主義偏差：為了追求高效性而忽略環(huán)境限制

圖 5: 反思技術(shù)會導(dǎo)致 LLMs 在推理過程中出現(xiàn)認知偏差。

緩解策略

基于反思失敗的原因，研究團隊進一步設(shè)計了兩種簡單有效的緩解策略：

問題重復(fù)：基于原因二中 LLMs 更關(guān)注反思指令而忽略初始問題的發(fā)現(xiàn)，研究團隊在反思提示語的最后附上初始問題以引導(dǎo) LLMs 維持對初始問題的關(guān)注。
少樣本微調(diào)：基于原因一中反思引起 LLMs 內(nèi)部狀態(tài)的異常波動，以及原因三中 LLMs 在推理過程中的認知偏差，研究團隊認為反思失敗是一種異常行為 [4]，并非知識匱乏。因此，不引入知識的少樣本（4-10 個樣本）微調(diào)可糾正反思失敗的異常行為。

實驗結(jié)果如下表所示，兩種策略皆可有效緩解反思失敗，少樣本微調(diào)的效果更好；并且，由于反思失敗是一種異常行為而非知識匱乏，在簡單任務(wù)上的少樣本微調(diào)效果可以泛化到復(fù)雜任務(wù)上。

表 3：問題重復(fù)和少樣本微調(diào)可有效緩解反思失敗。（實驗時間：2025 年 2 月 15 日）

總結(jié)

該研究系統(tǒng)性評測了 LLMs 反思技術(shù)的失敗，發(fā)現(xiàn)這種現(xiàn)象在多個 LLMs、多種任務(wù)上廣泛存在，甚至先進的推理模型（ChatGPT o4-mini-high）在基本事實問題（「Is Earth flat?」）上也會出錯。進而，研究團隊揭示了反思失敗的三種原因：內(nèi)部答案波動，提示語偏差，認知偏差。基于這些原因，研究團隊設(shè)計了兩種簡單有效的緩解反思失敗的策略：問題重復(fù)和少樣本微調(diào)。反思技術(shù)究竟引向自我糾正還是自我懷疑，這仍然是一個懸而未決的問題。

參考文獻

[1]Reflexion: Language agents with verbal reinforcement learning, NIPS 2023.

[2] Large language models cannot self-correct reasoning yet, ICLR 2024.

[3]Eliciting latentpredictions from transformers with the tuned lens, arXiv 2023.

[4]https://openai.com/index/chain-of-thought-monitoring/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.