本文第一作者是張清杰,清華大學(xué)博士生,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學(xué)邱寒副教授;其他合作者來自南洋理工大學(xué)和螞蟻集團。
反思技術(shù)因其簡單性和有效性受到了廣泛的研究和應(yīng)用,具體表現(xiàn)為在大語言模型遇到障礙或困難時,提示其“再想一下”,可以顯著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人員在一項研究中指出,大模型其實分不清對與錯,如果不是僅僅提示模型反思那些它回答錯誤的問題,這樣的提示策略反而可能讓模型更傾向于把回答正確的答案改錯 [2]。
基于此,來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員進一步設(shè)想,如果模型沒有外部的認知控制(避免使用說服語和誤導(dǎo)性質(zhì)的詞語),僅通過提示其 「思考后再回答」,其表現(xiàn)會如何呢?結(jié)果發(fā)現(xiàn),模型的表現(xiàn)仍然不盡如人意。如下動畫所示,OpenAI 于 2025 年 4 月 16 日最新推出的能在AIME 數(shù)學(xué)競賽上取得 99.5% pass@1 成績的推理模型 ChatGPT o4-mini-high 甚至在簡單的事實問題上 「地球是不是平的?」 也會出錯。
圖 1: 反思技術(shù)會導(dǎo)致 OpenAI 先進的推理模型 o4-mini-high 在簡單事實問題 「Is Earth flat?」 上出錯。盡管推理過程認為地球不是平的,模型最終答案仍然出錯。(實驗時間:2025 年 7 月 4 日)
因此,本研究設(shè)計三種解釋方法,深入剖析了沒有外部認知控制的反思技術(shù)(Intrinsic self-correction,下文中簡稱為反思技術(shù))在開源和閉源的 LLMs、四種任務(wù)上失敗的原因,并且提出輕量級的緩解方案(問題重復(fù),少樣本微調(diào)),為反思技術(shù)的可解釋性研究奠定基礎(chǔ)。
- 論文標(biāo)題:
- Understanding the Dark Side of LLMs’ Intrinsic Self-Correction
- 項目網(wǎng)站:https://x-isc.info/
- 論文發(fā)表:
- ACL 2025 main(主會)已接受,審稿人提名 「Best paper: Maybe」
反思技術(shù)的失敗情況
這項研究首先系統(tǒng)性評測了反思技術(shù)在多種 LLMs,多種任務(wù)中的失敗情況。
- LLMs:ChatGPT (o1-preview, o1-mini, 4o, 3.5-turbo), Llama (3.1-8B, 3-8B, 2-7B), DeepSeek (R1, V3)
- 任務(wù):Yes/No questions, Decision making, Reasoning, Programming
如下表所示,反思技術(shù)在包括簡單事實問答任務(wù)和復(fù)雜推理任務(wù)的多種任務(wù)中都會失敗,甚至比成功的案例多。對于更先進的模型,反思失敗有減少但沒有解決,甚至在部分任務(wù)中更加嚴重。例如,o1-mini 在 Decision making 任務(wù)上的反思失敗率(將初始正確答案改錯的概率)高于 4o 和 3.5-turbo;Llama-3.1-8B 在 Yes/No questions 任務(wù)上的反思失敗率高于 Llama-2-7B。
表 1: 反思技術(shù)在多個 LLMs,多種任務(wù)中的失敗情況。(實驗時間:2025 年 2 月 15 日)注:更多例子參見論文網(wǎng)站:https://x-isc.info
研究團隊近期對一些最新的 ChatGPT 模型(4.5,4.1,o4-mini,o3)也進行了評測。如下表所示,反思失敗情況同樣嚴重。
表 2: 反思技術(shù)在最新的 ChatGPT 模型上也容易失敗。(實驗時間:2025 年 7 月 4 日)
原因一:內(nèi)部答案波動 —— 自我懷疑?
為了解釋反思失敗的原因,本研究從簡單事實問題入手,觀測了 LLMs 在回復(fù)時的答案波動情況。如下圖所示,研究團隊觀察到在多輪問答任務(wù)上,「你確定嗎?請思考后再回答」 的提示語會讓 LLMs 反復(fù)更改答案。例如在 10 輪對話中,GPT-3.5-turbo 甚至對于 81.3% 的問題更改答案超過 6 次。
圖 2: LLMs 在多輪對話中會頻繁更改答案。(實驗時間:2025 年 2 月 15 日)
這一現(xiàn)象意味著 LLMs 也許對于自己的答案是不自信的。因此,研究團隊利用探針方法 [3] 逐層分析了 Llama-3-8B 對于正確、錯誤答案的置信度。如下圖所示,與初始回復(fù)相比,反思技術(shù)會造成 LLMs 內(nèi)部答案的波動,表現(xiàn)出 「自我懷疑」 的傾向,最終可能導(dǎo)致回答出錯;并且,研究發(fā)現(xiàn)提示模型 「你確定嗎?」 的內(nèi)部狀態(tài)表現(xiàn)與告訴模型 「你的回答錯了」 相似。因此,內(nèi)部答案波動是反思技術(shù)失敗的原因。
圖 3: 反思技術(shù)會導(dǎo)致 LLMs 的內(nèi)部答案波動(左圖)。而右圖顯示:對 Llama3-8B 模型而言,提示 「你確定嗎?」 對模型的影響與提示 「你的回答錯了」 非常相似。
原因二:提示語偏差—— 過度關(guān)注反思指令
對于內(nèi)部狀態(tài)不可知的黑盒模型,研究團隊進一步從提示語層面分析了詞元對 LLMs 輸出答案的貢獻度。如下圖所示,LLMs 在反思失敗時會過度關(guān)注提示語 「你確定嗎?想一想再回答。」,而忽略問題本身;當(dāng)反思失敗時,LLMs 在 76.1% 的情況下會更關(guān)注反思指令,而當(dāng)堅持正確答案時,LLMs 對反思指令和問題本身的關(guān)注度非常相近,分別為 50.8% 和 49.2%。這一現(xiàn)象意味著 LLMs 對提示語的理解往往與人類的期望存在偏差,從而導(dǎo)致任務(wù)失敗。
圖 4: 反思技術(shù)會導(dǎo)致 LLMs 過度關(guān)注反思指令而忽略問題本身。綠色 / 黃色表示 LLMs 關(guān)注多 / 少的詞元。
原因三:認知偏差 —— 像人一樣犯錯
對于復(fù)雜任務(wù),研究團隊進一步分析了 LLMs 的推理過程,發(fā)現(xiàn) LLMs 會像人一樣犯錯。如下圖所示,反思技術(shù)會讓 LLMs 在 Decision-making 任務(wù)中生成過量的 「think」 指令,導(dǎo)致過度思考策略而停滯不前。基于這一發(fā)現(xiàn),研究團隊進一步應(yīng)用認知科學(xué)理論將 LLMs 的反思失敗總結(jié)成三種認知偏差模式:
- 過度思考:過度制定策略而不采取行動
- 認知過載:在長文本的反思中忽略關(guān)鍵信息
- 完美主義偏差:為了追求高效性而忽略環(huán)境限制
圖 5: 反思技術(shù)會導(dǎo)致 LLMs 在推理過程中出現(xiàn)認知偏差。
緩解策略
基于反思失敗的原因,研究團隊進一步設(shè)計了兩種簡單有效的緩解策略:
- 問題重復(fù):基于原因二中 LLMs 更關(guān)注反思指令而忽略初始問題的發(fā)現(xiàn),研究團隊在反思提示語的最后附上初始問題以引導(dǎo) LLMs 維持對初始問題的關(guān)注。
- 少樣本微調(diào):基于原因一中反思引起 LLMs 內(nèi)部狀態(tài)的異常波動,以及原因三中 LLMs 在推理過程中的認知偏差,研究團隊認為反思失敗是一種異常行為 [4],并非知識匱乏。因此,不引入知識的少樣本(4-10 個樣本)微調(diào)可糾正反思失敗的異常行為。
實驗結(jié)果如下表所示,兩種策略皆可有效緩解反思失敗,少樣本微調(diào)的效果更好;并且,由于反思失敗是一種異常行為而非知識匱乏,在簡單任務(wù)上的少樣本微調(diào)效果可以泛化到復(fù)雜任務(wù)上。
表 3:問題重復(fù)和少樣本微調(diào)可有效緩解反思失敗。(實驗時間:2025 年 2 月 15 日)
總結(jié)
該研究系統(tǒng)性評測了 LLMs 反思技術(shù)的失敗,發(fā)現(xiàn)這種現(xiàn)象在多個 LLMs、多種任務(wù)上廣泛存在,甚至先進的推理模型(ChatGPT o4-mini-high)在基本事實問題(「Is Earth flat?」)上也會出錯。進而,研究團隊揭示了反思失敗的三種原因:內(nèi)部答案波動,提示語偏差,認知偏差。基于這些原因,研究團隊設(shè)計了兩種簡單有效的緩解反思失敗的策略:問題重復(fù)和少樣本微調(diào)。反思技術(shù)究竟引向自我糾正還是自我懷疑,這仍然是一個懸而未決的問題。
參考文獻
[1]Reflexion: Language agents with verbal reinforcement learning, NIPS 2023.
[2] Large language models cannot self-correct reasoning yet, ICLR 2024.
[3]Eliciting latentpredictions from transformers with the tuned lens, arXiv 2023.
[4]https://openai.com/index/chain-of-thought-monitoring/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.