99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ACL 2025|自我懷疑還是自我糾正?清華團隊揭示LLMs反思技術(shù)暗面

0
分享至



本文第一作者是張清杰,清華大學(xué)博士生,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學(xué)邱寒副教授;其他合作者來自南洋理工大學(xué)和螞蟻集團。

反思技術(shù)因其簡單性和有效性受到了廣泛的研究和應(yīng)用,具體表現(xiàn)為在大語言模型遇到障礙或困難時,提示其“再想一下”,可以顯著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人員在一項研究中指出,大模型其實分不清對與錯,如果不是僅僅提示模型反思那些它回答錯誤的問題,這樣的提示策略反而可能讓模型更傾向于把回答正確的答案改錯 [2]。

基于此,來自清華大學(xué)、南洋理工大學(xué)和螞蟻集團的研究人員進一步設(shè)想,如果模型沒有外部的認知控制(避免使用說服語和誤導(dǎo)性質(zhì)的詞語),僅通過提示其 「思考后再回答」,其表現(xiàn)會如何呢?結(jié)果發(fā)現(xiàn),模型的表現(xiàn)仍然不盡如人意。如下動畫所示,OpenAI 于 2025 年 4 月 16 日最新推出的能在AIME 數(shù)學(xué)競賽上取得 99.5% pass@1 成績的推理模型 ChatGPT o4-mini-high 甚至在簡單的事實問題上 「地球是不是平的?」 也會出錯。



圖 1: 反思技術(shù)會導(dǎo)致 OpenAI 先進的推理模型 o4-mini-high 在簡單事實問題 「Is Earth flat?」 上出錯。盡管推理過程認為地球不是平的,模型最終答案仍然出錯。(實驗時間:2025 年 7 月 4 日)

因此,本研究設(shè)計三種解釋方法,深入剖析了沒有外部認知控制的反思技術(shù)(Intrinsic self-correction,下文中簡稱為反思技術(shù))在開源和閉源的 LLMs、四種任務(wù)上失敗的原因,并且提出輕量級的緩解方案(問題重復(fù),少樣本微調(diào)),為反思技術(shù)的可解釋性研究奠定基礎(chǔ)。



  • 論文標(biāo)題:
  • Understanding the Dark Side of LLMs’ Intrinsic Self-Correction
  • 項目網(wǎng)站:https://x-isc.info/
  • 論文發(fā)表:
  • ACL 2025 main(主會)已接受,審稿人提名 「Best paper: Maybe」

反思技術(shù)的失敗情況

這項研究首先系統(tǒng)性評測了反思技術(shù)在多種 LLMs,多種任務(wù)中的失敗情況。

  • LLMs:ChatGPT (o1-preview, o1-mini, 4o, 3.5-turbo), Llama (3.1-8B, 3-8B, 2-7B), DeepSeek (R1, V3)
  • 任務(wù):Yes/No questions, Decision making, Reasoning, Programming

如下表所示,反思技術(shù)在包括簡單事實問答任務(wù)和復(fù)雜推理任務(wù)的多種任務(wù)中都會失敗,甚至比成功的案例多。對于更先進的模型,反思失敗有減少但沒有解決,甚至在部分任務(wù)中更加嚴重。例如,o1-mini 在 Decision making 任務(wù)上的反思失敗率(將初始正確答案改錯的概率)高于 4o 和 3.5-turbo;Llama-3.1-8B 在 Yes/No questions 任務(wù)上的反思失敗率高于 Llama-2-7B。



表 1: 反思技術(shù)在多個 LLMs,多種任務(wù)中的失敗情況。(實驗時間:2025 年 2 月 15 日)注:更多例子參見論文網(wǎng)站:https://x-isc.info

研究團隊近期對一些最新的 ChatGPT 模型(4.5,4.1,o4-mini,o3)也進行了評測。如下表所示,反思失敗情況同樣嚴重。



表 2: 反思技術(shù)在最新的 ChatGPT 模型上也容易失敗。(實驗時間:2025 年 7 月 4 日)

原因一:內(nèi)部答案波動 —— 自我懷疑?

為了解釋反思失敗的原因,本研究從簡單事實問題入手,觀測了 LLMs 在回復(fù)時的答案波動情況。如下圖所示,研究團隊觀察到在多輪問答任務(wù)上,「你確定嗎?請思考后再回答」 的提示語會讓 LLMs 反復(fù)更改答案。例如在 10 輪對話中,GPT-3.5-turbo 甚至對于 81.3% 的問題更改答案超過 6 次。



圖 2: LLMs 在多輪對話中會頻繁更改答案。(實驗時間:2025 年 2 月 15 日)

這一現(xiàn)象意味著 LLMs 也許對于自己的答案是不自信的。因此,研究團隊利用探針方法 [3] 逐層分析了 Llama-3-8B 對于正確、錯誤答案的置信度。如下圖所示,與初始回復(fù)相比,反思技術(shù)會造成 LLMs 內(nèi)部答案的波動,表現(xiàn)出 「自我懷疑」 的傾向,最終可能導(dǎo)致回答出錯;并且,研究發(fā)現(xiàn)提示模型 「你確定嗎?」 的內(nèi)部狀態(tài)表現(xiàn)與告訴模型 「你的回答錯了」 相似。因此,內(nèi)部答案波動是反思技術(shù)失敗的原因。



圖 3: 反思技術(shù)會導(dǎo)致 LLMs 的內(nèi)部答案波動(左圖)。而右圖顯示:對 Llama3-8B 模型而言,提示 「你確定嗎?」 對模型的影響與提示 「你的回答錯了」 非常相似。

原因二:提示語偏差—— 過度關(guān)注反思指令

對于內(nèi)部狀態(tài)不可知的黑盒模型,研究團隊進一步從提示語層面分析了詞元對 LLMs 輸出答案的貢獻度。如下圖所示,LLMs 在反思失敗時會過度關(guān)注提示語 「你確定嗎?想一想再回答。」,而忽略問題本身;當(dāng)反思失敗時,LLMs 在 76.1% 的情況下會更關(guān)注反思指令,而當(dāng)堅持正確答案時,LLMs 對反思指令和問題本身的關(guān)注度非常相近,分別為 50.8% 和 49.2%。這一現(xiàn)象意味著 LLMs 對提示語的理解往往與人類的期望存在偏差,從而導(dǎo)致任務(wù)失敗。



圖 4: 反思技術(shù)會導(dǎo)致 LLMs 過度關(guān)注反思指令而忽略問題本身。綠色 / 黃色表示 LLMs 關(guān)注多 / 少的詞元。

原因三:認知偏差 —— 像人一樣犯錯

對于復(fù)雜任務(wù),研究團隊進一步分析了 LLMs 的推理過程,發(fā)現(xiàn) LLMs 會像人一樣犯錯。如下圖所示,反思技術(shù)會讓 LLMs 在 Decision-making 任務(wù)中生成過量的 「think」 指令,導(dǎo)致過度思考策略而停滯不前。基于這一發(fā)現(xiàn),研究團隊進一步應(yīng)用認知科學(xué)理論將 LLMs 的反思失敗總結(jié)成三種認知偏差模式:

  • 過度思考:過度制定策略而不采取行動
  • 認知過載:在長文本的反思中忽略關(guān)鍵信息
  • 完美主義偏差:為了追求高效性而忽略環(huán)境限制



圖 5: 反思技術(shù)會導(dǎo)致 LLMs 在推理過程中出現(xiàn)認知偏差。

緩解策略

基于反思失敗的原因,研究團隊進一步設(shè)計了兩種簡單有效的緩解策略:

  • 問題重復(fù):基于原因二中 LLMs 更關(guān)注反思指令而忽略初始問題的發(fā)現(xiàn),研究團隊在反思提示語的最后附上初始問題以引導(dǎo) LLMs 維持對初始問題的關(guān)注。
  • 少樣本微調(diào):基于原因一中反思引起 LLMs 內(nèi)部狀態(tài)的異常波動,以及原因三中 LLMs 在推理過程中的認知偏差,研究團隊認為反思失敗是一種異常行為 [4],并非知識匱乏。因此,不引入知識的少樣本(4-10 個樣本)微調(diào)可糾正反思失敗的異常行為。

實驗結(jié)果如下表所示,兩種策略皆可有效緩解反思失敗,少樣本微調(diào)的效果更好;并且,由于反思失敗是一種異常行為而非知識匱乏,在簡單任務(wù)上的少樣本微調(diào)效果可以泛化到復(fù)雜任務(wù)上。



表 3:問題重復(fù)和少樣本微調(diào)可有效緩解反思失敗。(實驗時間:2025 年 2 月 15 日)

總結(jié)

該研究系統(tǒng)性評測了 LLMs 反思技術(shù)的失敗,發(fā)現(xiàn)這種現(xiàn)象在多個 LLMs、多種任務(wù)上廣泛存在,甚至先進的推理模型(ChatGPT o4-mini-high)在基本事實問題(「Is Earth flat?」)上也會出錯。進而,研究團隊揭示了反思失敗的三種原因:內(nèi)部答案波動,提示語偏差,認知偏差。基于這些原因,研究團隊設(shè)計了兩種簡單有效的緩解反思失敗的策略:問題重復(fù)和少樣本微調(diào)。反思技術(shù)究竟引向自我糾正還是自我懷疑,這仍然是一個懸而未決的問題。

參考文獻

[1]Reflexion: Language agents with verbal reinforcement learning, NIPS 2023.

[2] Large language models cannot self-correct reasoning yet, ICLR 2024.

[3]Eliciting latentpredictions from transformers with the tuned lens, arXiv 2023.

[4]https://openai.com/index/chain-of-thought-monitoring/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
萬科的高端樓盤,被業(yè)主集體拉橫幅了

萬科的高端樓盤,被業(yè)主集體拉橫幅了

大嘴説
2025-07-14 17:08:22
拓記:從姚明到阿聯(lián)中國球員在NBA都很謙遜 但楊瀚森顯得非常自信

拓記:從姚明到阿聯(lián)中國球員在NBA都很謙遜 但楊瀚森顯得非常自信

直播吧
2025-07-14 19:53:03
“軍中花仙子”呂薇:53歲低調(diào)完婚

“軍中花仙子”呂薇:53歲低調(diào)完婚

TVB的四小花
2025-07-14 15:54:38
知名女演員因胃癌去世,年僅31歲!去年拍完戲后出現(xiàn)不適,“幾個月前已經(jīng)吃不下飯……”

知名女演員因胃癌去世,年僅31歲!去年拍完戲后出現(xiàn)不適,“幾個月前已經(jīng)吃不下飯……”

都市快報橙柿互動
2025-07-14 17:38:49
六枚導(dǎo)彈封住出口!伊朗總統(tǒng)血濺當(dāng)場,哈梅內(nèi)伊壓住親美派了?

六枚導(dǎo)彈封住出口!伊朗總統(tǒng)血濺當(dāng)場,哈梅內(nèi)伊壓住親美派了?

獵火照狼山
2025-07-14 22:05:48
省衛(wèi)健委副主任出任醫(yī)學(xué)院黨委書記,沖刺更名“醫(yī)科大學(xué)”

省衛(wèi)健委副主任出任醫(yī)學(xué)院黨委書記,沖刺更名“醫(yī)科大學(xué)”

梅斯醫(yī)學(xué)
2025-07-15 07:54:23
香港公務(wù)員去年流失萬人 ,空缺擴至1.8萬,招內(nèi)地人才補充

香港公務(wù)員去年流失萬人 ,空缺擴至1.8萬,招內(nèi)地人才補充

高博新視野
2025-07-13 13:32:46
湘陰男子因發(fā)一條評論被處罰——評論權(quán)不是尋釁,法治應(yīng)為常態(tài)

湘陰男子因發(fā)一條評論被處罰——評論權(quán)不是尋釁,法治應(yīng)為常態(tài)

小院之觀
2025-07-14 05:30:03
女子車禍癱瘓男友發(fā)聲:三觀不合,她為錢無所不用其極,接受判決

女子車禍癱瘓男友發(fā)聲:三觀不合,她為錢無所不用其極,接受判決

娛樂看阿敞
2025-07-11 09:15:04
廣西官宣:黃克落馬

廣西官宣:黃克落馬

新京報政事兒
2025-07-14 20:04:14
甘肅血鉛這事曝出一個新的后續(xù),卻讓網(wǎng)友們嘆氣了

甘肅血鉛這事曝出一個新的后續(xù),卻讓網(wǎng)友們嘆氣了

清暉有墨
2025-07-14 14:31:32
李欣蒔被學(xué)校開除,男友直播回應(yīng)

李欣蒔被學(xué)校開除,男友直播回應(yīng)

阿坹武器裝備科普
2025-07-14 09:58:55
揭秘!《掃毒風(fēng)暴》中,盧少驊的真實原型竟是“大毒梟”劉招華!

揭秘!《掃毒風(fēng)暴》中,盧少驊的真實原型竟是“大毒梟”劉招華!

昏鴉的啰里啰嗦
2025-07-14 16:51:24
將身穿14號球衣,莫德里奇手舉米蘭球衣亮相

將身穿14號球衣,莫德里奇手舉米蘭球衣亮相

懂球帝
2025-07-15 00:26:13
這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

巢客HOME
2025-07-14 09:18:43
都說大環(huán)境不好,到處裁員降薪,可為啥出去旅游時還是人山人海?

都說大環(huán)境不好,到處裁員降薪,可為啥出去旅游時還是人山人海?

小談食刻美食
2025-07-12 17:57:56
汪小菲一雙兒女抵達大草原!箖兒不拿平板了,玥兒時刻跟著馬筱梅

汪小菲一雙兒女抵達大草原!箖兒不拿平板了,玥兒時刻跟著馬筱梅

小咪侃娛圈
2025-07-15 08:56:37
貿(mào)易戰(zhàn),中國贏了!中美貿(mào)易大跌21%?2025,中國出口大增7.3%

貿(mào)易戰(zhàn),中國贏了!中美貿(mào)易大跌21%?2025,中國出口大增7.3%

錘不倒的拖油瓶
2025-07-15 01:47:31
0報價!西蒙斯無人問津,4年躺賺1.47億,28歲或告別NBA,唏噓啊

0報價!西蒙斯無人問津,4年躺賺1.47億,28歲或告別NBA,唏噓啊

球童無忌
2025-07-14 14:20:21
7個子女全都退休在家,92歲老父卻住進養(yǎng)老院,母親遺囑揭露真相

7個子女全都退休在家,92歲老父卻住進養(yǎng)老院,母親遺囑揭露真相

今天說故事
2025-07-10 19:02:46
2025-07-15 09:39:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10856文章數(shù) 142377關(guān)注度
往期回顧 全部

科技要聞

高調(diào)挖人后,扎克伯格又出重拳

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

頭條要聞

石破茂演講被發(fā)現(xiàn)"在手背上打小抄":密密麻麻寫滿文字

體育要聞

高考數(shù)學(xué)滿分的他,說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結(jié)束直奔魏大勛家

財經(jīng)要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

余承東親發(fā)預(yù)告:鴻蒙智行首款旅行車享界S9T來了

態(tài)度原創(chuàng)

手機
教育
健康
公開課
軍事航空

手機要聞

iQOO 13第一,一加13第三,REDMI K80 Pro呢?

教育要聞

預(yù)警!英國一大學(xué)暫停國際招生,已發(fā)錄取緊急撤回!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏軍:史上首次 俄軍向機器人部隊投降

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 台南县| 陇南市| 壶关县| 南华县| 郁南县| 崇仁县| 都江堰市| 赤城县| 黔江区| 托克逊县| 平阴县| 泸州市| 综艺| 乐业县| 金华市| 白水县| 达尔| 象山县| 蓝山县| 百色市| 蛟河市| 手机| 漳平市| 双流县| 石景山区| 潢川县| 治多县| 阜新| 新巴尔虎左旗| 东海县| 通许县| 襄垣县| 萨嘎县| 阆中市| 五大连池市| 徐州市| 新疆| 虎林市| 崇信县| 中方县| 中西区|