99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CoT推理大潰敗?哈佛華人揭秘:LLM一思考,立刻就「失智」

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】DeepSeek-R1引爆了LLM推理革命,人們幾乎形成了共識:推理能力越強,LLM越好。但多位華人參與的研究揭示:思維鏈CoT分散模型「注意力」,可能是性能崩塌的導火索。

DeepSeek-R1火了,推理模型火了,思維鏈(Chain-of-Thought,CoT)火了!

模型很聰明,問題是:它還聽你的話嗎?思維鏈很好,但代價呢?

當大家以為大語言模型越「會思考」越靠譜時,來自哈佛大學、亞馬遜和紐約大學的最新研究, 可謂當頭棒喝:

思維鏈(Chain-of-Thought)并不總是錦上添花,

有時候,它會讓大模型越想越錯、越幫越忙!


論文鏈接:https://arxiv.org/abs/2505.11423

他們直截了當地指出:

在需要遵守指令或格式的任務中,使用CoT推理,模型遵守指令的準確率會下降

例如,Meta-Llama-3-8B在IFEval基準中:

  • 不使用推理時準確率:75.2%

  • 啟用CoT后:直接跌至59.0%

而且這不是個例,在多個模型、多個任務上都驗證了這個現象。

不是模型不聰明,是它「想太多」了。

在表1中,研究人員展示了具體的測評結果。

其中綠色與紅色分別標識原始模式CoT模式的性能。

各改進方法列同時報告絕對準確率及相對于CoT模式的變化(↑表示提升,↓表示下降),最優改進方案用加粗字體標出。


表1:模型在IFEval和ComplexBench上的指令遵循性能表現

這不是LLM的滑鐵盧,這是推理的自爆現場。

這個新發現顛覆了常識:推理越多,表現越差!


表2:推理增強模型與基礎模型性能對比

表2中綠色標注每對模型中性能較優模型,紅色標注較差模型

對LLM而言,推理到底幫了哪些忙,又添了哪些亂?

四大模式,暗藏玄機

對IFEval數據集中的全部541個樣本,以及ComplexBench中的1000多個樣本,研究人員進行了人工分析。

案例分析顯示,雖然存在個體差異,但成功與失敗案例主要呈現四大重復模式,具體總結如下:

推理對指令遵循的好處:

  • 格式和結構遵守:推理提高了對結構約束的遵循程度,例如生成有效的JSON、用雙引號包裹輸出或者遵循markdown語法。

  • 詞匯和關鍵詞精確性:推理增強了對詞匯要求的遵守,包括插入稀有字符(如字母q使用六次)、省略最終標點符號或使用恰好15個大寫單詞。

推理對指令遵循的害處:

  • 過度關注高層次內容而忽略簡單約束:當存在多個約束時,推理通常會強調內容規劃而忽視較為簡單的機械約束。

    常見問題包括超出字數限制、未能準確重復提示、在僅限小寫字母的任務中使用大寫字母,或附加不必要的內容。

  • 自作聰明,畫蛇添足,擅自加戲:推理經常插入冗余或出于好意添加的內容——比如解釋、翻譯或強調——這些都可能破壞約束條件。

    典型的行為包括:在「僅外語」輸出中插入英文文本,在「無逗號」任務中包含逗號,向僅需引用的回答后附加評論,或超出大寫單詞數量的限制。

總結一句:你要它聽話,它偏偏表演。

真相:CoT分散模型「注意力」

在許多失敗案例中,研究者觀察到模型忽視了某些約束,原因可能是過度強調內容規劃,或引入了無關的信息。

研究者引入了一個新指標:「約束注意力」,來衡量模型有沒有關注任務中的關鍵限制條件

結果很扎心:

  • DeepSeek-R1-Distill:使用CoT時注意力下降0.161

  • Qwen2.5-1.5B-Instruct:下降0.090


CoT推理就像在耳邊說「要不你再想想?」

模型真的「想多了」,但忘了你原本說了什么。

注意力潰散

在大語言模型中,「注意力機制」,用來決定模型在每一步生成中關注哪些輸入信息最重要

理想情況下:

如果你讓模型執行「按要求格式輸出」「只輸出選項A或B」,那它的注意力就應該聚焦在指令里的關鍵約束詞上,比如「必須輸出A或B」「不得添加解釋」。

然而,CoT推理的引入卻改變了這種聚焦機制:

當你讓模型「一步步來思考」(即CoT)時,它反而會被自己的推理內容吸引,逐漸忽略最開始的指令約束。

這就好比:

模型本該「盯著規則干活」, 但你讓它「先思考思路」,它反而被自己的「內心獨白」帶偏了。

你給它一張待辦清單,它卻跑去寫日記,寫著寫著忘了要辦啥。


實證支持:「約束注意力」下降

論文中引入了一個衡量指標:約束注意力得分

具體來說,對于每條指令,首先使用GPT-4o自動提取出與各個約束對應的子字符串,并將這些子字符串映射為提示中的對應token索引。

在生成過程中,計算模型對這些約束相關token的注意力得分,分別針對性分析了推理過程和最終回答兩個階段,計算第t步的層平均約束注意力。

每個模型在每條指令上會運行兩次:

1. 基礎運行(Base run):直接從指令生成回答(Instruction→Answer);

2. 推理運行(Reasoning run,即CoT):從指令生成思考過程再生成回答(Instruction→Think→Answer)。

研究人員將注意力下降量定義為基線模式與思維鏈模式的平均約束注意力差值用來量化模型在執行任務時,有多少注意力落在了那些「必須遵守」的關鍵詞或結構限制上。

在IFEval和ComplexBench基準上,在圖1中可視化了某開源模型生成響應時的約束注意力軌跡

通過對數百個樣本的分析,研究者觀察到以下普遍規律:

注意力平坦化現象。

推理過程會使約束注意力軌跡趨于平緩;在性能下降的案例中,答案生成階段的約束注意力普遍降低約23%。

注意力增強現象。

當推理提升性能時,答案段會出現明顯的注意力峰值(平均提升15%);這種增強與關鍵約束的準確識別呈正相關(r=0.62)。


圖1:Qwen2.5-1.5B-Instruct模型在兩個數據集上的約束注意力軌跡示例。自上而下分別展示推理導致持平(TIE)、失敗(LOSE)和成功(WIN)三種情況的對比。紅色虛線標記思維過程(Thinking)的開始位置,綠色虛線標記答案生成(Answer)階段的起始點

當使用CoT推理時,多款主流模型的這個分數顯著下降

  • DeepSeek-R1-Distill:下降0.161

  • Qwen2.5-1.5B-Instruct:下降0.090

這意味著:模型確實更少關注任務限制,更容易出錯,比如加了不該加的標點、解釋、格式錯位等。

圖2展示了在「成功」(WIN)與「失敗」(LOSE)兩類樣本中,這種注意力下降在不同。

數據顯示,與未使用推理的情況相比,失敗案例的注意力下降幅度普遍更為顯著


圖2:Qwen2.5-1.5B-Instruct模型在IFEval數據集中,WIN(成功)與LOSE(失敗)案例在各典型層的約束注意力下降值(基線-思維鏈模式)

論文還發現:推理步驟越多,指令遵循能力越差;兩者間的相關性幾乎為0,長推理≠高表現!

換句話說,CoT不是寫論文,不是越長越有用,反而可能「越寫越偏」


如何解決?4種緩解策略來了!

改進方法

基于這些發現,研究人員提出四種改進方案:

上下文學習:通過典型錯誤示例修正推理偏差,帶來了小幅度的性能提升;

自我反思:引導模型對推理過程進行自檢。在IFEval數據集上,自我反思帶來了顯著提升;ComplexBench數據集上,效果較差。

自選擇推理:讓模型自主判斷是否需要推理。在IFEval上,它帶來了中等程度的提升;在ComplexBench上表現更為出色,所有模型性能均有提升。

分類器選擇推理:用訓練好的分類器控制推理觸發。

該方法效果顯著,幾乎在所有模型和兩個基準測試上都帶來了性能提升,但需要針對每個模型單獨訓練分類器,這會增加額外的開發和運維成本

每種緩解策略在不同的模型能力和任務復雜度下都有其優缺點。

根據結果,研究者推薦如下決策流程:

  • 首先評估任務指令的復雜度——可以通過簡單的啟發式規則或訓練好的分類器來判斷;

  • 對于較簡單的任務(如IFEval),推薦使用自我反思分類器選擇推理

  • 對于更復雜或邏輯結構更復雜的任務(如ComplexBench),推薦使用自我選擇推理分類器選擇推理

總體而言,分類器選擇推理在兩個基準測試中都表現出最穩定和最優秀的性能,盡管它需要進行模型特定的訓練。

詳細結果見表1和圖3,其中也包括與CoT基線的性能差異對比。


圖3:跨模型與方法的指令遵循準確率可視化分析(基于IFEval與ComplexBench基準)

給AI開發者的幾點提醒

不是所有任務都需要推理:簡單任務/格式明確的輸入,直接輸出即可。

明確提示中的規則:不要讓模型在推理時「模糊掉」關鍵限制。

引入判斷機制:讓模型或分類器判斷是否需要推理。

大模型的「聰明」,該被約束。

在AI開發中,大家喜歡「聰明」的模型,但真正的智能不是亂想,而是:

知道什么時候該想,什么時候該閉嘴。

思維鏈依舊重要,但不是萬能鑰匙。我們需要重新理解它的邊界與風險。

作者介紹

值得一提的,論文的第一作者兼通訊作者Xiaomin Li。



他目前在哈佛大學攻讀應用數學博士學位。

他的研究方向是機器學習與生成模型的數學理論,以及大語言模型的應用等。

2020年5月,他以滿績點的優異成績,獲得伊利諾伊大學厄巴納-香檳分校數學理學學士與計算機科學工程學士雙學位。

同年,他于哈佛大學攻讀博士學位,期間他有多段Meta等公司的實習經歷。

參考資料:

https://arxiv.org/abs/2505.11423

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
武漢車谷江大女足晉級女足亞冠決賽,決賽將于5月24日在武漢舉行

武漢車谷江大女足晉級女足亞冠決賽,決賽將于5月24日在武漢舉行

懂球帝
2025-05-21 18:09:24
看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

看似“壞掉”,實際上可以放心吃的9種食物,扔掉就太可惜了!

韓胖說裝修
2025-05-20 23:54:58
萬萬沒想到!間諜論僅過一個月,董明珠就向所有人坦露了她的格局

萬萬沒想到!間諜論僅過一個月,董明珠就向所有人坦露了她的格局

涵豆說娛
2025-05-21 10:31:04
女兒私奔8年沒回家,后來我乳腺癌住院,主治醫生摘下口罩:媽

女兒私奔8年沒回家,后來我乳腺癌住院,主治醫生摘下口罩:媽

五元講堂
2025-05-15 12:12:33
《歌手》唯一輸家:實力派唱將跌下神壇,唱功拉胯,全程被吊打

《歌手》唯一輸家:實力派唱將跌下神壇,唱功拉胯,全程被吊打

喵喵娛樂團
2025-05-20 16:35:03
《藏海傳》演員演技評分,黃覺墊底,肖戰9.7分第三,第一無爭議

《藏海傳》演員演技評分,黃覺墊底,肖戰9.7分第三,第一無爭議

娛樂圈筆娛君
2025-05-21 14:07:03
演員朱媛媛住院治療照曝光:穿病服臉色蠟黃,微笑著坐病床上祈禱

演員朱媛媛住院治療照曝光:穿病服臉色蠟黃,微笑著坐病床上祈禱

八斗小先生
2025-05-21 20:10:51
青島擬新開1條、調整5條公交線路,邀您提建議

青島擬新開1條、調整5條公交線路,邀您提建議

齊魯壹點
2025-05-21 13:46:12
曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

曹穎帶貨兩年成交額就超5億,如今患癌,擔心沒人像親媽般對兒子

萱小蕾o
2025-05-18 17:43:01
越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的4物,別再吃了

越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的4物,別再吃了

河山銳新聞
2025-04-16 14:03:09
中紀委:禁止機關事業單位職工干這6種副業

中紀委:禁止機關事業單位職工干這6種副業

鄉知鄉見
2025-03-24 17:28:08
她們一邊做飯一邊賣淫

她們一邊做飯一邊賣淫

法律讀品
2025-05-05 17:24:28
忍無可忍!中方逮到“大魚”,解放軍動真格了,局勢一觸即發

忍無可忍!中方逮到“大魚”,解放軍動真格了,局勢一觸即發

鐵血出鞘
2025-05-19 18:26:35
山東老兩口退休金過萬,一個月花不到600,一頓只吃2個菜到底為啥

山東老兩口退休金過萬,一個月花不到600,一頓只吃2個菜到底為啥

阿龍美食記
2025-05-20 15:27:56
5月22號開始橫財來襲,喜事一籮筐的4大生肖,財不斷,富貴有余,福祿雙旺

5月22號開始橫財來襲,喜事一籮筐的4大生肖,財不斷,富貴有余,福祿雙旺

素然追光
2025-05-21 16:33:07
他曾兩次反蔣后,非但沒被蔣介石干掉,反而穩坐國軍二號交椅的?

他曾兩次反蔣后,非但沒被蔣介石干掉,反而穩坐國軍二號交椅的?

紀實文錄
2025-05-21 17:20:17
以法治之光照亮民營經濟新征程——民營經濟促進法提振民營企業發展信心

以法治之光照亮民營經濟新征程——民營經濟促進法提振民營企業發展信心

新華社
2025-05-20 22:18:02
劉嘉玲現身杭州香格里拉,59歲穿衣風格太大膽!露點多惹網友爭議

劉嘉玲現身杭州香格里拉,59歲穿衣風格太大膽!露點多惹網友爭議

小咪侃娛圈
2025-05-19 09:16:23
四川省國際供應鏈管理有限責任公司原董事長周益明接受審查調查

四川省國際供應鏈管理有限責任公司原董事長周益明接受審查調查

界面新聞
2025-05-21 15:59:40
印媒還在“贏贏贏”,《紐約時報》忍不住了

印媒還在“贏贏贏”,《紐約時報》忍不住了

觀察者網
2025-05-21 12:12:10
2025-05-21 20:59:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12740文章數 66040關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

中央巡視組進駐期間 “老虎”葉寒冰任上被拿下

頭條要聞

中央巡視組進駐期間 “老虎”葉寒冰任上被拿下

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

房產
旅游
教育
家居
公開課

房產要聞

海口住建官宣:限價商品房上市交易細則要來了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

教師應對師生沖突的五大策略

家居要聞

黑白簡約 見證平凡的蛻變

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新源县| 正镶白旗| 松原市| 鄄城县| 潞西市| 新野县| 澄迈县| 明星| 顺义区| 梅河口市| 韶山市| 古田县| 河津市| 二手房| 石阡县| 涟源市| 宜城市| 常熟市| 河东区| 白朗县| 会理县| 福鼎市| 新绛县| 普宁市| 诏安县| 辽中县| 沙田区| 谷城县| 湟中县| 江北区| 海安县| 盐亭县| 常山县| 拉孜县| 平度市| 体育| 卫辉市| 阿坝| 潍坊市| 德钦县| 石景山区|