新智元報道
編輯:KingHZ
【新智元導讀】DeepSeek-R1引爆了LLM推理革命,人們幾乎形成了共識:推理能力越強,LLM越好。但多位華人參與的研究揭示:思維鏈CoT分散模型「注意力」,可能是性能崩塌的導火索。
DeepSeek-R1火了,推理模型火了,思維鏈(Chain-of-Thought,CoT)火了!
模型很聰明,問題是:它還聽你的話嗎?思維鏈很好,但代價呢?
當大家以為大語言模型越「會思考」越靠譜時,來自哈佛大學、亞馬遜和紐約大學的最新研究, 可謂當頭棒喝:
思維鏈(Chain-of-Thought)并不總是錦上添花,
有時候,它會讓大模型越想越錯、越幫越忙!
論文鏈接:https://arxiv.org/abs/2505.11423
他們直截了當地指出:
在需要遵守指令或格式的任務中,使用CoT推理,模型遵守指令的準確率會下降!
例如,Meta-Llama-3-8B在IFEval基準中:
不使用推理時準確率:75.2%
啟用CoT后:直接跌至59.0%
而且這不是個例,在多個模型、多個任務上都驗證了這個現象。
不是模型不聰明,是它「想太多」了。
在表1中,研究人員展示了具體的測評結果。
其中綠色與紅色分別標識原始模式與CoT模式的性能。
各改進方法列同時報告絕對準確率及相對于CoT模式的變化(↑表示提升,↓表示下降),最優改進方案用加粗字體標出。
表1:模型在IFEval和ComplexBench上的指令遵循性能表現
這不是LLM的滑鐵盧,這是推理的自爆現場。
這個新發現顛覆了常識:推理越多,表現越差!
表2:推理增強模型與基礎模型性能對比
表2中綠色標注每對模型中性能較優模型,紅色標注較差模型。
對LLM而言,推理到底幫了哪些忙,又添了哪些亂?
四大模式,暗藏玄機
對IFEval數據集中的全部541個樣本,以及ComplexBench中的1000多個樣本,研究人員進行了人工分析。
案例分析顯示,雖然存在個體差異,但成功與失敗案例主要呈現四大重復模式,具體總結如下:
推理對指令遵循的好處:
格式和結構遵守:推理提高了對結構約束的遵循程度,例如生成有效的JSON、用雙引號包裹輸出或者遵循markdown語法。
詞匯和關鍵詞精確性:推理增強了對詞匯要求的遵守,包括插入稀有字符(如字母q使用六次)、省略最終標點符號或使用恰好15個大寫單詞。
推理對指令遵循的害處:
過度關注高層次內容而忽略簡單約束:當存在多個約束時,推理通常會強調內容規劃而忽視較為簡單的機械約束。
常見問題包括超出字數限制、未能準確重復提示、在僅限小寫字母的任務中使用大寫字母,或附加不必要的內容。
自作聰明,畫蛇添足,擅自加戲:推理經常插入冗余或出于好意添加的內容——比如解釋、翻譯或強調——這些都可能破壞約束條件。
典型的行為包括:在「僅外語」輸出中插入英文文本,在「無逗號」任務中包含逗號,向僅需引用的回答后附加評論,或超出大寫單詞數量的限制。
總結一句:你要它聽話,它偏偏表演。
真相:CoT分散模型「注意力」
在許多失敗案例中,研究者觀察到模型忽視了某些約束,原因可能是過度強調內容規劃,或引入了無關的信息。
研究者引入了一個新指標:「約束注意力」,來衡量模型有沒有關注任務中的關鍵限制條件。
結果很扎心:
DeepSeek-R1-Distill:使用CoT時注意力下降0.161
Qwen2.5-1.5B-Instruct:下降0.090
CoT推理就像在耳邊說「要不你再想想?」
模型真的「想多了」,但忘了你原本說了什么。
注意力潰散
在大語言模型中,「注意力機制」,用來決定模型在每一步生成中關注哪些輸入信息最重要。
理想情況下:
如果你讓模型執行「按要求格式輸出」「只輸出選項A或B」,那它的注意力就應該聚焦在指令里的關鍵約束詞上,比如「必須輸出A或B」「不得添加解釋」。
然而,CoT推理的引入卻改變了這種聚焦機制:
當你讓模型「一步步來思考」(即CoT)時,它反而會被自己的推理內容吸引,逐漸忽略最開始的指令約束。
這就好比:
模型本該「盯著規則干活」, 但你讓它「先思考思路」,它反而被自己的「內心獨白」帶偏了。
你給它一張待辦清單,它卻跑去寫日記,寫著寫著忘了要辦啥。
實證支持:「約束注意力」下降
論文中引入了一個衡量指標:約束注意力得分。
具體來說,對于每條指令,首先使用GPT-4o自動提取出與各個約束對應的子字符串,并將這些子字符串映射為提示中的對應token索引。
在生成過程中,計算模型對這些約束相關token的注意力得分,分別針對性分析了推理過程和最終回答兩個階段,計算第t步的層平均約束注意力。
每個模型在每條指令上會運行兩次:
1. 基礎運行(Base run):直接從指令生成回答(Instruction→Answer);
2. 推理運行(Reasoning run,即CoT):從指令生成思考過程再生成回答(Instruction→Think→Answer)。
研究人員將注意力下降量定義為基線模式與思維鏈模式的平均約束注意力差值,用來量化模型在執行任務時,有多少注意力落在了那些「必須遵守」的關鍵詞或結構限制上。
在IFEval和ComplexBench基準上,在圖1中可視化了某開源模型生成響應時的約束注意力軌跡。
通過對數百個樣本的分析,研究者觀察到以下普遍規律:
注意力平坦化現象。
推理過程會使約束注意力軌跡趨于平緩;在性能下降的案例中,答案生成階段的約束注意力普遍降低約23%。
注意力增強現象。
當推理提升性能時,答案段會出現明顯的注意力峰值(平均提升15%);這種增強與關鍵約束的準確識別呈正相關(r=0.62)。
圖1:Qwen2.5-1.5B-Instruct模型在兩個數據集上的約束注意力軌跡示例。自上而下分別展示推理導致持平(TIE)、失敗(LOSE)和成功(WIN)三種情況的對比。紅色虛線標記思維過程(Thinking)的開始位置,綠色虛線標記答案生成(Answer)階段的起始點
當使用CoT推理時,多款主流模型的這個分數顯著下降:
DeepSeek-R1-Distill:下降0.161
Qwen2.5-1.5B-Instruct:下降0.090
這意味著:模型確實更少關注任務限制,更容易出錯,比如加了不該加的標點、解釋、格式錯位等。
圖2展示了在「成功」(WIN)與「失敗」(LOSE)兩類樣本中,這種注意力下降在不同。
數據顯示,與未使用推理的情況相比,失敗案例的注意力下降幅度普遍更為顯著。
圖2:Qwen2.5-1.5B-Instruct模型在IFEval數據集中,WIN(成功)與LOSE(失敗)案例在各典型層的約束注意力下降值(基線-思維鏈模式)
論文還發現:推理步驟越多,指令遵循能力越差;兩者間的相關性幾乎為0,長推理≠高表現!
換句話說,CoT不是寫論文,不是越長越有用,反而可能「越寫越偏」。
如何解決?4種緩解策略來了!
改進方法
基于這些發現,研究人員提出四種改進方案:
上下文學習:通過典型錯誤示例修正推理偏差,帶來了小幅度的性能提升;
自我反思:引導模型對推理過程進行自檢。在IFEval數據集上,自我反思帶來了顯著提升;ComplexBench數據集上,效果較差。
自選擇推理:讓模型自主判斷是否需要推理。在IFEval上,它帶來了中等程度的提升;在ComplexBench上表現更為出色,所有模型性能均有提升。
分類器選擇推理:用訓練好的分類器控制推理觸發。
該方法效果顯著,幾乎在所有模型和兩個基準測試上都帶來了性能提升,但需要針對每個模型單獨訓練分類器,這會增加額外的開發和運維成本。
每種緩解策略在不同的模型能力和任務復雜度下都有其優缺點。
根據結果,研究者推薦如下決策流程:
首先評估任務指令的復雜度——可以通過簡單的啟發式規則或訓練好的分類器來判斷;
對于較簡單的任務(如IFEval),推薦使用自我反思或分類器選擇推理;
對于更復雜或邏輯結構更復雜的任務(如ComplexBench),推薦使用自我選擇推理或分類器選擇推理。
總體而言,分類器選擇推理在兩個基準測試中都表現出最穩定和最優秀的性能,盡管它需要進行模型特定的訓練。
詳細結果見表1和圖3,其中也包括與CoT基線的性能差異對比。
圖3:跨模型與方法的指令遵循準確率可視化分析(基于IFEval與ComplexBench基準)
給AI開發者的幾點提醒
不是所有任務都需要推理:簡單任務/格式明確的輸入,直接輸出即可。
明確提示中的規則:不要讓模型在推理時「模糊掉」關鍵限制。
引入判斷機制:讓模型或分類器判斷是否需要推理。
大模型的「聰明」,該被約束。
在AI開發中,大家喜歡「聰明」的模型,但真正的智能不是亂想,而是:
知道什么時候該想,什么時候該閉嘴。
思維鏈依舊重要,但不是萬能鑰匙。我們需要重新理解它的邊界與風險。
作者介紹
值得一提的,論文的第一作者兼通訊作者Xiaomin Li。
他目前在哈佛大學攻讀應用數學博士學位。
他的研究方向是機器學習與生成模型的數學理論,以及大語言模型的應用等。
2020年5月,他以滿績點的優異成績,獲得伊利諾伊大學厄巴納-香檳分校數學理學學士與計算機科學工程學士雙學位。
同年,他于哈佛大學攻讀博士學位,期間他有多段Meta等公司的實習經歷。
參考資料:
https://arxiv.org/abs/2505.11423
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.