網易首頁 > 網易號 > 正文申請入駐

AI越聰明越不聽話！新研究：最強推理模型指令遵循率僅50%

2025-05-24 13:00:22　來源: 量子位

北京舉報

分享至

MathIF團隊投稿
量子位 | 公眾號 QbitAI

如果面前有兩個AI助手：一個很聰明但經常不守規矩，另一個很聽話但不太聰明，你會怎么選？

最近，上海人工智能實驗室與香港中文大學的研究團隊發布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》，通過一個全新的評測基準MathIF揭示：

大模型越擅長復雜推理，越容易忽略用戶的指令要求，“聰明”和“聽話”之間存在明顯的矛盾。

這項工作的靈感，源自實際使用推理模型（如o3）過程中的一個意外發現：相比許多經過強化推理訓練的大模型，GPT-4o在執行具體指令時反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實體驗，讓研究團隊開始系統性地研究推理能力與指令跟隨之間的關系。

這一研究也引來知名博主的轉發：

研究揭示越擅長數學推理的模型反而越難完全遵守指令，同時分析了模型大小與服從性的非正相關現象，強調了推理能力與指令遵循之間的權衡。

MathIF：衡量推理模型“聽話程度”的新基準

MathIF基準專門針對數學推理任務，考察AI模型是否嚴格遵循用戶給出的指令要求。這些要求包括格式、語言、長度和特定關鍵詞使用，均可通過程序自動驗證。

MathIF由來自不同難度的數學題目組成，涵蓋了從簡單的數學問題（GSM8K）到復雜的數學競賽題目（AIME）。每個題目都會附帶具體而明確的指令，比如：“答案必須以一句中文完整作答，不能有多余解釋?！?/p>

此外，MathIF還設計了單一指令、雙重指令和三重指令的組合情形，以測試模型在不同約束復雜程度下的表現。模型不僅需要正確解題，還要嚴格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個具體的指令標準，分別以硬準確率（HAcc）和軟準確率（SAcc）衡量模型的服從程度：HAcc 表示是否全部指令都被滿足，而 SAcc 則反映每條指令的平均滿足比例。

△圖表1 MathIF 的指令類型

越聰明越不聽話？實驗揭示“聰明”與“聽話”的矛盾

研究團隊使用MathIF評測了23個當前主流的大模型。這些模型包括不同的參數規模和訓練方式，涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外：在數學推理能力表現越出色的模型，反而更難完全遵守用戶給定的指令要求。即使是表現最佳的模型Qwen3-14B，也只能成功遵守一半的指令提示。

此外，模型的大小與其遵守指令的能力并不呈正相關，甚至有時會出現負相關——即更大的模型并不一定更守規矩。一些較小的模型反而更善于嚴格執行用戶的指令。

指令遵循（instruction-following）與數學推理能力（mathematical reasoning）之間存在一種權衡關系（trade-off）。也就是說，當模型在推理能力上表現得更強時，它往往更容易忽略或違反用戶的具體指令。

△圖表2 23個大推理模型在MathIF上的表現

模型按服從性（HAcc + SAcc）表現從高到低排序。表中?符號表示該模型僅通過監督微調（SFT）訓練，未使用推理導向的強化學習方法。粗體+下劃線標記則分別代表各列指標中的前兩名與后兩名。

為什么聰明模型更“不聽話”？

研究團隊進一步分析了這個現象背后的原因：

原因一：推理導向的訓練模式

研究發現，旨在強化模型推理能力的訓練方式（如監督微調（SFT）和強化學習（RL）），雖然顯著提升了模型的“智力”，卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準確解題，而容易忽視諸如格式、字數等細節要求。正如圖3所示，無論是SFT還是RL，推理導向訓練雖然提升了解題表現，卻普遍導致模型在指令遵循能力（HAcc與SAcc）上的下降。

△圖表3 推理導向訓練策略的對比

其中Avg. Acc.表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較于基礎模型性能的提升和下降。

原因二：長推理鏈降低服從性

模型輸出的推理過程越長（“鏈式思考”越復雜），越容易“忘記”指令要求。長段的復雜推理過程，容易讓模型注意力分散，最后導致違背用戶指令。如下圖，將模型的推理結果按照長度進行分桶，推理長度越長，模型的指令遵循準確率越低。

△圖表4 不同推理鏈長度區間下的HAcc和SAcc表現

長度分桶編號越大表示生成的推理鏈越長。

研究團隊通過實驗進一步驗證了這一現象：當模型被引導生成更長的推理過程時，其遵循指令的準確率會明顯下降。

具體做法是，在模型推理結束前人為添加“wait”等提示，迫使其繼續延長思考過程，從而生成更長的推理鏈。如下圖所示，“思考越多”，模型對指令的執行反而越不準確。

△圖表5 模型指令跟隨能力的變化趨勢

此外，研究團隊還通過在訓練階段控制模型的推理長度，進一步觀察其指令跟隨能力的變化。

具體而言，他們在強化學習（RL）的 rollout 階段設置最大生成長度限制，超過該長度的回復將無法獲得獎勵，從而間接壓縮模型的推理鏈長度。

從下圖可以看出，限制推理長度有助于顯著提升模型的指令遵循能力（HAcc和SAcc）。當最大長度控制在1k以內時，模型在服從性方面的表現甚至超過了原始基線模型。

然而，這種提升也帶來了代價：模型的數學推理能力明顯下降，表現出“聽話”和“聰明”之間的權衡關系。

△圖表6 RL訓練中最大響應長度的影響

紅色區域表示相較于基礎模型（Original）性能下降，顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論：偏向生成更長推理鏈的推理導向訓練，往往會在無意中削弱模型對指令的遵循能力，凸顯了推理能力與指令服從性之間長期存在的權衡關系。

小技巧：讓模型更“聽話”的簡單方法

研究者也嘗試了一個簡單的方法改善模型的“聽話程度”：在模型推理結束后，輸出答案之前，再次重復一遍指令要求。

結果顯示，這種方法拉近了指令和回復的距離，確實有效提升了模型的指令遵守能力，但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則，不得不犧牲一點自己的數學推理能力。

△圖表7 通過在推理后重復指令提升指令遵循能力。

當前主流的推理導向訓練方式，雖然顯著提升了模型的解題能力，卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間，正面臨一場難以調和的矛盾。

未來，MathIF基準有望構建既能深入思考，又能嚴格守規矩的大模型。

論文地址：https://arxiv.org/pdf/2505.14810
Github地址：https://github.com/TingchenFu/MathIF

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.