99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%

0
分享至

MathIF團隊 投稿
量子位 | 公眾號 QbitAI

如果面前有兩個AI助手:一個很聰明但經常不守規矩,另一個很聽話但不太聰明,你會怎么選?

最近,上海人工智能實驗室香港中文大學的研究團隊發布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通過一個全新的評測基準MathIF揭示:

大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

這項工作的靈感,源自實際使用推理模型(如o3)過程中的一個意外發現:相比許多經過強化推理訓練的大模型,GPT-4o在執行具體指令時反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實體驗,讓研究團隊開始系統性地研究推理能力與指令跟隨之間的關系。

這一研究也引來知名博主的轉發:



研究揭示越擅長數學推理的模型反而越難完全遵守指令,同時分析了模型大小與服從性的非正相關現象,強調了推理能力與指令遵循之間的權衡。

MathIF:衡量推理模型“聽話程度”的新基準

MathIF基準專門針對數學推理任務,考察AI模型是否嚴格遵循用戶給出的指令要求。這些要求包括格式、語言長度特定關鍵詞使用,均可通過程序自動驗證。

MathIF由來自不同難度的數學題目組成,涵蓋了從簡單的數學問題(GSM8K)到復雜的數學競賽題目(AIME)。每個題目都會附帶具體而明確的指令,比如:“答案必須以一句中文完整作答,不能有多余解釋?!?/p>

此外,MathIF還設計了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束復雜程度下的表現。模型不僅需要正確解題,還要嚴格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個具體的指令標準,分別以硬準確率(HAcc)軟準確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。



△圖表1 MathIF 的指令類型

越聰明越不聽話?實驗揭示“聰明”與“聽話”的矛盾

研究團隊使用MathIF評測了23個當前主流的大模型。這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外:在數學推理能力表現越出色的模型,反而更難完全遵守用戶給定的指令要求。即使是表現最佳的模型Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力并不呈正相關,甚至有時會出現負相關——即更大的模型并不一定更守規矩。一些較小的模型反而更善于嚴格執行用戶的指令。

指令遵循(instruction-following)與數學推理能力(mathematical reasoning)之間存在一種權衡關系(trade-off)。也就是說,當模型在推理能力上表現得更強時,它往往更容易忽略或違反用戶的具體指令。



△圖表2 23個大推理模型在MathIF上的表現

模型按服從性(HAcc + SAcc)表現從高到低排序。表中?符號表示該模型僅通過監督微調(SFT)訓練,未使用推理導向的強化學習方法。粗體+下劃線標記則分別代表各列指標中的前兩名與后兩名。

為什么聰明模型更“不聽話”?

研究團隊進一步分析了這個現象背后的原因:

原因一:推理導向的訓練模式

研究發現,旨在強化模型推理能力的訓練方式(如監督微調(SFT)和強化學習(RL)),雖然顯著提升了模型的“智力”,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準確解題,而容易忽視諸如格式、字數等細節要求。正如圖3所示,無論是SFT還是RL,推理導向訓練雖然提升了解題表現,卻普遍導致模型在指令遵循能力(HAcc與SAcc)上的下降。



△圖表3 推理導向訓練策略的對比

其中Avg. Acc.表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較于基礎模型性能的提升和下降。

原因二:長推理鏈降低服從性

模型輸出的推理過程越長(“鏈式思考”越復雜),越容易“忘記”指令要求。長段的復雜推理過程,容易讓模型注意力分散,最后導致違背用戶指令。如下圖,將模型的推理結果按照長度進行分桶,推理長度越長,模型的指令遵循準確率越低。



△圖表4 不同推理鏈長度區間下的HAcc和SAcc表現

長度分桶編號越大表示生成的推理鏈越長。

研究團隊通過實驗進一步驗證了這一現象:當模型被引導生成更長的推理過程時,其遵循指令的準確率會明顯下降。

具體做法是,在模型推理結束前人為添加“wait”等提示,迫使其繼續延長思考過程,從而生成更長的推理鏈。如下圖所示,“思考越多”,模型對指令的執行反而越不準確。



△圖表5 模型指令跟隨能力的變化趨勢

此外,研究團隊還通過在訓練階段控制模型的推理長度,進一步觀察其指令跟隨能力的變化。

具體而言,他們在強化學習(RL)的 rollout 階段設置最大生成長度限制,超過該長度的回復將無法獲得獎勵,從而間接壓縮模型的推理鏈長度。

從下圖可以看出,限制推理長度有助于顯著提升模型的指令遵循能力(HAcc和SAcc)。當最大長度控制在1k以內時,模型在服從性方面的表現甚至超過了原始基線模型。

然而,這種提升也帶來了代價:模型的數學推理能力明顯下降,表現出“聽話”和“聰明”之間的權衡關系。



△圖表6 RL訓練中最大響應長度的影響

紅色區域表示相較于基礎模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論:偏向生成更長推理鏈的推理導向訓練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推理能力與指令服從性之間長期存在的權衡關系

小技巧:讓模型更“聽話”的簡單方法

研究者也嘗試了一個簡單的方法改善模型的“聽話程度”:在模型推理結束后,輸出答案之前,再次重復一遍指令要求。

結果顯示,這種方法拉近了指令和回復的距離,確實有效提升了模型的指令遵守能力,但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則,不得不犧牲一點自己的數學推理能力。



△圖表7 通過在推理后重復指令提升指令遵循能力。

當前主流的推理導向訓練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間,正面臨一場難以調和的矛盾。

未來,MathIF基準有望構建既能深入思考,又能嚴格守規矩的大模型。

論文地址:https://arxiv.org/pdf/2505.14810
Github地址:https://github.com/TingchenFu/MathIF

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國永暑島:已發現供6萬人使用淡水,完全吹填面積可抵3個澳門

中國永暑島:已發現供6萬人使用淡水,完全吹填面積可抵3個澳門

童童聊娛樂啊
2025-06-08 16:34:04
每體:如果有超過1200萬歐的報價,巴薩愿意談判出售馬丁

每體:如果有超過1200萬歐的報價,巴薩愿意談判出售馬丁

懂球帝
2025-06-08 17:32:10
已經失去第四艘、第五艘、第六艘,核動力航母命名省份都有哪些?

已經失去第四艘、第五艘、第六艘,核動力航母命名省份都有哪些?

太空記
2025-06-08 18:42:15
印度是不是吃錯藥了?國防部長居然警告中國,而且一共有三點內容

印度是不是吃錯藥了?國防部長居然警告中國,而且一共有三點內容

近史閣
2025-06-05 17:58:01
韋東奕是否患有阿斯伯格綜合癥?愛因斯坦,陳景潤牛頓都被懷疑有

韋東奕是否患有阿斯伯格綜合癥?愛因斯坦,陳景潤牛頓都被懷疑有

鬼菜生活
2025-06-08 07:05:51
兒子考上清華后回頭看: 小學階段,真沒必要太早學奧數…

兒子考上清華后回頭看: 小學階段,真沒必要太早學奧數…

書中自有顏如玉
2025-06-08 15:59:48
電話白打了,剛給特朗普稀土,扭頭就斷中國核電,專家:咱有后手

電話白打了,剛給特朗普稀土,扭頭就斷中國核電,專家:咱有后手

張鴘喜歡軟軟糯糯
2025-06-07 11:51:19
聯合國預測:中國人口迅速萎縮,可能成為全球面對的最大挑戰

聯合國預測:中國人口迅速萎縮,可能成為全球面對的最大挑戰

巢客HOME
2025-04-07 18:24:52
醫生:每天吃黃瓜的人,心臟病、中風、全因死亡率,比同齡人低?

醫生:每天吃黃瓜的人,心臟病、中風、全因死亡率,比同齡人低?

觀星賞月
2025-05-16 14:50:53
嘶啞的喉嚨、帶血的手、開不了口的人,高考全國作文想表達什么?

嘶啞的喉嚨、帶血的手、開不了口的人,高考全國作文想表達什么?

特特農村生活
2025-06-08 01:21:50
震驚:美的170萬臺空調在北美被召回

震驚:美的170萬臺空調在北美被召回

融匯棟藍科技
2025-06-07 10:02:50
沒想到,你這么大了!

沒想到,你這么大了!

文刀萬
2025-06-03 17:04:14
收手吧成龍!客串20分鐘當成主角宣傳,觀眾不買賬,票房僅251萬

收手吧成龍!客串20分鐘當成主角宣傳,觀眾不買賬,票房僅251萬

靠譜電影君
2025-06-08 17:11:12
1-0!印尼隊高興早了,贏中國隊也難進世界杯,遭西亞隊包圍

1-0!印尼隊高興早了,贏中國隊也難進世界杯,遭西亞隊包圍

何老師呀
2025-06-08 09:12:16
政治“低能兒”:普里戈任,以及馬斯克

政治“低能兒”:普里戈任,以及馬斯克

海濤評論
2025-06-06 22:08:07
韋神開通抖音號,被迫營業與外甥合照,全程一副敢怒不敢言的模樣

韋神開通抖音號,被迫營業與外甥合照,全程一副敢怒不敢言的模樣

大笑江湖史
2025-06-06 11:12:12
國足又鬧天大笑話!網傳主帥伊萬認不全球員,對印尼多次喊錯

國足又鬧天大笑話!網傳主帥伊萬認不全球員,對印尼多次喊錯

老雷的體育頻道
2025-06-08 22:14:29
淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

淚目、扎心:菏澤考生躺在人行道上午休,媽媽拿著扇子不停的扇

小人物看盡人間百態
2025-06-07 23:38:44
四川27歲男子跳橋墜亡:生前朋友圈曝光,妻子出軌,兒子不滿三歲

四川27歲男子跳橋墜亡:生前朋友圈曝光,妻子出軌,兒子不滿三歲

娜烏和西卡
2025-06-07 12:08:58
窮人的富養是帶孩子到處旅游,增長了欲望;富人的富養竟是......

窮人的富養是帶孩子到處旅游,增長了欲望;富人的富養竟是......

霹靂炮
2025-06-06 22:31:58
2025-06-08 23:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176164關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

頭條要聞

85后王寧成河南首富身家超1400億 23歲時創立泡泡瑪特

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

游戲
數碼
本地
教育
公開課

夢幻西游三屬性玉魄令開獎玩家自閉,這不是一張紙而是我來時的路

數碼要聞

技嘉推出AI TOP 500 TRX50臺式機,配備768GB內存 + RTX 5090

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

教育要聞

高考歷史,難上熱搜!題干多是文言文!網友:歷史給我道歉!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉兴市| 额济纳旗| 合山市| 股票| 明星| 东源县| 彩票| 新营市| 黑水县| 昔阳县| 白城市| 惠来县| 永兴县| 麻城市| 京山县| 蕉岭县| 开平市| 龙州县| 彭泽县| 绿春县| 仁寿县| 蕉岭县| 常山县| 梨树县| 枣强县| 乳源| 得荣县| 宁远县| 运城市| 永德县| 张家界市| 汕头市| 黎城县| 霍城县| 德江县| 许昌县| 奉化市| 墨江| 惠水县| 遂川县| 张家口市|