在今年,DeepSeek R1火了之后。
幾乎快形成了一個共識,就是:
AI推理能力越強,執行任務時就應該越聰明。
從2022年Chain-of-Thought橫空出世,到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,這些旗艦模型的統治性表現,我們一直相信,讓模型先想一想,是一個幾乎不會出錯的策略。
不過,這種聰明,也會帶來一些副作用。
就是提示詞遵循能力,變得越來越差。
換句話說,就是越來越不聽你的話了。
我在過年期間寫DeepSeek的攻略文:的時候,也提到了這一點。
不過,這只是我自己使用中的感覺,它變的越來越聰明,但是感覺,卻越來越不聽話了,以至于我現在,最常用的模型,開始越來越變成了GPT4o,所有的推理模型,反而會用的越來越少了。
不過,確實沒有經歷過驗證,所以也不是特別敢說。
直到昨晚回來,在扒拉論文的時候,看到一篇提到這個話題的論文,我讀完以后,我覺得,終于可以來聊聊這個事了。
這篇論文叫,《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》
網址在此: https://arxiv.org/abs/2505.11423
它用用極其扎實的實驗,驗證了上述的論點。
當你讓模型開始推理,它反而更容易違反你給出的指令。
是的, 當思考失敗,這聰明的智商,反而就變成了負擔。
我盡量用人話,來給大家簡單的科普一下論文中的實驗和內容,再說說我的理解。
先說論文本身。
論文的研究團隊來自Harvard、Amazon和NYU,他們花了好幾個月,干了一件特別簡單卻沒人認真做過的事,就是把這個思考過程應用在一個最基礎、最現實、最需要穩定性的場景上:
聽懂人類指令,然后照做。
他們做了兩組測試。
第一組叫IFEval,一個標準的執行類任務測試集,每個任務都非常簡單。
比如“寫400字以上”“必須提到AI三次”“輸出格式必須是JSON”“句末不能有標點”等等。
所有的任務都有明確的可驗證標準,要么做對要么做錯,沒有模糊地帶。
第二組叫ComplexBench,這就更有趣了,是那種“多約束、邏輯組合、順序嵌套”的復雜指令,比如“先做A中的三選一,再加上B的格式要求,最后加上C的語言限制”。
聽起來好像推理模型在這種任務上應該更有優勢?畢竟這不是隨便一兩句話就能糊弄過去的內容。
然而,論文的結論驚人又統一:絕大多數模型在使用CoT推理后,執行準確率反而下降了。而且,下降得還不輕。
他們一共測了15個模型,涵蓋開源的(比如LLaMA、Mixtral、Qwen2.5、DeepSeek系列)和閉源的(GPT-4o-mini、Claude 3.5/3.7等等)。
在IFEval上,14個模型中有13個使用CoT時準確率變低;在ComplexBench上,所有模型都在使用CoT后,表現變差。
甚至連像 LLaMA-3-70B-Instruct 這種參數量較大、訓練完整的模型,在使用CoT時也會從85.6%的準確率掉到77.3%。
8個點的損失,在工業級任務里其實非常恐怖了。
還有推理模型模型開不開推理的對比,典型的就是DeeSeek V3和R1,還有Claude 3.7這種混合模型。
會發現,幾乎都有下降。
他們手工扒拉了1500多個樣本,看了所有的思維鏈,總結出來了原因。
他們發現,當模型用了思維鏈條之后,它確實變聰明了,比如能更好地遵守格式、注意字數、精確用詞,像是“必須用15個大寫字母”這種題,靠CoT反而更穩。
但,它也變得神經質了。
它開始自作主張,覺得自己懂了任務的深層含義,于是它會擅自刪掉、修改,甚至加上有幫助的解釋。
論文里提到很多模型會在“只允許輸出法語”的題目中,善意地補上一句“這是‘Bonjour’的英文翻譯”,在“只能輸出引號內容”的任務里,自動補充前情摘要。
它太想表現自己了,太想證明我真的理解你了,于是它忘了本該嚴格遵守的指令。這就是它學會推理之后的副作用。
為了找出這個副作用的根源,他們引入了一個新概念:
約束注意力(Constraint Attention)。
他們發現,不管是GPT-4o-mini,還是Claude 3.7,幾乎所有模型在用了CoT思維鏈后,它們的注意力,也就是在生成答案時,關注任務描述中“關鍵限制”的那部分注意力,明顯下降。
你可以理解為,當你要求一個人邊想邊說,他反而忘了原本你只要他復述句子的簡單目標。
更有趣的是,他們還測了一個我一直想知道的問題的答案:
就是CoT思考越長,準確率越高嗎?
結果是,幾乎沒有顯著相關性。
思考長度和是否做對,幾乎沒有直接聯系。
也就是說,更努力≠更對。
所以,其實結論很簡單,就是在要求非常規范、精準的大模型輸出任務上,完全不需要使用推理模型或者思維鏈,直接上非推理模型,效果會更好。
但是,如果,就是非要用,希望提升整體指令遵循效果呢?
他們也基于自己的測試,給出了4種方案。
第一種,是“Few-Shot少樣本示例”。
給模型提前看幾個做對的例子。
效果一般般,問題在于輸入太長,而且示例選自已有模型,容易有偏。
第二種,是“Self-Reflection 自我反思”。
模型第一次輸出之后,再自己復查一遍,“你剛才做對了嗎?”然后再決定是否修改。
這招對大模型效果很好,因為它們確實能自省,但小模型效果慘不忍睹,因為它們智力不夠,就像個不知錯的小孩,越反思越錯。
第三種,是“Self-Selective Reasoning”。讓模型自己判斷這個任務是否需要推理。
結果是:它召回率很高,基本上只要推理有用它都能猜出來,但精確度很低,一言不合就開始推理,哪怕你只是讓它改個詞。
第四種是最有效的,“Classifier-Selective Reasoning”。
直接訓練一個小模型作為判斷器,來幫主模型判斷某個任務是否該啟用CoT。
效果顯著,在兩個測試集上幾乎都能恢復失去的準確率,甚至有些模型比原始還高。
缺點就是每個主模型都要單獨訓練一個判斷器,成本太高。。。
這篇論文大概就是這樣,對我自己非常有幫助,我看的論文不多,這篇是我自己看的,我認為對“CoT推理在執行任務中的潛在副作用”這個話題,比較完整的研究之一。
同時,我也想聊聊,這篇論文對我的啟示。
我們總覺得,聰明,就意味著知道得多、分析得細、每個變量都不放過.
但事實上,真正強大的智能,從來都不是把所有細節一股腦地掃過一遍,而是,知道在哪一秒鐘,把注意力放在哪個點上。
比如我們小時候考試,很多人因為太想得高分,最后反而在最簡單的題上丟分。
成年人做選擇,明明已經知道該怎么做了,卻非得做個SWOT分析表、拉個10頁PPT討論,最后被復雜困死。
公司做決策,明明方向明確,卻因為分析得太多、風險評估太細,最后團隊誰也不敢拍板,錯過風口。
AI其實跟人很像。
上面很多CoT的驗證,還有Constraint Attention,其實也證明了,大模型不是笨,而是思維資源錯配了。
你讓它完成任務,它卻跑去想著“怎么把這段話說得更優雅”、“這句話需不需要加個邏輯轉折”、“前后是不是夠自然”。
你讓它干活,它在腦子里腦補了幾萬種情節。
但是,真正牛逼的智能,其實應該是聚焦。
比如你叫一個人幫你看一下一份報告有沒有錯,一個低階執行者可能就只會一句句校對標點。
而一個高階智能,可能會反過來先問你,“你重點是要我看錯字,還是看數據邏輯?”
你說清楚重點,他就能把80%的注意力鎖死在正確位置。
而如果他啥都想看一點,最后很可能錯得最離譜。
我們真正需要的,可能,是對“該想什么”有判斷能力的智能。
就像我們人類那些最令人敬畏的時刻,不是我們知道多少,而是我們能瞬間把注意力聚焦在關鍵節點上。
危機時刻,考場鐘響,夜深人靜一個念頭浮上心頭的時候,你知道的,你不能全看,你只能看準。
那個“看準”,在我看來,可能就是智能真正的體現。
這一點,看似簡單,卻足夠讓AI從“聰明”,變成“智能”。
這就是我讀完論文之后,真正想跟大家分享的東西。
我們不缺思考的能力,我們缺的,是思考的分寸感。
注意力,不是撒網。
而是出擊。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.