99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<wbr id="ozcsb"><var id="ozcsb"></var></wbr>

<wbr id="ozcsb"><fieldset id="ozcsb"></fieldset></wbr>

<abbr id="ozcsb"></abbr>

<pre id="ozcsb"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek們越來越聰明，卻也越來越不聽話了。

2025-05-20 09:06:08　來源: 數字生命卡茲克

天津舉報

0

分享至

　　在今年，DeepSeek R1火了之后。

　　幾乎快形成了一個共識，就是：

　　 AI推理能力越強，執行任務時就應該越聰明。

　　從2022年Chain-of-Thought橫空出世，到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3，這些旗艦模型的統治性表現，我們一直相信，讓模型先想一想，是一個幾乎不會出錯的策略。

　　不過，這種聰明，也會帶來一些副作用。

　　 就是提示詞遵循能力，變得越來越差。

　　 換句話說，就是越來越不聽你的話了。

　　我在過年期間寫DeepSeek的攻略文：的時候，也提到了這一點。

　　不過，這只是我自己使用中的感覺，它變的越來越聰明，但是感覺，卻越來越不聽話了，以至于我現在，最常用的模型，開始越來越變成了GPT4o，所有的推理模型，反而會用的越來越少了。

　　不過，確實沒有經歷過驗證，所以也不是特別敢說。

　　直到昨晚回來，在扒拉論文的時候，看到一篇提到這個話題的論文，我讀完以后，我覺得，終于可以來聊聊這個事了。

　　這篇論文叫，《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》

　　網址在此： https://arxiv.org/abs/2505.11423

　　

　　它用用極其扎實的實驗，驗證了上述的論點。

　　 當你讓模型開始推理，它反而更容易違反你給出的指令。

　　是的， 當思考失敗，這聰明的智商，反而就變成了負擔。

　　 我盡量用人話，來給大家簡單的科普一下論文中的實驗和內容，再說說我的理解。

　　 先說論文本身。

　　論文的研究團隊來自Harvard、Amazon和NYU，他們花了好幾個月，干了一件特別簡單卻沒人認真做過的事，就是把這個思考過程應用在一個最基礎、最現實、最需要穩定性的場景上：

　　 聽懂人類指令，然后照做。

　　 他們做了兩組測試。

　　第一組叫IFEval，一個標準的執行類任務測試集，每個任務都非常簡單。

　　比如“寫400字以上”“必須提到AI三次”“輸出格式必須是JSON”“句末不能有標點”等等。

　　所有的任務都有明確的可驗證標準，要么做對要么做錯，沒有模糊地帶。

　　第二組叫ComplexBench，這就更有趣了，是那種“多約束、邏輯組合、順序嵌套”的復雜指令，比如“先做A中的三選一，再加上B的格式要求，最后加上C的語言限制”。

　　聽起來好像推理模型在這種任務上應該更有優勢？畢竟這不是隨便一兩句話就能糊弄過去的內容。

　　然而，論文的結論驚人又統一：絕大多數模型在使用CoT推理后，執行準確率反而下降了。而且，下降得還不輕。

　　 他們一共測了15個模型，涵蓋開源的（比如LLaMA、Mixtral、Qwen2.5、DeepSeek系列）和閉源的（GPT-4o-mini、Claude 3.5/3.7等等）。

　　 在IFEval上，14個模型中有13個使用CoT時準確率變低；在ComplexBench上，所有模型都在使用CoT后，表現變差。

　　

　　 甚至連像 LLaMA-3-70B-Instruct 這種參數量較大、訓練完整的模型，在使用CoT時也會從85.6%的準確率掉到77.3%。

　　 8個點的損失，在工業級任務里其實非常恐怖了。

　　 還有推理模型模型開不開推理的對比，典型的就是DeeSeek V3和R1，還有Claude 3.7這種混合模型。

　　

　　 會發現，幾乎都有下降。

　　 他們手工扒拉了1500多個樣本，看了所有的思維鏈，總結出來了原因。

　　他們發現，當模型用了思維鏈條之后，它確實變聰明了，比如能更好地遵守格式、注意字數、精確用詞，像是“必須用15個大寫字母”這種題，靠CoT反而更穩。

　　

　　但，它也變得神經質了。

　　它開始自作主張，覺得自己懂了任務的深層含義，于是它會擅自刪掉、修改，甚至加上有幫助的解釋。

　　論文里提到很多模型會在“只允許輸出法語”的題目中，善意地補上一句“這是‘Bonjour’的英文翻譯”，在“只能輸出引號內容”的任務里，自動補充前情摘要。

　　它太想表現自己了，太想證明我真的理解你了，于是它忘了本該嚴格遵守的指令。這就是它學會推理之后的副作用。

　　 為了找出這個副作用的根源，他們引入了一個新概念：

　　 約束注意力（Constraint Attention）。

　　他們發現，不管是GPT-4o-mini，還是Claude 3.7，幾乎所有模型在用了CoT思維鏈后，它們的注意力，也就是在生成答案時，關注任務描述中“關鍵限制”的那部分注意力，明顯下降。

　　 你可以理解為，當你要求一個人邊想邊說，他反而忘了原本你只要他復述句子的簡單目標。

　　

　　 更有趣的是，他們還測了一個我一直想知道的問題的答案：

　　 就是CoT思考越長，準確率越高嗎？

　　 結果是，幾乎沒有顯著相關性。

　　 思考長度和是否做對，幾乎沒有直接聯系。

　　 也就是說，更努力≠更對。

　　 所以，其實結論很簡單，就是在要求非常規范、精準的大模型輸出任務上，完全不需要使用推理模型或者思維鏈，直接上非推理模型，效果會更好。

　　但是，如果，就是非要用，希望提升整體指令遵循效果呢？

　　 他們也基于自己的測試，給出了4種方案。

　　第一種，是“Few-Shot少樣本示例”。

　　給模型提前看幾個做對的例子。

　　效果一般般，問題在于輸入太長，而且示例選自已有模型，容易有偏。

　　第二種，是“Self-Reflection 自我反思”。

　　模型第一次輸出之后，再自己復查一遍，“你剛才做對了嗎？”然后再決定是否修改。

　　這招對大模型效果很好，因為它們確實能自省，但小模型效果慘不忍睹，因為它們智力不夠，就像個不知錯的小孩，越反思越錯。

　　第三種，是“Self-Selective Reasoning”。讓模型自己判斷這個任務是否需要推理。

　　結果是：它召回率很高，基本上只要推理有用它都能猜出來，但精確度很低，一言不合就開始推理，哪怕你只是讓它改個詞。

　　第四種是最有效的，“Classifier-Selective Reasoning”。

　　直接訓練一個小模型作為判斷器，來幫主模型判斷某個任務是否該啟用CoT。

　　效果顯著，在兩個測試集上幾乎都能恢復失去的準確率，甚至有些模型比原始還高。

　　缺點就是每個主模型都要單獨訓練一個判斷器，成本太高。。。

　　這篇論文大概就是這樣，對我自己非常有幫助，我看的論文不多，這篇是我自己看的，我認為對“CoT推理在執行任務中的潛在副作用”這個話題，比較完整的研究之一。

　　同時，我也想聊聊，這篇論文對我的啟示。

　　我們總覺得，聰明，就意味著知道得多、分析得細、每個變量都不放過.

　　但事實上，真正強大的智能，從來都不是把所有細節一股腦地掃過一遍，而是，知道在哪一秒鐘，把注意力放在哪個點上。

　　比如我們小時候考試，很多人因為太想得高分，最后反而在最簡單的題上丟分。

　　成年人做選擇，明明已經知道該怎么做了，卻非得做個SWOT分析表、拉個10頁PPT討論，最后被復雜困死。

　　公司做決策，明明方向明確，卻因為分析得太多、風險評估太細，最后團隊誰也不敢拍板，錯過風口。

　　AI其實跟人很像。

　　上面很多CoT的驗證，還有Constraint Attention，其實也證明了，大模型不是笨，而是思維資源錯配了。

　　你讓它完成任務，它卻跑去想著“怎么把這段話說得更優雅”、“這句話需不需要加個邏輯轉折”、“前后是不是夠自然”。

　　你讓它干活，它在腦子里腦補了幾萬種情節。

　　但是，真正牛逼的智能，其實應該是聚焦。

　　比如你叫一個人幫你看一下一份報告有沒有錯，一個低階執行者可能就只會一句句校對標點。

　　而一個高階智能，可能會反過來先問你，“你重點是要我看錯字，還是看數據邏輯？”

　　你說清楚重點，他就能把80%的注意力鎖死在正確位置。

　　而如果他啥都想看一點，最后很可能錯得最離譜。

　　我們真正需要的，可能，是對“該想什么”有判斷能力的智能。

　　就像我們人類那些最令人敬畏的時刻，不是我們知道多少，而是我們能瞬間把注意力聚焦在關鍵節點上。

　　危機時刻，考場鐘響，夜深人靜一個念頭浮上心頭的時候，你知道的，你不能全看，你只能看準。

　　那個“看準”，在我看來，可能就是智能真正的體現。

　　這一點，看似簡單，卻足夠讓AI從“聰明”，變成“智能”。

　　這就是我讀完論文之后，真正想跟大家分享的東西。

　　我們不缺思考的能力，我們缺的，是思考的分寸感。

　　注意力，不是撒網。

　　而是出擊。

　　>/ 作者：卡茲克

　　>/ 投稿或爆料，請聯系郵箱：wzglyay@virxact.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

質疑DeepSeek-R1、Claude Thinking不會推理！蘋果爭議論文翻車？

機器之心Pro 2025-06-09 15:10:27
36 跟貼 36
阿里又投了家清華系AI創企！曾暴吸DeepSeek流量

智東西 2025-06-09 18:17:46
2 跟貼 2

AI瘋狂進化6個月，一張天梯圖全濃縮！30+模型混戰，大神演講爆火

新智元 2025-06-09 12:49:09
0 跟貼 0

機器人竟能讀懂人類心聲，準確率高達90%

DeepTech深科技 2025-04-28 18:29:13
0 跟貼 0
微軟3名員工被曝因全球大裁員自殺，AI導致“人工智殘”或影響就業和社會秩序

鈦媒體APP 2025-06-09 20:57:17
1 跟貼 1

【產業互聯網周報】英偉達首席科學家：美禁令導致人才都去了華為；機構：特定領域GenAI占比2030年將達50%；英偉達市值兩個月攀升萬億美元

鈦媒體APP 2025-06-09 17:24:09
2 跟貼 2

愛立信：AI成功并非一朝一夕，需秉持長期主義思維

通信世界 2025-06-09 14:14:36
0 跟貼 0
WWDC前夕，蘋果論文“炮轟”AI推理模型“假思考”，測試方法遭質疑

每日經濟新聞 2025-06-09 19:11:09
2 跟貼 2

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
AGI最后拼圖，一文看懂什么是強化學習？其護城河是什么？

華爾街見聞官方 2025-06-09 18:45:27
1 跟貼 1
哈佛團隊發現多巴胺能神經元新機制，或是突破AI瓶頸的鑰匙

DeepTech深科技 2025-06-08 22:16:25
33 跟貼 33
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
紅帽開源IIm-d大模型社區，原生支持AI Agent，高管暢談AI開源與安全

智東西 2025-06-09 19:42:21
0 跟貼 0
DeepSeek引爆AI革命，國際三大云廠商誰能笑到最后？

量子位 2025-03-11 17:09:07
0 跟貼 0
DeepSeek應用如何落地？解鎖“性能x多模態xRAG”技術組合密碼！

量子位 2025-03-07 22:29:18
0 跟貼 0
DeepSeek應用如何落地？解鎖性能釋放x多模態融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
跑龍套的演員被騙去演殺手，當翻譯笑不活了

小懶人影視 2025-06-08 01:10:23
2 跟貼 2
爆笑翻譯：臺灣的劇名翻譯也太腦洞大開了吧！

多巴安工作室 2025-06-07 11:20:00
36 跟貼 36
老外看中國，各地城市夜景，海外評論翻譯

重在街上拍 2025-06-08 13:55:39
3 跟貼 3
蘋果分析R1遇到復雜度閾值后準確率崩潰問題，Gary Marcus聲援

DeepTech深科技 2025-06-09 21:03:18
0 跟貼 0
擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0
我在蘇聯當翻譯【硬核狠人86】

小約翰可汗 2025-06-09 12:48:07
0 跟貼 0
紐約挖烏杜卡啥邏輯？尼克斯能否把他換來？

籃視角 2025-06-06 23:41:26
9 跟貼 9
給黑社會做翻譯到底有多要命

三有追劇 2025-06-06 08:30:56
1 跟貼 1
如何正確解讀爸爸的話，小棉襖一翻譯，讓爸爸露出真面目！

搞笑的肥仔 2025-06-05 18:45:20
1 跟貼 1
趙勇選人策略的得與失：王夢潔、李盈瑩的價值與副攻短板

飄逸的云朵 2025-06-08 23:08:31
4 跟貼 4
數學圈地震！o3靠直覺刷爆人類頂尖難題，14位專家集體破防

新智元 2025-06-09 20:00:02
2 跟貼 2
牛彈琴：美國爆發激烈"內戰" 警察當街向抗議人群開槍

上觀新聞 2025-06-09 07:59:26
13642 跟貼 13642
2025高考作文題目出爐，資陽一老師做夢夢到作文題目“我給學生講了的”

營天下 2025-06-07 17:20:09
20 跟貼 20
談判的時候需要一位翻譯

阿缸追劇 2025-06-06 08:30:59
1 跟貼 1
貴陽市委書記專題部署DeepSeek應用

政知新媒體 2025-06-09 21:14:56
0 跟貼 0
火車經山西一隧道時吸入煤灰乘客變“煤蛋蛋”，鐵路部門：將加強粉塵整治

極目新聞 2025-06-08 21:49:31
10612 跟貼 10612
各大期刊雜志的 WB 投稿要求，你遲早用的上

生物學霸 2025-06-09 18:14:36
0 跟貼 0
盧克文質疑巴鐵娶妻異味，Deepseek如何看待？

兩兄弟養牛 2025-06-09 18:02:33
2 跟貼 2
無需SFT也不用RL，樣本級推理優化神器SLOT來了，準確率輕松+10%

機器之心Pro 2025-06-09 19:45:07
1 跟貼 1
中國話最考驗翻譯的能力

亮亮影視君 2025-06-08 07:40:03
0 跟貼 0
NBA籃球隊的英文名翻譯成中文都有什么內涵呢

茅塞盾開本尊 2025-06-09 21:29:28
6 跟貼 6
蒙古國"第三鄰國"夢碎！韓國政局大逆轉，印巴戰爭揭開博弈邏輯

老喬嘚吧嘚 2025-06-07 17:43:53
0 跟貼 0
全體法律人請做好隨時失業的準備！

律新文化 2025-06-09 22:06:00
0 跟貼 0
手機的同聲翻譯，面對面翻譯功能太厲害，和外國友人也能自由聊天

一品v 2025-06-08 14:49:29
0 跟貼 0

傳奇收官！日本AV女王天使萌將在6月12日正式引退

傳奇收官！日本AV女王天使萌將在6月12日正式引退

隨波蕩漾的漂流瓶

2025-06-09 18:42:04

馬筱梅回應，玥兒補習班嫌貴事件！是一小時2000！不是一天！

馬筱梅回應，玥兒補習班嫌貴事件！是一小時2000！不是一天！

鑫鑫說說

2025-06-09 09:16:54

緊急情況來了！重磅利好，3500點就是在明天？

緊急情況來了！重磅利好，3500點就是在明天？

星霞生活

2025-06-09 16:12:26

潘偉力：伊萬團隊太緊張，換人沒通過中方教練，所以認錯了人

潘偉力：伊萬團隊太緊張，換人沒通過中方教練，所以認錯了人

懂球帝

2025-06-09 19:53:10

悲催！網傳湖南一考生被取消成績，成績記0分，這個錯誤很容易犯

悲催！網傳湖南一考生被取消成績，成績記0分，這個錯誤很容易犯

火山詩話

2025-06-09 17:37:38

登記為70年產權，賣房時少40年，惠城：當年錄入錯誤

登記為70年產權，賣房時少40年，惠城：當年錄入錯誤

南方都市報

2025-06-09 20:22:10

為什么老一輩的人總是做無用的節約？網友：這是病，真的要治治哦

為什么老一輩的人總是做無用的節約？網友：這是病，真的要治治哦

解讀熱點事件

2025-06-09 00:10:03

馬斯克的“星鏈”衛星，突然大批墜落

馬斯克的“星鏈”衛星，突然大批墜落

FM93浙江交通之聲

2025-06-09 14:45:55

中國人，打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

中國人，打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

阿器談史

2025-06-09 07:40:17

世界發生了3件大事，全世界意識到：必須重新評估中國的實力

世界發生了3件大事，全世界意識到：必須重新評估中國的實力

獵火照狼山

2025-06-09 19:47:06

美國專家呼吁放棄烏克蘭，澤連斯基已失去理智，無法正確看待世界

美國專家呼吁放棄烏克蘭，澤連斯基已失去理智，無法正確看待世界

近史博覽

2025-06-08 19:33:24

烏軍突襲黑海的俄軍特種部隊基地！擊毀赫爾松軍船

烏軍突襲黑海的俄軍特種部隊基地！擊毀赫爾松軍船

項鵬飛

2025-06-09 21:19:06

江蘇“小馬爾代夫”發布公告：禁止游泳

江蘇“小馬爾代夫”發布公告：禁止游泳

現代快報

2025-06-09 19:06:12

誤會太深！直到體育總局發周繼紅免職，才懂郭晶晶那句話的含金量

誤會太深！直到體育總局發周繼紅免職，才懂郭晶晶那句話的含金量

削桐作琴

2025-03-28 22:13:55

南京一百年名校突發火情，及時撲滅未造成大的影響

南京一百年名校突發火情，及時撲滅未造成大的影響

大風新聞

2025-06-09 18:59:27

涉嫌嚴重違紀違法！重慶市石柱國有資產經營管理集團有限公司原黨委委員、監事會主席羅國晗被查

涉嫌嚴重違紀違法！重慶市石柱國有資產經營管理集團有限公司原黨委委員、監事會主席羅國晗被查

極目新聞

2025-06-09 14:35:29

張若昀唐藝昕帶女兒看海，小公主坐爸爸肩頭，一家三口好幸福

張若昀唐藝昕帶女兒看海，小公主坐爸爸肩頭，一家三口好幸福

偵探娛樂

2025-06-09 15:24:18

國防部：正告民進黨當局，美制武器救不了自己的命

國防部：正告民進黨當局，美制武器救不了自己的命

界面新聞

2025-06-09 15:42:39

爆炸性消息！輝瑞乳腺癌新藥即將上市，或開啟癌癥治療新篇章！

爆炸性消息！輝瑞乳腺癌新藥即將上市，或開啟癌癥治療新篇章！

徐德文科學頻道

2025-06-08 22:02:44

美國雙城淪陷！洛杉磯暴亂后，紐約街頭也炸了

美國雙城淪陷！洛杉磯暴亂后，紐約街頭也炸了

浪子的煙火人間

2025-06-09 14:18:47

數字生命卡茲克

反復橫跳于不同的AI領域，努力分享一些很酷的AI干貨

314文章數 419關注度

往期回顧全部

科技要聞

今年618平臺集體想通了，主打一個簡單粗暴

頭條要聞

退休刑警被返聘協助破大案以其為原型劇還沒播人被抓

頭條要聞

退休刑警被返聘協助破大案以其為原型劇還沒播人被抓

體育要聞

雷霆55號秀，NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣崴腳時被照顧打動

財經要聞

重磅級民生文件公布如何改變你我生活？

汽車要聞

首次搭載奧特能2.0平臺新別克E5即將煥新上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

數碼

家居

公開課

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

數碼要聞

希捷推出 4TB 容量 Xbox 存儲擴展卡，首發價 429 美元

家居要聞

簡約輕奢現代實用私宅

現代風格意式奢華空間
潔白奶油簡約舒適之家
空間維度通透復式結構

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：镇康县| 许昌县| 兰溪市| 常宁市| 木兰县| 丹凤县| 葫芦岛市| 朝阳县| 昆明市| 多伦县| 梁河县| 竹北市| 鄂尔多斯市| 定安县| 平南县| 年辖：市辖区| 夏津县| 三明市| 凤阳县| 常山县| 肥乡县| 两当县| 景泰县| 凤翔县| 陕西省| 黄骅市| 印江| 丁青县| 梅州市| 上犹县| 曲阳县| 清镇市| 光泽县| 崇文区| 易门县| 故城县| 美姑县| 河间市| 沅江市| 涟水县| 太保市|

<tr id="19au5"><fieldset id="19au5"></fieldset></tr>

<ol id="19au5"><source id="19au5"></source></ol>

<output id="19au5"><big id="19au5"></big></output>

<wbr id="19au5"><menu id="19au5"></menu></wbr>

<pre id="19au5"><big id="19au5"></big></pre>