99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek們越來越聰明,卻也越來越不聽話了。

0
分享至

   在今年,DeepSeek R1火了之后。

   幾乎快形成了一個共識,就是:

   AI推理能力越強,執行任務時就應該越聰明。

   從2022年Chain-of-Thought橫空出世,到今天Gemini 2.5 Pro、OpenAI o3、DeepSeek-R1、Qwen3,這些旗艦模型的統治性表現,我們一直相信,讓模型先想一想,是一個幾乎不會出錯的策略。

   不過,這種聰明,也會帶來一些副作用。

   就是提示詞遵循能力,變得越來越差。

   換句話說,就是越來越不聽你的話了。

   我在過年期間寫DeepSeek的攻略文:的時候,也提到了這一點。

   不過,這只是我自己使用中的感覺,它變的越來越聰明,但是感覺,卻越來越不聽話了,以至于我現在,最常用的模型,開始越來越變成了GPT4o,所有的推理模型,反而會用的越來越少了。

   不過,確實沒有經歷過驗證,所以也不是特別敢說。

   直到昨晚回來,在扒拉論文的時候,看到一篇提到這個話題的論文,我讀完以后,我覺得,終于可以來聊聊這個事了。

   這篇論文叫,《When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs》

   網址在此: https://arxiv.org/abs/2505.11423

  

   它用用極其扎實的實驗,驗證了上述的論點。

   當你讓模型開始推理,它反而更容易違反你給出的指令。

   是的, 當思考失敗,這聰明的智商,反而就變成了負擔。

   我盡量用人話,來給大家簡單的科普一下論文中的實驗和內容,再說說我的理解。

   先說論文本身。

   論文的研究團隊來自Harvard、Amazon和NYU,他們花了好幾個月,干了一件特別簡單卻沒人認真做過的事,就是把這個思考過程應用在一個最基礎、最現實、最需要穩定性的場景上:

   聽懂人類指令,然后照做。

   他們做了兩組測試。

  第一組叫IFEval,一個標準的執行類任務測試集,每個任務都非常簡單。

  比如“寫400字以上”“必須提到AI三次”“輸出格式必須是JSON”“句末不能有標點”等等。

  所有的任務都有明確的可驗證標準,要么做對要么做錯,沒有模糊地帶。

  第二組叫ComplexBench,這就更有趣了,是那種“多約束、邏輯組合、順序嵌套”的復雜指令,比如“先做A中的三選一,再加上B的格式要求,最后加上C的語言限制”。

  聽起來好像推理模型在這種任務上應該更有優勢?畢竟這不是隨便一兩句話就能糊弄過去的內容。

  然而,論文的結論驚人又統一:絕大多數模型在使用CoT推理后,執行準確率反而下降了。而且,下降得還不輕。

   他們一共測了15個模型,涵蓋開源的(比如LLaMA、Mixtral、Qwen2.5、DeepSeek系列)和閉源的(GPT-4o-mini、Claude 3.5/3.7等等)。

   在IFEval上,14個模型中有13個使用CoT時準確率變低;在ComplexBench上,所有模型都在使用CoT后,表現變差。

  

   甚至連像 LLaMA-3-70B-Instruct 這種參數量較大、訓練完整的模型,在使用CoT時也會從85.6%的準確率掉到77.3%。

   8個點的損失,在工業級任務里其實非常恐怖了。

   還有推理模型模型開不開推理的對比,典型的就是DeeSeek V3和R1,還有Claude 3.7這種混合模型。

  

   會發現,幾乎都有下降。

   他們手工扒拉了1500多個樣本,看了所有的思維鏈,總結出來了原因。

  他們發現,當模型用了思維鏈條之后,它確實變聰明了,比如能更好地遵守格式、注意字數、精確用詞,像是“必須用15個大寫字母”這種題,靠CoT反而更穩。

  

  但,它也變得神經質了。

  它開始自作主張,覺得自己懂了任務的深層含義,于是它會擅自刪掉、修改,甚至加上有幫助的解釋。

  論文里提到很多模型會在“只允許輸出法語”的題目中,善意地補上一句“這是‘Bonjour’的英文翻譯”,在“只能輸出引號內容”的任務里,自動補充前情摘要。

  它太想表現自己了,太想證明我真的理解你了,于是它忘了本該嚴格遵守的指令。這就是它學會推理之后的副作用。

   為了找出這個副作用的根源,他們引入了一個新概念:

   約束注意力(Constraint Attention)。

   他們發現,不管是GPT-4o-mini,還是Claude 3.7,幾乎所有模型在用了CoT思維鏈后,它們的注意力,也就是在生成答案時,關注任務描述中“關鍵限制”的那部分注意力,明顯下降。

   你可以理解為,當你要求一個人邊想邊說,他反而忘了原本你只要他復述句子的簡單目標。

  

   更有趣的是,他們還測了一個我一直想知道的問題的答案:

   就是CoT思考越長,準確率越高嗎?

   結果是,幾乎沒有顯著相關性。

   思考長度和是否做對,幾乎沒有直接聯系。

   也就是說,更努力≠更對。

   所以,其實結論很簡單,就是在要求非常規范、精準的大模型輸出任務上,完全不需要使用推理模型或者思維鏈,直接上非推理模型,效果會更好。

   但是,如果,就是非要用,希望提升整體指令遵循效果呢?

   他們也基于自己的測試,給出了4種方案。

  第一種,是“Few-Shot少樣本示例”。

  給模型提前看幾個做對的例子。

  效果一般般,問題在于輸入太長,而且示例選自已有模型,容易有偏。

  第二種,是“Self-Reflection 自我反思”。

  模型第一次輸出之后,再自己復查一遍,“你剛才做對了嗎?”然后再決定是否修改。

  這招對大模型效果很好,因為它們確實能自省,但小模型效果慘不忍睹,因為它們智力不夠,就像個不知錯的小孩,越反思越錯。

  第三種,是“Self-Selective Reasoning”。讓模型自己判斷這個任務是否需要推理。

  結果是:它召回率很高,基本上只要推理有用它都能猜出來,但精確度很低,一言不合就開始推理,哪怕你只是讓它改個詞。

  第四種是最有效的,“Classifier-Selective Reasoning”。

  直接訓練一個小模型作為判斷器,來幫主模型判斷某個任務是否該啟用CoT。

  效果顯著,在兩個測試集上幾乎都能恢復失去的準確率,甚至有些模型比原始還高。

  缺點就是每個主模型都要單獨訓練一個判斷器,成本太高。。。

  這篇論文大概就是這樣,對我自己非常有幫助,我看的論文不多,這篇是我自己看的,我認為對“CoT推理在執行任務中的潛在副作用”這個話題,比較完整的研究之一。

  同時,我也想聊聊,這篇論文對我的啟示。

  我們總覺得,聰明,就意味著知道得多、分析得細、每個變量都不放過.

  但事實上,真正強大的智能,從來都不是把所有細節一股腦地掃過一遍,而是,知道在哪一秒鐘,把注意力放在哪個點上

  比如我們小時候考試,很多人因為太想得高分,最后反而在最簡單的題上丟分。

  成年人做選擇,明明已經知道該怎么做了,卻非得做個SWOT分析表、拉個10頁PPT討論,最后被復雜困死。

  公司做決策,明明方向明確,卻因為分析得太多、風險評估太細,最后團隊誰也不敢拍板,錯過風口。

  AI其實跟人很像。

  上面很多CoT的驗證,還有Constraint Attention,其實也證明了,大模型不是笨,而是思維資源錯配了

  你讓它完成任務,它卻跑去想著“怎么把這段話說得更優雅”、“這句話需不需要加個邏輯轉折”、“前后是不是夠自然”。

  你讓它干活,它在腦子里腦補了幾萬種情節。

  但是,真正牛逼的智能,其實應該是聚焦。

  比如你叫一個人幫你看一下一份報告有沒有錯,一個低階執行者可能就只會一句句校對標點。

  而一個高階智能,可能會反過來先問你,“你重點是要我看錯字,還是看數據邏輯?”

  你說清楚重點,他就能把80%的注意力鎖死在正確位置。

  而如果他啥都想看一點,最后很可能錯得最離譜。

  我們真正需要的,可能,是對“該想什么”有判斷能力的智能

  就像我們人類那些最令人敬畏的時刻,不是我們知道多少,而是我們能瞬間把注意力聚焦在關鍵節點上。

  危機時刻,考場鐘響,夜深人靜一個念頭浮上心頭的時候,你知道的,你不能全看,你只能看準。

  那個“看準”,在我看來,可能就是智能真正的體現。

  這一點,看似簡單,卻足夠讓AI從“聰明”,變成“智能”。

  這就是我讀完論文之后,真正想跟大家分享的東西。

  我們不缺思考的能力,我們缺的,是思考的分寸感。

  注意力,不是撒網。

  而是出擊。

  >/ 作者:卡茲克

  >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
傳奇收官!日本AV女王天使萌將在6月12日正式引退

傳奇收官!日本AV女王天使萌將在6月12日正式引退

隨波蕩漾的漂流瓶
2025-06-09 18:42:04
馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

馬筱梅回應,玥兒補習班嫌貴事件!是一小時2000!不是一天!

鑫鑫說說
2025-06-09 09:16:54
緊急情況來了!重磅利好,3500點就是在明天?

緊急情況來了!重磅利好,3500點就是在明天?

星霞生活
2025-06-09 16:12:26
潘偉力:伊萬團隊太緊張,換人沒通過中方教練,所以認錯了人

潘偉力:伊萬團隊太緊張,換人沒通過中方教練,所以認錯了人

懂球帝
2025-06-09 19:53:10
悲催!網傳湖南一考生被取消成績,成績記0分,這個錯誤很容易犯

悲催!網傳湖南一考生被取消成績,成績記0分,這個錯誤很容易犯

火山詩話
2025-06-09 17:37:38
登記為70年產權,賣房時少40年,惠城:當年錄入錯誤

登記為70年產權,賣房時少40年,惠城:當年錄入錯誤

南方都市報
2025-06-09 20:22:10
為什么老一輩的人總是做無用的節約?網友:這是病,真的要治治哦

為什么老一輩的人總是做無用的節約?網友:這是病,真的要治治哦

解讀熱點事件
2025-06-09 00:10:03
馬斯克的“星鏈”衛星,突然大批墜落

馬斯克的“星鏈”衛星,突然大批墜落

FM93浙江交通之聲
2025-06-09 14:45:55
中國人,打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

中國人,打起百倍精神盯緊這個比非洲鬣狗還要殘忍百倍的國家

阿器談史
2025-06-09 07:40:17
世界發生了3件大事,全世界意識到:必須重新評估中國的實力

世界發生了3件大事,全世界意識到:必須重新評估中國的實力

獵火照狼山
2025-06-09 19:47:06
美國專家呼吁放棄烏克蘭,澤連斯基已失去理智,無法正確看待世界

美國專家呼吁放棄烏克蘭,澤連斯基已失去理智,無法正確看待世界

近史博覽
2025-06-08 19:33:24
烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

烏軍突襲黑海的俄軍特種部隊基地!擊毀赫爾松軍船

項鵬飛
2025-06-09 21:19:06
江蘇“小馬爾代夫”發布公告:禁止游泳

江蘇“小馬爾代夫”發布公告:禁止游泳

現代快報
2025-06-09 19:06:12
誤會太深!直到體育總局發周繼紅免職,才懂郭晶晶那句話的含金量

誤會太深!直到體育總局發周繼紅免職,才懂郭晶晶那句話的含金量

削桐作琴
2025-03-28 22:13:55
南京一百年名校突發火情,及時撲滅未造成大的影響

南京一百年名校突發火情,及時撲滅未造成大的影響

大風新聞
2025-06-09 18:59:27
涉嫌嚴重違紀違法!重慶市石柱國有資產經營管理集團有限公司原黨委委員、監事會主席羅國晗被查

涉嫌嚴重違紀違法!重慶市石柱國有資產經營管理集團有限公司原黨委委員、監事會主席羅國晗被查

極目新聞
2025-06-09 14:35:29
張若昀唐藝昕帶女兒看海,小公主坐爸爸肩頭,一家三口好幸福

張若昀唐藝昕帶女兒看海,小公主坐爸爸肩頭,一家三口好幸福

偵探娛樂
2025-06-09 15:24:18
國防部:正告民進黨當局,美制武器救不了自己的命

國防部:正告民進黨當局,美制武器救不了自己的命

界面新聞
2025-06-09 15:42:39
爆炸性消息!輝瑞乳腺癌新藥即將上市,或開啟癌癥治療新篇章!

爆炸性消息!輝瑞乳腺癌新藥即將上市,或開啟癌癥治療新篇章!

徐德文科學頻道
2025-06-08 22:02:44
美國雙城淪陷!洛杉磯暴亂后,紐約街頭也炸了

美國雙城淪陷!洛杉磯暴亂后,紐約街頭也炸了

浪子的煙火人間
2025-06-09 14:18:47
2025-06-09 23:04:49
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
314文章數 419關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

頭條要聞

退休刑警被返聘協助破大案 以其為原型劇還沒播人被抓

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

旅游
藝術
數碼
家居
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

希捷推出 4TB 容量 Xbox 存儲擴展卡,首發價 429 美元

家居要聞

簡約輕奢 現代實用私宅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 勃利县| 阿荣旗| 井冈山市| 马龙县| 葫芦岛市| 广饶县| 安平县| 景德镇市| 和田市| 论坛| 刚察县| 东乡| 台北县| 盐山县| 凉城县| 兴隆县| 康保县| 旅游| 周至县| 兰州市| 白河县| 桐梓县| 江安县| 巩义市| 澄江县| 东平县| 凌海市| 内丘县| 基隆市| 福泉市| 响水县| 交城县| 来宾市| 庐江县| 寿阳县| 东安县| 勃利县| 西充县| 惠安县| 东城区| 乐陵市|