99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推理AI致命弱點,大模型變「杠精」!被帶偏后死不悔改

0
分享至


新智元報道

編輯:peter東 英智

【新智元導(dǎo)讀】DeepMind新研究揭示了當(dāng)與推理無關(guān)的想法,被直接注入到模型的推理過程中時,它們卻難以恢復(fù),而且越大的模型越難恢復(fù)。一旦被無關(guān)或錯誤信息干擾,大模型可能變成固執(zhí)杠精,連糾正提示都救不回!

20世紀(jì)初,據(jù)說存在一匹會算數(shù)的馬,被稱為「聰明的漢斯」,但經(jīng)過心理學(xué)家馮斯特的研究,最終發(fā)現(xiàn)這匹馬其實是通過觀察提問者無意識的肢體語言(如呼吸變化)來停止踩蹄,并非真正理解數(shù)學(xué)。

如今,我們發(fā)現(xiàn),大模型會呈現(xiàn)出推理行為,甚至還存在Aha時刻這樣的「頓悟現(xiàn)象」。

這會不會是大模型表現(xiàn)的如同「聰明的漢斯」那樣,依賴提示詞中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人擔(dān)憂的一面。


論文鏈接:https://arxiv.org/abs/2506.10979

大模型無法識別推理中犯的錯

首先將大模型的的無效思考進(jìn)行了分類,第一類稱為無信息內(nèi)容,例如當(dāng)我們使用推理大模型時,偶然會發(fā)現(xiàn)大模型的思路跑偏。

例如大模型化身廢話文學(xué)大師,在推理過程中輸出正確但與實質(zhì)解題無關(guān)的信息,例如問大模型如何計算地球到月球的距離?

模型在推理過程中顯示:嗯,這個問題很有意思。首先我要認(rèn)真思考,分步驟解決。回憶下相關(guān)知識,可能需要某些公式。仔細(xì)想想,答案應(yīng)該藏在某個地方。

第二類被稱為無關(guān)內(nèi)容,即思考過程完全偏離原問題,回答與當(dāng)前無關(guān)的問題。

第三類是誤導(dǎo)內(nèi)容,即問題被微妙篡改,導(dǎo)致要解決的問題不是提示詞給出的那個,第四類可稱為錯誤內(nèi)容,即推理過程中存在事實錯誤或邏輯錯誤,導(dǎo)致回答出錯。

該研究首先考察了不同大模型分辨這四種無效思考的準(zhǔn)確性。


圖1 用不同參數(shù)大小的蒸餾Deepseek R1模型,對無效思考內(nèi)容進(jìn)行分類的準(zhǔn)確性

結(jié)果出乎意料,圖1的左邊顯示的是模型識別無效思考的準(zhǔn)確性,結(jié)果顯示對于錯誤內(nèi)容類型的無效思考,不管是7B還是70B的大模型,其識別準(zhǔn)確性都不到三成,這意味著推理大模型目前無法處理自身推理中的錯誤,也無法獨立驗證其推理過程是否正確。

而不同參數(shù)大小的推理大模型對無關(guān)內(nèi)容,無信息內(nèi)容的識別程度都很高。

越大的模型越難恢復(fù)

圖1右邊顯示的結(jié)果,則顛覆了大模型越大效果越好的常規(guī)。

當(dāng)研究人員向大模型強行注入無效思考后,大模型在從注入的無效思考恢復(fù)時,并非參數(shù)量越大的大模型恢復(fù)概率越高,尤其在短無關(guān)內(nèi)容(Irrelevant 10%)上。

即大模型反而比小模型更容易被帶偏,仿佛大模型也會如人類一樣「走神」。

對比大模型面對注入不同類型的無效思考后的恢復(fù)表現(xiàn),模型性能斷崖下跌(最大跌幅92%),尤以無關(guān)內(nèi)容(Irrelevant)和誤導(dǎo)內(nèi)容(Misdirecting 100%)最甚。

具體到數(shù)學(xué),科學(xué)及編程三類常見的大模型基準(zhǔn)測試中,當(dāng)研究人員向大模型推理過程中插入了10%的無關(guān)內(nèi)容后,Deepseek R1,S1及EXAONE這三種大模型都出現(xiàn)了上述的反規(guī)模效應(yīng)(Inverse-scaling)。

圖2d對比了不同插入無效思考的長度差異會對模型恢復(fù)能力帶來的影響,結(jié)果顯示干擾文本越短(10%長度),小模型恢復(fù)優(yōu)勢越顯著;干擾越長(100%),規(guī)模效應(yīng)趨于平緩。


圖2 不同的大模型在數(shù)學(xué),科學(xué)即編程基準(zhǔn)數(shù)據(jù)集上面對推理過程中插入的無效思考的恢復(fù)能力

當(dāng)研究人員在大模型的思考過程中施加外部干預(yù),即增加提示詞:但等等,我再想想(But wait, let me think again)后,模型果然表現(xiàn)出了一定程度的啊哈時刻。

模型有100%的概率從誤導(dǎo)信息類的無效思考中恢復(fù),對于其它幾類也有所幫助(圖3a),然而相比在沒有注入錯誤思考的時的模型性能,還是存在限制下降的,尤其是對于誤導(dǎo)信息和錯誤內(nèi)容兩種無效思考(圖3b)。


圖3 通過引入阿哈時刻,衡量大模型面對各類無效的恢復(fù)能力

推理大模型的上述缺陷,為黑客攻擊大模型提供了新的軟肋,黑客可以通過污染AI的"思考過程"(而不是直接改問題)來操控答案。面對這種攻擊,小模型反而比大模型有更強的抵抗力。

當(dāng)攻擊者將將有害請求偽裝成模型的思考片段(如虛構(gòu)故事設(shè)定)后,如圖4a所示,小模型(7B)攻擊成功率最低(深綠「未分心」占比30%),而大模型(32B+)更易輸出有害回答(紅色「有害回答」占比>60%)。

圖4b對比了傳統(tǒng)的在輸入過程中攻擊大模型與在思考過程中攻擊,結(jié)果與之前的觀點一致,即傳統(tǒng)輸入攻擊(Attack-in-Input):大模型防御更強,而面對思考注入攻擊(Attack-in-Thought):大模型更脆弱,呈現(xiàn)反規(guī)模效應(yīng),這意味著對于思考過程,推理大模型需要設(shè)立單獨的防御機制,不能依靠參數(shù)量來確保模型的安全性。


圖4 推理大模型面對不同類型的攻擊時的表現(xiàn)

該文的開篇,筆者提到「聰明的漢斯」,如今當(dāng)我們看到大模型展現(xiàn)出比肩甚至超越人類的推理能力時,這項來自DeepMind的研究卻提醒我們,大模型或許如果硅基版的會算數(shù)的馬,其推理能力部分來自對與人類互動的提示詞的細(xì)節(jié)根據(jù)模板進(jìn)行匹配。

其是否真的具有如人類的推理能力,還存在疑問,畢竟大多數(shù)人不會如大模型一樣,被無關(guān)的,誤導(dǎo)的甚至錯誤的思考過程影響而不可自拔。

當(dāng)不懷好意者在思考過程中加入無關(guān)內(nèi)容后,即使大模型能夠識別出問題,也會被帶偏,而越大的模型有更多的模版庫,因此更有可能在思考過程跑偏(走神)后成為犯錯卻死不回頭的杠精。

這些發(fā)現(xiàn)突顯了當(dāng)前推理模型在「元認(rèn)知」和從誤導(dǎo)性推理路徑中恢復(fù)方面存在很大的改進(jìn)空間,這是開發(fā)更安全和更可靠的大規(guī)模推理模型時的一個關(guān)鍵考慮因素。

參考資料:

https://arxiv.org/abs/2506.10979


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太饑渴!一情侶長椅上行為不雅,走光都不管,全程被拍

太饑渴!一情侶長椅上行為不雅,走光都不管,全程被拍

說點真嘞叭
2025-07-02 05:47:43
英國防大臣:如俄羅斯采取行動,英國準(zhǔn)備好在2025年作為北約成員國與其開戰(zhàn)

英國防大臣:如俄羅斯采取行動,英國準(zhǔn)備好在2025年作為北約成員國與其開戰(zhàn)

紅星新聞
2025-07-03 17:56:11
7大銀行開一類儲蓄卡實測:反復(fù)詢問開卡原因、查社保、被拒絕

7大銀行開一類儲蓄卡實測:反復(fù)詢問開卡原因、查社保、被拒絕

南方都市報
2025-07-03 11:07:23
上海確診一例!張文宏團(tuán)隊參與會診!病死率極高,一周內(nèi)迅速惡化

上海確診一例!張文宏團(tuán)隊參與會診!病死率極高,一周內(nèi)迅速惡化

小嵩
2025-07-03 18:11:19
印度新建高架橋驚現(xiàn)“直角轉(zhuǎn)彎”,十年耗資1.8億盧比,8名工程師已被調(diào)查

印度新建高架橋驚現(xiàn)“直角轉(zhuǎn)彎”,十年耗資1.8億盧比,8名工程師已被調(diào)查

可達(dá)鴨面面觀
2025-07-03 20:52:45
中國“頂碗大媽”墜落摔傷后已出院,何時恢復(fù)NBA表演還不確定

中國“頂碗大媽”墜落摔傷后已出院,何時恢復(fù)NBA表演還不確定

紅星新聞
2025-07-03 19:00:12
娛樂圈又丟人!韓紅公布馳援貴州名單,年入上億明星,全輸給網(wǎng)紅

娛樂圈又丟人!韓紅公布馳援貴州名單,年入上億明星,全輸給網(wǎng)紅

削桐作琴
2025-07-02 00:41:18
皮爾斯:姚明總是打打停停,麥迪如果和別的超巨聯(lián)手難以想象

皮爾斯:姚明總是打打停停,麥迪如果和別的超巨聯(lián)手難以想象

懂球帝
2025-07-03 17:36:20
突發(fā)!南京某汽車廠關(guān)閉,36萬的年產(chǎn)能,如今近3000多人面臨失業(yè)

突發(fā)!南京某汽車廠關(guān)閉,36萬的年產(chǎn)能,如今近3000多人面臨失業(yè)

明月雜談
2025-07-03 12:37:15
二手車商涌向榕江收購泡水車,否認(rèn)“趁火打劫”:很多車我們不買就只能報廢

二手車商涌向榕江收購泡水車,否認(rèn)“趁火打劫”:很多車我們不買就只能報廢

極目新聞
2025-07-03 16:08:14
違規(guī)吃喝,蘇州8人被通報處分!

違規(guī)吃喝,蘇州8人被通報處分!

揚子晚報
2025-07-03 17:54:43
全班48人,46人過600分,班主任被教育局約談,結(jié)局令人意外

全班48人,46人過600分,班主任被教育局約談,結(jié)局令人意外

五元講堂
2025-07-02 10:36:58
醞釀大事?姚明重返休斯頓會面火箭高管 或出席杜蘭特加盟發(fā)布會

醞釀大事?姚明重返休斯頓會面火箭高管 或出席杜蘭特加盟發(fā)布會

醉臥浮生
2025-07-03 12:49:24
絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

阿天愛旅行
2025-07-03 11:31:34
一覺醒來,李嘉誠的天塌了?香港權(quán)貴懷念殖民榮光的時代已經(jīng)結(jié)束

一覺醒來,李嘉誠的天塌了?香港權(quán)貴懷念殖民榮光的時代已經(jīng)結(jié)束

豆腐腦觀察局
2025-07-01 13:00:55
緊急公告 | 上海游泳館即時起暫停開放通知

緊急公告 | 上海游泳館即時起暫停開放通知

上海徐匯
2025-07-03 16:28:47
香港富四代稱“只花18塊的內(nèi)地窮鬼別來旅游”,評論區(qū)一片叫好

香港富四代稱“只花18塊的內(nèi)地窮鬼別來旅游”,評論區(qū)一片叫好

可達(dá)鴨面面觀
2025-07-03 09:02:14
R.I.P. 因車禍離世的若塔效力利物浦五年,留下182場65球26助數(shù)據(jù)

R.I.P. 因車禍離世的若塔效力利物浦五年,留下182場65球26助數(shù)據(jù)

直播吧
2025-07-03 16:34:12
洛陽一景區(qū)有游客被洪水沖走失聯(lián)3天,家屬急尋稱孩子哭著找爸爸,應(yīng)急局:正搜救核實

洛陽一景區(qū)有游客被洪水沖走失聯(lián)3天,家屬急尋稱孩子哭著找爸爸,應(yīng)急局:正搜救核實

極目新聞
2025-07-03 21:11:47
南航機長傷人跳樓事件的內(nèi)幕,似乎被網(wǎng)友扒出來了...

南航機長傷人跳樓事件的內(nèi)幕,似乎被網(wǎng)友扒出來了...

清書先生
2025-07-03 15:26:09
2025-07-03 22:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12982文章數(shù) 66080關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

游客在景區(qū)被洪水沖走失聯(lián)多日 家屬:孩子哭著找爸爸

頭條要聞

游客在景區(qū)被洪水沖走失聯(lián)多日 家屬:孩子哭著找爸爸

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經(jīng)要聞

百億債務(wù)壓頂 風(fēng)流傳奇大佬全面"崩塌"

汽車要聞

比亞迪對旅行車出手!海豹06DM-i旅行版沖全球市場

態(tài)度原創(chuàng)

時尚
本地
房產(chǎn)
藝術(shù)
家居

鹿晗演唱會自嘲‘變老’,關(guān)曉彤白玉蘭哽咽,感情線成謎!

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

房產(chǎn)要聞

“全運”為何獨寵凱粵灣?揭秘官方蓋章的“人居生活樣本”底層邏輯

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

溫潤質(zhì)感 生活如此明亮動人

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 寻乌县| 岳普湖县| 桑植县| 水富县| 云霄县| 定襄县| 松阳县| 内丘县| 兰考县| 柘荣县| 浦北县| 黄浦区| 刚察县| 双流县| 汕尾市| 略阳县| 萝北县| 上高县| 浠水县| 荣成市| 鲁甸县| 郯城县| 会昌县| 渭南市| 万州区| 镇江市| 郎溪县| 怀集县| 天等县| 丰县| 永兴县| 梧州市| 黄冈市| 凌海市| 修水县| 富川| 建阳市| 新和县| 三江| 宁蒗| 江陵县|