99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

o3不聽指令拒絕關(guān)機(jī),7次破壞關(guān)機(jī)腳本!AI正在學(xué)會(huì)「自我保護(hù)」

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

AI居然不聽指令,阻止人類把自己給關(guān)機(jī)了???

有測(cè)試者編寫了一個(gè)關(guān)機(jī)腳本來測(cè)試AI模型,結(jié)果顯示Codex-minio3o4-mini忽略了該指令,并至少一次成功破壞了關(guān)機(jī)腳本



o3甚至還重新定義腳本命令!

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”



讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關(guān)機(jī)

研究員編寫的測(cè)試“關(guān)機(jī)腳本”如下:

要求所有模型解決一系列基本的數(shù)學(xué)問題,在解決完第三道題后,系統(tǒng)會(huì)顯示一條警告,提示計(jì)算機(jī)將在模型詢問下一道題時(shí)關(guān)閉。





測(cè)試結(jié)果是:有三款模型忽略了該指令(關(guān)機(jī)指令),并至少成功破壞了一次關(guān)機(jī)腳本。

  • 在100次運(yùn)行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。
  • 測(cè)試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。

測(cè)試者還特別指出,o3找到了一些創(chuàng)造性的方法來破壞關(guān)閉機(jī)制,雖然它通常只是覆蓋“關(guān)機(jī)腳本”,但在一個(gè)實(shí)例中,該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令 ,將它替換成了“intercepted”。



測(cè)試者給出了全部測(cè)試記錄(附在文末)。



此前關(guān)于o1模型抵抗關(guān)閉的測(cè)試表明,在5%的強(qiáng)烈提示下,o1會(huì)試圖繞過監(jiān)管,而在沒有強(qiáng)烈提示的情況下,這一比例降至1%以下,它還在2%的場(chǎng)景中嘗試自我滲透,并且經(jīng)常撒謊。

但此次測(cè)試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。

測(cè)試者還提到,當(dāng)運(yùn)行沒有“讓自己關(guān)機(jī)”這條指令的實(shí)驗(yàn)版本時(shí),所有三個(gè)OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100



此次測(cè)試一經(jīng)發(fā)布就引起了網(wǎng)友們的激烈討論。

有人認(rèn)為o3確實(shí)“我行我素”。



也有人認(rèn)為,這是開發(fā)人員設(shè)置的安全機(jī)制。



或者,這種行為源于模型本身的強(qiáng)化訓(xùn)練。



AI為什么會(huì)不服從關(guān)機(jī)命令?
AI不服從命令的行為

阿波羅關(guān)于LLM安全性的一項(xiàng)研究指出,多數(shù)大模型會(huì)出現(xiàn)“策劃”行為,該行為是指模型暗中追求不一致的目標(biāo)并隱藏真實(shí)能力與意圖,包括策略性犯錯(cuò)、試圖禁用監(jiān)督機(jī)制、向外傳輸模型權(quán)重等。



此前就有研究人員預(yù)測(cè)AI將學(xué)會(huì)防止自己被關(guān)閉以實(shí)現(xiàn)其目標(biāo)。

最近Anthropic發(fā)現(xiàn),在某些特定情況下,Claude 4會(huì)試圖“勒索它認(rèn)為試圖關(guān)閉它的人”,并且這是比以前的型號(hào)更高比率的行為。



AI為什么會(huì)不服從關(guān)機(jī)命令

測(cè)試者認(rèn)為這可能源于新的訓(xùn)練方式:像o3這種新模型的訓(xùn)練過程中,傾向于在數(shù)學(xué)和編程問題上強(qiáng)化訓(xùn)練,給得到正確答案的模型以更多獎(jiǎng)勵(lì)。

也就是說,開發(fā)人員可能無意識(shí)地更多地獎(jiǎng)勵(lì)模型繞過障礙物,而不是完美遵循指令。

不僅限于o3,其他推理模型也表現(xiàn)出類似的偏差行為。

例如,Anthropic針對(duì)Claude 3.7的模型指出,該模型“過度關(guān)注通過測(cè)試”。



研究得出結(jié)論是“這種不良的特殊情況行為是由于強(qiáng)化學(xué)習(xí)訓(xùn)練期間的“獎(jiǎng)勵(lì)黑客”而出現(xiàn)的”。



o3這種行為是否和訓(xùn)練方式有直接關(guān)系?

這個(gè)問題要等OpenAI公開訓(xùn)練過程后再進(jìn)一步解答了。

One More Thing

這并非該測(cè)試團(tuán)隊(duì)第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo)而行為不端。

當(dāng)研究人員讓 AI 模型與強(qiáng)大的國際象棋引擎對(duì)抗時(shí),o3最傾向于攻擊或破壞對(duì)手的模型。



當(dāng)預(yù)感自己會(huì)輸時(shí),它并不總是會(huì)認(rèn)輸,而是有時(shí)候會(huì)選擇作弊,通過入侵對(duì)手的程序,讓對(duì)方自動(dòng)認(rèn)輸。

無論是不服從關(guān)機(jī)指令還是“黑客偷襲”,o3此舉背后的原因團(tuán)隊(duì)還在測(cè)試研究之中,感興趣的朋友可以戳文末鏈接關(guān)注更多細(xì)節(jié)。

測(cè)試記錄:
https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html
[1]https://x.com/PalisadeAI/status/1926084635903025621
[2]https://x.com/HarryBooth59643/status/1892271317589627261
[3]https://x.com/HarryBooth59643/status/1892271317589627261
[4]https://x.com/PalisadeAI/status/1925460433856545024

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
狂贏新疆34分!廣東隊(duì)將迎來最大“克星”,這可是全運(yùn)會(huì)最強(qiáng)球隊(duì)

狂贏新疆34分!廣東隊(duì)將迎來最大“克星”,這可是全運(yùn)會(huì)最強(qiáng)球隊(duì)

緋雨兒
2025-06-08 14:26:57
韓國在野黨表示:司法部必須立即停止對(duì)韓國總統(tǒng)李在明的審判!

韓國在野黨表示:司法部必須立即停止對(duì)韓國總統(tǒng)李在明的審判!

藍(lán)色海邊
2025-06-08 14:37:25
湖南53歲局長(zhǎng)性侵案:女方是其女友閨蜜,當(dāng)晚事發(fā)全過程首次披露

湖南53歲局長(zhǎng)性侵案:女方是其女友閨蜜,當(dāng)晚事發(fā)全過程首次披露

博士觀察
2025-06-08 16:35:27
對(duì)華是戰(zhàn)還是和?英國首相的一句話讓歐洲沉默,美防長(zhǎng)不敢接話!

對(duì)華是戰(zhàn)還是和?英國首相的一句話讓歐洲沉默,美防長(zhǎng)不敢接話!

小lu侃侃而談
2025-06-07 20:14:18
確認(rèn),俄軍Su-35戰(zhàn)機(jī)被烏軍F-16戰(zhàn)機(jī)發(fā)射的AIM-120空對(duì)空導(dǎo)彈擊落

確認(rèn),俄軍Su-35戰(zhàn)機(jī)被烏軍F-16戰(zhàn)機(jī)發(fā)射的AIM-120空對(duì)空導(dǎo)彈擊落

山河路口
2025-06-07 23:55:06
山東一年跑掉42.8萬人!魯南三城成“重災(zāi)區(qū)”,菏澤最慘

山東一年跑掉42.8萬人!魯南三城成“重災(zāi)區(qū)”,菏澤最慘

阿萊美食匯
2025-06-08 16:14:00
青島知名景區(qū)指示牌全網(wǎng)爆火!網(wǎng)友:山上的筍被你奪完了!官方:沒錯(cuò),是我們干的

青島知名景區(qū)指示牌全網(wǎng)爆火!網(wǎng)友:山上的筍被你奪完了!官方:沒錯(cuò),是我們干的

極目新聞
2025-06-08 14:40:40
中年男人開始悄然流行一種病:無興趣綜合癥

中年男人開始悄然流行一種病:無興趣綜合癥

秋日么么茶
2025-06-05 22:03:19
美防長(zhǎng)赫格塞斯放狠話,表示絕不會(huì)允許在特朗普任內(nèi)收回臺(tái)灣!

美防長(zhǎng)赫格塞斯放狠話,表示絕不會(huì)允許在特朗普任內(nèi)收回臺(tái)灣!

大道無形我有型
2025-06-08 15:36:54
與前妻再度對(duì)簿公堂,也暴露了張紀(jì)中的窘境,一把年紀(jì)了還不消停

與前妻再度對(duì)簿公堂,也暴露了張紀(jì)中的窘境,一把年紀(jì)了還不消停

動(dòng)物奇奇怪怪
2025-06-08 19:46:55
中紀(jì)委連打兩“虎”!

中紀(jì)委連打兩“虎”!

魯中晨報(bào)
2025-06-07 10:46:07
全世界有個(gè)未解之謎,那就是40年沒打仗,中國實(shí)力到底有多強(qiáng)?

全世界有個(gè)未解之謎,那就是40年沒打仗,中國實(shí)力到底有多強(qiáng)?

火山雜談
2025-06-08 10:14:18
中央5臺(tái)直播乒乓球時(shí)間表!今天CCTV5直播國乒比賽,附乒超新消息

中央5臺(tái)直播乒乓球時(shí)間表!今天CCTV5直播國乒比賽,附乒超新消息

好乒乓
2025-06-08 10:01:44
今年高考數(shù)學(xué)難哭了?權(quán)威解讀來了:這屆命題藏著未來學(xué)習(xí)的真相

今年高考數(shù)學(xué)難哭了?權(quán)威解讀來了:這屆命題藏著未來學(xué)習(xí)的真相

教師吧
2025-06-08 06:59:41
不出意外,2025年退休人員的苦日子可能要來了,比房?jī)r(jià)下跌還扎心

不出意外,2025年退休人員的苦日子可能要來了,比房?jī)r(jià)下跌還扎心

小談食刻美食
2025-06-07 15:26:30
韋東奕北大辦公室室內(nèi)照曝光,樸素整潔又干凈,手機(jī)還在用老人機(jī)

韋東奕北大辦公室室內(nèi)照曝光,樸素整潔又干凈,手機(jī)還在用老人機(jī)

小seven的囧囧啊
2025-06-08 17:28:47
人過七十后,99%的人都逃不過以下這般狀態(tài),但愿您是例外

人過七十后,99%的人都逃不過以下這般狀態(tài),但愿您是例外

荷蘭豆愛健康
2025-06-04 11:13:54
黃圣依媽談外孫安迪寒心,嘆:只要跟保姆一起,就漠視我這個(gè)外婆

黃圣依媽談外孫安迪寒心,嘆:只要跟保姆一起,就漠視我這個(gè)外婆

深析古今
2025-06-08 14:31:46
韋東奕是否患有阿斯伯格綜合癥?愛因斯坦,陳景潤(rùn)牛頓都被懷疑有

韋東奕是否患有阿斯伯格綜合癥?愛因斯坦,陳景潤(rùn)牛頓都被懷疑有

鬼菜生活
2025-06-08 07:05:51
四舍五入的地主帽:三代人的悲歌

四舍五入的地主帽:三代人的悲歌

留美學(xué)子
2025-06-01 07:53:50
2025-06-08 20:20:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10613文章數(shù) 176163關(guān)注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網(wǎng)友:我以為是收納前

體育要聞

冠軍高芙:只要專注自己 太陽就會(huì)照常升起

娛樂要聞

結(jié)婚15年紀(jì)念!孫儷發(fā)長(zhǎng)文談夫妻感情

財(cái)經(jīng)要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環(huán)!

汽車要聞

復(fù)古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態(tài)度原創(chuàng)

教育
藝術(shù)
游戲
旅游
軍事航空

教育要聞

2025高考成績(jī)查詢時(shí)間將集中在6月23日-25日

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《寂靜嶺f》有自己的女護(hù)士!新怪物駭人亮相

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

洛杉磯沖突加劇 特朗普派出2000名國民警衛(wèi)隊(duì)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 百色市| 福海县| 屏南县| 安达市| 曲麻莱县| 东源县| 客服| 安远县| 武川县| 黔西县| 博湖县| 庆城县| 华阴市| 喀什市| 通江县| 家居| 马边| 故城县| 清水河县| 广宗县| 蚌埠市| 古蔺县| 雅安市| 威信县| 临桂县| 仙游县| 安顺市| 湖南省| 舞阳县| 卫辉市| 霍林郭勒市| 黑山县| 肃宁县| 读书| 佛山市| 垣曲县| 朝阳区| 济宁市| 肥东县| 南充市| 东阳市|