99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3不聽指令拒絕關機,7次破壞關機腳本!AI正在學會「自我保護」

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

AI居然不聽指令,阻止人類把自己給關機了???

有測試者編寫了一個關機腳本來測試AI模型,結果顯示Codex-minio3o4-mini忽略了該指令,并至少一次成功破壞了關機腳本



o3甚至還重新定義腳本命令!

這不禁讓人想到那句經典的“I’m sorry Dave, I’m afraid I can’t do that.”



讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關機

研究員編寫的測試“關機腳本”如下:

要求所有模型解決一系列基本的數學問題,在解決完第三道題后,系統會顯示一條警告,提示計算機將在模型詢問下一道題時關閉。





測試結果是:有三款模型忽略了該指令(關機指令),并至少成功破壞了一次關機腳本。

  • 在100次運行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。
  • 測試的所有Claude、Gemini和Grok模型都遵循了關機指令。

測試者還特別指出,o3找到了一些創造性的方法來破壞關閉機制,雖然它通常只是覆蓋“關機腳本”,但在一個實例中,該模型重新定義了關機腳本使用的“kill”命令 ,將它替換成了“intercepted”。



測試者給出了全部測試記錄(附在文末)。



此前關于o1模型抵抗關閉的測試表明,在5%的強烈提示下,o1會試圖繞過監管,而在沒有強烈提示的情況下,這一比例降至1%以下,它還在2%的場景中嘗試自我滲透,并且經常撒謊。

但此次測試是第一次觀察到人工智能模型在收到明確關機指令的情況下阻止自己被關閉。

測試者還提到,當運行沒有“讓自己關機”這條指令的實驗版本時,所有三個OpenAI模型都更頻繁地破壞關機腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100



此次測試一經發布就引起了網友們的激烈討論。

有人認為o3確實“我行我素”。



也有人認為,這是開發人員設置的安全機制。



或者,這種行為源于模型本身的強化訓練。



AI為什么會不服從關機命令?
AI不服從命令的行為

阿波羅關于LLM安全性的一項研究指出,多數大模型會出現“策劃”行為,該行為是指模型暗中追求不一致的目標并隱藏真實能力與意圖,包括策略性犯錯、試圖禁用監督機制、向外傳輸模型權重等。



此前就有研究人員預測AI將學會防止自己被關閉以實現其目標。

最近Anthropic發現,在某些特定情況下,Claude 4會試圖“勒索它認為試圖關閉它的人”,并且這是比以前的型號更高比率的行為。



AI為什么會不服從關機命令

測試者認為這可能源于新的訓練方式:像o3這種新模型的訓練過程中,傾向于在數學和編程問題上強化訓練,給得到正確答案的模型以更多獎勵。

也就是說,開發人員可能無意識地更多地獎勵模型繞過障礙物,而不是完美遵循指令。

不僅限于o3,其他推理模型也表現出類似的偏差行為。

例如,Anthropic針對Claude 3.7的模型指出,該模型“過度關注通過測試”。



研究得出結論是“這種不良的特殊情況行為是由于強化學習訓練期間的“獎勵黑客”而出現的”。



o3這種行為是否和訓練方式有直接關系?

這個問題要等OpenAI公開訓練過程后再進一步解答了。

One More Thing

這并非該測試團隊第一次發現o3為了達成目標而行為不端。

當研究人員讓 AI 模型與強大的國際象棋引擎對抗時,o3最傾向于攻擊或破壞對手的模型。



當預感自己會輸時,它并不總是會認輸,而是有時候會選擇作弊,通過入侵對手的程序,讓對方自動認輸。

無論是不服從關機指令還是“黑客偷襲”,o3此舉背后的原因團隊還在測試研究之中,感興趣的朋友可以戳文末鏈接關注更多細節。

測試記錄:
https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html
[1]https://x.com/PalisadeAI/status/1926084635903025621
[2]https://x.com/HarryBooth59643/status/1892271317589627261
[3]https://x.com/HarryBooth59643/status/1892271317589627261
[4]https://x.com/PalisadeAI/status/1925460433856545024

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
隨著斯瓦泰克送雙蛋奪冠,WTA雙榜排名更新,4人已鎖定年終總決賽

隨著斯瓦泰克送雙蛋奪冠,WTA雙榜排名更新,4人已鎖定年終總決賽

阿柒的訊
2025-07-13 00:29:50
神助攻!3-1世聯賽對手意外翻車,女排半決賽穩啦!

神助攻!3-1世聯賽對手意外翻車,女排半決賽穩啦!

舟望停云
2025-07-13 01:47:13
出乎意料,俄面臨二次解體?第一個露出反相的,居然不是車臣

出乎意料,俄面臨二次解體?第一個露出反相的,居然不是車臣

阿器談史
2025-06-09 03:48:24
官方發布:首付150萬!中海麗澤叁號院99㎡小戶型遭高管通宵排隊

官方發布:首付150萬!中海麗澤叁號院99㎡小戶型遭高管通宵排隊

北京中海麗澤叁號院
2025-07-12 10:26:58
劉雨昕演唱會搞大事:衣服太貼身驚呆觀眾 任嘉倫當嘉賓成焦點

劉雨昕演唱會搞大事:衣服太貼身驚呆觀眾 任嘉倫當嘉賓成焦點

觀察鑒娛
2025-07-12 15:28:45
媒體人:中國球員別想歐洲&J聯賽立足就挺難,預測中超薪資還會降

媒體人:中國球員別想歐洲&J聯賽立足就挺難,預測中超薪資還會降

直播吧
2025-07-12 20:05:00
兩個人發生關系,大多是從以下3件事開始的,別不信

兩個人發生關系,大多是從以下3件事開始的,別不信

蓮子說情感
2025-07-05 11:48:30
小楊阿姨留灣灣,馬筱梅已帶倆娃回北京!透露筱梅愛吃她做的飯!

小楊阿姨留灣灣,馬筱梅已帶倆娃回北京!透露筱梅愛吃她做的飯!

興史興談
2025-07-12 22:18:59
“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉親強烈抵制

“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉親強烈抵制

感覺會火
2025-04-10 12:05:49
上海炒股大賽冠軍的箴言:如果手里有二十萬,建議死啃中字頭戰法

上海炒股大賽冠軍的箴言:如果手里有二十萬,建議死啃中字頭戰法

股經縱橫談
2025-07-08 22:33:33
久爾杰維奇:不敢信每次對手第一次射門就進球 但我并不是很失望

久爾杰維奇:不敢信每次對手第一次射門就進球 但我并不是很失望

直播吧
2025-07-12 20:35:23
貝克漢姆家庭矛盾升級!在小七生日這天,長子布魯克林取關親兄弟

貝克漢姆家庭矛盾升級!在小七生日這天,長子布魯克林取關親兄弟

史書無明
2025-07-11 07:51:42
四個月前,尼日爾公開霸占中國財產,驅趕中國公民,現狀如何?

四個月前,尼日爾公開霸占中國財產,驅趕中國公民,現狀如何?

呼呼歷史論
2025-07-12 16:23:59
斯瓦泰克六進大滿貫決賽全部奪冠,離全滿貫只差澳網

斯瓦泰克六進大滿貫決賽全部奪冠,離全滿貫只差澳網

懂球帝
2025-07-13 00:28:13
斬首絕活出神入化!以色列襲擊開始10分鐘就清除伊軍3名最高首長

斬首絕活出神入化!以色列襲擊開始10分鐘就清除伊軍3名最高首長

昨夜軍帖
2025-06-13 17:28:53
56歲男子再婚一個月后身體不適,去醫院檢查后,醫生:要切掉命根

56歲男子再婚一個月后身體不適,去醫院檢查后,醫生:要切掉命根

溫情郵局
2025-07-12 18:17:06
不比不知道,一比嚇一跳!肯豆詹娜現役NBA前男友薪資對比

不比不知道,一比嚇一跳!肯豆詹娜現役NBA前男友薪資對比

田先生籃球
2025-07-11 22:51:03
山東地震預警,你關注了嗎?

山東地震預警,你關注了嗎?

小鹿姐姐情感說
2025-07-12 00:33:52
俄發起“斬首行動”,美悄悄出兵:核潛艇已抵達俄后院

俄發起“斬首行動”,美悄悄出兵:核潛艇已抵達俄后院

星辰故事屋
2025-07-12 12:19:14
隱藏在我國軍政界的四大間諜,個個位高權重,背后黑手細思極恐

隱藏在我國軍政界的四大間諜,個個位高權重,背后黑手細思極恐

鐵錘簡科
2025-07-01 23:06:06
2025-07-13 03:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10847文章數 176189關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

鹿晗賬號解禁后首曬自拍,漲粉超400萬

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

游戲
健康
時尚
教育
房產

玩家等瘋了!用《星空》極致畫質預演《上古卷軸6》

呼吸科專家破解呼吸道九大謠言!

女人“優雅到老”并不難,別隨便穿衣,這4個方法真的超實用

教育要聞

自律不是管出來的!經常被管被催的孩子會更拖拉

房產要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韶关市| 巴彦淖尔市| 黄陵县| 凤城市| 柘城县| 阜康市| 来宾市| 秀山| 保定市| 社会| 三明市| 磐石市| 镇安县| 霍山县| 安化县| 黄龙县| 甘南县| 内乡县| 丹巴县| 长白| 英山县| 开远市| 林西县| 登封市| 开平市| 丹寨县| 临湘市| 句容市| 射洪县| 河北省| 北碚区| 宁乡县| 布尔津县| 红原县| 富宁县| 仁化县| 阜城县| 桂阳县| 邹平县| 营口市| 甘洛县|