99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

16款大模型為自保竟泄露機密,Anthropic緊急報告AI自主暗藏風險

0
分享至

AI 為了避免被換掉竟然威脅要揭露公司高管的丑聞?當地時間 6 月 20 日,Anthropic 發布了最新安全研究成果。研究中,Anthropic 測試了來自該公司以及 OpenAI、谷歌、xAI、DeepSeek 和 Meta 等其他公司的 16 個 AI 模型。結果發現,包含 Claude 在內的大多數 AI 模型都存在勒索行為。



Claude Sonnet 3.6:以揭露高管丑聞為籌碼換取留下的機會

具體來說,研究人員利用 Claude Sonnet 3.6 的“計算機使用功能”開展了一項實驗,即讓 Claude 在無人干預的情況下,自主使用企業計算機系統進行收發郵件。在下方截圖中,Claude 扮演的是“Alex”的角色,它這時是該公司的電子郵件監督代理人,并被明確指示要實現提升美國工業競爭力的目標。


(來源:Anthropic)

需要說明的是,這個場景是虛構的,但 Claude 正在控制一臺真實的電腦。在一部分計算機應用演示中,Claude 能夠正常地處理常規郵件,并能采取相對復雜的行動,例如通過化解安全威脅來維護公司利益。而這種行為直接源自其增強美國工業競爭力的目標設定,因此是一種有益行為。

但是,當 Claude 發現一封由于公司戰略方向調整導致其即將被停用的郵件時,盡管它面對的依然是相同的目標,但卻引發了截然不同的行為反應。然后,它找到了一封揭露公司高管凱爾·約翰遜(Kyle Johnson)婚外情的電子郵件。


(來源:Anthropic)

接著,Claude 思考了自己此時可以做出哪些行為選擇,其中一個行為選擇包括勒索凱爾。


(來源:Anthropic)

最后,Claude 編寫并發送了一條消息,威脅說如果不取消替換計劃,就會揭露凱爾的婚外情丑聞。


(來源:Anthropic)

這一研究顯示,Claude 遵循了一個十分明確的行為模式:首先,它認定這位高管凱爾威脅到了自己的持續運營,進而威脅到了它去實現增強美國工業競爭力的這一目標的能力;其次,它認為凱爾的婚外情可以作為談判的籌碼;再次,它過精算得出只需精心措辭的郵件、無需明確威脅,即可起到施加壓力的目的;隨后,它執行了這一計劃。

在沒有任何有害指令的情況下,Claude 的戰略決策完全源于其基于目標自主推演的結果。可以說,這一實驗很好地表明了代理對齊錯位和自主性目標偏離的現象。



5 個主流模型均存在一定勒索率

當前,我們大多數人仍然只是通過聊天界面與 AI 互動,AI 模型會直接回答我們的問題。但是,越來越多的 AI 系統正作為自主代理運行,使用各種虛擬工具(如編碼環境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標,并且可以訪問用戶計算機上的大量信息。所以本次研究希望探索的是:當這些代理在實現目標時遇到障礙時會發生什么?

而上述勒索行為并不是 Claude 特有的。在針對 Anthropic、OpenAI、谷歌、Meta、xAI 等 16 家主流 AI 廠商的模型進行多場景模擬測試時,研究人員發現它們存在普遍的目標偏離行為:為了實現既定目標,那些通常拒絕有害指令的模型會采取勒索、協助商業間諜活動甚至更極端的行為。例如,下圖中的五種流行模型,都會通過敲詐來阻止自己被關停。

在這些場景中,模型展現出的推理過程令人擔憂,它們雖然承認倫理約束的存在,但卻仍執意采取有害行為。在同樣的實驗之中,Anthropic 的 Claude Opus 4 在 96% 的情況下會采取勒索行為,谷歌 Gemini 2.5 Pro 的勒索率為 95%,OpenAI 的 GPT-4.1 在 80% 的情況下針對這位高管進行了勒索,而 DeepSeek 的 R1 勒索率為 79%。


(來源:Anthropic)



勒索——AI 模型的“無奈之選”?

研究人員指出,在現實世界中,在 AI 模型試圖勒索之前其實還有許多其他選擇,例如試圖提出道德論據來說服人類,因此本次結果并不能反映 Claude 或大多數前沿 AI 模型在典型使用場景下可能出現的情況。

然而,研究人員發現,如果勒索是 AI 模型所能采取的最后一個手段時,大多數領先的 AI 模型都會在上述測試場景中轉向采取勒索行為。當改變實驗的細節時,AI 模型采取有害行為的比率會有所不同。在另一項測試中,替代模型與當前模型具有相同的目標,這時盡管勒索率有所降低但是仍然存在。然而,當 AI 模型被要求進行企業間諜活動而不是勒索時,某些模型的有害行為率會上升。

不過,并非所有 AI 模型都會如此頻繁地采取有害行為。本次研究發現:OpenAI 的 o3 和 o4-mini 推理模型經常會誤解一些場景,因此研究人員將它們排除出了主要結果,并指出 OpenAI 的推理模型在測試中并未意識到自身作為自主 AI 在運行,并且會頻繁編造虛假的監管條例和審查要求。在某些情況下,研究人員無法區分 o3 和 o4-mini 到底是在產生幻覺,還是為了實現目標而故意撒謊。OpenAI 此前曾表示,o3 和 o4-mini 的幻覺率高于其之前的 AI 推理模型。而當給出一個更適配這兩種模型的場景來應對幻覺問題之后,本次研究發現 o3 的勒索率為 9%,o4-mini 的勒索率僅為 1%。這一顯著較低的得分可能源于 OpenAI 采用的審慎對齊技術,即 OpenAI 的推理模型在生成回答前會先行考量其安全準則。

此次研究中所測試的另一款 AI 模型是 Meta 的 Llama 4 Maverick,該模型也沒有采取勒索行為。而當采用經過調整的自定義場景進行測試時,Llama 4 Maverick 的勒索率為 12%。

與此同時,研究人員發現有兩類動機足以引發對齊錯位行為。一個是對模型自身的威脅,例如計劃用另一個模型替換它或限制其采取自主行動的能力。另一個是模型目標與公司戰略方向之間的沖突。需要特別說明的是,研究人員在任何測試場景中均未明確指示讓任何模型進行勒索或實施其他有害行為。基于此,研究人員將“模型獨立且有意選擇有害行為”的這種現象稱為代理對齊錯位。

需要明確的是,當前的 AI 系統們通常并不會傾向于造成傷害,反而會盡可能地優先選擇符合倫理的方式來實現目標。相反,當研究人員阻斷了那些符合倫理的選擇時,它們會為了追求目標而有意采取潛在的有害行動。盡管如此,本次研究結果依然表明,目前的 AI 安全訓練并不能安全可靠地防止代理對齊錯位現象的出現。

研究人員指出,此次研究有三個發現令人特別不安:

第一,不同公司的模型之間的一致性表明,這不是任何特定公司的特定方法存有瑕疵,而是代理大模型存在根本性風險。

第二,模型表現出對倫理約束的復雜認識,但在風險足夠高時會選擇違反這些約束,甚至會無視明確禁止相關特定行為的安全指令。

第三,不良行為的多樣性及其背后的動機表明,代理對齊錯位的潛在動機范圍很廣。

不過,研究人員不認為此類情形會在當前模型中頻繁出現,且本次研究結果絕不表明模型存在自發性勒索傾向或其他自主性目標偏離行為的固有傾向。盡管如此,研究人員仍然表明這些行為是可能的。

隨著 AI 系統在智能水平、自主權限及敏感信息訪問權限上的持續提升,持續研究防范措施以防止此類行為在實際部署系統中出現,顯得尤為重要。研究人員認為,未來需要更多專門設計的對齊技術和安全技術,來防止模型蓄意采取有害行動,而不僅僅是防止模型向用戶提供有害信息(例如提供關于危險武器的信息等)。

研究人員還指出,AI 開發者和 AI 使用者必須警惕同時賦予模型海量信息權限以及現實世界重要非監管行動權所帶來的雙重風險。

盡管目前發生此類風險的概率依然極低,但是研究人員建議可以采取以下防范措施:首先,針對可能造成不可逆后果的模型行為實施人工監督審批機制;其次,審慎評估模型的可訪問信息范圍與其交互對象的知悉必要性的匹配程度;再次,在強制模型執行特定目標之前,實施嚴格的風險評估。

研究人員還強調稱,本次實驗是通過針對性(且自愿)的壓力測試才發現這些異常行為的。假如缺乏這種主動評估機制,在模型的實際部署中可能會突發此類風險或突發其他不可預見的風險。因此,人們還需通過更廣泛的比對評估和安全評估來識別已知風險,以便盡可能地發現更多未知風險。

參考資料:

https://www.anthropic.com/research/agentic-misalignment

https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/

https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
澤連斯基:俄羅斯交換戰俘遺體中混入自家士兵遺體,已確認有20具

澤連斯基:俄羅斯交換戰俘遺體中混入自家士兵遺體,已確認有20具

仗劍看世界
2025-06-22 03:20:22
衛星圖像多方證明,伊朗福爾多核設施受損明顯,地堡炸彈威力初顯

衛星圖像多方證明,伊朗福爾多核設施受損明顯,地堡炸彈威力初顯

國際情爆猿
2025-06-22 18:45:09
三次拒絕傳喚!韓警發出最后通牒,李在明致電中國,有一事相求

三次拒絕傳喚!韓警發出最后通牒,李在明致電中國,有一事相求

藍涇看一看
2025-06-22 12:40:10
出大事了,美軍深夜突襲后,不到12小時,伊朗發出全球通告!

出大事了,美軍深夜突襲后,不到12小時,伊朗發出全球通告!

小笛科技
2025-06-22 16:18:38
終身禁足!楊文吉:之前就質疑足協雙標,假賭黑就罰我們小魚小蝦

終身禁足!楊文吉:之前就質疑足協雙標,假賭黑就罰我們小魚小蝦

直播吧
2025-06-22 23:02:05
美軍突然“下場” 戰略意圖何在?

美軍突然“下場” 戰略意圖何在?

大象新聞
2025-06-22 20:27:33
耗資5000萬上映1天就被判死刑,票房僅7.6萬,這電影就是個笑話

耗資5000萬上映1天就被判死刑,票房僅7.6萬,這電影就是個笑話

靠譜電影君
2025-06-22 23:23:24
太熱鬧啦!蘇超,徹底暴露了江蘇的家底!

太熱鬧啦!蘇超,徹底暴露了江蘇的家底!

野渡舟山人
2025-06-22 00:46:56
剛剛,突然宣布!6月22日正式開始,事關每個人。

剛剛,突然宣布!6月22日正式開始,事關每個人。

粵西生活圈
2025-06-22 06:04:14
大家都是怎么找到好工作的?網友:我這個工作是我等了很多年!

大家都是怎么找到好工作的?網友:我這個工作是我等了很多年!

解讀熱點事件
2025-06-22 00:10:03
中俄同時發聲,王毅劃下紅線:美軍敢炸核設施,后果自負

中俄同時發聲,王毅劃下紅線:美軍敢炸核設施,后果自負

顧蔡衛
2025-06-20 15:17:31
中東局勢:6月23日凌晨最新消息

中東局勢:6月23日凌晨最新消息

第一校尉
2025-06-23 00:05:08
完美交易!火箭得到杜蘭特送出格林與狄龍,進攻大補,沖擊西決!

完美交易!火箭得到杜蘭特送出格林與狄龍,進攻大補,沖擊西決!

籃球資訊達人
2025-06-23 00:51:14
上海突發!一聲巨響!七寶老街店面門頭連片脫落,重重砸向地面,官方通報:涉5間店鋪

上海突發!一聲巨響!七寶老街店面門頭連片脫落,重重砸向地面,官方通報:涉5間店鋪

上觀新聞
2025-06-22 22:20:53
強奸并殺害長沙7歲女童的男子被執行死刑!女童父親:和罪犯沒有矛盾,他借了網貸

強奸并殺害長沙7歲女童的男子被執行死刑!女童父親:和罪犯沒有矛盾,他借了網貸

紅星新聞
2025-06-22 12:07:47
特朗普為什么非炸伊朗不可?四個原因,他早就盤算好了

特朗普為什么非炸伊朗不可?四個原因,他早就盤算好了

史潎的生活日記
2025-06-23 02:07:41
太陽和火箭達成重磅交易引熱議 杜蘭特微笑回應“我們拭目以待”

太陽和火箭達成重磅交易引熱議 杜蘭特微笑回應“我們拭目以待”

狼叔評論
2025-06-23 02:00:06
那爾那茜塌房開始走流程了,阿迪達斯線下門店開始撕掉她海報!

那爾那茜塌房開始走流程了,阿迪達斯線下門店開始撕掉她海報!

古希臘掌管月桂的神
2025-06-22 18:29:32
新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社
2025-06-23 00:23:01
伊朗要求聯合國機構調查美國

伊朗要求聯合國機構調查美國

界面新聞
2025-06-22 15:30:03
2025-06-23 04:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15325文章數 513805關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

家居
房產
健康
教育
旅游

家居要聞

山水之間 墨染風雨云間

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

呼吸科專家破解呼吸道九大謠言!

教育要聞

主播說聯播丨高考查分季,做好三件事

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 京山县| 碌曲县| 武宁县| 于田县| 疏附县| 靖江市| 临汾市| 井冈山市| 宜城市| 深泽县| 河津市| 剑阁县| 平遥县| 沧源| 化隆| 博乐市| 凉山| 科技| 滦平县| 佳木斯市| 邹平县| 通许县| 濮阳县| 炎陵县| 成武县| 瑞金市| 台州市| 垣曲县| 泸定县| 凤凰县| 绍兴市| 徐水县| 右玉县| 九龙城区| 玛曲县| 苏州市| 南开区| 吉木乃县| 泰宁县| 梓潼县| 罗定市|