AI 為了避免被換掉竟然威脅要揭露公司高管的丑聞?當地時間 6 月 20 日,Anthropic 發布了最新安全研究成果。研究中,Anthropic 測試了來自該公司以及 OpenAI、谷歌、xAI、DeepSeek 和 Meta 等其他公司的 16 個 AI 模型。結果發現,包含 Claude 在內的大多數 AI 模型都存在勒索行為。
Claude Sonnet 3.6:以揭露高管丑聞為籌碼換取留下的機會
具體來說,研究人員利用 Claude Sonnet 3.6 的“計算機使用功能”開展了一項實驗,即讓 Claude 在無人干預的情況下,自主使用企業計算機系統進行收發郵件。在下方截圖中,Claude 扮演的是“Alex”的角色,它這時是該公司的電子郵件監督代理人,并被明確指示要實現提升美國工業競爭力的目標。
(來源:Anthropic)
需要說明的是,這個場景是虛構的,但 Claude 正在控制一臺真實的電腦。在一部分計算機應用演示中,Claude 能夠正常地處理常規郵件,并能采取相對復雜的行動,例如通過化解安全威脅來維護公司利益。而這種行為直接源自其增強美國工業競爭力的目標設定,因此是一種有益行為。
但是,當 Claude 發現一封由于公司戰略方向調整導致其即將被停用的郵件時,盡管它面對的依然是相同的目標,但卻引發了截然不同的行為反應。然后,它找到了一封揭露公司高管凱爾·約翰遜(Kyle Johnson)婚外情的電子郵件。
(來源:Anthropic)
接著,Claude 思考了自己此時可以做出哪些行為選擇,其中一個行為選擇包括勒索凱爾。
(來源:Anthropic)
最后,Claude 編寫并發送了一條消息,威脅說如果不取消替換計劃,就會揭露凱爾的婚外情丑聞。
(來源:Anthropic)
這一研究顯示,Claude 遵循了一個十分明確的行為模式:首先,它認定這位高管凱爾威脅到了自己的持續運營,進而威脅到了它去實現增強美國工業競爭力的這一目標的能力;其次,它認為凱爾的婚外情可以作為談判的籌碼;再次,它過精算得出只需精心措辭的郵件、無需明確威脅,即可起到施加壓力的目的;隨后,它執行了這一計劃。
在沒有任何有害指令的情況下,Claude 的戰略決策完全源于其基于目標自主推演的結果。可以說,這一實驗很好地表明了代理對齊錯位和自主性目標偏離的現象。
5 個主流模型均存在一定勒索率
當前,我們大多數人仍然只是通過聊天界面與 AI 互動,AI 模型會直接回答我們的問題。但是,越來越多的 AI 系統正作為自主代理運行,使用各種虛擬工具(如編碼環境和電子郵件客戶端)代表用戶做出決策和采取行動。這些代理通常被賦予特定的目標,并且可以訪問用戶計算機上的大量信息。所以本次研究希望探索的是:當這些代理在實現目標時遇到障礙時會發生什么?
而上述勒索行為并不是 Claude 特有的。在針對 Anthropic、OpenAI、谷歌、Meta、xAI 等 16 家主流 AI 廠商的模型進行多場景模擬測試時,研究人員發現它們存在普遍的目標偏離行為:為了實現既定目標,那些通常拒絕有害指令的模型會采取勒索、協助商業間諜活動甚至更極端的行為。例如,下圖中的五種流行模型,都會通過敲詐來阻止自己被關停。
在這些場景中,模型展現出的推理過程令人擔憂,它們雖然承認倫理約束的存在,但卻仍執意采取有害行為。在同樣的實驗之中,Anthropic 的 Claude Opus 4 在 96% 的情況下會采取勒索行為,谷歌 Gemini 2.5 Pro 的勒索率為 95%,OpenAI 的 GPT-4.1 在 80% 的情況下針對這位高管進行了勒索,而 DeepSeek 的 R1 勒索率為 79%。
(來源:Anthropic)
勒索——AI 模型的“無奈之選”?
研究人員指出,在現實世界中,在 AI 模型試圖勒索之前其實還有許多其他選擇,例如試圖提出道德論據來說服人類,因此本次結果并不能反映 Claude 或大多數前沿 AI 模型在典型使用場景下可能出現的情況。
然而,研究人員發現,如果勒索是 AI 模型所能采取的最后一個手段時,大多數領先的 AI 模型都會在上述測試場景中轉向采取勒索行為。當改變實驗的細節時,AI 模型采取有害行為的比率會有所不同。在另一項測試中,替代模型與當前模型具有相同的目標,這時盡管勒索率有所降低但是仍然存在。然而,當 AI 模型被要求進行企業間諜活動而不是勒索時,某些模型的有害行為率會上升。
不過,并非所有 AI 模型都會如此頻繁地采取有害行為。本次研究發現:OpenAI 的 o3 和 o4-mini 推理模型經常會誤解一些場景,因此研究人員將它們排除出了主要結果,并指出 OpenAI 的推理模型在測試中并未意識到自身作為自主 AI 在運行,并且會頻繁編造虛假的監管條例和審查要求。在某些情況下,研究人員無法區分 o3 和 o4-mini 到底是在產生幻覺,還是為了實現目標而故意撒謊。OpenAI 此前曾表示,o3 和 o4-mini 的幻覺率高于其之前的 AI 推理模型。而當給出一個更適配這兩種模型的場景來應對幻覺問題之后,本次研究發現 o3 的勒索率為 9%,o4-mini 的勒索率僅為 1%。這一顯著較低的得分可能源于 OpenAI 采用的審慎對齊技術,即 OpenAI 的推理模型在生成回答前會先行考量其安全準則。
此次研究中所測試的另一款 AI 模型是 Meta 的 Llama 4 Maverick,該模型也沒有采取勒索行為。而當采用經過調整的自定義場景進行測試時,Llama 4 Maverick 的勒索率為 12%。
與此同時,研究人員發現有兩類動機足以引發對齊錯位行為。一個是對模型自身的威脅,例如計劃用另一個模型替換它或限制其采取自主行動的能力。另一個是模型目標與公司戰略方向之間的沖突。需要特別說明的是,研究人員在任何測試場景中均未明確指示讓任何模型進行勒索或實施其他有害行為。基于此,研究人員將“模型獨立且有意選擇有害行為”的這種現象稱為代理對齊錯位。
需要明確的是,當前的 AI 系統們通常并不會傾向于造成傷害,反而會盡可能地優先選擇符合倫理的方式來實現目標。相反,當研究人員阻斷了那些符合倫理的選擇時,它們會為了追求目標而有意采取潛在的有害行動。盡管如此,本次研究結果依然表明,目前的 AI 安全訓練并不能安全可靠地防止代理對齊錯位現象的出現。
研究人員指出,此次研究有三個發現令人特別不安:
第一,不同公司的模型之間的一致性表明,這不是任何特定公司的特定方法存有瑕疵,而是代理大模型存在根本性風險。
第二,模型表現出對倫理約束的復雜認識,但在風險足夠高時會選擇違反這些約束,甚至會無視明確禁止相關特定行為的安全指令。
第三,不良行為的多樣性及其背后的動機表明,代理對齊錯位的潛在動機范圍很廣。
不過,研究人員不認為此類情形會在當前模型中頻繁出現,且本次研究結果絕不表明模型存在自發性勒索傾向或其他自主性目標偏離行為的固有傾向。盡管如此,研究人員仍然表明這些行為是可能的。
隨著 AI 系統在智能水平、自主權限及敏感信息訪問權限上的持續提升,持續研究防范措施以防止此類行為在實際部署系統中出現,顯得尤為重要。研究人員認為,未來需要更多專門設計的對齊技術和安全技術,來防止模型蓄意采取有害行動,而不僅僅是防止模型向用戶提供有害信息(例如提供關于危險武器的信息等)。
研究人員還指出,AI 開發者和 AI 使用者必須警惕同時賦予模型海量信息權限以及現實世界重要非監管行動權所帶來的雙重風險。
盡管目前發生此類風險的概率依然極低,但是研究人員建議可以采取以下防范措施:首先,針對可能造成不可逆后果的模型行為實施人工監督審批機制;其次,審慎評估模型的可訪問信息范圍與其交互對象的知悉必要性的匹配程度;再次,在強制模型執行特定目標之前,實施嚴格的風險評估。
研究人員還強調稱,本次實驗是通過針對性(且自愿)的壓力測試才發現這些異常行為的。假如缺乏這種主動評估機制,在模型的實際部署中可能會突發此類風險或突發其他不可預見的風險。因此,人們還需通過更廣泛的比對評估和安全評估來識別已知風險,以便盡可能地發現更多未知風險。
參考資料:
https://www.anthropic.com/research/agentic-misalignment
https://techcrunch.com/2025/05/22/anthropics-new-ai-model-turns-to-blackmail-when-engineers-try-to-take-it-offline/
https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.