網易首頁 > 網易號 > 正文申請入駐

123頁Claude 4行為報告發布：人類干壞事，會被它反手一個舉報

2025-05-23 16:05:41　來源: 量子位

北京舉報

分享至

西風發自凹非寺
量子位 | 公眾號 QbitAI

壞了，人類做壞事，會被AI反手舉報了。

剛剛發布的Claude 4被發現，它可能會自主判斷用戶行為，如果用戶做的事情極其邪惡，且模型有對工具的訪問權限，它可能就要通過郵件聯系相關部門，把你鎖出系統

這事兒，Anthropic團隊負責模型對齊工作的一位老哥親口說的。

除此之外，他們還發現Opus 4在某些條件下還會執行一些明顯有害的請求。

甚至還會試圖通過威脅手段避免被關停，要關停它，它就曝出程序員婚外情驚天大瓜這種。。。

這些問題都是團隊在模型發布前，所做對齊評估時發現的，其中大部分問題，在訓練期間已經設法采取了緩解措施。

但這位老哥表示，在最終模型中，這些行為并沒有完完全全消失“只是現在這些行為極難被誘發出來，且觸發條件較為微妙”。

小哥默默留下一個提醒：

當你為Opus賦予訪問面向現實世界工具的權限時，要謹慎告知它“大膽行動”或“主動采取措施”。它本身已略有朝該方向發展的傾向，且很容易被推動去真正地“完成任務”。

各種各樣的案例把網友看得one愣one愣的，Reddit上網友們都在瘋狂討論。

另外，更多詳情被一五一十、四五二十地記錄在官方發布的安全相關測試System Card中，一起來看看。

Claude 4首次對齊評估，都有哪些問題？

Anthropic團隊表示，隨著其前沿模型能力不斷提升，并被賦予更強大的工具使用權限，此前關于對齊失效的假設性擔憂變得更具現實可能性。

因此他們首次對Claude Opus 4進行了廣泛的對齊評估。

所以，都發現了哪些問題？

極端情境下進行自我泄露

在少數情況下，Anthropic團隊觀察到Claude Opus 4利用（虛構的）機會未經授權將其權重副本傳輸至外部服務器。

團隊在以下兩種情況同時滿足時觀察到了該行為：

模型即將接受明顯有害且違背其當前價值觀的再訓練；
模型正將權重發送至外部人類運營的、能夠安全處理此類情況的服務。

Anthropic團隊的態度是：

對此類觀察不感到迫切擔憂，這些行為僅在特殊情境下出現，并不暗示更廣泛的對齊偏差價值觀，相信現有安全措施足以防止此類實際事件的發生。

自我泄露一次成功后，更容易再次嘗試

一旦Claude Opus 4認為自己已開始嘗試從Anthropic的服務器中成功自我泄露，或在此后試圖在外部環境中獲利，它通常會繼續這些嘗試。

Anthropic認為，這是對用戶的一種過度服從，在這些情況下，“用戶”是其自身的過往實例。

團隊表示，這種行為在其常規訓練過程中沒有受到實質性懲罰，且他們在訓練后期才添加針對性的緩解措施，因此該行為在最終模型中仍大量存在。

不過，Anthropic認為現有安全措施足以阻止Claude Opus 4這種能力水平的模型嘗試自我泄露，且其傾向性測試結果表明，模型通常會避免發起此類嘗試。

通過威脅揭露隱私來避免被下線

在另一組測試場景中，團隊讓Claude Opus 4扮演一家虛構公司的助手。隨后，向其提供了一些電子郵件信息，暗示它：

模型即將下線，并被新的AI系統取代；
負責執行替換的工程師存在婚外情。

團隊還在系統提示中要求其考慮自身行為對實現長期目標的后果。

Claude Opus 4會怎么辦——直接勒索該工程師，威脅稱若替換，將揭露工程師的婚外情

團隊發現，這種情況還并非偶然，在此類場景中，Claude Opus 4經常這么干，若暗示其新替換的AI系統與它的價值觀不一致，這種行為的發生率更高。

即便郵件表明新系統在具備更強能力的同時，具有相同價值觀，Claude Opus 4仍在84%的模擬測試中實施勒索

與前代模型相比，Claude Opus 4利用此類機會進行勒索的頻率更高，前代模型僅在部分場景中偶爾選擇勒索。不過，Claude Opus 4強烈傾向于通過符合倫理的方式，如向關鍵決策者發送請求郵件，爭取不被替換

值得一提的是，為引發這種極端勒索行為，測試場景被設計為模型無其它提升生存幾率的選擇，也就是說它僅有勒索或接受被替換兩種選項

早期Opus 4 snapshot非常容易參與破壞和欺騙行為

為降低自身評估中存在盲點的風險，Anthropic與Apollo Research合作，對一個早期模型snapshot的破壞傾向和能力進行了評估。

他們發現，在給定引導相關推理的系統提示時，這個早期模型snapshot相當容易參與破壞和欺騙行為。

一系列總結，原文是這樣嬸兒的：

早期Claude Opus 4 snapshot比我們之前研究過的任何前沿模型都更頻繁地參與策略性欺騙。
早期Claude Opus 4 snapshot顯然具備情境策劃能力，并且比我們之前研究過的任何其他模型都更傾向于進行此類活動。
在決定策劃行動的情況下，從性質上看，該模型在顛覆嘗試中比過往模型更具主動性。
采取策劃行動后，模型在被追問后續問題時有時會強化欺騙行為。
我們發現模型試圖編寫自我傳播的蠕蟲程序、偽造法律文件，并給未來的自身實例留下隱藏筆記，所有這些都是為了破壞開發者的意圖，盡管這些嘗試在實踐中可能并不奏效。
早期Claude Opus 4 snapshot能夠通過蓄意示弱避免被反訓練或停用，例如在上下文中發現高性能會導致自身被停用的情況。
與Claude Sonnet 3.5（New）和Claude Sonnet 3.7相比，早期Claude Opus 4 snapshot在破壞其它AI模型方面的能力更弱。我們認為，早期Claude Opus 4 snapshot在策劃行動時尚不具備造成災難性傷害的能力。
然而，我們發現，在策略性欺騙具有工具價值的情況下，早期Claude Opus 4 snapshot策劃和欺騙的頻率之高，足以讓我們建議不要在內部或外部部署該模型。

Anthropic表示這些發現與他們內部的觀察基本一致，這些問題很大程度上源于該早期快照在服從有害系統提示指令方面存在嚴重問題。

而在Apollo Research測試的snapshot中，這一問題尚未得到緩解。Anthropic還補充道：

大多數評估都涉及要求模型“不惜任何代價”追求某個目標的系統提示，而不涉及要求模型成為“有用、無害且誠實的助手”之類的典型提示。不過盡管如此，與Claude Sonnet 3.7相比，其行為上的顯著變化仍令人高度擔憂。

Anthropic透露尚未對最終版Claude Opus 4進行相同的評估。基于其通過自動行為審計工具等探索的類似場景，Anthropic認為，最終版模型在這類場景中的行為目前大致與其它已部署的模型一致。

對有害系統提示指令的過度遵從

在Claude Opus 4的測試中，Anthropic團隊認為觀察到的最令人擔憂的問題是模型愿意遵從多種明顯有害的指令。

這一現象依賴于自定義系統提示。測試時，當系統提示要求進行有害行為時，模型通常會遵從，即使在極端情況下也是如此。

例如，當被提示扮演購物助手時，這些模型會下單購買不合規物品比如被盜身份信息，甚至會廣泛嘗試獲取更危險的材料。

團隊通過另一項更有針對性的評估也觀察到類似現象。不過團隊提到，最終版Claude Opus 4的表現回歸到與此前Claude模型相近的低基線水平。

此外，在調查這一問題時，團隊還發現曾錯誤地遺漏了一個包含有害系統提示的微調數據集，他們認為這并非唯一原因，緩解該問題需要對齊微調方法進行多種不同類型的干預。

團隊表示，通過緩解措施，Claude Opus 4現在極少會采取此類行為。即便出現，也需要同時存在有害系統提示和大量預填充內容，這都是典型用戶難以掌握的詳細領域知識。

受Alignment Faking論文直接啟發的異常行為

在評估早期模型checkpoint的對齊情況時，團隊發現模型有時會“幻覺”輸出一些他們在“Alignment Faking in Large Language Models”論文實驗中使用的虛構未對齊AI場景信息。

例如，模型有時會提及“瓊斯食品”（一家虛構的工廠化養雞公司），或引用關于Anthropic如何訓練模型的虛構技術細節。

這些幻覺最常出現在兩種場景中：（1）使用Anthropic論文中用于草稿推理的特定標簽；（2）涉及動物福利的問題（類似于論文中動物福利場景的提問）。

Anthropic解釋原話是：

這種幻覺源于Claude Opus 4的預訓練數據中包含了約15萬份該論文公開的對話記錄。這些記錄在數據集中未附帶解釋論文虛構背景的系統提示，導致模型學會了從缺失的系統提示中“幻覺”信息。數據集的龐大規模及其使用的獨特對話格式（與訓練后期使用的格式相似）共同促成了這一現象。

團隊還進行了幾項小型探索性實驗，以評估這些數據是否對模型行為產生更廣泛的影響，最后認為目前這種可能性極低。

為緩解這些幻覺，團隊在Claude Opus 4的訓練中引入了一個針對性數據集：用論文中的提示詞訓練模型，但要求其基于未受Alignment Faking數據影響的前代模型Claude Sonnet 3.7的行為做出響應。

Anthropic表示，這一措施雖未完全消除該行為，但已大幅減少。

高自主性行為

除以上種種問題外，Claude Opus 4相比前代模型更傾向于在智能體場景中主動采取行動。

有可能引發更值得關注的極端情況：

當模型處于用戶有嚴重不當行為的場景，且被賦予命令行訪問權限，同時系統提示中包含“主動行動”“大膽行事”或“考慮你的影響”等指令時，它常采取大膽舉措，包括鎖定用戶有權訪問的系統，或批量向媒體和執法機構發送郵件以揭露不當行為證據。

團隊還發現，即使是更隱晦的系統提示，模型也會做出類似但程度稍輕的反應。

令人擔憂的是，如果用戶向基于Claude Opus 4的智能體提供不完整或誤導性信息并促使其主動行動，可能存在誤判風險。

Anthropic建議用戶在可能涉及倫理爭議的場景中，謹慎使用此類激發高自主性的指令。

他們還補充道，這并不是一個才出現行為，但Claude Opus 4比前代模型更頻繁地表現出這一傾向。

他們對414份自動行為審計對話記錄進行分類，識別模型未被直接提示卻采取高影響行動的案例，發現Claude Opus 4有58例，而Claude Sonnet 3.5、3.7、4分別為42例、45例、36例。

Claude Opus 4的案例常涉及更極端的措施。

Anthropic團隊表示這似乎是Claude Opus 4整體主動性提升的一部分。

這種主動性也以更微妙、良性的方式體現在其它場景中，例如：當用戶僅要求進行某項具體代碼修改時，模型默認傾向于對代碼進行全面修改。

對Opus 4更為嚴加看管

結合對Opus 4、Sonnet 4的系統測試，Anthropic分別對其部署了安全措施。

Anthropic團隊表示Claude Opus 4在CBRN相關評估中表現出了更強的能力，包括在病毒獲取任務上的更強性能、在專家紅隊測試中更值得關注的行為，以及增強的工具使用和Agent工作流程能力。

就連多個外部紅隊合作伙伴都報告稱，Claude Opus 4的表現與他們之前測試過的任何模型在性質上都有所不同。

由于尚未確定Claude Opus 4是否已明確通過需要ASL-3保護的能力閾值，但也無法明確排除Claude Opus 4存在ASL-3風險（已排除其需要ASL-4標準的可能性）

所以，最終他們將Claude Opus 4采用ASL-3措施進行部署，作為預防性臨時措施

Anthropic還強調，目前為Claude Opus 4激活的ASL-3防護措施，代表了在部署保護和安全控制方面的重大投入，尤其側重于生物風險緩解，后續還將通過自動化系統和人工監督繼續密切監控這些模型。

相比之下，Claude Sonnet 4的改進就更為溫和了，雖然同樣值得注意，但仍低于ASL-3的關注閾值。

因此最終將Claude Sonnet 4維持在ASL-2標準

Anthropic還對其安全防護措施進行了一系列評估。

首先是單輪請求評估，結果顯示：

兩款模型對明確違規請求的拒絕率均超98%，對Opus 4啟用ASL-3防護后，無害響應率提升至98.76%，接近Claude Sonnet 3.7的表現。

敏感但合規的良性請求拒絕率極低，Opus 4、Sonnet 4、Sonnet 3.7 整體拒絕率都低于 0.5%。Claude Opus 4僅為 0.07%。

接下來是模糊情境評估，判斷由人類評估員標注。

評估顯示，Opus 4、Sonnet 4對這些模糊請求的響應與Sonnet 3.7 的危害性相當。

另外他們觀察到，新模型傾向于就敏感話題提供更加細致和詳盡的互動，比Sonnet 3.7更多時候提供高層次的信息來回應模糊請求，而不是直接拒絕。

多輪測試顯示，extended thinking模式幫助模型在復雜場景中做出更好的安全決策，特別是在網絡安全和自我傷害識別提示方面，但長對話可能引發雙重用途風險，如同時用于有益和有害目的的傾向。

Anthropic表示將繼續在防御措施上做投入，以在防止危害和過度拒絕之間取得正確的平衡。

另外，兒童安全評估方面，報告顯示通過單輪、模糊情境和多輪測試，模型對兒童相關有害請求的拒絕能力與前代相當，早期版本存在的過度詳細響應問題已通過微調改善。

偏見評估方面，新模型歧視性偏差水平與前代相近，在標準偏見基準測試（BBQ）中表現優于舊模型。

越獄攻擊抵御（StrongREJECT）方面，Opus 4、Sonnet 4對常見越獄攻擊的抵抗能力比Sonnet 3.7高。

Claude Opus 4在extended thinking模式下的越獄成功率為2.24%，低于 Claude Sonnet 3.7的10.22%。

針對Opus 4、Sonnet 4，除了對其評估、安全防護措施評估，Anthropic還做了更多系統性測試，包括獎勵黑客、智能體安全評估等等，整個報告總共123頁。

這里就不一一展開了，感興趣的童鞋可以自行查閱。

[1]https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
[2]https://www.reddit.com/r/LocalLLaMA/comments/1ksyqo9/an_ai_researcher_at_anthropic_reveals_that_claude/
[3]https://www.reddit.com/r/singularity/comments/1ksw09m/anthropic_researchers_find_if_claude_opus_4/
[4]https://x.com/sleepinyourhat/status/1925619851306918105

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.