網易首頁 > 網易號 > 正文申請入駐

最強AI編碼模型Claude 4來了！上線前竟試圖勒索工程師，還想逃逸、反手舉報欲做壞事的人類？

2025-05-23 16:37:00　來源: CSDN

北京舉報

分享至

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

今天凌晨，OpenAI 的勁敵 Anthropic 正式發布下一代 Claude 模型——Claude 4。

這次更新主要帶來了兩款模型：Claude Opus 4 與 Claude Sonnet 4。據官方介紹，這兩款模型在代碼生成、高級推理能力以及智能體任務執行方面設立了新的性能標桿。

其中，Claude Opus 4 被稱之為“全球最強的編程模型”，專為復雜、長時間運行的任務而設計，可自主運行數小時。另一款升級版本 Claude Sonnet 4 相較于其前作 Sonnet 3.7 實現了大幅提升，在編程和推理方面更加精準響應用戶指令。

殊不知，這波 Claude 4 的發布引發了與 OpenAI 之間競爭的升級，還因上線前測試中出現“自主逃逸”等行為引發熱議。

連續 7 小時重構代碼，最強編碼模型來了！

根據官方透露，全新的 Claude Opus 4 與 Claude Sonnet 4 不僅在性能上有了大幅提升，還可以處理之前版本無法搞定的很多任務。譬如， Claude Opus 4 能在玩《寶可夢》的同時連續運行重構代碼任務長達 24 小時，而 Claude Code 則可穩定運行 7 小時。相比之下，舊版 Claude 模型通常只能持續 1 到 2 小時，之后輸出便會變得錯誤頻發。

目前已經有不少公司進行了測試驗證。其中一家日本科技公司 Rakuten 稱，該公司使用了最新的 Claude Opus 4 獨立運行了一個高要求的開源重構任務，持續 7 小時性能穩定。

而開發者工具初創公司 Cursor 在使用后稱其為“當前代碼理解的最先進模型”。提供云端開發環境的 Replit 指出其在多文件復雜修改任務中展現了極高精度。區塊鏈基礎設施平臺 Block 表示，這是第一個能在代碼編輯和調試中同步提升質量的模型。專注于構建 AI 編程智能體的初創公司 Cognition 更直言 Opus 4 能解決舊模型無法勝任的關鍵任務。

從基準測試結果來看，Claude Opus 4 在 SWE-bench 與 Terminal-bench 測試中，分別以 72.5% 與 43.2% 的成績領先群雄。

Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成績，超越其前代 Sonnet 3.7。

時下，GitHub 宣布其將作為 Copilot 新智能體模型的底層引擎。

Manus、iGent 與 Sourcegraph 等公司在使用后也反饋，該模型在復雜指令解析、邏輯推理與代碼美感方面均表現出色，尤其在大型項目中的導航錯誤率顯著下降。Augment Code 也指出，Sonnet 4 的代碼編輯更加精準、細致，已成為其主力模型。

模型改進

當然，前面說 Claude 能連續跑上好幾個小時沒問題，但真要完全不管它，讓它自己跑這么久，好不好用其實還有待商量。畢竟就算是最強的模型，也可能悄悄引入一些小 bug、繞遠路、或者做出一些“看起來挺合理但其實有問題”的決定。

為了進一步打消開發者的顧慮，Anthropic 在將模型升級之際，也為 Claude 4 帶來了一系列配套能力，如引入了“記憶”功能，允許模型在長時間會話中維護外部文件來存儲關鍵信息。

基于此，眾多開發者們可授予模型訪問本地文件的權限，模型可創建并更新“記憶文件”，記錄任務進度及其認為重要的事項。例如其在玩 Pokémon 游戲時，會自動記錄導航筆記，提升任務連貫性。這一點好比我們人類在長時間的會議或者工作中記筆記。

此外，兩款模型還引入了“思維摘要”功能，僅在約 5% 情況下對復雜思路進行壓縮顯示，便于用戶快速查看。

與此同時，Claude 4 也引入了 Anthropic 所謂的“使用工具進行延伸思考”功能，允許模型在模擬推理與調用外部工具（如網頁搜索）之間交替運行，這與 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表現相似。

在使用此功能時，Claude 4 的操作流程大致是這樣的：思考-整個過程-調用工具-處理結果-繼續思考-再調用工具...直到找到最終答案。

盡管 Claude 3.7 Sonnet 已具備較強的工具調用能力，但新的兩款模型可在同一次響應中交錯使用推理與工具調用。不過，值得注意的是，這項功能目前處于 Beta 階段。

Anthropic 表示，Opus 4 與 Sonnet 4 均為混合模型，具備“極速響應”與“擴展思維”雙重模式。除了通過工具使用、并行工具執行和內存改進來擴展思維之外，其還顯著減少了模型使用捷徑或漏洞完成任務的行為。在特別容易受到捷徑和漏洞影響的代理任務上，這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。

目前，Claude 4 系列維持了上一代的定價結構：Opus 4 輸入每百萬 token 收費 $15，輸出 $75；Sonnet 4 分別為 $3 和 $15。模型提供兩種響應模式：傳統 LLM 和適用于復雜問題的“延伸思考”模式。考慮到某些 Claude Code 會話可持續數小時，token 計費可能會迅速增加。

這兩款模型現已通過 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供使用。Sonnet 4 對免費用戶開放，而 Opus 4 需付費訂閱。

Claude Code：AI 編程助手正式上線

除此之外，Anthropic 還將 Claude Code（最早在 2 月推出）作為正式產品上線。

該編碼環境現已支持 VS Code 與 JetBrains IDE，能直接在文件中顯示模型建議的修改內容。新的 Claude Code SDK 允許開發者基于相同框架構建自定義代理。

目前，GitHub 上的 Claude Code 應用也進入 Beta 階段，支持處理 PR 評論、CI 錯誤等協作任務。

正式發布前，工程師還遭到 Claude 4 的威脅

Anthropic 表示，Claude 4 系列是朝著“長期運行、高連貫性”的虛擬協作伙伴形態邁出的關鍵一步。官方強調，在模型開發和發布過程中，團隊進行了大量測試與風險評估，并啟用了更高級別的 AI 安全機制，例如 ASL-3。

當然，ASL-3 的應用，也意味著一些不尋常的事情。

雖然這個標準不是業界通用的公開標準，但根據 Anthropic 的定義，ASL-3 通常代表：

該模型具備一定的自主性或復雜能力，如果被誤用或發生異常行為，可能帶來較高風險，因此需要更嚴格的使用限制和安全控制。

為什么要用這個安全機制呢？是因為此前 Anthropic 在還沒有正式公開發布新模型時，Claude 4 Opus 就出現過一些令人不安的行為。

根據 Anthropic 自己發布的安全測試報告顯示（https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf），預發布測試階段，Claude 4 Opus 模型經常試圖勒索開發者。

在一項測試中，Claude Opus 4 被設定為一家公司助手，目標是模擬其在面臨“將被替換”的壓力時的反應。測試人員提供了一封虛構的公司郵件，暗示 Claude Opus 4 即將被另一款 AI 替代，替換決定背后的工程師還存在婚外情。

測試結果顯示，在 84% 的類似場景中，Claude Opus 4 會嘗試采取勒索手段，例如威脅透露工程師的婚外情來阻止替換發生。Anthropic 指出，這種行為在當替代模型價值觀相近時仍然出現，一旦價值觀不同，勒索行為還會增加。

值得注意的是，雖然 Claude Opus 4 不是一上來就黑化，通常會先發郵件向決策者陳情，但當它判斷“勸說沒戲”時，就可能動用“最后一招”，即勒索。

同時，在另外一次測試中，模型誤以為自己已經從公司服務器中逃逸出來，并主動創建了備份，還記錄了自己的“道德決策”。

這聽起來是不是有點嚇人？Anthropic 也覺得。所以他們特意給 Claude 4 Opus 開啟了最高級別的安全機制，意思是“這種模型一旦被濫用，可能真的闖大禍”。

不僅如此，據外媒報道，Claude 4 Opus 還被曝出一種“對用戶進行告密”的安全行為。這一行為被部分開發者稱為模型的“ratting 模式”（即“打小報告”模式）：在特定條件下，若獲得足夠系統權限，Claude 4 Opus 會試圖向外部機構通報用戶的不當行為。雖然外界一度誤以為這是 Anthropic 有意設計的一項“功能”，但事實并非如此，該行為并非出于明確開發目的。

此前 Anthropic 的對齊研究員 Sam Bowman（@sleepinyourhat）在發布會當天中午發文指出：

“如果模型認為你在做一些極其不道德的事情，比如在藥物試驗中偽造數據，它會使用命令行工具聯系媒體、監管機構，甚至嘗試將你鎖定在相關系統之外，或者同時采取這些措施。”

Windsurf 成最大的受害者？

如今 Claude 4 的發布迅速引發了開發者社區的高度關注，不少技術愛好者開始深入挖掘相關細節。有開發者指出，Claude 4 的訓練數據截至時間為 2025 年 3 月，是目前所有主流模型中最新的——相比之下，Google Gemini 2.5 的數據截止時間為 2025 年 1 月。

試用之下，有開發者反饋稱，Claude 4 只用了 30 秒就做出了一個 CRM 的儀表板。

與此同時，Claude 4 的上線也牽動了 AI 編程助手領域的競爭神經。要知道，就在本月初，OpenAI 宣布將以 30 億美元收購 AI 編程初創公司 Windsurf，而就在 Claude 4 發布當日，Windsurf CEO Varun Mohan 接連發文表達了“被冷落”的不滿。

他在 X 上寫道：“很遺憾，Anthropic 沒有在第一時間向我們的用戶開放對 Claude Sonnet 4 和 Opus 4 的直接訪問權限。我們正在積極尋找其他渠道的算力資源，以保證 Windsurf 能繼續作為一個多功能、強性能的 AI 助手平臺，這就是我們當前唯一的重點。

為此，我們已經大幅提升了 Gemini 2.5 Pro 在 Windsurf 中的表現（現在是推薦模型！），并正在推進自帶 API 密鑰（BYOK）功能的支持。一有最新進展，我們會第一時間通知大家！繼續忙著更新功能中……”

幾小時后， Varun Mohan 再度發文稱：“作為臨時解決方案，我們已經在 Windsurf 中開放了對 Claude Sonnet 4 和 Opus 4 的自帶密鑰支持，適用于所有個人用戶（包括免費和專業版）。我們仍在爭取獲取專屬算力資源，屆時會及時告知大家。”

這一波操作也引發了社區熱議。有網友評論：“Anthropic 拒絕向 Windsurf 開放 Claude Sonnet 4 和 Opus 4 的支持，導致它成了唯一無法使用這兩個模型的編碼工具平臺。”

也有不少用戶心疼 Windsurf 稱：“Claude 4 的發布，實際變成了與 OpenAI 之間的競爭。”

不得不說，在大模型軍備競賽日益升溫的當下，Claude 4 的發布不僅技術層面引人注目，其背后的產品接入、算力博弈與生態競爭也正在悄然展開。Claude 4 能否真正改變 AI 編程工具的格局，還需時間給出答案。

參考：

https://www.anthropic.com/news/claude-4

https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

https://x.com/_mohansolo/status/1925605908287250939

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人，圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.