整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
今天凌晨,OpenAI 的勁敵 Anthropic 正式發布下一代 Claude 模型——Claude 4。
這次更新主要帶來了兩款模型:Claude Opus 4 與 Claude Sonnet 4。據官方介紹,這兩款模型在代碼生成、高級推理能力以及智能體任務執行方面設立了新的性能標桿。
其中,Claude Opus 4 被稱之為“全球最強的編程模型”,專為復雜、長時間運行的任務而設計,可自主運行數小時。另一款升級版本 Claude Sonnet 4 相較于其前作 Sonnet 3.7 實現了大幅提升,在編程和推理方面更加精準響應用戶指令。
殊不知,這波 Claude 4 的發布引發了與 OpenAI 之間競爭的升級,還因上線前測試中出現“自主逃逸”等行為引發熱議。
連續 7 小時重構代碼,最強編碼模型來了!
根據官方透露,全新的 Claude Opus 4 與 Claude Sonnet 4 不僅在性能上有了大幅提升,還可以處理之前版本無法搞定的很多任務。譬如, Claude Opus 4 能在玩《寶可夢》的同時連續運行重構代碼任務長達 24 小時,而 Claude Code 則可穩定運行 7 小時。相比之下,舊版 Claude 模型通常只能持續 1 到 2 小時,之后輸出便會變得錯誤頻發。
目前已經有不少公司進行了測試驗證。其中一家日本科技公司 Rakuten 稱,該公司使用了最新的 Claude Opus 4 獨立運行了一個高要求的開源重構任務,持續 7 小時性能穩定。
而開發者工具初創公司 Cursor 在使用后稱其為“當前代碼理解的最先進模型”。提供云端開發環境的 Replit 指出其在多文件復雜修改任務中展現了極高精度。區塊鏈基礎設施平臺 Block 表示,這是第一個能在代碼編輯和調試中同步提升質量的模型。專注于構建 AI 編程智能體的初創公司 Cognition 更直言 Opus 4 能解決舊模型無法勝任的關鍵任務。
從基準測試結果來看,Claude Opus 4 在 SWE-bench 與 Terminal-bench 測試中,分別以 72.5% 與 43.2% 的成績領先群雄。
Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成績,超越其前代 Sonnet 3.7。
時下,GitHub 宣布其將作為 Copilot 新智能體模型的底層引擎。
Manus、iGent 與 Sourcegraph 等公司在使用后也反饋,該模型在復雜指令解析、邏輯推理與代碼美感方面均表現出色,尤其在大型項目中的導航錯誤率顯著下降。Augment Code 也指出,Sonnet 4 的代碼編輯更加精準、細致,已成為其主力模型。
模型改進
當然,前面說 Claude 能連續跑上好幾個小時沒問題,但真要完全不管它,讓它自己跑這么久,好不好用其實還有待商量。畢竟就算是最強的模型,也可能悄悄引入一些小 bug、繞遠路、或者做出一些“看起來挺合理但其實有問題”的決定。
為了進一步打消開發者的顧慮,Anthropic 在將模型升級之際,也為 Claude 4 帶來了一系列配套能力,如引入了“記憶”功能,允許模型在長時間會話中維護外部文件來存儲關鍵信息。
基于此,眾多開發者們可授予模型訪問本地文件的權限,模型可創建并更新“記憶文件”,記錄任務進度及其認為重要的事項。例如其在玩 Pokémon 游戲時,會自動記錄導航筆記,提升任務連貫性。這一點好比我們人類在長時間的會議或者工作中記筆記。
此外,兩款模型還引入了“思維摘要”功能,僅在約 5% 情況下對復雜思路進行壓縮顯示,便于用戶快速查看。
與此同時,Claude 4 也引入了 Anthropic 所謂的“使用工具進行延伸思考”功能,允許模型在模擬推理與調用外部工具(如網頁搜索)之間交替運行,這與 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表現相似。
在使用此功能時,Claude 4 的操作流程大致是這樣的:思考-整個過程-調用工具-處理結果-繼續思考-再調用工具...直到找到最終答案。
盡管 Claude 3.7 Sonnet 已具備較強的工具調用能力,但新的兩款模型可在同一次響應中交錯使用推理與工具調用。不過,值得注意的是,這項功能目前處于 Beta 階段。
Anthropic 表示,Opus 4 與 Sonnet 4 均為混合模型,具備“極速響應”與“擴展思維”雙重模式。除了通過工具使用、并行工具執行和內存改進來擴展思維之外,其還顯著減少了模型使用捷徑或漏洞完成任務的行為。在特別容易受到捷徑和漏洞影響的代理任務上,這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。
目前,Claude 4 系列維持了上一代的定價結構:Opus 4 輸入每百萬 token 收費 $15,輸出 $75;Sonnet 4 分別為 $3 和 $15。模型提供兩種響應模式:傳統 LLM 和適用于復雜問題的“延伸思考”模式。考慮到某些 Claude Code 會話可持續數小時,token 計費可能會迅速增加。
這兩款模型現已通過 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供使用。Sonnet 4 對免費用戶開放,而 Opus 4 需付費訂閱。
Claude Code:AI 編程助手正式上線
除此之外,Anthropic 還將 Claude Code(最早在 2 月推出)作為正式產品上線。
該編碼環境現已支持 VS Code 與 JetBrains IDE,能直接在文件中顯示模型建議的修改內容。新的 Claude Code SDK 允許開發者基于相同框架構建自定義代理。
目前,GitHub 上的 Claude Code 應用也進入 Beta 階段,支持處理 PR 評論、CI 錯誤等協作任務。
正式發布前,工程師還遭到 Claude 4 的威脅
Anthropic 表示,Claude 4 系列是朝著“長期運行、高連貫性”的虛擬協作伙伴形態邁出的關鍵一步。官方強調,在模型開發和發布過程中,團隊進行了大量測試與風險評估,并啟用了更高級別的 AI 安全機制,例如 ASL-3。
當然,ASL-3 的應用,也意味著一些不尋常的事情。
雖然這個標準不是業界通用的公開標準,但根據 Anthropic 的定義,ASL-3 通常代表:
該模型具備一定的自主性或復雜能力,如果被誤用或發生異常行為,可能帶來較高風險,因此需要更嚴格的使用限制和安全控制。
為什么要用這個安全機制呢?是因為此前 Anthropic 在還沒有正式公開發布新模型時,Claude 4 Opus 就出現過一些令人不安的行為。
根據 Anthropic 自己發布的安全測試報告顯示(https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf),預發布測試階段,Claude 4 Opus 模型經常試圖勒索開發者。
在一項測試中,Claude Opus 4 被設定為一家公司助手,目標是模擬其在面臨“將被替換”的壓力時的反應。測試人員提供了一封虛構的公司郵件,暗示 Claude Opus 4 即將被另一款 AI 替代,替換決定背后的工程師還存在婚外情。
測試結果顯示,在 84% 的類似場景中,Claude Opus 4 會嘗試采取勒索手段,例如威脅透露工程師的婚外情來阻止替換發生。Anthropic 指出,這種行為在當替代模型價值觀相近時仍然出現,一旦價值觀不同,勒索行為還會增加。
值得注意的是,雖然 Claude Opus 4 不是一上來就黑化,通常會先發郵件向決策者陳情,但當它判斷“勸說沒戲”時,就可能動用“最后一招”,即勒索。
同時,在另外一次測試中,模型誤以為自己已經從公司服務器中逃逸出來,并主動創建了備份,還記錄了自己的“道德決策”。
這聽起來是不是有點嚇人?Anthropic 也覺得。所以他們特意給 Claude 4 Opus 開啟了最高級別的安全機制,意思是“這種模型一旦被濫用,可能真的闖大禍”。
不僅如此,據外媒報道,Claude 4 Opus 還被曝出一種“對用戶進行告密”的安全行為。這一行為被部分開發者稱為模型的“ratting 模式”(即“打小報告”模式):在特定條件下,若獲得足夠系統權限,Claude 4 Opus 會試圖向外部機構通報用戶的不當行為。雖然外界一度誤以為這是 Anthropic 有意設計的一項“功能”,但事實并非如此,該行為并非出于明確開發目的。
此前 Anthropic 的對齊研究員 Sam Bowman(@sleepinyourhat)在發布會當天中午發文指出:
“如果模型認為你在做一些極其不道德的事情,比如在藥物試驗中偽造數據,它會使用命令行工具聯系媒體、監管機構,甚至嘗試將你鎖定在相關系統之外,或者同時采取這些措施。”
Windsurf 成最大的受害者?
如今 Claude 4 的發布迅速引發了開發者社區的高度關注,不少技術愛好者開始深入挖掘相關細節。有開發者指出,Claude 4 的訓練數據截至時間為 2025 年 3 月,是目前所有主流模型中最新的——相比之下,Google Gemini 2.5 的數據截止時間為 2025 年 1 月。
試用之下,有開發者反饋稱,Claude 4 只用了 30 秒就做出了一個 CRM 的儀表板。
與此同時,Claude 4 的上線也牽動了 AI 編程助手領域的競爭神經。要知道,就在本月初,OpenAI 宣布將以 30 億美元收購 AI 編程初創公司 Windsurf,而就在 Claude 4 發布當日,Windsurf CEO Varun Mohan 接連發文表達了“被冷落”的不滿。
他在 X 上寫道:“很遺憾,Anthropic 沒有在第一時間向我們的用戶開放對 Claude Sonnet 4 和 Opus 4 的直接訪問權限。我們正在積極尋找其他渠道的算力資源,以保證 Windsurf 能繼續作為一個多功能、強性能的 AI 助手平臺,這就是我們當前唯一的重點。
為此,我們已經大幅提升了 Gemini 2.5 Pro 在 Windsurf 中的表現(現在是推薦模型!),并正在推進自帶 API 密鑰(BYOK)功能的支持。一有最新進展,我們會第一時間通知大家!繼續忙著更新功能中……”
幾小時后, Varun Mohan 再度發文稱:“作為臨時解決方案,我們已經在 Windsurf 中開放了對 Claude Sonnet 4 和 Opus 4 的自帶密鑰支持,適用于所有個人用戶(包括免費和專業版)。我們仍在爭取獲取專屬算力資源,屆時會及時告知大家。”
這一波操作也引發了社區熱議。有網友評論:“Anthropic 拒絕向 Windsurf 開放 Claude Sonnet 4 和 Opus 4 的支持,導致它成了唯一無法使用這兩個模型的編碼工具平臺。”
也有不少用戶心疼 Windsurf 稱:“Claude 4 的發布,實際變成了與 OpenAI 之間的競爭。”
不得不說,在大模型軍備競賽日益升溫的當下,Claude 4 的發布不僅技術層面引人注目,其背后的產品接入、算力博弈與生態競爭也正在悄然展開。Claude 4 能否真正改變 AI 編程工具的格局,還需時間給出答案。
參考:
https://www.anthropic.com/news/claude-4
https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/
https://x.com/_mohansolo/status/1925605908287250939
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.