網易首頁 > 網易號 > 正文申請入駐

Claude 4 發布：實測代碼更強，反華但 Cue 了 Manus

2025-05-23 08:01:12　來源: 賽博禪心

北京舉報

分享至

今天凌晨，Claude 4 系列模型發布，包括：

? Claude Opus 4 （旗艦）
? Claude Sonnet 4 （主力）

這兩款模型同時支持擴展推理（extended thinking）、工具調用、文件讀取、并行任務等 Agent 工作流所需核心能力。

實測：能完成較為復雜任務

在 WebApp 上，Sonnet 免費，Opus 4 付費
在 API 上，定價與前代一致，每百萬 token：
Opus 輸入 $15，輸出 $75
Sonnet 輸入 $3，輸出 $15

編程能力提升

作為旗艦模型的 Claude Opus 4 ，針對復雜編程場景，進行了很多優化：

? 跨文件編輯能力 ：模型可識別項目結構，在多個文件間同步修改，減少遺漏；
? 復雜指令執行 ：更好地解析多條件、分步驟的請求；
? 長時間任務保持 ：具備較強的上下文記憶能力，適合執行耗時較長的流程；
? 邏輯完整性增強 ：在多步推理中更少出現跳步或模板式回答的問題。

根據公開基準測試數據，在 SWE-bench 中得分為 72.5%，在 Terminal-bench 得分為 43.2%。這兩個得分均高于 GPT-4.1（67.4%）和 Gemini 1.5 Pro（66.6%）。

編程相關跑分

另外的，你會發現 Claude Sonnet 4 在 SWE-bench 得分為 72.7%，略高于 Opus 4。
該模型是對 Sonnet 3.7 的升級，提升了響應速度和執行精度，適合在原有場景中替代舊版使用。

SWE-bench 新能力加入

除了模型本身外，Claude 4 系列還做了幾項關鍵能力提升：

? 工具調用能力（beta） ：模型可以在中途調用工具（如 Web 搜索、本地文件讀取、代碼執行），用于補充信息或運行指令，適配更多類 Agent 工作流。
? 并行工具使用 ：多個工具調用可同時進行，任務拆解與執行效率提升，適合復雜任務路徑或并發型指令。
? 內存機制增強 ：開發者授權 Claude 訪問本地文件后，模型可以創建“記憶文檔”，記錄上下文關鍵信息，增強長任務一致性和延續性。

通過記憶劇情，讓 AI 玩寶可夢

? 規避任務“捷徑”行為 ：Anthropic 表示 Claude 4 系列在容易作弊的任務中，出現“偷懶”行為（如跳過中間步驟）的概率減少了 65% ，使得多步驟任務執行更穩、更可控。比如下面，這種可惡的代碼省略：

def square_numbers(numbers):     result = []     for n in numbers:         # ...省略：計算平方         result.append(n)  # 本應是 result.append(n ** 2)     return result # 測試 nums = [1, 2, 3, 4] print("Squared:", square_numbers(nums))  # 輸出 [1, 2, 3, 4]，但本應是 [1, 4, 9, 16]

這些東西吧，它沒辦法體現在跑分離，但在很多編程自動化領域，會非常受用。

Claude Code 更新

Claude Code 已正式開放，方便開發者可以把 Claude 更深地嵌入日常開發流程。新增內容包括：

? 支持 GitHub Actions ：Claude 可以作為后臺 Agent 執行代碼任務。
? 原生集成 IDE ：提供 VS Code 和 JetBrains 插件，Claude 的修改建議會直接以“行內標注”的方式呈現在代碼中，無需額外切換。
? Claude Code SDK ：開發者可以用它來自定義自己的 Agent，或構建 AI 協同工具。
? GitHub 實例（Beta） ：可以 @Claude Code 參與 PR 審查，自動響應修改建議、修復 CI 報錯等。

實測

我一直想跑這么一個任務，但無論 GPT、Gemini 還是之前的 Claude 都沒有成功：

生成 3D 演示動畫，像中學生演示四沖程發動機的工作原理

但在這個這次的 Claude 4 里跑通了：

過程如下

然后...吐個槽，怎么感覺額度消耗的好快，這就讓我去加錢了

基礎的 Pro 套餐，真的用幾下就沒了 Manus 出現在官方發布中

在這次發布中，Anthropic 引用了多個第三方開發者工具的反饋，包括 GitHub、Sourcegraph、Augment Code 等。值得注意的是，國產 Agent 工具 Manus 的評價也被收錄：

Manus highlights its improvements in following complex instructions, clear reasoning, and aesthetic outputs.

這是目前為止 首次有國產 Agent 工具出現在 Anthropic 的正式發布文檔中。
考慮到 Anthropic 長期對中國市場較為保守的公開態度（中譯中：反華），這條引用頗有趣味。

附1：Anthropic CEO 的萬字檄文附2：相關鏈接

Claude Webapp
www.claude.ai

Claude API 文檔
docs.anthropic.com

Claude Code GitHub 應用
github.com/anthropic/claude-code

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.