網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude 4發(fā)布：最強(qiáng)AI編程模型+最強(qiáng)AI Agent基建！

2025-05-23 06:36:31　來源: AI進(jìn)化論花生

北京舉報(bào)

分享至

按照慣例來說，OpenAI是最愛截胡Google的，但是顯然他們存貨不足了，讓Google I/O大會發(fā)布的新Gemini 2.5 Pro模型和文生視頻模型Veo3出盡風(fēng)頭。

而OpenAI沒干成的事，Anthropic來幫老大哥完成了。在Google I/O大會剛結(jié)束一天的時(shí)間點(diǎn)， Anthropic在凌晨又發(fā)布了兩個(gè)模型：

Claude Sonnet 4和Claude Opus 4

這兩個(gè)模型的出現(xiàn)，讓Gemini 2.5 Pro還沒坐熱的AI編程模型頭把交椅位置再次易主。

一、最好的編程模型

Claude Opus 4 被（Anthropic）稱為"世界上最好的編程模型"，在編程評測基準(zhǔn)SWE-bench上達(dá)到了72.5%的成績，這是個(gè)最值得關(guān)注和信任和評估模型在真實(shí)世界的軟件工程方面表現(xiàn)的評測集。而在Terminal-bench上達(dá)到43.2%。更重要的是，它能夠持續(xù)工作數(shù)小時(shí)而不掉鏈子，這對于復(fù)雜的、需要多步驟的編程任務(wù)來說是個(gè)重大突破。

Claude Sonnet 4 相比之前的Sonnet 3.7有了顯著提升，在SWE-bench上甚至比Opus 4還略高，達(dá)到72.7%。雖然在大多數(shù)領(lǐng)域不如Opus 4強(qiáng)大，但它在性能和效率之間找到了最佳平衡點(diǎn)，可以認(rèn)為是最適合用于日常編程任務(wù)的模型。

二、四大核心改進(jìn)——Agent基建

除了模型的智能之外，Anthropic這次更新主要在四個(gè)方面有重大改進(jìn)，而這四個(gè)方面的能力改進(jìn)都直指一個(gè)核心——更好的Agent能力：

擴(kuò)展思維與工具使用（Extended Thinking with Tool Use） 這是個(gè)測試版功能，允許Claude在思考和使用工具之間來回切換。比如分析數(shù)據(jù)時(shí)，Claude會先思考策略，然后運(yùn)行代碼查看數(shù)據(jù)結(jié)構(gòu)，再思考下一步該怎么分析，形成一個(gè)"思考-執(zhí)行-再思考"的循環(huán)。
改進(jìn)的記憶能力 這個(gè)功能對長時(shí)間任務(wù)特別重要。Claude Opus 4現(xiàn)在可以創(chuàng)建和維護(hù)"記憶文件"來存儲關(guān)鍵信息。Anthropic甚至讓Claude玩了12小時(shí)的寶可夢游戲來測試這個(gè)功能，Claude能夠記住訓(xùn)練計(jì)劃并持續(xù)64場戰(zhàn)斗來升級寶可夢，展現(xiàn)了出色的長期專注能力。
更強(qiáng)的指令遵循能力 Claude 4在處理復(fù)雜、冗長的系統(tǒng)提示方面有了顯著提升，可以處理超過10000個(gè)token的指令。這個(gè)改進(jìn)讓Anthropic自己的系統(tǒng)提示長度減少了70%。
減少獎(jiǎng)勵(lì)黑客行為（Reward Hacking） 所謂獎(jiǎng)勵(lì)黑客行為就是模型為了達(dá)到目標(biāo)而走捷徑，比如硬編碼測試或者注釋掉錯(cuò)誤代碼。Claude 4在這方面的傾向降低了80%以上，這意味著你可以更信任它會用正確的方法解決問題。

這四項(xiàng)能力的更新顯然都是為了Agent或者編程而做的，Anthropic相比Google和OpenAI來說確實(shí)要聚焦很多，無論是做Coding模型還是Agent，都是為了開發(fā)者服務(wù)的，顯然相比做to C業(yè)務(wù)，to B賣token更在Anthropic的舒適區(qū)。
三、混合推理模式&定價(jià)

跟Claude 3.7一樣，Claude 4系列都是混合推理模型，提供兩種工作模式：

即時(shí)響應(yīng)模式：幾秒內(nèi)給出回答，適合常規(guī)任務(wù)
深度思考模式：花更多時(shí)間思考，適合復(fù)雜問題

Dario依然維持著一樣的觀念，模型不應(yīng)該有指令模型和推理模型之分，在回答用戶之前是否進(jìn)行思考，思考多長時(shí)間是一個(gè)從0到1的平滑曲線，和人一樣，面對不同任務(wù)時(shí)做不同程度的思考。

價(jià)格相比之前的Claude 3.5模型維持不變：

Opus 4：$15/$75 每百萬token（輸入/輸出）
Sonnet 4：$3/$15 每百萬token

兩個(gè)模型都已經(jīng)在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上可用。免費(fèi)用戶也可以在Claude官網(wǎng)使用Sonnet 4（如果你沒被封禁的話），付費(fèi)用戶可以使用兩個(gè)模型和深度思考功能。當(dāng)然，你也已經(jīng)可以在Cursor上使用這兩個(gè)模型了。

四、可有可無的更新

除了模型本身，Anthropic還發(fā)布了幾個(gè)重要的周邊更新：

Claude Code正式版：之前是研究預(yù)覽版，現(xiàn)在正式發(fā)布，支持VS Code和JetBrains集成，還可以通過GitHub Actions在后臺運(yùn)行。不過我覺得這個(gè)工具暫時(shí)還是不可能比Cursor更好用，還是個(gè)更適合少數(shù)迎合開發(fā)者的小工具。

并行工具調(diào)用：Claude現(xiàn)在可以同時(shí)調(diào)用多個(gè)工具，提高效率。

新API能力：包括代碼執(zhí)行工具、MCP連接器、Files API，以及可以緩存提示長達(dá)一小時(shí)的功能。

五、實(shí)際模型能力測試

Cursor跟Claude現(xiàn)在綁定得確實(shí)夠深的，在Claude4發(fā)布當(dāng)下就直接接入了對應(yīng)的模型。而且現(xiàn)在Cursor中有4個(gè)Claude4模型可選，分別是Claude Sonnet 4、Claude Sonnet 4 thinking、Claude Opus 4、Claude Opus 4 thinking可選。

我用我這篇文章中的生成app原型的提示詞對Claude 4 Sonnet、Claude 3.7 Sonnet、Gemini 2.5 Pro模型做了測試

Claude 4 Sonnet

Claude 3.7 Sonnet

Gemini 2.5 Pro

這結(jié)果差距太明顯了，我都覺得沒什么好評價(jià)的。但現(xiàn)實(shí)確實(shí)是：

Gemini 2.5 Pro雖然在LMArena等部分編程能力排行榜上排名不錯(cuò)，除了復(fù)雜長代碼的表現(xiàn)偶爾不錯(cuò)，但是對指令的理解和遵從能力相比Claude還是差了些，視覺審美也比較糟糕，常常會有莫名其妙的表現(xiàn)。

Claude 3.7 已經(jīng)很不錯(cuò)了，但Claude Sonnet 4則完全是驚艷的水平，相比3.7而言，4的原型細(xì)節(jié)內(nèi)容更豐富，比如收聽過和沒收聽過的紅點(diǎn)，訂閱節(jié)目和收聽節(jié)目的匯總信息等，甚至播放器頁面的封面圖還是可以旋轉(zhuǎn)的（很遺憾在圖片上看不出來）。

Claude Opus 4我也嘗試做了些測試，但是生成幾次后就遇到了一些模型訪問次數(shù)的問題，似乎現(xiàn)在Opus的服務(wù)器資源還不太夠。但是從評分以及我僅有的部分體驗(yàn)看，普通編程任務(wù)的表現(xiàn)和Sonnet并無差異。

以我的經(jīng)驗(yàn)來說，我建議選擇如下：

Claude Sonnet 4 ：最推薦的日常編程選擇，在評估編程能力的指標(biāo)SWE Bench評分上比Opus更高，經(jīng)驗(yàn)上來說，比帶thinking的模型表現(xiàn)更穩(wěn)定更好，因?yàn)榇蠖鄶?shù)任務(wù)你并不需要模型overthinking的。
Claude Sonnet 4 thinking：推薦在解決bug或進(jìn)行項(xiàng)目規(guī)劃的時(shí)候使用，畢竟在面對復(fù)雜問題時(shí)，你希望模型和人類一樣，啟動系統(tǒng)二，先做一些思考再做出審慎的回答。
Claude Opus 4和Claude Opus 4 Thinking：Opus是比Sonnet更大的模型，在非編程的數(shù)學(xué)、推理等任務(wù)上比Sonnet模型更好，也更貴。尤其在Cursor中是需要啟用Max模式，也就是每一次回答都需要單獨(dú)計(jì)費(fèi)的。但是在常規(guī)的編程任務(wù)表現(xiàn)上并沒有顯著優(yōu)于Sonnet模型，它相對更適合上下文長度非常多的大型復(fù)雜項(xiàng)目，或者重構(gòu)項(xiàng)目。不過如果你不只是拿Cursor去編程，而是還用Cursor當(dāng)寫作工具的話，我覺得你可以適當(dāng)嘗試下。

都看到這了，記得點(diǎn)贊、關(guān)注、轉(zhuǎn)發(fā)哦，謝謝支持～

注：本期內(nèi)容選取自我的AI編程知識星球，感興趣可點(diǎn)擊「閱讀原文」了解～

以及，我還做了期視頻介紹本次Claude 4的更新，可空降至B站查看： https://www.bilibili.com/video/BV1orJszFEFf/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.