按照慣例來說,OpenAI是最愛截胡Google的,但是顯然他們存貨不足了,讓Google I/O大會發(fā)布的新Gemini 2.5 Pro模型和文生視頻模型Veo3出盡風(fēng)頭。
而OpenAI沒干成的事,Anthropic來幫老大哥完成了。在Google I/O大會剛結(jié)束一天的時(shí)間點(diǎn), Anthropic在凌晨又發(fā)布了兩個(gè)模型:
Claude Sonnet 4和Claude Opus 4
這兩個(gè)模型的出現(xiàn),讓Gemini 2.5 Pro還沒坐熱的AI編程模型頭把交椅位置再次易主。
一、最好的編程模型
Claude Opus 4 被(Anthropic)稱為"世界上最好的編程模型",在編程評測基準(zhǔn)SWE-bench上達(dá)到了72.5%的成績,這是個(gè)最值得關(guān)注和信任和評估模型在真實(shí)世界的軟件工程方面表現(xiàn)的評測集。而在Terminal-bench上達(dá)到43.2%。更重要的是,它能夠持續(xù)工作數(shù)小時(shí)而不掉鏈子,這對于復(fù)雜的、需要多步驟的編程任務(wù)來說是個(gè)重大突破。
Claude Sonnet 4 相比之前的Sonnet 3.7有了顯著提升,在SWE-bench上甚至比Opus 4還略高,達(dá)到72.7%。雖然在大多數(shù)領(lǐng)域不如Opus 4強(qiáng)大,但它在性能和效率之間找到了最佳平衡點(diǎn),可以認(rèn)為是最適合用于日常編程任務(wù)的模型。
二、四大核心改進(jìn)——Agent基建
除了模型的智能之外,Anthropic這次更新主要在四個(gè)方面有重大改進(jìn),而這四個(gè)方面的能力改進(jìn)都直指一個(gè)核心——更好的Agent能力:
擴(kuò)展思維與工具使用(Extended Thinking with Tool Use) 這是個(gè)測試版功能,允許Claude在思考和使用工具之間來回切換。比如分析數(shù)據(jù)時(shí),Claude會先思考策略,然后運(yùn)行代碼查看數(shù)據(jù)結(jié)構(gòu),再思考下一步該怎么分析,形成一個(gè)"思考-執(zhí)行-再思考"的循環(huán)。
改進(jìn)的記憶能力 這個(gè)功能對長時(shí)間任務(wù)特別重要。Claude Opus 4現(xiàn)在可以創(chuàng)建和維護(hù)"記憶文件"來存儲關(guān)鍵信息。Anthropic甚至讓Claude玩了12小時(shí)的寶可夢游戲來測試這個(gè)功能,Claude能夠記住訓(xùn)練計(jì)劃并持續(xù)64場戰(zhàn)斗來升級寶可夢,展現(xiàn)了出色的長期專注能力。
更強(qiáng)的指令遵循能力 Claude 4在處理復(fù)雜、冗長的系統(tǒng)提示方面有了顯著提升,可以處理超過10000個(gè)token的指令。這個(gè)改進(jìn)讓Anthropic自己的系統(tǒng)提示長度減少了70%。
減少獎(jiǎng)勵(lì)黑客行為(Reward Hacking) 所謂獎(jiǎng)勵(lì)黑客行為就是模型為了達(dá)到目標(biāo)而走捷徑,比如硬編碼測試或者注釋掉錯(cuò)誤代碼。Claude 4在這方面的傾向降低了80%以上,這意味著你可以更信任它會用正確的方法解決問題。
這四項(xiàng)能力的更新顯然都是為了Agent或者編程而做的,Anthropic相比Google和OpenAI來說確實(shí)要聚焦很多,無論是做Coding模型還是Agent,都是為了開發(fā)者服務(wù)的,顯然相比做to C業(yè)務(wù),to B賣token更在Anthropic的舒適區(qū)。
三、混合推理模式&定價(jià)
跟Claude 3.7一樣,Claude 4系列都是混合推理模型,提供兩種工作模式:
即時(shí)響應(yīng)模式:幾秒內(nèi)給出回答,適合常規(guī)任務(wù)
深度思考模式:花更多時(shí)間思考,適合復(fù)雜問題
Dario依然維持著一樣的觀念,模型不應(yīng)該有指令模型和推理模型之分,在回答用戶之前是否進(jìn)行思考,思考多長時(shí)間是一個(gè)從0到1的平滑曲線,和人一樣,面對不同任務(wù)時(shí)做不同程度的思考。
價(jià)格相比之前的Claude 3.5模型維持不變:
Opus 4:$15/$75 每百萬token(輸入/輸出)
Sonnet 4:$3/$15 每百萬token
兩個(gè)模型都已經(jīng)在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上可用。免費(fèi)用戶也可以在Claude官網(wǎng)使用Sonnet 4(如果你沒被封禁的話),付費(fèi)用戶可以使用兩個(gè)模型和深度思考功能。當(dāng)然,你也已經(jīng)可以在Cursor上使用這兩個(gè)模型了。
四、可有可無的更新
除了模型本身,Anthropic還發(fā)布了幾個(gè)重要的周邊更新:
Claude Code正式版:之前是研究預(yù)覽版,現(xiàn)在正式發(fā)布,支持VS Code和JetBrains集成,還可以通過GitHub Actions在后臺運(yùn)行。不過我覺得這個(gè)工具暫時(shí)還是不可能比Cursor更好用,還是個(gè)更適合少數(shù)迎合開發(fā)者的小工具。
并行工具調(diào)用:Claude現(xiàn)在可以同時(shí)調(diào)用多個(gè)工具,提高效率。
新API能力:包括代碼執(zhí)行工具、MCP連接器、Files API,以及可以緩存提示長達(dá)一小時(shí)的功能。
五、實(shí)際模型能力測試
Cursor跟Claude現(xiàn)在綁定得確實(shí)夠深的,在Claude4發(fā)布當(dāng)下就直接接入了對應(yīng)的模型。而且現(xiàn)在Cursor中有4個(gè)Claude4模型可選,分別是Claude Sonnet 4、Claude Sonnet 4 thinking、Claude Opus 4、Claude Opus 4 thinking可選。
我用我這篇文章中的生成app原型的提示詞對Claude 4 Sonnet、Claude 3.7 Sonnet、Gemini 2.5 Pro模型做了測試
Claude 4 Sonnet
Claude 3.7 Sonnet
Gemini 2.5 Pro
這結(jié)果差距太明顯了,我都覺得沒什么好評價(jià)的。但現(xiàn)實(shí)確實(shí)是:
Gemini 2.5 Pro雖然在LMArena等部分編程能力排行榜上排名不錯(cuò),除了復(fù)雜長代碼的表現(xiàn)偶爾不錯(cuò),但是對指令的理解和遵從能力相比Claude還是差了些,視覺審美也比較糟糕,常常會有莫名其妙的表現(xiàn)。
Claude 3.7 已經(jīng)很不錯(cuò)了,但Claude Sonnet 4則完全是驚艷的水平,相比3.7而言,4的原型細(xì)節(jié)內(nèi)容更豐富,比如收聽過和沒收聽過的紅點(diǎn),訂閱節(jié)目和收聽節(jié)目的匯總信息等,甚至播放器頁面的封面圖還是可以旋轉(zhuǎn)的(很遺憾在圖片上看不出來)。
Claude Opus 4我也嘗試做了些測試,但是生成幾次后就遇到了一些模型訪問次數(shù)的問題,似乎現(xiàn)在Opus的服務(wù)器資源還不太夠。但是從評分以及我僅有的部分體驗(yàn)看,普通編程任務(wù)的表現(xiàn)和Sonnet并無差異。
以我的經(jīng)驗(yàn)來說,我建議選擇如下:
Claude Sonnet 4 :最推薦的日常編程選擇,在評估編程能力的指標(biāo)SWE Bench評分上比Opus更高,經(jīng)驗(yàn)上來說,比帶thinking的模型表現(xiàn)更穩(wěn)定更好,因?yàn)榇蠖鄶?shù)任務(wù)你并不需要模型overthinking的。
Claude Sonnet 4 thinking:推薦在解決bug或進(jìn)行項(xiàng)目規(guī)劃的時(shí)候使用,畢竟在面對復(fù)雜問題時(shí),你希望模型和人類一樣,啟動系統(tǒng)二,先做一些思考再做出審慎的回答。
Claude Opus 4和Claude Opus 4 Thinking:Opus是比Sonnet更大的模型,在非編程的數(shù)學(xué)、推理等任務(wù)上比Sonnet模型更好,也更貴。尤其在Cursor中是需要啟用Max模式,也就是每一次回答都需要單獨(dú)計(jì)費(fèi)的。但是在常規(guī)的編程任務(wù)表現(xiàn)上并沒有顯著優(yōu)于Sonnet模型,它相對更適合上下文長度非常多的大型復(fù)雜項(xiàng)目,或者重構(gòu)項(xiàng)目。不過如果你不只是拿Cursor去編程,而是還用Cursor當(dāng)寫作工具的話,我覺得你可以適當(dāng)嘗試下。
都看到這了,記得點(diǎn)贊、關(guān)注、轉(zhuǎn)發(fā)哦,謝謝支持~
注:本期內(nèi)容選取自我的AI編程知識星球,感興趣可點(diǎn)擊「閱讀原文」了解~
以及,我還做了期視頻介紹本次Claude 4的更新,可空降至B站查看: https://www.bilibili.com/video/BV1orJszFEFf/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.