網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude 4空降！AI編程真神登場(chǎng)，連續(xù)7小時(shí)自主編程，寫代碼效率拉滿

2025-05-23 08:07:08　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯心緣

智東西5月23日?qǐng)?bào)道，今天凌晨，美國(guó)大模型獨(dú)角獸Anthropic在其首屆開發(fā)者大會(huì)上正式發(fā)布了下一代Claude模型：Claude Opus 4和Claude Sonnet 4，這也是Claude自2024年6月以來的首次大版本號(hào)更新。

Anthropic將Claude Opus 4稱之為“世界上最好的編程模型”，能在復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù)和智能體工作流中表現(xiàn)出穩(wěn)定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升級(jí)，以編程和推理能力為核心，同時(shí)能更精確地響應(yīng)用戶提示詞。這兩款模型均為混合模型，提供兩種模式：即時(shí)回復(fù)和用于更深入推理的擴(kuò)展思考（extended thinking）。

在權(quán)威編程基準(zhǔn)測(cè)試SWE-bench Verified上，開啟擴(kuò)展思考的Claude Opus 4與Claude Sonnet 4的得分分別為79.4%和80.2%，大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。

在編程、工具使用、視覺推理、數(shù)學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試中，這兩款模型超越了OpenAI o3，而在多語言問答、研究生級(jí)別推理任務(wù)上，Claude Opus 4與OpenAI o3得分持平。新模型的智能體能力迎來升級(jí)，最高可獨(dú)立運(yùn)行7小時(shí)，并推出了文件API、提示詞緩存等新功能。

Pro、Max、Team和Enterprise Claude訂閱用戶可使用上述兩款Claude模型及其擴(kuò)展思考模式，Sonnet 4可供免費(fèi)用戶使用。

這兩款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上調(diào)用，定價(jià)與之前的Opus和Sonnet模型保持一致：Claude Opus 4為每百萬個(gè)token 15美元/75美元（輸入/輸出），Claude Sonnet 4為3美元/15美元。

Anthropic還同期發(fā)布了AI編程助手Claude Code，這一編程助手接入了Claude Opus 4模型，能實(shí)時(shí)映射和解釋百萬行級(jí)別的代碼庫。Claude Code與GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成，可直接嵌入至開發(fā)終端中。這一編程助手提供按量計(jì)費(fèi)、每月100美元和每月200美元的3種訂閱方案。

一、開場(chǎng)2分鐘甩出重磅新模型，Claude未來更新頻率將加速

在Code with Claude開發(fā)者大會(huì)上，Anthropic創(chuàng)始人Dario Amodei在開場(chǎng)2分鐘時(shí)快步走上臺(tái)，并未做任何鋪墊，便直接甩出了最大的驚喜——Claude 4系列模型的發(fā)布。

Amodei稱，Anthropic已經(jīng)有一段時(shí)間沒有更新Opus模型了，Anthropic對(duì)Opus的定位是旗下最強(qiáng)大、最智能的模型，而Sonnet是用戶過去大約一年來一直在使用的中等水平模型。

Claude Opus 4在多項(xiàng)基準(zhǔn)測(cè)試上的成績(jī)并未明顯高于Claude Sonnet 4，甚至略低于后者。Amodei強(qiáng)調(diào)，對(duì)于Claude Opus 4這樣的大型模型，基準(zhǔn)測(cè)試并不能完全體現(xiàn)其能力。

在Anthropic提供給客戶的預(yù)覽中，Claude Opus 4可以在Anthropic內(nèi)部自主完成一些通常需要人類花費(fèi)6到7小時(shí)的任務(wù)，Anthropic內(nèi)部一些最資深的工程師都對(duì)其帶來的生產(chǎn)力提升感到驚訝。

Claude Sonnet 4在多項(xiàng)編程基準(zhǔn)測(cè)試中的表現(xiàn)與Claude Opus 4持平，但前者更為精簡(jiǎn)，專注于編程等特定任務(wù)。Claude Sonnet 4還解決了Claude Sonnet 3.7在實(shí)際使用過程中出現(xiàn)的種種問題，包括過度熱情（傾向于做出超出用戶要求的事情）與獎(jiǎng)勵(lì)機(jī)制問題。

Amodei稱，Anthropic會(huì)繼續(xù)改進(jìn)Claude系列模型，定期發(fā)布可能的小版本更新，理想情況下，會(huì)比之前發(fā)布的頻率還要高。

二、智能體能力迎升級(jí)，最高可獨(dú)立運(yùn)行7小時(shí)

Anthropic首席產(chǎn)品官、Instagram聯(lián)合創(chuàng)始人Mike Krieger詳細(xì)分享了更多Claude 4的相關(guān)情況。

Krieger稱，Claude Opus 4擅長(zhǎng)理解代碼庫并規(guī)劃添加內(nèi)容，從遷移、代碼重構(gòu)到最復(fù)雜的智能體工作流方面都非常高效且準(zhǔn)確。

Claude Sonnet 4在日常編碼任務(wù)、應(yīng)用程序開發(fā)和配對(duì)編程方面表現(xiàn)出色。它也適用于高流量用例，平衡了效率和性能，可以被視為“全天候”編碼伙伴。

Claude 4系列模型為打造能使用工具的智能體升級(jí)了關(guān)鍵的新功能。現(xiàn)在，Claude 4系列模型可以并行處理多種工具，當(dāng)被授予訪問本地文件的權(quán)限時(shí)，它們甚至可以在會(huì)話之間保持記憶，隨著時(shí)間的推移積累知識(shí)。

Krieger回憶，在加入Anthropic后不久，他們?cè)鴳{借Claude的幫助，僅用3人團(tuán)隊(duì)成功完成亞馬遜Alexa語音助手原型的打造，Krieger這位“前工程師”也重拾代碼親自上陣。這次合作最終使Claude成為Alexa Plus的核心模型之一。

這段經(jīng)歷讓Krieger更堅(jiān)信AI協(xié)作的潛力。如今，AI已不僅是工具，而是真正的智能協(xié)作伙伴，持續(xù)推動(dòng)技術(shù)邊界。Krieger提出了Anthropic認(rèn)為的理想智能體三大核心能力：

（1）情境智能：理解組織背景，通過經(jīng)驗(yàn)優(yōu)化表現(xiàn)，像優(yōu)秀員工一樣越用越好；

（2）長(zhǎng)期執(zhí)行：獨(dú)立處理復(fù)雜任務(wù)數(shù)小時(shí)，智能協(xié)調(diào)資源；

（3）深度協(xié)作：自然交互、適應(yīng)工作風(fēng)格，并保持決策透明。

為實(shí)現(xiàn)上述三大能力，Anthropic推出了更多新升級(jí)。

Claude現(xiàn)在可以通過Anthropic API上的新代碼執(zhí)行工具運(yùn)行代碼，而不僅僅是編寫代碼，能夠加載數(shù)據(jù)集、清理數(shù)據(jù)、生成探索性圖表，并實(shí)時(shí)分析異常情況。在與Claude 4模型結(jié)合后，代碼執(zhí)行工具可以處理復(fù)雜任務(wù)，節(jié)省大量時(shí)間。

Claude 4系列模型的自主性進(jìn)一步提升，Claude 3.7最多可自主運(yùn)行45分鐘，而Claude 4可以獨(dú)立運(yùn)行數(shù)小時(shí)，最高達(dá)到7小時(shí)。新模型通過管理待辦事項(xiàng)列表保持記憶，不會(huì)丟失線索。

Anthropic強(qiáng)調(diào)，智能體的廣泛采用需要提高模型對(duì)保密內(nèi)容、決策和協(xié)調(diào)的判斷力。如今，Claude模型的每個(gè)功能都包含架構(gòu)安全檢查點(diǎn)和控制措施，確保模型在生產(chǎn)環(huán)境中的可靠性。

智能體的落地還需要訪問現(xiàn)實(shí)世界的信息，并與現(xiàn)有系統(tǒng)的連接，為了幫助智能體進(jìn)一步擴(kuò)展，Anthropic推出了4項(xiàng)相互關(guān)聯(lián)的新功能。

首先，開發(fā)者現(xiàn)在可以直接通過Anthropic API鏈接MCP協(xié)議（模型上下文協(xié)議）。如今，MCP協(xié)議被微軟、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等眾多公司采用，Anthropic認(rèn)為MCP有望為智能體經(jīng)濟(jì)奠定基礎(chǔ)。

其次，網(wǎng)絡(luò)搜索為Claude提供了對(duì)當(dāng)前信息的實(shí)時(shí)訪問。這是一種智能數(shù)據(jù)增強(qiáng)，允許Claude分析當(dāng)前事件、市場(chǎng)趨勢(shì)和新興技術(shù)，與MCP功能結(jié)合使用時(shí)也非常強(qiáng)大。

第三，文件API今天起在Anthropic API中可用。文件API允許Claude讀取和寫入記憶文件，在長(zhǎng)時(shí)間任務(wù)中保持上下文連續(xù)性。Anthropic配套發(fā)布“記憶功能食譜”，指導(dǎo)開發(fā)者如何集成到應(yīng)用中。

最后，提示緩存功能迎來升級(jí)，TTL（生存時(shí)間）從5分鐘提升至1小時(shí)，這最多能將模型的使用成本降低90%，延遲減少85%，尤其適用于長(zhǎng)提示詞場(chǎng)景、長(zhǎng)時(shí)間運(yùn)行的智能體工作流和需要頻繁調(diào)用相同上下文的重復(fù)性任務(wù)。

Anthropic還顯著減少了Claude 4模型使用快捷方式或漏洞完成任務(wù)的行為。與 Sonnet 3.7 相比，這種行為的可能性降低了65%。

Claude Opus 4在內(nèi)存能力方面的表現(xiàn)也大大優(yōu)于所有以前的型號(hào)。當(dāng)開發(fā)人員構(gòu)建提供Claude本地文件訪問的應(yīng)用程序時(shí)，Opus 4可以熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲(chǔ)關(guān)鍵信息。這可以解鎖更好的長(zhǎng)期任務(wù)意識(shí)、連貫性和代理任務(wù)的性能——例如 Opus 4 在玩Pokémon時(shí)創(chuàng)建“導(dǎo)航指南”。

Claude 4模型還推出了思維鏈總結(jié)功能，可使用較小的模型來濃縮冗長(zhǎng)的思維過程。

三、編程助手全面開放，整合至主流開發(fā)平臺(tái)

Claude Code在今天迎來全面開放，從研究預(yù)覽轉(zhuǎn)為正式產(chǎn)品。Claude Code產(chǎn)品經(jīng)理Cat Wu分享說，除了接入最新模型之外，Claude Code還推出了多項(xiàng)新功能。

Claude Code現(xiàn)已與VS Code和JetBrains等主流IDE集成，在使用過程中，開發(fā)者可以直接在編輯器中實(shí)時(shí)查看Claude Code建議的代碼改動(dòng)。

Anthropic還發(fā)布了Claude Code SDK，讓開發(fā)者能夠?qū)laude Code作為構(gòu)建塊融入自己的應(yīng)用和工作流。為了展示其潛力，Anthropic在GitHub上開源了一個(gè)示例項(xiàng)目：用戶可以直接在Pull Request和Issue中@Claude，它將自動(dòng)響應(yīng)審閱意見、修復(fù)錯(cuò)誤并添加新功能。

通過這些更新，Claude Code已經(jīng)能夠覆蓋大部分工作場(chǎng)景，無論是在終端中進(jìn)行深度開發(fā)、在GitHub上處理遠(yuǎn)程協(xié)作、通過SDK構(gòu)建自動(dòng)化工作流，還是在IDE中進(jìn)行代碼審查。

演示環(huán)節(jié)中，Claude Code迅速完成了開源工具Excalidraw的表格組件功能開發(fā)。Claude Code會(huì)創(chuàng)建任務(wù)清單，探索代碼庫并生成代碼，運(yùn)行測(cè)試并提交Pull Request。它還能通過GitHub Actions自動(dòng)更新文檔。短短10分鐘，Claude Code完成了通常需要數(shù)小時(shí)的復(fù)雜任務(wù)，極大地提升了開發(fā)效率。

由Claude Code SDK驅(qū)動(dòng)的Claude Code和GitHub Actions現(xiàn)已可用，只需在運(yùn)行命令即可安裝。VS Code和JetBrains的Web IDE擴(kuò)展也同步推出測(cè)試版，在IDE中運(yùn)行命令即可安裝。

結(jié)語：兩條Scaling Law路徑持續(xù)有效，未來1年將見證編程革命

Amodei稱，Claude Sonnet 3.7發(fā)布僅兩個(gè)半月，卻感覺像過了一年，這足見AI領(lǐng)域的發(fā)展之快。他強(qiáng)調(diào)，Claude 4的模型能力來自預(yù)訓(xùn)練和后訓(xùn)練的共同進(jìn)步，預(yù)訓(xùn)練Scaling Law依然有效，后訓(xùn)練技術(shù)也在同步發(fā)展，二者相輔相成。

展望未來AI領(lǐng)域的發(fā)展，Amodei認(rèn)為我們會(huì)在未來一年我們將見證編程領(lǐng)域的革命，從Claude Code出發(fā)，我們將進(jìn)入“智能體艦隊(duì)”時(shí)代，成批的智能體會(huì)將軟件開發(fā)自動(dòng)化，定制化軟件的成本顯著降低，這將重塑開發(fā)者、企業(yè)和初創(chuàng)公司的角色。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.