智東西
作者 陳駿達(dá)
編輯 心緣
智東西5月23日?qǐng)?bào)道,今天凌晨,美國(guó)大模型獨(dú)角獸Anthropic在其首屆開發(fā)者大會(huì)上正式發(fā)布了下一代Claude模型:Claude Opus 4和Claude Sonnet 4,這也是Claude自2024年6月以來的首次大版本號(hào)更新。
Anthropic將Claude Opus 4稱之為“世界上最好的編程模型”,能在復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù)和智能體工作流中表現(xiàn)出穩(wěn)定的性能。Claude Sonnet 4是Claude Sonnet 3.7的重大升級(jí),以編程和推理能力為核心,同時(shí)能更精確地響應(yīng)用戶提示詞。這兩款模型均為混合模型,提供兩種模式:即時(shí)回復(fù)和用于更深入推理的擴(kuò)展思考(extended thinking)。
在權(quán)威編程基準(zhǔn)測(cè)試SWE-bench Verified上,開啟擴(kuò)展思考的Claude Opus 4與Claude Sonnet 4的得分分別為79.4%和80.2%,大幅度超越了OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等模型。
在編程、工具使用、視覺推理、數(shù)學(xué)等領(lǐng)域的基準(zhǔn)測(cè)試中,這兩款模型超越了OpenAI o3,而在多語言問答、研究生級(jí)別推理任務(wù)上,Claude Opus 4與OpenAI o3得分持平。新模型的智能體能力迎來升級(jí),最高可獨(dú)立運(yùn)行7小時(shí),并推出了文件API、提示詞緩存等新功能。
Pro、Max、Team和Enterprise Claude訂閱用戶可使用上述兩款Claude模型及其擴(kuò)展思考模式,Sonnet 4可供免費(fèi)用戶使用。
這兩款模型都可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上調(diào)用,定價(jià)與之前的Opus和Sonnet模型保持一致:Claude Opus 4為每百萬個(gè)token 15美元/75美元(輸入/輸出),Claude Sonnet 4為3美元/15美元。
Anthropic還同期發(fā)布了AI編程助手Claude Code,這一編程助手接入了Claude Opus 4模型,能實(shí)時(shí)映射和解釋百萬行級(jí)別的代碼庫。Claude Code與GitHub、GitLab、VS Code、JetBrains IDE和命令行工具集成,可直接嵌入至開發(fā)終端中。這一編程助手提供按量計(jì)費(fèi)、每月100美元和每月200美元的3種訂閱方案。
一、開場(chǎng)2分鐘甩出重磅新模型,Claude未來更新頻率將加速
在Code with Claude開發(fā)者大會(huì)上,Anthropic創(chuàng)始人Dario Amodei在開場(chǎng)2分鐘時(shí)快步走上臺(tái),并未做任何鋪墊,便直接甩出了最大的驚喜——Claude 4系列模型的發(fā)布。
Amodei稱,Anthropic已經(jīng)有一段時(shí)間沒有更新Opus模型了,Anthropic對(duì)Opus的定位是旗下最強(qiáng)大、最智能的模型,而Sonnet是用戶過去大約一年來一直在使用的中等水平模型。
Claude Opus 4在多項(xiàng)基準(zhǔn)測(cè)試上的成績(jī)并未明顯高于Claude Sonnet 4,甚至略低于后者。Amodei強(qiáng)調(diào),對(duì)于Claude Opus 4這樣的大型模型,基準(zhǔn)測(cè)試并不能完全體現(xiàn)其能力。
在Anthropic提供給客戶的預(yù)覽中,Claude Opus 4可以在Anthropic內(nèi)部自主完成一些通常需要人類花費(fèi)6到7小時(shí)的任務(wù),Anthropic內(nèi)部一些最資深的工程師都對(duì)其帶來的生產(chǎn)力提升感到驚訝。
Claude Sonnet 4在多項(xiàng)編程基準(zhǔn)測(cè)試中的表現(xiàn)與Claude Opus 4持平,但前者更為精簡(jiǎn),專注于編程等特定任務(wù)。Claude Sonnet 4還解決了Claude Sonnet 3.7在實(shí)際使用過程中出現(xiàn)的種種問題,包括過度熱情(傾向于做出超出用戶要求的事情)與獎(jiǎng)勵(lì)機(jī)制問題。
Amodei稱,Anthropic會(huì)繼續(xù)改進(jìn)Claude系列模型,定期發(fā)布可能的小版本更新,理想情況下,會(huì)比之前發(fā)布的頻率還要高。
二、智能體能力迎升級(jí),最高可獨(dú)立運(yùn)行7小時(shí)
Anthropic首席產(chǎn)品官、Instagram聯(lián)合創(chuàng)始人Mike Krieger詳細(xì)分享了更多Claude 4的相關(guān)情況。
Krieger稱,Claude Opus 4擅長(zhǎng)理解代碼庫并規(guī)劃添加內(nèi)容,從遷移、代碼重構(gòu)到最復(fù)雜的智能體工作流方面都非常高效且準(zhǔn)確。
Claude Sonnet 4在日常編碼任務(wù)、應(yīng)用程序開發(fā)和配對(duì)編程方面表現(xiàn)出色。它也適用于高流量用例,平衡了效率和性能,可以被視為“全天候”編碼伙伴。
Claude 4系列模型為打造能使用工具的智能體升級(jí)了關(guān)鍵的新功能。現(xiàn)在,Claude 4系列模型可以并行處理多種工具,當(dāng)被授予訪問本地文件的權(quán)限時(shí),它們甚至可以在會(huì)話之間保持記憶,隨著時(shí)間的推移積累知識(shí)。
Krieger回憶,在加入Anthropic后不久,他們?cè)鴳{借Claude的幫助,僅用3人團(tuán)隊(duì)成功完成亞馬遜Alexa語音助手原型的打造,Krieger這位“前工程師”也重拾代碼親自上陣。這次合作最終使Claude成為Alexa Plus的核心模型之一。
這段經(jīng)歷讓Krieger更堅(jiān)信AI協(xié)作的潛力。如今,AI已不僅是工具,而是真正的智能協(xié)作伙伴,持續(xù)推動(dòng)技術(shù)邊界。Krieger提出了Anthropic認(rèn)為的理想智能體三大核心能力:
(1)情境智能:理解組織背景,通過經(jīng)驗(yàn)優(yōu)化表現(xiàn),像優(yōu)秀員工一樣越用越好;
(2)長(zhǎng)期執(zhí)行:獨(dú)立處理復(fù)雜任務(wù)數(shù)小時(shí),智能協(xié)調(diào)資源;
(3)深度協(xié)作:自然交互、適應(yīng)工作風(fēng)格,并保持決策透明。
為實(shí)現(xiàn)上述三大能力,Anthropic推出了更多新升級(jí)。
Claude現(xiàn)在可以通過Anthropic API上的新代碼執(zhí)行工具運(yùn)行代碼,而不僅僅是編寫代碼,能夠加載數(shù)據(jù)集、清理數(shù)據(jù)、生成探索性圖表,并實(shí)時(shí)分析異常情況。在與Claude 4模型結(jié)合后,代碼執(zhí)行工具可以處理復(fù)雜任務(wù),節(jié)省大量時(shí)間。
Claude 4系列模型的自主性進(jìn)一步提升,Claude 3.7最多可自主運(yùn)行45分鐘,而Claude 4可以獨(dú)立運(yùn)行數(shù)小時(shí),最高達(dá)到7小時(shí)。新模型通過管理待辦事項(xiàng)列表保持記憶,不會(huì)丟失線索。
Anthropic強(qiáng)調(diào),智能體的廣泛采用需要提高模型對(duì)保密內(nèi)容、決策和協(xié)調(diào)的判斷力。如今,Claude模型的每個(gè)功能都包含架構(gòu)安全檢查點(diǎn)和控制措施,確保模型在生產(chǎn)環(huán)境中的可靠性。
智能體的落地還需要訪問現(xiàn)實(shí)世界的信息,并與現(xiàn)有系統(tǒng)的連接,為了幫助智能體進(jìn)一步擴(kuò)展,Anthropic推出了4項(xiàng)相互關(guān)聯(lián)的新功能。
首先,開發(fā)者現(xiàn)在可以直接通過Anthropic API鏈接MCP協(xié)議(模型上下文協(xié)議)。如今,MCP協(xié)議被微軟、谷歌、OpenAI、Block、Atlassian、Zapier、Linear等眾多公司采用,Anthropic認(rèn)為MCP有望為智能體經(jīng)濟(jì)奠定基礎(chǔ)。
其次,網(wǎng)絡(luò)搜索為Claude提供了對(duì)當(dāng)前信息的實(shí)時(shí)訪問。這是一種智能數(shù)據(jù)增強(qiáng),允許Claude分析當(dāng)前事件、市場(chǎng)趨勢(shì)和新興技術(shù),與MCP功能結(jié)合使用時(shí)也非常強(qiáng)大。
第三,文件API今天起在Anthropic API中可用。文件API允許Claude讀取和寫入記憶文件,在長(zhǎng)時(shí)間任務(wù)中保持上下文連續(xù)性。Anthropic配套發(fā)布“記憶功能食譜”,指導(dǎo)開發(fā)者如何集成到應(yīng)用中。
最后,提示緩存功能迎來升級(jí),TTL(生存時(shí)間)從5分鐘提升至1小時(shí),這最多能將模型的使用成本降低90%,延遲減少85%,尤其適用于長(zhǎng)提示詞場(chǎng)景、長(zhǎng)時(shí)間運(yùn)行的智能體工作流和需要頻繁調(diào)用相同上下文的重復(fù)性任務(wù)。
Anthropic還顯著減少了Claude 4模型使用快捷方式或漏洞完成任務(wù)的行為。與 Sonnet 3.7 相比,這種行為的可能性降低了65%。
Claude Opus 4在內(nèi)存能力方面的表現(xiàn)也大大優(yōu)于所有以前的型號(hào)。當(dāng)開發(fā)人員構(gòu)建提供Claude本地文件訪問的應(yīng)用程序時(shí),Opus 4可以熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲(chǔ)關(guān)鍵信息。這可以解鎖更好的長(zhǎng)期任務(wù)意識(shí)、連貫性和代理任務(wù)的性能——例如 Opus 4 在玩Pokémon時(shí)創(chuàng)建“導(dǎo)航指南”。
Claude 4模型還推出了思維鏈總結(jié)功能,可使用較小的模型來濃縮冗長(zhǎng)的思維過程。
三、編程助手全面開放,整合至主流開發(fā)平臺(tái)
Claude Code在今天迎來全面開放,從研究預(yù)覽轉(zhuǎn)為正式產(chǎn)品。Claude Code產(chǎn)品經(jīng)理Cat Wu分享說,除了接入最新模型之外,Claude Code還推出了多項(xiàng)新功能。
Claude Code現(xiàn)已與VS Code和JetBrains等主流IDE集成,在使用過程中,開發(fā)者可以直接在編輯器中實(shí)時(shí)查看Claude Code建議的代碼改動(dòng)。
Anthropic還發(fā)布了Claude Code SDK,讓開發(fā)者能夠?qū)laude Code作為構(gòu)建塊融入自己的應(yīng)用和工作流。為了展示其潛力,Anthropic在GitHub上開源了一個(gè)示例項(xiàng)目:用戶可以直接在Pull Request和Issue中@Claude,它將自動(dòng)響應(yīng)審閱意見、修復(fù)錯(cuò)誤并添加新功能。
通過這些更新,Claude Code已經(jīng)能夠覆蓋大部分工作場(chǎng)景,無論是在終端中進(jìn)行深度開發(fā)、在GitHub上處理遠(yuǎn)程協(xié)作、通過SDK構(gòu)建自動(dòng)化工作流,還是在IDE中進(jìn)行代碼審查。
演示環(huán)節(jié)中,Claude Code迅速完成了開源工具Excalidraw的表格組件功能開發(fā)。Claude Code會(huì)創(chuàng)建任務(wù)清單,探索代碼庫并生成代碼,運(yùn)行測(cè)試并提交Pull Request。它還能通過GitHub Actions自動(dòng)更新文檔。短短10分鐘,Claude Code完成了通常需要數(shù)小時(shí)的復(fù)雜任務(wù),極大地提升了開發(fā)效率。
由Claude Code SDK驅(qū)動(dòng)的Claude Code和GitHub Actions現(xiàn)已可用,只需在運(yùn)行命令即可安裝。VS Code和JetBrains的Web IDE擴(kuò)展也同步推出測(cè)試版,在IDE中運(yùn)行命令即可安裝。
結(jié)語:兩條Scaling Law路徑持續(xù)有效,未來1年將見證編程革命
Amodei稱,Claude Sonnet 3.7發(fā)布僅兩個(gè)半月,卻感覺像過了一年,這足見AI領(lǐng)域的發(fā)展之快。他強(qiáng)調(diào),Claude 4的模型能力來自預(yù)訓(xùn)練和后訓(xùn)練的共同進(jìn)步,預(yù)訓(xùn)練Scaling Law依然有效,后訓(xùn)練技術(shù)也在同步發(fā)展,二者相輔相成。
展望未來AI領(lǐng)域的發(fā)展,Amodei認(rèn)為我們會(huì)在未來一年我們將見證編程領(lǐng)域的革命,從Claude Code出發(fā),我們將進(jìn)入“智能體艦隊(duì)”時(shí)代,成批的智能體會(huì)將軟件開發(fā)自動(dòng)化,定制化軟件的成本顯著降低,這將重塑開發(fā)者、企業(yè)和初創(chuàng)公司的角色。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.